Antidot publie la version 0.9.9 de db2triples

À la veille de WWW2012, la conférence mondiale consacrée aux technologies du web dont Antidot est un des sponsors, nous mettons à disposition de la communauté Open Source la version 0.9.9  de la bibliothèque db2triples. Cette nouvelle version apporte des évolutions majeures concernant le support des Candidate Recommendations des standards R2RML et Direct Mapping publiées le 23 février 2012 par le W3C.

R2RML et Direct Mapping : Candidate Recommendations du 23/02/2012

Parmi les améliorations figurent donc le support natif de MySQL et PostGreSQL ainsi que d’autres bases de données SQL via des pilotes JDBC, la gestion des types binaires (encodage base64), la prise en compte des caractères de langue spéciaux ainsi que le typage implicite des données et leur conversion selon la norme XML Schema du W3C, la gestion des formes canoniques des littéraux en fonction de leur type et de la casse des identifiants SQL. Pour la liste complète des évolutions, se reporter à la Release Note.

Le Linked Data opérationnel en entreprise

Cette nouvelle version de db2triples constitue une avancée majeure pour le web sémantique, et particulièrement pour la réalisation de projets exploitant les standards du Linked Data en entreprise. En effet, les technologies R2RML et Direct Mapping supportées par db2triples fournissent une réponse standardisée à la problématique de transformation des données relationnelles en graphes RDF pour le chargement automatique d’entrepôts.

Ainsi db2triples s’avère particulièrement intéressant dans le cadre de projet Open Data ou Linked Data nécessitant la publication dans le web des données d’informations vivantes, bien plus facilement réexploitables que la mise en ligne de fichiers Excel ou PDF dont la réutilisation automatique est complexe, voire impossible.

Mise à jour le 24 juillet 2012 : db2triples est pleinement compatible avec le Working Draft du 29 mai 2012 des recommandations R2RML et DirectMapping : en effet, db2triples a passé avec succès les tests de conformité édictés par le groupe de travail RDB2RDF du W3C. Du coup ce composant logiciel, fourni en Open Source, figure dans la liste des implémentations validées  par l’organisme international de normalisation du web. Plus d’information dans notre communiqué de presse diffusé ce jour, en français et en anglais.

Découvrez les Monuments Historiques grâce à l’Open Data !

Pourquoi cette application ?

L’ouverture du site data.gouv.fr le 5 décembre 2011, aussitôt suivie d’autres initiatives, a marqué une accélération du mouvement Open Data en France.

Nous avons voulu apporter notre pierre à l’édifice, en réalisant une démonstration qui met en avant le grand intérêt qu’il y a à pouvoir mailler des données issues de différentes sources grâce aux standards du web sémantique, et la capacité de notre solution Antidot Information Factory à le faire rapidement et simplement, dans une approche industrielle.

Et parce que la France demeure année après année la première destination touristique mondiale, parce que nos territoires regorgent de trésors architecturaux et patrimoniaux, nous avons choisi de réaliser une application de recherche qui vous permet de partir à la découverte de près de 44.000 monuments historiques français !

Quelques explications (un peu) techniques :

Notre application « Monuments historiques » a été réalisée en exploitant 7 sources de données ouvertes :

  1. la liste des Immeubles protégés au titre des Monuments Historiques disponible sur data.gouv.fr. Cette source de données décrit 43.720 monuments dans un fichier CSV.
  2. la liste des gares de voyageurs du Réseau Ferré National avec leurs coordonnées  telle que fournie par data.gouv.fr. Cette source de données décrit 3.065 gares dans un fichier XLS. Elle est exploitée pour situer les monuments à proximité d’une gare.
  3. la liste des stations du métro parisien avec leurs coordonnées, fournie par OpenStreetMap. Cette source de données décrit 301 stations et elle est exploitée pour situer les monuments à proximité d’une station de métro.
  4. les données du code officiel géographique (COG) de l’INSEE. Cette source de données décrit 22 régions, 99 départements, plus de 4.000 cantons et chefs lieux dans un graphe RDF.
  5. Les photos des monuments historiques de Wikipedia proposée par Wikimedia Commons. Cette source de données, notamment alimentée par le concours Wiki loves monuments, apporte 122.828 photos pour 12.586 monuments historiques désignés par leur code PA : il s’agit d’un code délivré de façon unique pour chaque monument et présent dans la liste citée en 1.
  6. La description des monuments historiques de Wikipedia fournie par DBpedia. Cette source de données en RDF décrit 3,64 millions d’objets, dont 413.000 lieux. Cette source est accessible directement à partir des informations de Wikimedia Commons
  7. Les informations de géolocalisation de Yahoo! via Yahoo! PlaceFinder. Cette source permet de géolocaliser à partir de leur adresse les monuments non géolocalisés dans Wikimedia Commons ou DBpedia

La chaine de traitement mise en œuvre pour la réalisation de cette application avec Antidot Information Factory est la suivante :

  1. Une première étape de nettoyage, normalisation et transformation en RDF des fichiers CSV et XLS issus de data.gouv.fr au moyen de Google Refine.
  2. Récupération des données de Wikimedia Commons : un processus de traitement Antidot Information Factory collecte les informations via l’API de Wikimedia et les transforme en RDF : Antidot Information Factory a permis de construire ce processus industriel sans avoir à écrire une seule ligne de code, simplement en assemblant des modules de traitement pris dans une bibliothèque de 50 modules existants.
  3. Récupération des données d’OpenStreetMap pour les stations de métro via son API.
  4. Collecte de toutes les informations de géolocalisation par Antidot Information Factory via l’API de Yahoo! PlaceFinder, pour les lieux non déjà géolocalisés.
  5. Maillage de toutes les données issues des 7 sources par Antidot Information Factory : le résultat est un graphe RDF comprenant plus de 4,5 millions de triplets, dont près de 450.000 ont été inférés à partir des sources.
  6. Ce triple store est ensuite la source unique mise en entrée du module d’indexation du moteur de recherche Antidot Finder Suite.

Le résultat est une application web de recherche permettant  de trouver des monuments historiques

  • par une recherche en plein texte
  • dans une région, un département ou une ville donnés
  • par type de monument : église, château, statue, site industriel
  • par période historique : préhistoire, moyen-âge, renaissance etc
  • par type de propriétaire : personne ou société privée, commune, Etat…

avec combinaison possible de tous ces critères, sous forme de « facettes de recherche » très simples à manipuler.

Conclusion (provisoire)

Cette application a été réalisée en quelques jours, sans impliquer de développeurs et par simple paramétrage de notre solution Antidot Information Factory. Cela montre, s’il en est encore besoin, la puissance et la justesse de l’approche et des technologies du Web Sémantique promues par le W3C.

Cette application démontre que l’Open Data favorise l’émergence de nouveaux usages : par la mise à disposition de données qui sont facilement reliées à d’autres données, la seule limite devient notre imagination et notre capacité à proposer de nouveaux services innovants et utiles !

Merci à tous les fournisseurs de données qui ont rendu possible cette réalisation, notamment le Ministère de la Culture et de la Communication pour la liste des monuments historiques et la Société Nationale des Chemins de Fer pour la liste des gares, avec une mention toute particulière pour les contributeurs de Wikipedia, que vous pouvez soutenir par un don.

A vous maintenant de partir à la découverte de nos monuments historiques, au gré de vos envies !


Crédits : Etalab | Wikimedia Commons | DBpedia | Open Street Map | INSEE | Wikipedia francophone | Wikipedia anglophone

Application réalisée avec Antidot Information Factory – Nous contacter : [email protected]


Le contenu de ce billet est sous licence CC BY-SA. Traduction en anglais disponible ici.