Musées en France : musée des Augustins à Toulouse

Open Data et Web Sémantique : tous les musées en France

Nous vous invitons aujourd’hui à découvrir une nouvelle application web. Réalisée sur leur temps libre par Julien Homo et Gautier Poupeau, deux collaborateurs d’Antidot experts du web sémantique, cette application participe au concours organisé par le Ministère de la Culture et de la Communication et l’association Wikimedia France autour des données du projet SemanticPedia.

Cette application est une nouvelle version de l’application « Musées de France », une réalisation didactique qui nous a permis de présenter sur ce blog les possibilités de nos logiciels Antidot Information Factory (AIF) et Antidot Finder Suite (AFS).

Mais assez parlé : à vous maintenant d’utiliser l’application « Musées en France » pour découvrir la richesse de notre patrimoine muséographique !

Musées en France : musée des Augustins à Toulouse
Exemple : la fiche du musée des Augustins à Toulouse

Et si vous voulez en savoir plus, nous levons aussi le voile sur le pourquoi et le comment de cette réalisation.

Bonne visite virtuelle !

Mise à jour du 30 avril 2014 : Cette application a été récompensée du prix Semanticpedia. Bravo à Gautier et Julien !

prixSemanticpedia

 

Allons au musée en train

Troisième épisode de notre feuilleton « Enrichir des données avec Antidot Information Factory » : après avoir transformé un fichier Excel en une application de recherche, puis intégré des photos librement disponibles sur le web, nous allons maintenant ajouter une information supplémentaire pour chacun de nos musées : la gare SNCF la plus proche.

Et ce qu’il y a de bien avec l’Open Data, c’est qu’on y trouve pléthore d’informations bien utiles. Ainsi, la liste des gares de la SNCF est disponible, tout comme celle des aéroports et des stations de métro (mais pas encore pour toutes les villes…). Pour notre exemple, nous nous focaliserons uniquement sur les gares.

De la même façon que pour la liste des musées de France, les gares ont leur fichier Excel sur data.gouv.fr. Une différence importante : ce fichier contient déjà les coordonnées de géolocalisation de chaque gare :

excel_railstations

Reste à rapprocher ces lignes Excel de nos musées. L’idéal serait d’avoir un web service répondant aux requêtes telles que « Quelle est la gare la plus proche de ce point (X,Y) ? ». On y enverrait les coordonnées du musée obtenues par l’enrichissement géographique et on aurait ainsi la gare recherchée.

Un fichier Excel n’est pas un web service, bien entendu, mais heureusement nous pouvons le créer assez facilement. En effet, un service de recherche tel que celui des musées peut être vu différemment que l’on soit un être humain (via une appli web ou mobile) ou une machine (via un web service). Le moteur de recherche AFS répond en effet aux requêtes reçues dans les formats techniques tels que XML et JSON qui sont les standards d’interopérabilité applicative sur le web.

Ainsi, le fichier Excel des gares de France devient un service de recherche géolocalisé en suivant les mêmes étapes que pour les musées :

railstation_paf_chain

 

  • transformation XML du fichier Excel

 

  • séparation de chaque ligne

 

  • indexation géolocalisée

 

  • déploiement

 

 

 

Une fois ce service de recherche de gare déployé, nous allons l’utiliser dans la chaine de traitement des musées pour obtenir la gare la plus proche. Pour cela, on réutilise le module d’appel de web service en se basant sur les paramètres d’appel d’un service de recherche AFS.

Ainsi, une requête telle que :

/search?afs:service=2013&afs:feed=RailroadFR
&afs:filter=geo:dist(45.76,4.86)<10000
&afs:sort=geo:dist(45.76,4.86),ASC

renvoit un flux XML des gares SNCF situées à moins de 10 km du point (45.76, 4.86), triées par distance croissante avec ce point.

Nous pouvons alors utiliser ce service de recherche comme un web service pour trouver la gare la plus proche de chaque musée.

Pour cela, nous rajoutons un nouveau module de requête web service à la chaine de traitement sur les données des musées :

paf_chain

Il se paramètre ainsi, toujours dans le Back Office d’Antidot Information Factory :

railstation_filter_param

Il suffit alors de relancer la chaine de traitement et le tour est joué : dans la fiche signalétique de chaque musée apparaît la gare la plus proche :

web_museum_3

Cela semble un peu magique, non ?

Allons plus loin dans l’enrichissement de données avec Antidot Information Factory

Nous avons vu précédemment qu’avec la version 7.6 de nos outils, la création de chaînes de traitement de données était extrêmement simple : il est possible de réaliser une application web de recherche de musées en quelques minutes. Pour autant, nos clients utilisent Antidot Information Factory dans des projets où les chaines de traitement sont plus beaucoup plus complexes.

Afin de montrer comment AIF répond aussi à des besoins plus avancés, nous allons donc améliorer notre application « Musées de France » en enrichissant les données initiales. Nous avons retenu trois enrichissements :

  1. trouver des photos sur un site de photos en ligne (Flickr ou Wikimedia par exemple)
  2. trouver les gares SNCF les plus proches de chaque musée
  3. ajouter un contenu textuel présentant chaque musée

Des photos !

Le premier enrichissement a pour objectif de montrer qu’AIF est très à l’aise avec des données multimédia. Nous y introduirons également l’organisation des données dans chaque « objet document », que nous avions passée sous silence dans le précédent billet.

Flickr.com possède des API accessibles en web services, tout comme Google Maps. En utilisant le même module d’interrogation d’un web service, nous allons obtenir une liste de photos associées à chaque musée. Nous utiliserons ensuite un module de téléchargement qui récupérera les 3 premières photos renvoyées par Flickr.

N.B. : Les photos renvoyées par Flickr ne sont pas forcément des photos du musée en question, il peut s’agir de photos prises à proximité du musée. Nous accepterons cette simplification pour l’exemple.

Organisons nos données

Vous vous souvenez que notre base de données des musées de France était, à l’origine, un tableau Excel. Comment associe-t-on des photos à une ligne Excel ?

C’est ce que nous allons faire facilement, car Information Factory se fonde sur un modèle de données riche et organisé. Chaque ressource manipulée – ici une ligne Excel désignant un musée de France – est une mini base de données. Avec AIF, nous allons ranger les informations manipulées dans des couches de données bien identifiées, chaque couche ayant un rôle bien défini.

DocUnit-Layers-sections

La couche principale se nomme « Contents » et elle contient la transformation XML de la ligne Excel décrivant le musée.

Layer-Contents

Certaines couches ont des libellés spécifiques car elles sont destinées à des usages particuliers. D’autres sont à la disposition du créateur de la chaine de traitement.

Ainsi, les résultats de géolocalisation seront placés dans une couche de données nommée « USER_1 » :

Layer-Geo

Dans notre exemple, nous allons ranger les résultats de la recherche d’images Flickr dans « USER_2 » et nous conserverons les liens vers les 3 premières photos dans « USER_3 » :

Layer-Flickr  →  Layer-URLs

Enfin, nous rangerons ensuite les photos elles-mêmes dans les couches « USER_4 » à « USER_6 » :

Layer-Photos

Utilisons Flickr via son API

Pour faire cela, de la même façon que l’on avait appelé le web service de Google Maps, appelons celui de Flickr en lui passant en paramètre la latitude et la longitude de chaque musée :

Appel Flickr

Nous récupérons alors le contenu des ces images, sous forme de fichiers au format JPEG, que nous stockons directement dans des couches de notre objet Musée. En effet, la solution Antidot Information Factory intègre un composant de stockage NoSQL appelé Content Repository. Grâce à lui, les photos seront directement accessibles via des web services pour toute application qui en aurait besoin. C’est ainsi que le widget d’affichage d’un objet musée sur l’application web pourra présenter les 3 photos.

Voilà, nos fiches présentant les musées sont désormais illustrés de photos !

 

Nous verrons dans le prochain billet comment indiquer, pour chaque musée, quelle sont les gares SNCF les plus proches…

Comment enrichir des données en quelques clics ?

En termes simples, Antidot Information Factory est une usine pour assembler et faire tourner des chaînes de traitement de l’information. Un des points forts d’AIF réside dans le fait que ces chaînes sont modulables à souhait, ce qui garantit qu’elles pourront toujours être adaptées à la structure des contenus à traiter. Elles permettent de se concentrer sur ce que l’on veut obtenir des données initiales, d’un point de vue fonctionnel, en faisant abstraction de la complexité technique sous-jacente et sans avoir besoin de programmer quoi que ce soit.

Il nous a donc paru important que le moyen d’assembler et de maintenir de ces chaînes de traitement ne soit pas un obstacle à la créativité. C’est pourquoi nous proposons, avec la version 7.6 d’Antidot Information Factory, un éditeur de chaînes de traitement. Intégré au Back-Office Antidot, cet outil visuel en mode web permet de créer une chaine de traitement en quelques clics, en définissant simplement ce que l’on souhaite faire des données dont on dispose.

Réutiliser des données ouvertes

Prenons un exemple dans le domaine de l’Open Data, et imaginons que je veuille créer un service de découverte des musées français. Pour cela, je veux

  • télécharger la liste des musées de France sur le portail officiel data.gouv.fr, où cette ressource est disponible au format Excel
  • m’abstraire du format Excel pour pouvoir enrichir les données
  • créer un objet de contenu spécifique pour chaque musée
  • géocoder chacun de ces objets pour pouvoir les placer sur une carte
  • indexer ces données enrichies dans un moteur de recherche sémantique comme AFS
  • déployer l’application de recherche ainsi créée sur le cloud Antidot

Assembler simplement des modules de traitement

Cette suite d’actions est très facile à réaliser avec AIF, car ses 6 étapes se configurent aisément dans le Back Office Antidot, en piochant dans le catalogue des modules AIF prêts à l’emploi.

Cliquez sur rouedentee pour voir cette démonstration en haute définition.

En effet, AIF intègre plus de 60 modules catégorisés par usage :

  • connexion aux sources
  • transformation de format
  • enrichissement
  • appel à des web services externes
  • etc.

Résultat : notre application web « Musées de France »

C’est sur ce principe que notre application « Monuments Historiques » avait été réalisée l’an dernier, et c’est avec Antidot Information Factory que des clients comme Isidore, le MuCEM… travaillent désormais leurs données.

Et, grâce à AIF et à notre moteur de recherche AFS, vous profitez maintenant de notre application de découverte des musées de France, que vous pouvez même utiliser en vacances sur votre smartphone ou tablette !

Home Musées

 

Ceci n’est qu’une première étape, qui avait pour objectif de vous montrer à quel point Antidot Information Factory est simple à mettre en œuvre.

À suivre !

Dans nos prochains billets, nous vous montrerons comment AIF permet d’aller beaucoup plus loin, avec des chaînes de traitement plus puissantes… et toujours aussi faciles à assembler !

Antidot participe au co-design de data.gouv.fr initié par la mission Etalab (2/2)

logoEtalab200pxDans un précédent billet, nous avons exposé notre perception des enjeux stratégiques pour data.gouv.fr, en réponse à la consultation Etalab : confiance dans les données et intégration dans l’écosystème du web.

Ces enjeux trouvent leur réponse dans des choix organisationnels et technologiques :

  1. Comment améliorer la collecte et la pertinence des données ?
  2. Comment faciliter la réutilisation et l’exploitation des données ?

« Comment améliorer la collecte et la pertinence des données ? »

Crowdsourcing et aspects collaboratifs

Le « crowdsourcing » est en vogue, mais  les coûts de mise en place de l’infrastructure nécessaire au travail collaboratif et d’animation d’une communauté nous semblent bien supérieurs aux retours réels. Il nous paraît plus intéressant de mettre en place des actions communes avec des communautés bien établies comme par exemple, Wikipedia, Open Street Map et ainsi de profiter de leur savoir-faire et de leur infrastructure dans l’animation d’une communauté.

À titre d’exemple, il serait intéressant de s’appuyer sur le portail DataHub administré par l’Open Knowledge Foundation pour repérer de nouveaux jeux de données disponibles relatifs à la France, et aussi mieux faire connaître les jeux de données publiés sur Etalab.

Automatisation de la collecte et des traitements

Jusqu’à maintenant, le portail data.gouv.fr s’est limité à la mise à disposition des jeux de données sans retraitement, tels qu’ils ont été chargés au sein du portail par les producteurs et à leur  description via quelques métadonnées.

Il nous paraît envisageable de déployer une infrastructure technique à même d’effectuer des tâches automatiques pour collecter, nettoyer, harmoniser et relier les jeux de données disponibles sur le portail. Ce travail pourrait se situer aussi bien au niveau des métadonnées des jeux de données que des données elles-mêmes. C’est exactement ce qu’a réalisée le CNRS dans le cadre du projet ISIDORE.

« Comment faciliter la réutilisation et l’exploitation des données ? »

Se donner l’objectif d’un portail de données « 5 étoiles »

Dans le document « Publishing Open Government Data » publié en 2009 par le W3C, Daniel Bennett et Adam Harvey ont expliqué les différentes étapes pour publier des données « gouvernementales ». Ils insistent sur le fait de rendre les données accessibles aussi bien pour les humains que pour les machines et reprennent  les éléments exposés par Sir Tim Berners-Lee, l’inventeur du Web, dans sa typologie des initiatives de mise à disposition libre des données sur le Web.

Aujourd’hui data.gouv.fr n’en est qu’à la première étape, c’est-à-dire « la mise à disposition sur le Web quel que soit le format mais avec une licence libre ». Or nous sommes convaincus que la réutilisation massive des données n’est possible à terme que si les jeux de données s’intègrent parfaitement dans le Web, en utilisant ses principes et standards.

Dans un premier temps, il est nécessaire et urgent de proposer un annuaire des jeux de données disponibles dans un langage machine (XML, Json ou CSV) et de préférence en suivant les principes et standards du Linked Data (ou Web de données) basés sur des URI pour identifier les ressources, le protocole HTTP pour y accéder, les standards RDF pour récupérer une information sémantisée  et le maillage systématique des données pour créer un écosystème basé sur les liens. Pour cela, Etalab pourrait utiliser le vocabulaire DCAT (Data Catalog Vocabulary) en cours de normalisation au sein du W3C  par le groupe de travail « Government Linked Data ».

Dans un second temps, il serait important, comme le fait le portail britannique data.gov.uk, d’appliquer ces principes à certains jeux de données : la conversion en RDF de certains jeux de données de data.gouv.fr permettrait de proposer leur interrogation via un SPARQL endpoint constituant un Web service universel pour l’interrogation des données structurées et favorisant la réutilisation.

Poser une exigence de qualité des données et de complétude des métadonnées

Assurer la confiance sur le long terme passe par une exigence de qualité sur les données comme sur les métadonnées qui les décrivent. A cet égard, nous avons fait une amère expérience sur la version actuelle de data.gouv.fr.

Les données sont issues de processus et de traitements informatiques qui peuvent évoluer,  donc les structures de données peuvent changer. C’est pourquoi le portail data.gouv.fr devrait inclure un système de gestion des versions et documenter les changements, au niveau de la fiche sous la forme d’un « changelog » et aussi dans les métadonnées. Ces changements seront disponibles dans un langage machine pour  être interprétables par les logiciels consommateurs des données.

D’une manière générale, il nous semble que des métadonnées sont nécessaires pour disposer d’un contexte suffisant pour apporter la confiance, et notamment  la provenance du jeu de données, le nom du producteur, la date de création,  la date de mise à jour, la périodicité de mise à jour, la portée géographique des données, la portée temporelle des données.

Proposer des APIs pour simplifier la réutilisation

Comme l’a montré Christian Fauré dans son billet « DataCulture et APIculture », les principes du Linked Data et la mise en place d’Open API sont complémentaires et répondent à des usages différents : si les API, plus proches des pratiques actuelles des développeurs, simplifient la réutilisation des données et favorisent leur inclusion dans une économie marchande, les technologies du Web sémantique et les principes du Linked Data inscrivent directement les données dans l’espace d’interopérabilité global que constitue le Web.

Autres sujets, non technologiques, abordés dans notre réponse à Etalab

Le questionnaire établi par Etalab comportait d’autres points, relatifs à l’utilisation du portail et à sa visibilité :

« Quelle doit être l’expérience utilisateur sur le site ? »

Nous avons proposé d’améliorer la navigation pour favoriser la sérendipité, et suggéré des pistes pour mieux faire connaître les jeux de données et mieux accompagner les institutions publiques dans le monde de l’Open Data

« Comment favoriser la réutilisation et l’innovation à partir de la plateforme ? »

Une des difficultés de l’Open Data réside paradoxalement dans les vastes perspectives qu’il offre : il est complexe d’imaginer de nouveaux usages à partir de données brutes dont le contexte de création est inconnu. Il faut donc accompagner à la fois les développeurs, mais pas seulement : les résultats des concours d’applications et des hackathons restent dans une sphère relativement restreinte. Il est donc nécessaire d’effectuer un véritable travail de marketing et de valorisation des différents jeux de données et des perspectives qu’ils ouvrent dans les différents secteurs de l’économie réelle.

Par exemple, sur la base de projets auxquels Antidot travaille

  • dans le domaine des médias et de la presse, les données de l’Open Data permettent d’offrir des services contextuels aux contenus éditoriaux.
  • dans le domaine des transports, la question de la « smart mobility » pour offrir informations pratiques et proposer des activités sur le lieu de destination est au cœur des enjeux.

Il faut ainsi susciter chez les acteurs économiques dans les différents secteurs d’activités des nouvelles perspectives, où l’utilisation des données ouvertes apparaît clairement comme créatrice de valeur.

« Comment mieux insérer data.gouv.fr dans le réseau des ressources open data »

Nous suggérons que Data.gouv.fr alimente au nom de la France le portail DataHub du Comprehensive Knowledge Archive Network pour inscrire l’action Open Data de la France dans une dimension internationale.

« Comment construire un retour vers les administrations qui partagent leurs données ? »

Il nous semble important que les administrations trouvent un intérêt à la mise à disposition de leurs données pour en comprendre l’enjeu. Or les organisations publiques sont productrices de données et aussi consommatrices : par la récupération de leurs propres données, lorsqu’elles ont été corrigées ou enrichies, et par l’utilisation des données issues d’autres organisations

Ainsi, une boucle de rétroaction positive peut se mettre en place pour

  • améliorer au fur et à mesure la qualité des données mises à disposition
  • mieux intégrer la démarche de mise à disposition libre des données au sein des systèmes d’information.

La plateforme Isidore a été construite sur ce modèle vertueux : cette expérience positive démontre qu’un important travail d’accompagnement est nécessaire, mais que ces efforts portent leurs fruits.

Conclusion provisoire

En complément de la synthèse que vous venez de lire, vous trouverez notre réponse complète sur notre site web, sous forme d’un document PDF disponible ici.

Nous espérons, par ce travail, avoir contribué utilement au développement de l’Open Data en France. N’hésitez pas à utiliser les commentaires de ce billet pour prolonger la réflexion en partageant votre point de vue !

 

 

Antidot participe au co-design de data.gouv.fr initié par la mission Etalab (1/2)

Qu’est ce que le « co-design » de data.gouv.fr ?

Le 10 avril 2013, la mission Etalab a lancé un processus de « co-design » afin de préparer une nouvelle version de la plateforme data.gouv.fr. Seize mois après l’ouverture de celle-ci, et après la nomination d’Henri Verdier à sa tête, Etalab a souhaité lancer une nouvelle étape du développement de data.gouv.fr, et associer  la communauté de l’open data à sa réflexion.

L’objectif affiché de ce « co-design » est de « recueillir toutes les suggestions des parties prenantes pertinentes, de repérer un maximum de compétences de notre écosystème et de produire un effort de prototypage rapide en public. »

Le contexte de la réponse d’Antidot

Antidot, en tant que fournisseur de solutions technologiques, est déjà partie prenante d’un certain nombre de projets Open Data ou Linked Data.

Nous le sommes du côté de la diffusion de données ouvertes, comme l’illustre la  plateforme ISIDORE du CNRS qui utilise nos solutions Antidot Information Factory et Antidot Finder Suite pour collecter, agréger, enrichir et exposer (via un moteur de recherche, une API et selon les principes du Linked Data) les données et métadonnées de la recherche francophone en Sciences Humaines et Sociales.

Home ISIDORE 450px

Nous sommes aussi acteur de l’Open Data du côté de la réutilisation des données ouvertes. S’il ne nous est pas possible aujourd’hui de divulguer des informations sur un certain nombre de projets que nous menons avec nos clients, notamment dans le secteur de la presse et des médias, vous pouvez consulter notre démonstration mettant en valeur les Monuments Historiques de France.

C’est donc bien volontiers que nous avons apporté notre pierre à cet édifice, en rédigeant une réponse argumentée au questionnaire posé par Etalab.

Préambule : deux axes fondamentaux

Avant d’entrer dans le détail de nos propositions, nous avons tenu à mettre l’accent sur deux axes fondamentaux qui seront au cœur de notre réflexion sur le futur de data.gouv.fr :

  • la notion de confiance dans les données ouvertes
  • l’intégration du portail data.gouv.fr dans l’écosystème du Web.

La confiance dans les données ouvertes

La confiance constitue la condition sine qua non à la réutilisation de données par des tiers. Elle se joue à deux niveaux : au niveau des données elles-mêmes et au niveau technique.

Le fait que les données soient publiées par Etalab, c’est-à-dire par un organisme public étatique, leur confère a priori un statut particulier. Bien sûr, certaines données ne sont pas exemptes d’erreurs mais, de par leur provenance des données, une  confiance intrinsèque permet d’en favoriser la réutilisation.

Cette confiance a priori doit conduire Etalab à garder un certain niveau d’exigence et de qualité vis-à-vis des jeux de données mis à disposition et des métadonnées qui les décrivent, car s’il est difficile et long de construire une confiance a posteriori, il l’est encore plus de retrouver une confiance perdue. Or cette notion de confiance doit aussi se traduire techniquement… et nous avons constaté qu’aujourd’hui toutes les conditions ne sont, hélas, pas encore réunies.

L’intégration du portail data.gouv.fr dans l’écosystème du Web

À travers les différentes questions posées par Etalab, c’est la nature même du portail data.gouv.fr qui est interrogée. Doit-il être :

  • un annuaire de liens vers des jeux de données existants ?
  • une plate-forme collaborative autour des données publiques en France ?
  • une plate-forme de valorisation des jeux de données existants ?
  • une plate-forme centrale qui accueille et expose elle-même toutes les données de manière brute pour l’ensemble des organismes publiques quelles que soit leur nature et leurs origines ?
  • une plate-forme de traitement, de mise en relation et d’enrichissement des jeux de données ?
  • un espace de rencontre, conseil et partage pour les producteurs et les consommateurs des données ?

Dans la mesure où l’Open Data est intrinsèquement lié au Web, nous considérons que le portail data.gouv.fr doit s’insérer dans l’écosystème du Web et profiter des bénéfices du milieu associé qu’il constitue. Il doit donc en respecter les principes et les standards, en particulier la mise en relation des contenus.

Ainsi,  si data.gouv.fr n’a pas vocation à devenir un point centralisateur de l’ensemble des données publiques, il doit constituer :

  • un « hub », fédérateur, favorisant la qualité, la visibilité, l’interopérabilité et la mise en relation des jeux de données d’ores et déjà mises à disposition, sans nécessairement les « republier »
  • une infrastructure technique pour traiter, enrichir, mettre en relation, accueillir et/ou héberger les jeux de données issus d’organismes publics (étatiques ou territoriaux) ne disposant pas des moyens nécessaires
  • un espace à disposition des organismes publics pour les accompagner dans une démarche de mise à disposition de leurs données, notamment sur les aspects juridiques et techniques ;
  • un espace de démonstration et de valorisation des initiatives existantes en termes de réutilisation des données et des technologies dans le domaine.

C’est sur la base de ces deux axes fondamentaux que s’articule notre réponse à Etalab.

À suivre

Dans un prochain billet, à paraître d’ici quelques jours, vous trouverez une synthèse de notre vision technologique et fonctionnelle des directions que pourrait prendre data.gouv.fr.

Et vous trouverez notre réponse complète sur notre site web, sous forme d’un document PDF disponible ici. Bonne lecture !

 

Les données non structurées sont totalement sous-exploitées par les entreprises, et c’est un véritable gâchis !

Acteur historique du marché des moteurs de recherche, Antidot a participé au printemps 2012 à une étude menée par le cabinet d’analyse Markess International et portant sur les pratiques et outils des entreprises pour l’analyse de données et la prise de décision opérationnelle.

Cette étude a été publiée récemment, sous le titre « Référentiel de Pratiques : De l’information à la prise de décision : nouveaux modes d’accès et d’analyse pour la performance du business – France, 2012-2014 ». Nous vous engageons vivement à vous en procurer la synthèse.

Si vous êtes très pressé, sachez que l’étude se trouve bien résumée en une infographie aussi lisible que percutante :


Cliquer pour agrandir l’infographie

Et que constate-t-on immédiatement ?

Seulement 6% des données non structurées et 2% des métadonnées sont exploitées aujourd’hui pour de l’analytique et du décisionnel !

Évidemment c’est un immense gâchis : on peut heureusement faire beaucoup mieux, notamment grâce aux solutions Antidot !

Car nous le disons depuis déjà un certain temps : pour les données, l’enjeu n’est pas tant d’être pléthoriques que d’être pertinentes et donc immédiatement utiles aux collaborateurs de l’entreprise, dans le cadre de leur mission. Formulé autrement,  ce n’est pas tant le « Big Data » qui est important que la « Smart Information ». Et l’on peut désormais suivre une voie technologique bien balisée menant de l’un vers l’autre.

En effet, notre offre s’est élargie vers les solutions de traitement des données structurées et non structurées et l’accès simplifié à l’information. Nous apportons des réponses à la fois innovantes, pragmatiques et agiles aux problématiques des grands Systèmes d’Information selon une approche, le Linked Enterprise Data, qui s’appuie sur les technologies et standards du « web sémantique » promus et soutenus W3C.

Pour aller plus loin, vous pouvez télécharger :

Vous pouvez aussi sensibiliser vos collègues, même et surtout s’ils ne sont pas spécialistes des technologies des systèmes d’information,  en leur transmettant notre Executive Summary sur le Linked Enterprise Data. En 2 pages, ils comprendront les enjeux et les bénéfices de notre approche.

Et bien entendu les équipes Antidot sont à votre disposition si vous souhaitez que nous explorions ensemble les opportunités d’utilisation de nos solutions Linked Enterprise Data au service de vos projets !

Découvrez les Monuments Historiques grâce à l’Open Data !

Pourquoi cette application ?

L’ouverture du site data.gouv.fr le 5 décembre 2011, aussitôt suivie d’autres initiatives, a marqué une accélération du mouvement Open Data en France.

Nous avons voulu apporter notre pierre à l’édifice, en réalisant une démonstration qui met en avant le grand intérêt qu’il y a à pouvoir mailler des données issues de différentes sources grâce aux standards du web sémantique, et la capacité de notre solution Antidot Information Factory à le faire rapidement et simplement, dans une approche industrielle.

Et parce que la France demeure année après année la première destination touristique mondiale, parce que nos territoires regorgent de trésors architecturaux et patrimoniaux, nous avons choisi de réaliser une application de recherche qui vous permet de partir à la découverte de près de 44.000 monuments historiques français !

Quelques explications (un peu) techniques :

Notre application « Monuments historiques » a été réalisée en exploitant 7 sources de données ouvertes :

  1. la liste des Immeubles protégés au titre des Monuments Historiques disponible sur data.gouv.fr. Cette source de données décrit 43.720 monuments dans un fichier CSV.
  2. la liste des gares de voyageurs du Réseau Ferré National avec leurs coordonnées  telle que fournie par data.gouv.fr. Cette source de données décrit 3.065 gares dans un fichier XLS. Elle est exploitée pour situer les monuments à proximité d’une gare.
  3. la liste des stations du métro parisien avec leurs coordonnées, fournie par OpenStreetMap. Cette source de données décrit 301 stations et elle est exploitée pour situer les monuments à proximité d’une station de métro.
  4. les données du code officiel géographique (COG) de l’INSEE. Cette source de données décrit 22 régions, 99 départements, plus de 4.000 cantons et chefs lieux dans un graphe RDF.
  5. Les photos des monuments historiques de Wikipedia proposée par Wikimedia Commons. Cette source de données, notamment alimentée par le concours Wiki loves monuments, apporte 122.828 photos pour 12.586 monuments historiques désignés par leur code PA : il s’agit d’un code délivré de façon unique pour chaque monument et présent dans la liste citée en 1.
  6. La description des monuments historiques de Wikipedia fournie par DBpedia. Cette source de données en RDF décrit 3,64 millions d’objets, dont 413.000 lieux. Cette source est accessible directement à partir des informations de Wikimedia Commons
  7. Les informations de géolocalisation de Yahoo! via Yahoo! PlaceFinder. Cette source permet de géolocaliser à partir de leur adresse les monuments non géolocalisés dans Wikimedia Commons ou DBpedia

La chaine de traitement mise en œuvre pour la réalisation de cette application avec Antidot Information Factory est la suivante :

  1. Une première étape de nettoyage, normalisation et transformation en RDF des fichiers CSV et XLS issus de data.gouv.fr au moyen de Google Refine.
  2. Récupération des données de Wikimedia Commons : un processus de traitement Antidot Information Factory collecte les informations via l’API de Wikimedia et les transforme en RDF : Antidot Information Factory a permis de construire ce processus industriel sans avoir à écrire une seule ligne de code, simplement en assemblant des modules de traitement pris dans une bibliothèque de 50 modules existants.
  3. Récupération des données d’OpenStreetMap pour les stations de métro via son API.
  4. Collecte de toutes les informations de géolocalisation par Antidot Information Factory via l’API de Yahoo! PlaceFinder, pour les lieux non déjà géolocalisés.
  5. Maillage de toutes les données issues des 7 sources par Antidot Information Factory : le résultat est un graphe RDF comprenant plus de 4,5 millions de triplets, dont près de 450.000 ont été inférés à partir des sources.
  6. Ce triple store est ensuite la source unique mise en entrée du module d’indexation du moteur de recherche Antidot Finder Suite.

Le résultat est une application web de recherche permettant  de trouver des monuments historiques

  • par une recherche en plein texte
  • dans une région, un département ou une ville donnés
  • par type de monument : église, château, statue, site industriel
  • par période historique : préhistoire, moyen-âge, renaissance etc
  • par type de propriétaire : personne ou société privée, commune, Etat…

avec combinaison possible de tous ces critères, sous forme de « facettes de recherche » très simples à manipuler.

Conclusion (provisoire)

Cette application a été réalisée en quelques jours, sans impliquer de développeurs et par simple paramétrage de notre solution Antidot Information Factory. Cela montre, s’il en est encore besoin, la puissance et la justesse de l’approche et des technologies du Web Sémantique promues par le W3C.

Cette application démontre que l’Open Data favorise l’émergence de nouveaux usages : par la mise à disposition de données qui sont facilement reliées à d’autres données, la seule limite devient notre imagination et notre capacité à proposer de nouveaux services innovants et utiles !

Merci à tous les fournisseurs de données qui ont rendu possible cette réalisation, notamment le Ministère de la Culture et de la Communication pour la liste des monuments historiques et la Société Nationale des Chemins de Fer pour la liste des gares, avec une mention toute particulière pour les contributeurs de Wikipedia, que vous pouvez soutenir par un don.

A vous maintenant de partir à la découverte de nos monuments historiques, au gré de vos envies !


Crédits : Etalab | Wikimedia Commons | DBpedia | Open Street Map | INSEE | Wikipedia francophone | Wikipedia anglophone

Application réalisée avec Antidot Information Factory – Nous contacter : [email protected]


Le contenu de ce billet est sous licence CC BY-SA. Traduction en anglais disponible ici.

Grande semaine pour l’Open Data français !

Cette première semaine de décembre 2011 aura marqué le vrai démarrage du mouvement Open Data en France, avec en l’espace de 3 jours une succession dense d’événements importants : lundi a eu lieu  le lancement par la mission Etalab, dirigée par Séverin Naudet,  de la plateforme officielle data.gouv.fr. Mardi soir se tenait la seconde édition des Data Tuesdays, qui montent en puissance et où Antidot était présente. Enfin mercredi a été ouverte la plateforme de réflexion collaborative de la SNCF data.sncf.com.

Chez Antidot, l’approche Open Data nous enthousiasme vraiment, car nous sommes convaincus que c’est le début d’un mouvement qui, en ouvrant les données publiques, va permettre à l’intelligence individuelle et collective des citoyens d’exprimer sa créativité.

Désormais, les données commencent à être publiées, et les standards, technologies et outils sont disponibles : et du coup, tout le monde va comprendre que l’Open Data n’est plus un problème de « comment faire« , mais bien de « que faire » et surtout « pourquoi le faire« .

Or le « que faire » et le « pourquoi le faire » peuvent justifier d’interconnecter des jeux de données issus de producteurs très différents, et de mailler des informations de nature très diverses pour les réutiliser d’une façon qui n’avait pas encore été imaginée. Et du coup, on en vient à considérer qu’il faut partager des données les plus brutes possibles, sans le filtre d’APIs qui présupposent des usages et en limitent d’autres. Espérer que des APIs propriétaires associées à chaque jeu de données vont être vraiment utiles est illusoire, pour une raison très simple : si, pour bâtir une application exploitant 13 jeux de données différents, il faut intégrer 13 APIs de fournisseurs différents, alors le résultat du développement sera un monstre totalement impossible à maintenir et à faire évoluer dans le temps, et donc au final inutile.

Il faut donc que les organisations qui se lancent dans l’Open Data publient des données non seulement ouvertes mais pleinement réutilisables : à cet égard, on ne saurait se contenter de proposer de sous forme d’une collection, aussi riche soit-elle, de fichiers XLS, PDF ou même CSV qui vont nécessiter beaucoup de travail pour que les données qu’ils renferment soient vraiment exploitées. Comme l’a dit fort justement Tim Berners-Lee à TED 2009 : « Raw data now! »

Le W3C a défini des standards pour l’accès aux données brutes, via l’approche du « web sémantique » ou « web des données » qui seul permet une réutilisation généralisée des données, par la mise en réseau massive des silos de données ouvertes où qu’ils se trouvent sur le web. 
Ces standards publiés par le W3C s’appellent RDF, OWL et  SPARQL. ils sont désormais matures et de nombreux outils existent pour les mettre en œuvre.

Nous considérons que la donnée brute en RDF, publiée dans le « nuage du Linked Open Data » ou « LOD cloud » est la seule vraie façon pérenne de permettre une réexploitation massive des données. Et nous ne sommes pas les seuls à le penser, si l’on en juge par la croissance formidable du LOD en l’espace de 4 ans : cliquez sur ces images de 2007, 2009 et 2011  pour les agrandir et mesurer la puissance de ce phénomène.



Pour découvrir l’approche ouverte du « web des données », nous vous conseillons le lire 3 billets de blog très pédagogiques écrits par notre collaborateur Gautier Poupeau, grand spécialiste du web des données et de l’Open Data. Vous pouvez aussi consulter les différentes présentations d’Antidot sur Slideshare.

Enfin, nous vous rappelons que  notre solution Antidot Information Factory (PDF – 4 pages) permet, de manière industrielle, de mailler très largement des données de provenance et de nature très diverses, de les exploiter et de les valoriser, notamment dans le cadre de projets Open Data ou Linked Data. Par ailleurs, nous avons publié en Open Source une bibliothèque en Java appelée db2triples qui simplifie la transformation en graphe RDF de données issues de bases de données relationnelles classiques. Nos solutions et notre expertise sont à votre disposition, n’hésitez pas à faire appel à nous dans le cadre d’un projet pilote ou d’un « proof of concept » !