AIF Archives - Antidot

Faire et Savoir-faire

Posted on 31 mai 201324 septembre 2018 by Fabrice LACROIX

En informatique, Faire n’est pas compliqué.

C’est le Savoir-faire qui est long et difficile à acquérir.

La preuve ? Demandez à un informaticien de développer quelque chose qui va lui prendre disons 10 jours. Une fois le travail terminé, effacez tous les fichiers (on va plutôt dire que le serveur les a perdus et que la sauvegarde ne marchait pas…). Demandez-lui de recommencer. Eh bien, il le fera en 5 ou 6 jours tout au plus et le résultat sera meilleur que la première fois. Faire n’est donc pas compliqué.

En revanche, le coût d’acquisition des Savoir-faire informatiques a explosé ces dernières années avec la multiplication et la complexification des technologies.

Le bon vieux programme Basic des années 80 pour afficher des caractères sur un écran 80×24 n’est plus. Les programmes d’aujourd’hui sont incroyablement complexes : ils doivent fonctionner sur le Web comme sur mobile, pour des centaines d’utilisateurs, avec des performances et des fonctionnalités toujours plus riches. La diversité des compétences mises en œuvre explose littéralement. Qui maitrise aujourd’hui toutes les technologies et les savoir-faire nécessaires ? Si bien qu’à l’instar du bâtiment, le secteur informatique possède aujourd’hui ses corps de métier : ergonomes, graphistes, architectes, développeurs système ou réseau, algorithmiciens, développeurs Java ou C++ ou .Net ou PHP ou…

Et tout cela ne va guère en s’améliorant. Les environnements de développement et les plate-formes logicielles peinent à suivre le rythme et à réduire cette complexité. Si bien que dès qu’un projet implique un peu d’informatique, il faut mobiliser et inclure dans l’équipe des compétences technologiques fortes et seules des personnes ayant des compétences en programmation peuvent participer.

Prenons le cas du tout récent Big Data : certains, comme Harper Reed qui fut directeur technologique de la campagne électorale de Barack Obama, n’hésitent pas à dire que le Big Data c’est de « la connerie ». Sans aller jusque là, reconnaissons que le buzzword est désormais partout, et qu’il sert souvent d’alibi à des fournisseurs de matériel et de logiciel qui veulent renouveler à bon compte le marketing parfois essoufflé leurs offres. Pour autant, il y a de l’or à tirer des données des entreprises, pour peu qu’on sache les faire parler, les analyser, les valoriser et les consolider avec des données externes afin de les contextualiser. qui peut faire ça ? Les « Data Scientists » nous dit-on. Une race nouvelle, hybride, possédant des compétences en statistiques et en informatique, avec une sensibilité avancée pour les données et une compréhension des enjeux métier. Mais existent-t-ils vraiment ? Il semblerait que non à lire 01net Entreprises (« Il y a urgence à enseigner le Big Data !« ) ou ITPro (« Le Big Data freiné par une offre complexe et une pénurie de compétence« ).

Source : wikibook « Data Science: An introduction »
Le fond du problème, c’est que les plateformes logicielles proposées sont trop complexes et exigent encore trop de mobiliser des compétences informatiques et techniques. Tout ça dans un contexte où les profils informatiques se font de plus en plus rares. Il faut arriver au point où la complexité technologique disparaît et où les solutions sont exploitables par des gens ayant avant tout des compétences métier et non des compétences technologiques. Un peu comme avec un iPhone : simple à utiliser et pourtant bourré d’innovation et de technologie.

C’est en ayant en tête ce contexte, et ces enjeux critiques d’agilité et de productivité, que nous concevons nos solutions logicielles chez Antidot.

Prenez l’exemple de notre solution d’analyse et d’intégration des données AIF – Information Factory : nous l’avons pensée et conçue de telle façon que vous pouvez construire des chaînes de traitement de données particulièrement avancées qui vont capter, nettoyer, sémantiser, classer, géotagger, enrichir, lier… des données sans nécessiter aucune connaissance en programmation.

Et notre plus grande fierté c’est de voir des projets incroyables réalisés par des gens du métier, sans compétence en développement.

Car finalement les meilleures technologies sont celles qui savent se faire oublier.

Antidot participe au co-design de data.gouv.fr initié par la mission Etalab (2/2)

Posted on 17 mai 201324 septembre 2018 by Valentin GUENICHON

Dans un précédent billet, nous avons exposé notre perception des enjeux stratégiques pour data.gouv.fr, en réponse à la consultation Etalab : confiance dans les données et intégration dans l’écosystème du web.

Ces enjeux trouvent leur réponse dans des choix organisationnels et technologiques :

Comment améliorer la collecte et la pertinence des données ?
Comment faciliter la réutilisation et l’exploitation des données ?

« Comment améliorer la collecte et la pertinence des données ? »

Crowdsourcing et aspects collaboratifs

Le « crowdsourcing » est en vogue, mais les coûts de mise en place de l’infrastructure nécessaire au travail collaboratif et d’animation d’une communauté nous semblent bien supérieurs aux retours réels. Il nous paraît plus intéressant de mettre en place des actions communes avec des communautés bien établies comme par exemple, Wikipedia, Open Street Map et ainsi de profiter de leur savoir-faire et de leur infrastructure dans l’animation d’une communauté.

À titre d’exemple, il serait intéressant de s’appuyer sur le portail DataHub administré par l’Open Knowledge Foundation pour repérer de nouveaux jeux de données disponibles relatifs à la France, et aussi mieux faire connaître les jeux de données publiés sur Etalab.

Automatisation de la collecte et des traitements

Jusqu’à maintenant, le portail data.gouv.fr s’est limité à la mise à disposition des jeux de données sans retraitement, tels qu’ils ont été chargés au sein du portail par les producteurs et à leur description via quelques métadonnées.

Il nous paraît envisageable de déployer une infrastructure technique à même d’effectuer des tâches automatiques pour collecter, nettoyer, harmoniser et relier les jeux de données disponibles sur le portail. Ce travail pourrait se situer aussi bien au niveau des métadonnées des jeux de données que des données elles-mêmes. C’est exactement ce qu’a réalisée le CNRS dans le cadre du projet ISIDORE.

« Comment faciliter la réutilisation et l’exploitation des données ? »

Se donner l’objectif d’un portail de données « 5 étoiles »

Dans le document « Publishing Open Government Data » publié en 2009 par le W3C, Daniel Bennett et Adam Harvey ont expliqué les différentes étapes pour publier des données « gouvernementales ». Ils insistent sur le fait de rendre les données accessibles aussi bien pour les humains que pour les machines et reprennent les éléments exposés par Sir Tim Berners-Lee, l’inventeur du Web, dans sa typologie des initiatives de mise à disposition libre des données sur le Web.

Aujourd’hui data.gouv.fr n’en est qu’à la première étape, c’est-à-dire « la mise à disposition sur le Web quel que soit le format mais avec une licence libre ». Or nous sommes convaincus que la réutilisation massive des données n’est possible à terme que si les jeux de données s’intègrent parfaitement dans le Web, en utilisant ses principes et standards.

Dans un premier temps, il est nécessaire et urgent de proposer un annuaire des jeux de données disponibles dans un langage machine (XML, Json ou CSV) et de préférence en suivant les principes et standards du Linked Data (ou Web de données) basés sur des URI pour identifier les ressources, le protocole HTTP pour y accéder, les standards RDF pour récupérer une information sémantisée et le maillage systématique des données pour créer un écosystème basé sur les liens. Pour cela, Etalab pourrait utiliser le vocabulaire DCAT (Data Catalog Vocabulary) en cours de normalisation au sein du W3C par le groupe de travail « Government Linked Data ».

Dans un second temps, il serait important, comme le fait le portail britannique data.gov.uk, d’appliquer ces principes à certains jeux de données : la conversion en RDF de certains jeux de données de data.gouv.fr permettrait de proposer leur interrogation via un SPARQL endpoint constituant un Web service universel pour l’interrogation des données structurées et favorisant la réutilisation.

Poser une exigence de qualité des données et de complétude des métadonnées

Assurer la confiance sur le long terme passe par une exigence de qualité sur les données comme sur les métadonnées qui les décrivent. A cet égard, nous avons fait une amère expérience sur la version actuelle de data.gouv.fr.

Les données sont issues de processus et de traitements informatiques qui peuvent évoluer, donc les structures de données peuvent changer. C’est pourquoi le portail data.gouv.fr devrait inclure un système de gestion des versions et documenter les changements, au niveau de la fiche sous la forme d’un « changelog » et aussi dans les métadonnées. Ces changements seront disponibles dans un langage machine pour être interprétables par les logiciels consommateurs des données.

D’une manière générale, il nous semble que des métadonnées sont nécessaires pour disposer d’un contexte suffisant pour apporter la confiance, et notamment la provenance du jeu de données, le nom du producteur, la date de création, la date de mise à jour, la périodicité de mise à jour, la portée géographique des données, la portée temporelle des données.

Proposer des APIs pour simplifier la réutilisation

Comme l’a montré Christian Fauré dans son billet « DataCulture et APIculture », les principes du Linked Data et la mise en place d’Open API sont complémentaires et répondent à des usages différents : si les API, plus proches des pratiques actuelles des développeurs, simplifient la réutilisation des données et favorisent leur inclusion dans une économie marchande, les technologies du Web sémantique et les principes du Linked Data inscrivent directement les données dans l’espace d’interopérabilité global que constitue le Web.

Autres sujets, non technologiques, abordés dans notre réponse à Etalab

Le questionnaire établi par Etalab comportait d’autres points, relatifs à l’utilisation du portail et à sa visibilité :

« Quelle doit être l’expérience utilisateur sur le site ? »

Nous avons proposé d’améliorer la navigation pour favoriser la sérendipité, et suggéré des pistes pour mieux faire connaître les jeux de données et mieux accompagner les institutions publiques dans le monde de l’Open Data

« Comment favoriser la réutilisation et l’innovation à partir de la plateforme ? »

Une des difficultés de l’Open Data réside paradoxalement dans les vastes perspectives qu’il offre : il est complexe d’imaginer de nouveaux usages à partir de données brutes dont le contexte de création est inconnu. Il faut donc accompagner à la fois les développeurs, mais pas seulement : les résultats des concours d’applications et des hackathons restent dans une sphère relativement restreinte. Il est donc nécessaire d’effectuer un véritable travail de marketing et de valorisation des différents jeux de données et des perspectives qu’ils ouvrent dans les différents secteurs de l’économie réelle.

Par exemple, sur la base de projets auxquels Antidot travaille

dans le domaine des médias et de la presse, les données de l’Open Data permettent d’offrir des services contextuels aux contenus éditoriaux.
dans le domaine des transports, la question de la « smart mobility » pour offrir informations pratiques et proposer des activités sur le lieu de destination est au cœur des enjeux.

Il faut ainsi susciter chez les acteurs économiques dans les différents secteurs d’activités des nouvelles perspectives, où l’utilisation des données ouvertes apparaît clairement comme créatrice de valeur.

« Comment mieux insérer data.gouv.fr dans le réseau des ressources open data »

Nous suggérons que Data.gouv.fr alimente au nom de la France le portail DataHub du Comprehensive Knowledge Archive Network pour inscrire l’action Open Data de la France dans une dimension internationale.

« Comment construire un retour vers les administrations qui partagent leurs données ? »

Il nous semble important que les administrations trouvent un intérêt à la mise à disposition de leurs données pour en comprendre l’enjeu. Or les organisations publiques sont productrices de données et aussi consommatrices : par la récupération de leurs propres données, lorsqu’elles ont été corrigées ou enrichies, et par l’utilisation des données issues d’autres organisations

Ainsi, une boucle de rétroaction positive peut se mettre en place pour

améliorer au fur et à mesure la qualité des données mises à disposition
mieux intégrer la démarche de mise à disposition libre des données au sein des systèmes d’information.

La plateforme Isidore a été construite sur ce modèle vertueux : cette expérience positive démontre qu’un important travail d’accompagnement est nécessaire, mais que ces efforts portent leurs fruits.

Conclusion provisoire

En complément de la synthèse que vous venez de lire, vous trouverez notre réponse complète sur notre site web, sous forme d’un document PDF disponible ici.

Nous espérons, par ce travail, avoir contribué utilement au développement de l’Open Data en France. N’hésitez pas à utiliser les commentaires de ce billet pour prolonger la réflexion en partageant votre point de vue !

Antidot participe au co-design de data.gouv.fr initié par la mission Etalab (1/2)

Posted on 15 mai 201324 septembre 2018 by Valentin GUENICHON

Qu’est ce que le « co-design » de data.gouv.fr ?

Le 10 avril 2013, la mission Etalab a lancé un processus de « co-design » afin de préparer une nouvelle version de la plateforme data.gouv.fr. Seize mois après l’ouverture de celle-ci, et après la nomination d’Henri Verdier à sa tête, Etalab a souhaité lancer une nouvelle étape du développement de data.gouv.fr, et associer la communauté de l’open data à sa réflexion.

L’objectif affiché de ce « co-design » est de « recueillir toutes les suggestions des parties prenantes pertinentes, de repérer un maximum de compétences de notre écosystème et de produire un effort de prototypage rapide en public. »

Le contexte de la réponse d’Antidot

Antidot, en tant que fournisseur de solutions technologiques, est déjà partie prenante d’un certain nombre de projets Open Data ou Linked Data.

Nous le sommes du côté de la diffusion de données ouvertes, comme l’illustre la plateforme ISIDORE du CNRS qui utilise nos solutions Antidot Information Factory et Antidot Finder Suite pour collecter, agréger, enrichir et exposer (via un moteur de recherche, une API et selon les principes du Linked Data) les données et métadonnées de la recherche francophone en Sciences Humaines et Sociales.

Nous sommes aussi acteur de l’Open Data du côté de la réutilisation des données ouvertes. S’il ne nous est pas possible aujourd’hui de divulguer des informations sur un certain nombre de projets que nous menons avec nos clients, notamment dans le secteur de la presse et des médias, vous pouvez consulter notre démonstration mettant en valeur les Monuments Historiques de France.

C’est donc bien volontiers que nous avons apporté notre pierre à cet édifice, en rédigeant une réponse argumentée au questionnaire posé par Etalab.

Préambule : deux axes fondamentaux

Avant d’entrer dans le détail de nos propositions, nous avons tenu à mettre l’accent sur deux axes fondamentaux qui seront au cœur de notre réflexion sur le futur de data.gouv.fr :

la notion de confiance dans les données ouvertes
l’intégration du portail data.gouv.fr dans l’écosystème du Web.

La confiance dans les données ouvertes

La confiance constitue la condition sine qua non à la réutilisation de données par des tiers. Elle se joue à deux niveaux : au niveau des données elles-mêmes et au niveau technique.

Le fait que les données soient publiées par Etalab, c’est-à-dire par un organisme public étatique, leur confère a priori un statut particulier. Bien sûr, certaines données ne sont pas exemptes d’erreurs mais, de par leur provenance des données, une confiance intrinsèque permet d’en favoriser la réutilisation.

Cette confiance a priori doit conduire Etalab à garder un certain niveau d’exigence et de qualité vis-à-vis des jeux de données mis à disposition et des métadonnées qui les décrivent, car s’il est difficile et long de construire une confiance a posteriori, il l’est encore plus de retrouver une confiance perdue. Or cette notion de confiance doit aussi se traduire techniquement… et nous avons constaté qu’aujourd’hui toutes les conditions ne sont, hélas, pas encore réunies.

L’intégration du portail data.gouv.fr dans l’écosystème du Web

À travers les différentes questions posées par Etalab, c’est la nature même du portail data.gouv.fr qui est interrogée. Doit-il être :

un annuaire de liens vers des jeux de données existants ?
une plate-forme collaborative autour des données publiques en France ?
une plate-forme de valorisation des jeux de données existants ?
une plate-forme centrale qui accueille et expose elle-même toutes les données de manière brute pour l’ensemble des organismes publiques quelles que soit leur nature et leurs origines ?
une plate-forme de traitement, de mise en relation et d’enrichissement des jeux de données ?
un espace de rencontre, conseil et partage pour les producteurs et les consommateurs des données ?

Dans la mesure où l’Open Data est intrinsèquement lié au Web, nous considérons que le portail data.gouv.fr doit s’insérer dans l’écosystème du Web et profiter des bénéfices du milieu associé qu’il constitue. Il doit donc en respecter les principes et les standards, en particulier la mise en relation des contenus.

Ainsi, si data.gouv.fr n’a pas vocation à devenir un point centralisateur de l’ensemble des données publiques, il doit constituer :

un « hub », fédérateur, favorisant la qualité, la visibilité, l’interopérabilité et la mise en relation des jeux de données d’ores et déjà mises à disposition, sans nécessairement les « republier »
une infrastructure technique pour traiter, enrichir, mettre en relation, accueillir et/ou héberger les jeux de données issus d’organismes publics (étatiques ou territoriaux) ne disposant pas des moyens nécessaires
un espace à disposition des organismes publics pour les accompagner dans une démarche de mise à disposition de leurs données, notamment sur les aspects juridiques et techniques ;
un espace de démonstration et de valorisation des initiatives existantes en termes de réutilisation des données et des technologies dans le domaine.

C’est sur la base de ces deux axes fondamentaux que s’articule notre réponse à Etalab.

À suivre

Dans un prochain billet, à paraître d’ici quelques jours, vous trouverez une synthèse de notre vision technologique et fonctionnelle des directions que pourrait prendre data.gouv.fr.

Et vous trouverez notre réponse complète sur notre site web, sous forme d’un document PDF disponible ici. Bonne lecture !

Un nouveau portail pour notre documentation en ligne

Posted on 12 novembre 201224 septembre 2018 by Valentin GUENICHON

Antidot met à disposition de l’ensemble de ses clients et partenaires un nouveau portail pour l’accès en ligne à la documentation de ses produits.

Ce portail documentaire a pour ambition de faciliter vos recherches et de simplifier votre navigation au sein de près de 2000 pages de Guides, Notes techniques et Notes de version :

Ce service vous est aujourd’hui ouvert en version beta. N’hésitez pas à nous faire part de vos retours : tous les commentaires et suggestions que nous recueillerons seront étudiés avec la plus grande attention.

Pour la petite histoire, ce portail documentaire est réalisé intégralement à partir de nos solutions dont il exploite les fonctionnalités avancées :

AIF – Information Factory : pour la recomposition et l’analyse des unités documentaires fines,
AFS – Finder Suite : pour le moteur de recherche et la lecture dynamique et continue.

Il sera bientôt enrichi des fonctions d’alertes et d’annotation apportées par notre produit ACS – Collaboration Services.

Nous vous remercions de votre confiance.