AIF

Antidot >  Technologie >  AIF


Antidot Information Factory

Antidot Information Factory (AIF) est une solution logicielle conçue spécialement pour répondre aux enjeux de valorisation et d’exploitation des données structurées ou non.



Antidot Information Factory est une « machine à produire de l’information » qui industrialise le traitement des données existantes et la mise à disposition automatisée d’informations riches. AIF permet de créer un véritable « espace informationnel enrichi » au service de vos utilisateurs et de vos applications.

Antidot Information Factory permet de :

  • capter les données contenues dans les différents silos internes ou externes à votre entreprise ;
  • transformer ces données : nettoyage, normalisation, mise en format cible ;
  • les enrichir en les catégorisant selon des plans de classement, en les annotant automatiquement et en les alignant avec des référentiels métier ;
  • relier vos données afin de les mettre en synergie et de faire émerger l’information pertinente pour votre métier ;
  • publier cette information enrichie selon des protocoles standardisés afin de les exposer aux applications de votre système d’information, à vos utilisateurs ou à vos partenaires.

Une solution souple et modulaire

AIF s’utilise comme un jeu de construction : pour créer des chaines de traitement, il suffit d’assembler et de paramétrer des modules prêts à l’emploi :

  • modules de captation qui se connectent aux sources et récupèrent les données ciblées ;
  • modules de normalisation et de nettoyage des données ;
  • modules d’enrichissement pour la classification, l’annotation et la mise en relation.

AIF permet de créer rapidement des chaines de traitement faciles à maintenir : AIF propose un catalogue de plus de 50 modules standard. C’est également une plateforme ouverte et grâce à des interfaces accessibles vous pouvez rapidement développer vos propres modules pour réaliser des traitements spécifiques.

Antidot Information Factory est une solution logicielle industrielle et puissante qui repose intégralement sur des standards récents et plébiscités : technologies XML (schémas, XSL, XPath, XQuery) ; Web Services de type REST pour les échanges ; technologies du Web Sémantique (RDF, OWL, SPARQL) pour la modélisation et le traitement.

En bout de chaine, les données enrichies ou créées peuvent être exposées / publiées de plusieurs façons selon les besoins projet :

  • génération de fichiers ad hoc ;
  • injection dans une base relationnelle ;
  • injection dans un entrepôt RDF offrant une interface d’accès de type Web Service normalisé (SPARQL) ;
  • exposition à travers le composant Antidot Content Repository qui fournit un service d’accès aux contenus.

Bien évidemment en bout de chaine vous pouvez également connecter le moteur de recherche AFS afin d’offrir à vos utilisateurs un service de recherche performant et riche sur l’ensemble des informations.

Technologie

Antidot Information Factory est architecturé autour de 3 composants :

  • Un framework (C++ et Python) à partir duquel sont développés tous les modules de traitement et qui fournit les fonctions essentielles : récupération et transmission des données à traiter, gestion des erreurs, reporting, accès de haut niveau aux documents sans avoir à se soucier de l’implémentation du stockage.
  • Le scheduler est le chef d’orchestre : il construit dynamiquement les chaines de traitements déclarées, lance les instances de modules, pilote l’avancement des documents dans la chaine. Il est interconnecté avec le back-office afin de fournir en temps réel des indicateurs sur les traitements en cours.
  • Le back-office permet d’interagir avec AIF pour démarrer, programmer, arrêter et suivre les chaines de traitement.

Modélisation des unités documentaires

Une ressource documentaire est dans la plupart des cas composé de plusieurs éléments :

  • Un « fichier bureautique » est une unité documentaire constituée du fichier lui-même, mais également de ses métadonnées (serveur et répertoire de stockage, propriétaire, auteur, date de création, …), de ses droits d’accès, etc.
  • Le document représentant une page Web peut comporter le code source HTML, les commentaires et les informations des réseaux sociaux (le « I like » de Facebook par exemple), les métadonnées extraites des balises RDFa, ou encore une vignette de la page.

Et la richesse du corpus et des documents ne s’arrête pas là:

  • Les modules de traitement d’AIF génèrent des données supplémentaires qui enrichissent le document initial : sujets extraits, entités nommées, annotations sémantiques vers des référentiels, liens vers des documents similaires …
  • Chaque document source peut exister en plusieurs versions et il est nécessaire de regrouper ces versions dans la même unité documentaire.
  • De nouvelles unités documentaires peuvent être créées à partir de données source.

Toutes ces problématiques étaient jusqu’à présent adressées au cas par cas avec des développements spécifiques, ce qui crée un risque projet fort et génère des coûts de maintenance élevés. Antidot Information Factory apporte une réponse opérationnelle et des technologies éprouvées pour résoudre de façon simple et puissante l’ensemble de ces enjeux sur la structuration et le stockage des unités documentaires.

En effet, Antidot Information Factory ne se contente pas de travailler sur des fichiers. Chaque document est un objet composite, constitué de plusieurs couches (layers) qui représentent les différents aspects de ce document : contenu, métadonnées, vignette, signature sémantique…

De nouvelles couches peuvent être créées dynamiquement par des modules réalisant des traitements spécifiques (ex : extraction des entités nommées du document).

Chaque couche intègre un système de gestion des révisions si bien qu’une même vue du document peut exister en plusieurs versions, sans avoir à dupliquer le document. Le document stocke pour chaque couche les différentes versions ainsi que des indicateurs techniques (nombre de fois qu’une version a été obtenue, etc).

La création, la lecture, la suppression des unités documentaires et de couches ou de versions sont des opérations rendues très simples grâce à des méthodes de haut niveau fournies par le framework AIF qui permettent de masquer la complexité technique et de se concentrer sur les besoins fonctionnels.

Pour cela, le framework interagit avec le Document Manager qui est en charge du stockage des unités documentaires. La complexité du stockage physique est prise en charge de façon centralisée, garantissant des performances et une scalabilité optimales avec une administration simplifiée.

Intégration à votre environnement

Conçu pour être exploité dans les environnements d’entreprise les plus exigeants en matière de sécurité, de performance et de disponibilité, Antidot Information Factory intègre un ensemble de mécanismes à même de répondre à des contraintes avancées de protection des données, de sécurité applicative et de montée en charge.

Antidot Information Factory propose en standard une bibliothèque de plus de 50 modules prêts à l’emploi, pour créer les chaînes de captation et de traitement ;

  • Connecteurs en charge de la captation des données dans les sources en mode pull - AIF va chercher les données en « crawling » - comme en mode push - les données sont envoyées à AIF - pour des traitements synchrones ou asynchrones. Sont disponibles : crawler web (HTTP, HTTPS, RSS et Atom), accès aux bases de données (Oracle, SQLServer, Sybase, MySQL, PostgreSL …), annuaires (LDAP, AD), serveurs de fichiers, GED (par CMIS), solutions de publication Web (CMS), entrepôts documentaires (OAI)…
  • Filtres de traitement pour les manipulations de données : gestion des archives (zip, tar, …) pour la réception des données groupées, manipulation des données au format XML et des données structurées (validation, transformation, fusion, découpage, dédoublonnage...), normalisation de champs (dates, noms, codes...), alignement sur des référentiels métier, classification automatique, connexion à des produits de text mining tiers (Arisem, Gate, Temis...), traitements linguistiques d’extraction de concepts ou de mise en relation des documents.

Administration simple – Supervision en temps réel

Antidot Information Factory comprend une console d’administration qui facilite son utilisation : via cette interface simple, vous suivez le déroulement des chaînes de traitement, vous contrôlez leur bonne exécution et diagnostiquez rapidement toute anomalie affectant une source de données.

Une vue synthétique résume la situation de chacun des flux de données traités en indiquant, pour chaque flux, le nombre de documents traités avec succès ou en échec, la vitesse moyenne de traitement et le volume de données traité, avec une indication technique de la charge système du serveur durant le traitement. On peut ensuite examiner en détails les traitements appliqués à chaque flux pour visualiser précisément les résultats de l’action de chaque filtre et suivre en temps réel la progression des documents dans la chaine de traitements.

Exemple d'application : Linked Data - Open Data

Le Linked Data (web de données) décrit une méthode de publication les données structurées de telle façon que ces données puissent être liées entre elles et ainsi devenir plus utiles. A l’instar du Web qui relie les pages Web, le Linked Data permet de lier des données au niveau le plus fin : ces liens sont comme des jointures dans les bases relationnelles, mais ici à l’échelle du Web qui devient alors une immense base de données distribuée.

Le Web de données utilise les normes du Web Sémantique qui ont été développées par le W3C depuis plus de 10 ans : modélisation par OWL, représentation des données en RDF, interrogation en SPARQL, échanges de règles en RIF.

Antidot Information Factory intègre l’ensemble de ces technologies de façon native ce qui en fait l’outil idéal pour tous vos projets d’exposition et de partage des données, que ce soit de façon publique sur le Web, comme de façon privée au sein de l’entreprise et avec vos partenaires. AIF permet en effet de sélectionner les données à publier au sein de vos différentes sources, de les normaliser et de les unifier, puis de les publier dans un format adapté. Ainsi, plus besoin de définir des flux et des API spécifiques, ni de concevoir des mécanismes complexes à base de Web Services ad hoc ou d’échange de fichiers difficiles à suivre et à maintenir, car AIF intègre l’ensemble des composants nécessaires à l’exposition des données.

De la même façon, AIF vous permet de récupérer des données externes et de les intégrer dans votre système d’information pour l’enrichir et créer une valeur supplémentaire pour vos utilisateurs. Avez-vous déjà songé à la puissance qu’apportera l’ajout des données de Wikipédia ou des statistiques de l’Insee à vos données ? Tel client vend x produits sur Angoulême. Mais combien y a-t-il d’habitants à Angoulême ? Combien de jours de pluie par an ? Et si vous pouviez intégrer toutes les données nécessaires à la prise de décision dans vos applications ?

L’Open Data (littéralement Données Ouvertes) est un mouvement qui vise à rendre accessibles les données sans mécanisme de sécurité ni de droit afin de promouvoir leur réutilisation et d’encourager le développement d’applications nouvelles. De par ses objectifs, il a naturellement rencontré et adopté les principes de Linked Data. A cet égard, AIF s’impose comme une solution mature pour les projets de Données Ouvertes, et a notamment été exploité dans le cadre du projet ISIDORE du CNRS TGE Adonis..

Téléchargez la plaquette Antidot Information Factory :

»

Antidot Information Factory - PDF
0,8 Mo

Téléchargez aussi la présentation du projet ISIDORE (PDF - 2,3 Mo)


Les solutions


Dernière référence



Newsletter


Notre newsletter est trimestrielle, inscrivez-vous !

  • S'inscrire