Faire et Savoir-faire

En informatique, Faire n’est pas compliqué.

C’est le Savoir-faire qui est long et difficile à acquérir.

La preuve ? Demandez à un informaticien de développer quelque chose qui va lui prendre disons 10 jours. Une fois le travail terminé, effacez tous les fichiers (on va plutôt dire que le serveur les a perdus et que la sauvegarde ne marchait pas…). Demandez-lui de recommencer. Eh bien, il le fera en 5 ou 6 jours tout au plus et le résultat sera meilleur que la première fois. Faire n’est donc pas compliqué.

En revanche, le coût d’acquisition des Savoir-faire informatiques a explosé ces dernières années avec la multiplication et la complexification des technologies.

Le bon vieux programme Basic des années 80 pour afficher des caractères sur un écran 80×24 n’est plus. Les programmes d’aujourd’hui sont incroyablement complexes : ils doivent fonctionner sur le Web comme sur mobile, pour des centaines d’utilisateurs, avec des performances et des fonctionnalités toujours plus riches. La diversité des compétences mises en œuvre explose littéralement. Qui maitrise aujourd’hui toutes les technologies et les savoir-faire nécessaires ? Si bien qu’à l’instar du bâtiment, le secteur informatique possède aujourd’hui ses corps de métier : ergonomes, graphistes, architectes, développeurs système ou réseau, algorithmiciens, développeurs Java ou C++ ou .Net ou PHP ou…

Et tout cela ne va guère en s’améliorant. Les environnements de développement et les plate-formes logicielles peinent à suivre le rythme et à réduire cette complexité. Si bien que dès qu’un projet implique un peu d’informatique, il faut mobiliser et inclure dans l’équipe des compétences technologiques fortes et seules des personnes ayant des compétences en programmation peuvent participer.

Prenons le cas du tout récent Big Data : certains, comme Harper Reed qui fut directeur technologique de la campagne électorale de Barack Obama, n’hésitent pas à dire que le Big Data c’est de « la connerie ». Sans aller jusque là, reconnaissons que le buzzword est désormais partout, et qu’il sert souvent d’alibi à des fournisseurs de matériel et de logiciel qui veulent renouveler à bon compte le marketing parfois essoufflé leurs offres. Pour autant,  il y a de l’or à tirer des données des entreprises, pour peu qu’on sache les faire parler, les analyser, les valoriser et les consolider avec des données externes afin de les contextualiser. qui peut faire ça ? Les « Data Scientists » nous dit-on. Une race nouvelle, hybride, possédant des compétences en statistiques et en informatique, avec une sensibilité avancée pour les données et une compréhension des enjeux métier. Mais existent-t-ils vraiment ? Il semblerait que non à lire 01net Entreprises (« Il y a urgence à enseigner le Big Data !« ) ou ITPro (« Le Big Data freiné par une offre complexe et une pénurie de compétence« ).

Source : wikibook « Data Science: An introduction »
Le fond du problème, c’est que les plateformes logicielles proposées sont trop complexes et exigent encore trop de mobiliser des compétences informatiques et techniques. Tout ça dans un contexte où les profils informatiques se font de plus en plus rares. Il faut arriver au point où la complexité technologique disparaît et où les solutions sont exploitables par des gens ayant avant tout des compétences métier et non des compétences technologiques. Un peu comme avec un iPhone : simple à utiliser et pourtant bourré d’innovation et de technologie.

C’est en ayant en tête ce contexte, et ces enjeux critiques d’agilité et de productivité, que nous concevons nos solutions logicielles chez Antidot.

Prenez l’exemple de notre solution d’analyse et d’intégration des données AIF  – Information Factory  : nous l’avons pensée et conçue de telle façon que vous pouvez construire des chaînes de traitement de données particulièrement avancées qui vont capter, nettoyer, sémantiser, classer, géotagger, enrichir, lier… des données sans nécessiter aucune connaissance en programmation.

Et notre plus grande fierté c’est de voir des projets incroyables réalisés par des gens du métier, sans compétence en développement.

Car finalement les meilleures technologies sont celles qui savent se faire oublier.

 

Les données non structurées sont totalement sous-exploitées par les entreprises, et c’est un véritable gâchis !

Acteur historique du marché des moteurs de recherche, Antidot a participé au printemps 2012 à une étude menée par le cabinet d’analyse Markess International et portant sur les pratiques et outils des entreprises pour l’analyse de données et la prise de décision opérationnelle.

Cette étude a été publiée récemment, sous le titre « Référentiel de Pratiques : De l’information à la prise de décision : nouveaux modes d’accès et d’analyse pour la performance du business – France, 2012-2014 ». Nous vous engageons vivement à vous en procurer la synthèse.

Si vous êtes très pressé, sachez que l’étude se trouve bien résumée en une infographie aussi lisible que percutante :


Cliquer pour agrandir l’infographie

Et que constate-t-on immédiatement ?

Seulement 6% des données non structurées et 2% des métadonnées sont exploitées aujourd’hui pour de l’analytique et du décisionnel !

Évidemment c’est un immense gâchis : on peut heureusement faire beaucoup mieux, notamment grâce aux solutions Antidot !

Car nous le disons depuis déjà un certain temps : pour les données, l’enjeu n’est pas tant d’être pléthoriques que d’être pertinentes et donc immédiatement utiles aux collaborateurs de l’entreprise, dans le cadre de leur mission. Formulé autrement,  ce n’est pas tant le « Big Data » qui est important que la « Smart Information ». Et l’on peut désormais suivre une voie technologique bien balisée menant de l’un vers l’autre.

En effet, notre offre s’est élargie vers les solutions de traitement des données structurées et non structurées et l’accès simplifié à l’information. Nous apportons des réponses à la fois innovantes, pragmatiques et agiles aux problématiques des grands Systèmes d’Information selon une approche, le Linked Enterprise Data, qui s’appuie sur les technologies et standards du « web sémantique » promus et soutenus W3C.

Pour aller plus loin, vous pouvez télécharger :

Vous pouvez aussi sensibiliser vos collègues, même et surtout s’ils ne sont pas spécialistes des technologies des systèmes d’information,  en leur transmettant notre Executive Summary sur le Linked Enterprise Data. En 2 pages, ils comprendront les enjeux et les bénéfices de notre approche.

Et bien entendu les équipes Antidot sont à votre disposition si vous souhaitez que nous explorions ensemble les opportunités d’utilisation de nos solutions Linked Enterprise Data au service de vos projets !

Mais à quoi bon le big data ?

Un des mots à la mode dans notre domaine du traitement des données est big data. Il s’agit de la capacité à traiter des quantités massives de données structurées ou non structurées. Mais massives comment ? A partir de combien est-ce du big data ? Qui en a besoin ? Quelle est la réalité opérationnelle derrière ces mots ?

Rappelons d’abord que l’origine du big data est liée à une logique de programmation distribuée dite map-reduce qui a été développée par des sociétés du Web comme Google, Yahoo!, Facebook etc : ces grands sites mondiaux ont des tonnes de données à analyser et ne pouvaient pas se contenter des approches « bases de données centric » habituelles. Dropbox gère 100 millions de sauvegardes de fichiers par jour, Twitter annonce 200 millions de tweets quotidiens, Facebook supporte 250 millions d’uploads de photos par jour et en stocke plus de 40 milliards… Le big data est donc d’abord une approche informatique qui prend le relais quand une implémentation classique basée sur l’utilisation de quelques serveurs, même très costauds, ne suffit plus pour assurer les temps de traitement attendus. Ainsi, ces acteurs exploitent des clusters regroupant chacun plusieurs milliers de serveurs et manipulant des péta-octets [1] de données.

D’un point de vue logiciel, le big data est souvent associé à la pile technologique Hadoop mise en open source par Yahoo! et reprise par nombre d’entreprises à vocation commerciale (EMC, Cloudera, Hortonworks…). Hadoop et ses dérivés apportent un système de stockage distribué, une base de données répartie, ainsi qu’un cadre de programmation et d’exécution de tâches de calcul réparties.

 

Mais à quoi cela sert-il et quel sens cela a-t-il pour la plupart des entreprises qui ont quelques téra-octets de données à analyser ?

Quelques éléments de réponse :

  • Le big data est une technologie et non une solution. C’est un moyen et pas une fin. Donc dire « je vais faire du big data » n’a pas de sens car celui-ci ne répond à aucun besoin fonctionnel en particulier. C’est comme dire « je vais faire de la base de données » ou « je vais faire du Web ». Pour quoi faire ? La démarche doit rester pragmatique : partez de votre besoin, voyez s’il est satisfait de façon acceptable par des solutions existantes. Et si rien de ce qui existe ne convient (trop cher, trop lent) alors demandez-vous si une approche alternative exploitant les technologies du big data peut être envisagée.
  • Le big data nécessite de très fortes compétences. Tout d’abord, le niveau de maturité des technologies proposées nécessite des ingénieurs qualifiés pour installer, paramétrer, optimiser et faire tourner ces couches logicielles. A fortiori si vous comptez bâtir des solutions opérationnelles critiques. Il en va de même pour le développement des applications car celles qui veulent tirer partie de l’approche doivent être ré-écrites selon les principes du map-reduce. Souvenons-nous que chez Google ou Facebook, ce sont leurs meilleurs ingénieurs logiciels et  mathématiciens qui développent les applications big data.
  • Pour faire du big data, il faut beaucoup de données. Des téra-octets, voire plutôt des dizaines de téra-octets. À moins de 10 ou 15 serveurs, le passage au big data n’a pas de sens.
    Un exemple : Oracle vient de sortir une appliance big data petit format : 18 serveurs, 864 Go de mémoire, 648 To de stockage pour la modique somme de 455 000 $. Et encore… il reste à intégrer et à développer les applications qui reposeront sur cette architecture.


    Avec l’arrivée des processeurs massivement multi-cœurs, du in-memory computing ou des SSD, la frontière se déplace et pour la majorité des cas, un seul serveur moderne suffit encore. Alors que dans le cas d’un cluster, il faut prendre en compte le coût élevé de possession (TCO) : achat des machines, installation et administration, électricité, froid, maintenance… A fortiori s’il s’agit de n’effectuer que quelques heures ou jours de calcul par mois, la rentabilité d’une telle approche est difficile à atteindre. Big data et cloud computing pourraient alors avoir un avenir commun, mais a condition que les entreprises veuillent bien envoyer dans le cloud leurs téra-octets de données à analyser.

En définitive, il ne s’agit pas de savoir sur combien de serveurs les calculs sont faits, mais de savoir lesquels. Pour quel usage ? Quelle valeur créée ?
C’est pourquoi ce sont plutôt les éditeurs de logiciels qui vont s’emparer du big data, afin d’offrir des solutions opérationnelles répondant aux besoins des entreprises et passant à l’échelle du péta-octets. Les éditeurs de logiciels déjà actifs dans la BI, le data mining ou les moteurs de recherche intégreront ces techniques pour fournir des version « big » de leurs solutions.

Et d’ailleurs qu’en est-il côté Antidot ? Nos solutions sont conçues dès l’origine pour fonctionner aussi bien sur un seul serveur que sur des clusters de machines pour traiter des millions de données et répondre à des centaines de requêtes par seconde. Et nous travaillons déjà à intégrer à nos solutions les apports de l’approche big data.

Mais au delà de la surenchère marketing, nous nous attachons surtout à fournir des solutions qui créent de la valeur pour nos clients. Ainsi, notre framework d’analyse de documents offre des modules prêts à l’emploi couvrant des besoins aussi variés que la classification, la normalisation, l’annotation, l’enrichissement sémantique ou la géolocalisation des données… Agilité et vitesse d’exécution sont des enjeux qui nous semblent plus importants que force et volume.

Conclusion : ce n’est pas la peine de complexer si vous n’avez pas plusieurs centaines de téra-octets de données à analyser et si vous vous sentez exclu du big data. Car en définitive, seule la valeur que vous saurez tirer de vos données a vraiment de l’importance !

[1] un péta-octet, en abrégé Po, représente 1015 octets, soit mille téra-octets ou un million de giga-octets…