Les Technologies-Clés 2020 par l’Atelier Iceberg

En pleine campagne de crowdfunding, L’Atelier Iceberg est associé aux agences Erdyn et Alcimed dans la toute récente publication du rapport stratégique Les Technologies-Clés 2020.  Cette 5e édition du rapport a réclamé plus d’un an de travail à des nombreux experts pour identifier et décrire 47 technologies classées en 9 catégories, le tout sous la direction de Philippe Varin et piloté par la DGE (Direction Générale des Entreprises). Contrairement au précédent rapport qui comportait 85 technologies (les Technologies-clés 2015 dont le poster figure dans la Galerie de ce blog), ce rapport présenté au Président de la République aujourd’hui fait figurer une liste plus réduite de technologies mais, peut-être, parmi les plus prometteuses en termes d’innovation de rupture et/ou de marchés potentiels destinés au PME ou aux E.T.I. qui font tant défaut à l’industrie française.

Pour la première fois, l’Atelier Iceberg est associé à l’opération avec des instruments de visualisation qui accompagnent le rapport de 640 pages. D’un côté, on peut explorer différents aspects du rapport depuis le site de la DGE via une navigation hypertexte. Plusieurs niveaux sont accessibles, depuis les 9 catégories générales et la description détaillée des 45 technologies…

TC2020c

… jusqu’aux listes associées des acteurs industriels-clés par secteur et leur géolocalisation:

TC2020d

Mais, comme à son habitude, L’Atelier Iceberg propose aussi de télécharger un poster au format PDF « A0 ». Une carte si l’on veut basée sur la même méthodologie que celle adoptée pour le rapport 2015 et que j’ai décrite dans ce blog. Les deux designers-dirigeants de l’Atelier ont ici finalisé une nouvelle fois une vue synthétique et efficace sur les données qui laisse apparaître l’émergence massive des technologies numériques, de l’intelligence artificielle, l’internet des objets et du calcul distribué.

TC2020b

Quelques journaux ont déjà commenté positivement l’ensemble du rapport (Les Echos, L’Usine Nouvelle…). Un cliché de plus produit par la start-up nantaise que j’ai participé à co-fonder et à laquelle je rends régulièrement visite dans la péniche qu’elle occupe sur les bord de l’Erdre à Nantes. En espérant qu’il ne prenne pas à l’équipe, un jour, de larguer les amarres …

Chapitre 7, le Web Datarium

Voici maintenant le chapitre 7 des Chroniques, le Web Datarium. Je dois l’expression à Sébastien Heymann et à Florian Leclerc qui avaient esquissé un curieux projet de mise en scène des web data au cours de leurs stages d’élèves-ingénieurs. L’idée centrale de leur projet consistait à équiper un lieu public de différents instruments d’exploration et de visualisation d’un même jeu de données. En particulier, on aurait pu suivre son évolution au cours du temps, un enjeu central pour veiller des données web. Pour que le spectacle ait lieu, il faut que le dispositif de traitement des données aligne différents processus de façon parfaite, depuis l’extraction continue des données sur le web, la vérification de leur pertinence et leurs connexions hypertextes jusqu’aux algorithmes de spatialisation, le tout concourant à la scénographie finale. Ce chapitre 7 en reprend l’idée en se focalisant sur cet sorte de web 1.0, lent et rudimentaire, constitué par des pages web donnant accès à bases de données scientifiques dans une étude cartographique que j’ai réalisée il y a quelques années. Mon idée était de pouvoir démontrer à la fois l’organisation magistrale de certaines ressources web en terme de corrélation contenu/connectivité hypertexte et l’efficience des outils dont je disposais à l’époque pour la faire apparaître, de façon spectaculaire. Depuis les patterns statistiques de mon jeu de données jusqu’aux lois de spatialisation générées par l’algorithme ForceAtlas2, j’avais éprouvé ce sentiment de satisfaction, presque de jubilation, à regarder s’aligner mon corpus et mes instruments d’observation, ensemble fusionnés dans ce spectacle final qu’a constitué la cartographie finale. Un moment rare en data sciences

chapitre7

Chapitre 6, des data ciselées

Voici le chapitre 6 des Chroniques du Web. Le titre, «Des data ciselées», indique à lui seul le rôle prépondérant qu’a joué le travail qualitatif et manuel dans le contrôle et l’analyse des corpus de documents web. Faute d’infrastructure technique suffisante pour produire de grands graphes du web, et donc sans moyen de sonder l’architecture du système à grande échelle, nous nous sommes tournés vers l’exploration locale d’agrégats particuliers de documents, soit par défi soit parce qu’émergeait déjà, dès les années 2005-2006, une forme de demande pour l’étude de certaines localités thématiques sur le réseau. C’est au cours de ces années que nous travaillé, comme d’autres, à la conception de méthodes et d’instruments dédiés à l’observation continue de certaines thématiques, notamment celles qui bénéficiaient d’une grande résonance sociale. En couplant l’analyse des liens et des contenus des pages, il devint possible de veiller certains domaines sur le web: les univers de la politique et de ses acteurs, la vie des marques et des produits, les bases de données scientifiques mises en réseau. Tout l’esprit et l’originalité de linkfluence est déjà là, tandis que d’autres, comme Dana Diminescu, ont adapté nos méthodes et nos instruments pour investiguer minutieusement le vaste domaine des migrations et des migrants sur le web. Dès cette époque, il apparut que cette couche médiane du web était façonnée par une dynamique particulièrement remarquable dans les données quand il s’agissait de thèmes polémiques, comme le sont souvent les controverses scientifiques et techniques. La rencontre avec le projet de Médialab à Sciences-Po-Paris se fit donc naturellement, et l’on connaît aujourd’hui le succès de leurs outils de cartographie de l’information. Mais ce détour que fut pour moi l’étude des controverses scientifiques a constitué l’occasion de confronter notre approche et notre modèle du web aux données massives indexées par les moteurs de recherche web. Là aussi, la rencontre avec l’équipe d’Exalead fut déterminante dans plusieurs de nos aventures, au croisement des masses de données textuelles et d’un lent et patient travail de validation manuelle…

chapitre6

Chapitre 5 – Méthode et Instruments

Voici le chapitre 5 des Chroniques du Web. Ce chapitre déroule les conséquences qu’eut pour moi, et tous ceux qui m’accompagnaient, la conception d’un modèle du web en couches distinctes. Les principes qu’annonçait ce modèle en layers a permis de mieux concevoir le web comme système complexe et distribué. Mais, au delà, c’est un processus de développement d’outils web expérimentaux qui a marqué notre activité pendant plusieurs années. C’est dans cet univers partagé avec des étudiants de l’U.T.C. et de jeunes ingénieurs que sont nés quelques grands projets pour lesquels j’ai toujours autant d’admiration pour l’engagement qu’ils ont nécessité: TARENTe, le navicrawler, Gephi, R.T.G.I. (linkfluence), L’Atelier Iceberg, Linkurious… Pour moi, l’important dans ce chapitre 5 aura été d’essayer de décrire comment une conception commune du web comme système a débouché sur une série de méthodes et d’applications, notamment dans l’univers professionnel et commercial. En retour, chacune des applications imaginées par les jeunes ingénieurs nourrissait le modèle que nous avions adopté. En quelques années, une sorte de petit écosystème technologique a vu le jour, né de ce qui m’apparaît aujourd’hui comme une authentique recherche technologique.

Chapitre5

Agrégats, le chapitre 4

Voici le chapitre 4 des Chroniques du Web. Un peu plus long que les autres, ce chapitre constitue un élément central de l’ouvrage. La «théorie des agrégats de documents web» à laquelle nous avons contribué a constitué un événement central dans nos explorations du réseau, en résonance avec les travaux des chercheurs et des ingénieurs d’IBM regroupés autour du projet CLEVER dans les années 1997-2000. Parmi eux, Jon Kleinberg a joué pour moi un rôle central dans une théorie qu’il a largement nourrie avec son algorithme H.I.T.S. (Hypertext Induced Topic Search). Pour la première fois, un modèle topologique général du web apparaissait dans la littérature scientifique, l’occasion pour nous d’en tester la «robustesse» et de valider nos premières intuitions. Nos expérimentations ont largement validé le principe la corrélation forte qui existe entre deux principes fondateurs du web comme réseau ouvert et distribué: la similarité des contenus et la proximité induite par les liens hypertextes. Et ce principe de corrélation donne naissance à un processus d’agrégation que HITS permet de calculer dans un set de pages web. Ainsi, les agrégats nous ont paru s’enchaîner eux-mêmes par proximité dans une couche médiane. Au delà, la couche haute, grande productrice de connexion, se dessinait à l’époque comme celle des « grands sites » web (commerciaux notamment) et des moteurs de recherche mais on y placerait aujourd’hui les instruments-clés du web 2.0, les réseaux sociaux. Mais, en deçà de la couche médiane, existe aussi un web documentaire, tournés la diffusion de contenus et leurs structuration à titre de documents. Le «modèle du web en couche» a peut être été notre originalité théorique mais il s’est surtout avéré être une synthèse abstraite dans laquelle nous pouvions valider nombre des intuitions nées de nos multiples explorations dans les web data. Enfin, nous pouvions comprendre à la fois le comportements de nos technologies sur le réseau (comme les crawlers) mais aussi les propriétés statistiques de nos données, qu’il s’agisse des contenus ou de la distribution de la connectivité hypertexte. Tout nous a semblé enfin cohérent, articulé, éclairé: la conservation de diamètres courts malgré l’augmentation des masses de documents, la distribution en loi de puissance des liens, une organisation des contenus en agrégats nés de la rencontre deux logiques constitutives du réseau, une dynamique documentaire plus ancienne de production et de diffusion et une dynamique inédite de distribution ouverte et tous azimuts des liens à partir de ces moteurs à connexion que sont les moteurs de recherche généralistes ou les réseaux sociaux. Ceux qui ont navigué avec moi, savent que l’on pourrait facilement consacrer un ouvrage entier aux multiples explorations que nous avons réalisées en analysant les agrégats de documents web. Je n’en résume que l’essentiel en essayant de présenter des concepts surprenants que nous commencions à épouser, comme de «hub», «d’autorité», de «communautés» ou de «géographie des agrégats». Notre modèle du web en couches nous a aussi permis d’explorer bien des territoires jamais cartographiés auparavant. Mais j’en reparlerai plus loin, évidemment…

Chap-4-Illus

 

Visite amicale à Nemopay

Je suis allé récemment rendre visite à la jeune équipe de Nemopay, aujourd’hui installée dans l’immeuble spacieux de venteprive.com à côté du stade de France. Thomas Recouvreux, Mathieu Guffroy, Arthur Puyou vivent aujourd’hui une belle aventure de jeunes entrepreneurs comme on aimerait en voir tant en France.

NemoPlay.png

(de gauche à droite: Florent Thévenet (en stage), Thomas recouvreux, (moi) et Mathieu Guffroy – deux des trois cofondateurs de Nemopay – et Jo Colina, un autre camarade de l’UTC en stage dans la société)

J’ai croisé les 3 jeunes associés pour la première fois dans mon enseignement à l’Université de Technologie de Compiègne. C’était en 2012 lorsqu’ils étaient étudiants en informatique. Leur discrétion comme leurs compétences techniques m’avaient fascinées dès le début et, pour tout dire, je me suis attaché à eux depuis lors. Pour valider mon enseignement, ils avaient imaginé un dispositif à base de graphe (évidemment!) qui s’appelait PicBrothers (le «PIC» c’est le foyer des étudiants de l’U.T.C.): ils avaient extrait des comptes facebook des étudiants de l’université les albums photos qu’ils traitaient ensuite avec face.com (l’application de reconnaissance de visages) en injectant dans leur système le trombinoscope de l’UTC. PicBrothers permettait ainsi de produire des graphes relationnels où les nœuds représentaient les étudiants et les liens leurs apparitions dans les mêmes photographies! Dans un texte consacré à la culture émergente des data sciences, j’avais signalé durant l’été 2012 l’exemple de PicBrothers comme dispositif original de data processing.

Quelques mois plus tard en 2013, Thomas, Mathieu et Arthur ont suivi avec moi une unité de valeur «Projet» pour concevoir et développer leur projet d’entreprise PayUTC, qui deviendra en 2014 la start-up Nemopay grâce aux conseils de deux de mes collègues de l’U.T.C. (Jospeh Orlinski et Véronique Misséri). Les trois compères se lancent dans les solutions cash-less ou «sans monnaie», autrement dit le paiement électronique ou e-paiement. Avec une carte magnétique ou un bracelet on peut payer à l’Université ses consommations au foyer mais aussi ses photocopies ou les laves-linges, à condition d’ouvrir un compte en ligne pour le recharger. Ce qu’il y a pour moi de fascinant, c’est l’interface de gestion du système, le back-office avec ses fonctionnalités: état des stock par point de vente en temps réel, état continu du chiffre d’affaire, statistiques côté client…Quelques-uns des étudiants de l’université produisent maintenant chaque semestre des cartographies à partir des données prêtées par l’équipe de Nemopay, comme celle basée sur le graphe étudiants-marques de bière consommées dans l’un des posts récents.

Le terrain de jeu sur les data est immense et l’on n’en a guère exploité tout le potentiel. Dans sa première phase, Nemopay a visé le marché des portes-monnaies électroniques pour les écoles, les événements, les centres de vacances, les commerces…L’équipe de Nemopay a par exemple déployé son système cash-less lors de l’UTCéenne en 2014 au Parc Astérix avec la gestion de 3 bars, 3 stands de nourriture, 2 caisses et plus de 3 500 participants. A peine créée en août 2014, Nemopay est rachetée en décembre 2015 par Weezevent (qui a fait entrer venteprivee.com à son capital en 2015), une société qui vend un logiciel de billetterie et d’inscription en ligne pour les spectacles, les événements sportifs, les congrès, les concerts ou les festivals. En rachetant Nemopay, Weezevent possède désormais une nouvelle corde à son arc avec la dématérialisation des flux monétaires et les nombreux avantages que procure la gestion des flux de ventes de tickets mais aussi les stocks et l’établissement de la comptabilité en temps réel. Quelle trajectoire en aussi peu de temps pour Thomas, Mathieu et Arthur! Quand je les ai revus il y a quelques jours, rien se semblait pourtant les avoir changé: comme au temps de PayUTC, la même passion et la même gentillesse les animent encore aujourd’hui. A la différence, peut-être, que ce sont eux qui accueillent désormais leurs camarades de l’UTC en stage! Allez, bon vent à vous trois…

Hiérarchie – chapitre 3

Voici le chapitres 3 des Chroniques du Web. Il reste encore quelques détails et coquilles je pense mais l’essentiel est là. J’ai choisi d’insister dans ce chapitre sur l’autre grande signature statistique d’un réseau comme le web, les phénomènes de hiérarchisation spontanée qui, avec la question des diamètres courts, permet d’appréhender plus précisément les questions de topologie. Evidemment, la question est là aussi vaste et peu aisée à manipuler étant donnée la supposée universalité du principe statistique de loi de puissance qui incarne, à lui seul, les mécanismes de hiérarchisation continue des systèmes distribués. Les adeptes des aspects mathématiques pourront se reporter au chapitre de l’ouvrage Network Science Book de V.-L. Barabasi accessible en ligne.

J’ai préféré aborder le sujet du point de vue local, en essayant de comprendre comment l’ouverture d’un simple blog (le mien en l’occurrence) peut renseigner précisément sur les mécanismes microscopiques qui finissent par produire à grande échelle des patterns massifs et aisément repérables dans les données comme les phénomènes de hiérarchisation. De ce point de vue, définir le web comme un écosystème documentaire n’a rien de fortuit et bien de propriétés semblent aujourd’hui communes avec les écosystèmes naturels et le principe de biodiversité. Et l’on peut même se demander si l’on peut encore définir comme un « système d’information » tant son caractère ouvert et distribué fait émerger des propriétés surprenantes…

chapitre3-hierarchie