Chapitre 6, des data ciselées

Voici le chapitre 6 des Chroniques du Web. Le titre, «Des data ciselées», indique à lui seul le rôle prépondérant qu’a joué le travail qualitatif et manuel dans le contrôle et l’analyse des corpus de documents web. Faute d’infrastructure technique suffisante pour produire de grands graphes du web, et donc sans moyen de sonder l’architecture du système à grande échelle, nous nous sommes tournés vers l’exploration locale d’agrégats particuliers de documents, soit par défi soit parce qu’émergeait déjà, dès les années 2005-2006, une forme de demande pour l’étude de certaines localités thématiques sur le réseau. C’est au cours de ces années que nous travaillé, comme d’autres, à la conception de méthodes et d’instruments dédiés à l’observation continue de certaines thématiques, notamment celles qui bénéficiaient d’une grande résonance sociale. En couplant l’analyse des liens et des contenus des pages, il devint possible de veiller certains domaines sur le web: les univers de la politique et de ses acteurs, la vie des marques et des produits, les bases de données scientifiques mises en réseau. Tout l’esprit et l’originalité de linkfluence est déjà là, tandis que d’autres, comme Dana Diminescu, ont adapté nos méthodes et nos instruments pour investiguer minutieusement le vaste domaine des migrations et des migrants sur le web. Dès cette époque, il apparut que cette couche médiane du web était façonnée par une dynamique particulièrement remarquable dans les données quand il s’agissait de thèmes polémiques, comme le sont souvent les controverses scientifiques et techniques. La rencontre avec le projet de Médialab à Sciences-Po-Paris se fit donc naturellement, et l’on connaît aujourd’hui le succès de leurs outils de cartographie de l’information. Mais ce détour que fut pour moi l’étude des controverses scientifiques a constitué l’occasion de confronter notre approche et notre modèle du web aux données massives indexées par les moteurs de recherche web. Là aussi, la rencontre avec l’équipe d’Exalead fut déterminante dans plusieurs de nos aventures, au croisement des masses de données textuelles et d’un lent et patient travail de validation manuelle…

chapitre6

Chapitre 5 – Méthode et Instruments

Voici le chapitre 5 des Chroniques du Web. Ce chapitre déroule les conséquences qu’eut pour moi, et tous ceux qui m’accompagnaient, la conception d’un modèle du web en couches distinctes. Les principes qu’annonçait ce modèle en layers a permis de mieux concevoir le web comme système complexe et distribué. Mais, au delà, c’est un processus de développement d’outils web expérimentaux qui a marqué notre activité pendant plusieurs années. C’est dans cet univers partagé avec des étudiants de l’U.T.C. et de jeunes ingénieurs que sont nés quelques grands projets pour lesquels j’ai toujours autant d’admiration pour l’engagement qu’ils ont nécessité: TARENTe, le navicrawler, Gephi, R.T.G.I. (linkfluence), L’Atelier Iceberg, Linkurious… Pour moi, l’important dans ce chapitre 5 aura été d’essayer de décrire comment une conception commune du web comme système a débouché sur une série de méthodes et d’applications, notamment dans l’univers professionnel et commercial. En retour, chacune des applications imaginées par les jeunes ingénieurs nourrissait le modèle que nous avions adopté. En quelques années, une sorte de petit écosystème technologique a vu le jour, né de ce qui m’apparaît aujourd’hui comme une authentique recherche technologique.

Chapitre5

Agrégats, le chapitre 4

Voici le chapitre 4 des Chroniques du Web. Un peu plus long que les autres, ce chapitre constitue un élément central de l’ouvrage. La «théorie des agrégats de documents web» à laquelle nous avons contribué a constitué un événement central dans nos explorations du réseau, en résonance avec les travaux des chercheurs et des ingénieurs d’IBM regroupés autour du projet CLEVER dans les années 1997-2000. Parmi eux, Jon Kleinberg a joué pour moi un rôle central dans une théorie qu’il a largement nourrie avec son algorithme H.I.T.S. (Hypertext Induced Topic Search). Pour la première fois, un modèle topologique général du web apparaissait dans la littérature scientifique, l’occasion pour nous d’en tester la «robustesse» et de valider nos premières intuitions. Nos expérimentations ont largement validé le principe la corrélation forte qui existe entre deux principes fondateurs du web comme réseau ouvert et distribué: la similarité des contenus et la proximité induite par les liens hypertextes. Et ce principe de corrélation donne naissance à un processus d’agrégation que HITS permet de calculer dans un set de pages web. Ainsi, les agrégats nous ont paru s’enchaîner eux-mêmes par proximité dans une couche médiane. Au delà, la couche haute, grande productrice de connexion, se dessinait à l’époque comme celle des « grands sites » web (commerciaux notamment) et des moteurs de recherche mais on y placerait aujourd’hui les instruments-clés du web 2.0, les réseaux sociaux. Mais, en deçà de la couche médiane, existe aussi un web documentaire, tournés la diffusion de contenus et leurs structuration à titre de documents. Le «modèle du web en couche» a peut être été notre originalité théorique mais il s’est surtout avéré être une synthèse abstraite dans laquelle nous pouvions valider nombre des intuitions nées de nos multiples explorations dans les web data. Enfin, nous pouvions comprendre à la fois le comportements de nos technologies sur le réseau (comme les crawlers) mais aussi les propriétés statistiques de nos données, qu’il s’agisse des contenus ou de la distribution de la connectivité hypertexte. Tout nous a semblé enfin cohérent, articulé, éclairé: la conservation de diamètres courts malgré l’augmentation des masses de documents, la distribution en loi de puissance des liens, une organisation des contenus en agrégats nés de la rencontre deux logiques constitutives du réseau, une dynamique documentaire plus ancienne de production et de diffusion et une dynamique inédite de distribution ouverte et tous azimuts des liens à partir de ces moteurs à connexion que sont les moteurs de recherche généralistes ou les réseaux sociaux. Ceux qui ont navigué avec moi, savent que l’on pourrait facilement consacrer un ouvrage entier aux multiples explorations que nous avons réalisées en analysant les agrégats de documents web. Je n’en résume que l’essentiel en essayant de présenter des concepts surprenants que nous commencions à épouser, comme de «hub», «d’autorité», de «communautés» ou de «géographie des agrégats». Notre modèle du web en couches nous a aussi permis d’explorer bien des territoires jamais cartographiés auparavant. Mais j’en reparlerai plus loin, évidemment…

Chap-4-Illus

 

Visite amicale à Nemopay

Je suis allé récemment rendre visite à la jeune équipe de Nemopay, aujourd’hui installée dans l’immeuble spacieux de venteprive.com à côté du stade de France. Thomas Recouvreux, Mathieu Guffroy, Arthur Puyou vivent aujourd’hui une belle aventure de jeunes entrepreneurs comme on aimerait en voir tant en France.

NemoPlay.png

(de gauche à droite: Florent Thévenet (en stage), Thomas recouvreux, (moi) et Mathieu Guffroy – deux des trois cofondateurs de Nemopay – et Jo Colina, un autre camarade de l’UTC en stage dans la société)

J’ai croisé les 3 jeunes associés pour la première fois dans mon enseignement à l’Université de Technologie de Compiègne. C’était en 2012 lorsqu’ils étaient étudiants en informatique. Leur discrétion comme leurs compétences techniques m’avaient fascinées dès le début et, pour tout dire, je me suis attaché à eux depuis lors. Pour valider mon enseignement, ils avaient imaginé un dispositif à base de graphe (évidemment!) qui s’appelait PicBrothers (le «PIC» c’est le foyer des étudiants de l’U.T.C.): ils avaient extrait des comptes facebook des étudiants de l’université les albums photos qu’ils traitaient ensuite avec face.com (l’application de reconnaissance de visages) en injectant dans leur système le trombinoscope de l’UTC. PicBrothers permettait ainsi de produire des graphes relationnels où les nœuds représentaient les étudiants et les liens leurs apparitions dans les mêmes photographies! Dans un texte consacré à la culture émergente des data sciences, j’avais signalé durant l’été 2012 l’exemple de PicBrothers comme dispositif original de data processing.

Quelques mois plus tard en 2013, Thomas, Mathieu et Arthur ont suivi avec moi une unité de valeur «Projet» pour concevoir et développer leur projet d’entreprise PayUTC, qui deviendra en 2014 la start-up Nemopay grâce aux conseils de deux de mes collègues de l’U.T.C. (Jospeh Orlinski et Véronique Misséri). Les trois compères se lancent dans les solutions cash-less ou «sans monnaie», autrement dit le paiement électronique ou e-paiement. Avec une carte magnétique ou un bracelet on peut payer à l’Université ses consommations au foyer mais aussi ses photocopies ou les laves-linges, à condition d’ouvrir un compte en ligne pour le recharger. Ce qu’il y a pour moi de fascinant, c’est l’interface de gestion du système, le back-office avec ses fonctionnalités: état des stock par point de vente en temps réel, état continu du chiffre d’affaire, statistiques côté client…Quelques-uns des étudiants de l’université produisent maintenant chaque semestre des cartographies à partir des données prêtées par l’équipe de Nemopay, comme celle basée sur le graphe étudiants-marques de bière consommées dans l’un des posts récents.

Le terrain de jeu sur les data est immense et l’on n’en a guère exploité tout le potentiel. Dans sa première phase, Nemopay a visé le marché des portes-monnaies électroniques pour les écoles, les événements, les centres de vacances, les commerces…L’équipe de Nemopay a par exemple déployé son système cash-less lors de l’UTCéenne en 2014 au Parc Astérix avec la gestion de 3 bars, 3 stands de nourriture, 2 caisses et plus de 3 500 participants. A peine créée en août 2014, Nemopay est rachetée en décembre 2015 par Weezevent (qui a fait entrer venteprivee.com à son capital en 2015), une société qui vend un logiciel de billetterie et d’inscription en ligne pour les spectacles, les événements sportifs, les congrès, les concerts ou les festivals. En rachetant Nemopay, Weezevent possède désormais une nouvelle corde à son arc avec la dématérialisation des flux monétaires et les nombreux avantages que procure la gestion des flux de ventes de tickets mais aussi les stocks et l’établissement de la comptabilité en temps réel. Quelle trajectoire en aussi peu de temps pour Thomas, Mathieu et Arthur! Quand je les ai revus il y a quelques jours, rien se semblait pourtant les avoir changé: comme au temps de PayUTC, la même passion et la même gentillesse les animent encore aujourd’hui. A la différence, peut-être, que ce sont eux qui accueillent désormais leurs camarades de l’UTC en stage! Allez, bon vent à vous trois…

Hiérarchie – chapitre 3

Voici le chapitres 3 des Chroniques du Web. Il reste encore quelques détails et coquilles je pense mais l’essentiel est là. J’ai choisi d’insister dans ce chapitre sur l’autre grande signature statistique d’un réseau comme le web, les phénomènes de hiérarchisation spontanée qui, avec la question des diamètres courts, permet d’appréhender plus précisément les questions de topologie. Evidemment, la question est là aussi vaste et peu aisée à manipuler étant donnée la supposée universalité du principe statistique de loi de puissance qui incarne, à lui seul, les mécanismes de hiérarchisation continue des systèmes distribués. Les adeptes des aspects mathématiques pourront se reporter au chapitre de l’ouvrage Network Science Book de V.-L. Barabasi accessible en ligne.

J’ai préféré aborder le sujet du point de vue local, en essayant de comprendre comment l’ouverture d’un simple blog (le mien en l’occurrence) peut renseigner précisément sur les mécanismes microscopiques qui finissent par produire à grande échelle des patterns massifs et aisément repérables dans les données comme les phénomènes de hiérarchisation. De ce point de vue, définir le web comme un écosystème documentaire n’a rien de fortuit et bien de propriétés semblent aujourd’hui communes avec les écosystèmes naturels et le principe de biodiversité. Et l’on peut même se demander si l’on peut encore définir comme un « système d’information » tant son caractère ouvert et distribué fait émerger des propriétés surprenantes…

chapitre3-hierarchie

 

 

 

 

 

L’U.T.C. sous toutes les coutures, suite(s)

Je reviens quelques instant sur le programme annoncé dans le post l’U.T.C. sous toutes les coutures. L’objectif de nos expérimentations actuelles visent plusieurs objectifs qui ne se limitent à des questions de visualisation de graphes. Il s’agit de concevoir un système d’information global qui exploiterait différents silos informationnels. Bon, c’est l’objectif et je me doute des difficultés pour pouvoir le développer…enfin si l’on néglige les compétences et l’enthousiasme des étudiants de l’U.T.C. Par ailleurs, un certain nombre de modules du système envisagé sont potentiellement opérationnels ainsi que la disposition d’un nombre significatif de données. Enfin, différents projets plus anciens dont j’ai parlé dans ce blog pourront inspirer la démarche:

La cartographie dans les organisations: quelques enseignementsLe Design stratégiqueLinkedBySkillsLa Carte des I.R.T. et de B-com par l’Atelier IcebergLe véhicule autonomeExpédition cartographique dans l’univers des brevetsCartographier des territoires innovantsCartographies et mesures de la scienceLes Technologies-Clés 2015

Dans ce cadre, il est bon de rappeler l’esprit du projet. Il ne s’agit pas de reproduire les systèmes existants, efficaces en interne pour la gestion des informations administratives et/ou utiles en termes d’affichage public. L’objectif est de proposer aux usagers internes à notre université un système d’information en ligne avec des outils de search classiques et branchés sur plusieurs silos informationnels. Il s’agit donc d’un système destiné à valoriser le patrimoine informationnel de l’université, notamment les informations produites pour et par les étudiants, actuels et/ou anciens. Evidemment, sur ce point, les problèmes d’accès aux informations reste un problème central: les brevets, les publications scientifiques et une bonne partie des documents associés à la vie des laboratoires sont accessibles sur le web. Par contre, le recueil des données sur les étudiants et l’inscription aux enseignements semestre après semestre pose plus de difficulté. Dans ce cas, on ne peut qu’associer les étudiants et/ou leurs représentant à la démarche du projet.

L’autre dimension du système envisagé consiste à associer à chacun des silos informationnels une série d’indicateurs qui manifestent certaines de leurs propriétés. Il s’agit d’un système d’information enrichi de nouveaux services dans une perspective de valorisation du patrimoine informationnel de l’école. Le principe peut être illustré de bien des façons. Par exemple, dans le cas des publications scientifiques de l’U.T.C., on peut calculer différents indicateurs de notoriété (via les citations à différentes échelles), la centralité (ou le degré de pluridisciplinarité), les thématiques abordées à l’échelle d’un établissement ou d’un laboratoire, les coopérations (internes ou externes), etc. Le rythme des remises à jour dépend de la nature du silo informationnel (annuel pour les brevets, les publications, les projets ANR ou autres…), semestriel pour les données étudiants, hebdomadaire si l’on veut archiver des données d’usage…le tout, de façon manuelle et/ou automatique. Il est ici important de souligner à nouveau dans ce blog que la validité d’un indicateur ne dépend pas seulement de la qualité des data mobilisées et des solutions graphiques retenues: il dépend de la pertinence perçue par la communauté productrice d’informations. Les acteurs de l’université, des experts que sont les chercheurs aux étudiants, doivent être associés d’une façon ou d’une autre à la mise en place des indicateurs.

Ce principe de design participatif est essentiel si l’on veut éviter deux excès, sachant que les enjeux autour de la maîtrise des données sont souvent stratégiques pour les organisations. Le premier, et qui inquiète souvent, est celui d’une libération massive des données de façon publique et incontrôlée. La bonne échelle, selon moi, est locale à l’échelle des communautés composant une école ou une université. De là, on peut souhaiter une fédération succession des projets et de façon stratégique. Personnellement (mais je ne suis pas seul à le penser), on peut envisager de déployer une démarche similaire à la notre dans les deux autres universités de technologie (Troyes et Belfort-Monbéliard). Chacun s’est rendu compte que derrière le déploiement d’un système d’information réside une vision politique en termes de développement et de territoires. L’autre excès, que je connais mieux, consiste à mobiliser les silos de données pour décider, évaluer, orienter une politique universitaire sans jamais communiquer publiquement sur le processus auprès des communautés concernées. Ou alors seulement sur les résultats, et de façon tellement parcimonieuse que l’on se demande d’où ils viennent. Evidemment, la démarche que nous entamons pose des questions de fond aux différences services en charge des données, depuis les D.S.I. (Direction aux Systèmes d’Information), les directions générales, la direction à la recherche ou services de communication externe. Mais la révolution des données dans les organisations arrive et il serait bon de s’en emparer maintenant plutôt que d’attendre demain…que des géants de l’information s’emparent, là aussi, de données produites par une foule d’acteurs dépouillés e leurs prérogatives.

Un premier recensement fait apparaître la variété des sources d’informations dans une école comme l’U.T.C. Les 3 groupes de sources retranscrivent les 3 grands grands processus de production de documents ou de traces numériques, donc traitables dans un système. Ils répondent à la classification générale des fonctions d’une université ou d’une école d’ingénieurs: enseignement, recherche, innovation. Il s’agit d’une version temporaire car tous les silos potentiels n’ont pas encore été repérés dans notre université.

TableauSilos

La troisième catégorie m’intéresse particulièrement, comme accompagnateur de startups du numérique mais aussi comme cartographe, et peut-être même comme citoyen tout simplement. Au delà des discours de promotion, les questions d’innovation et de création d’entreprises méritent d’être traitées sous l’angle d’une observation minutieuse, quand les données sont accessibles. La cartographie et l’étude des mécanismes des écosystèmes d’innovation en territoire va retenir de en plus mon attention: non seulement pour argumenter le concept (la notion d’écosystème d’innovation pouvant être l’objet de conceptions très différentes) mais aussi analyser finement les voies par lesquelles la création d’entreprises est soutenue par différentes politiques publiques (le système d’aides en particulier). Les silos d’informations exploitables sont donc nombreux et divers dans les organisations et il est grand temps d’ouvrir la question dans nos écoles et nos universités. L’irruption des data sciences dans les organisations, dès qu’elle se manifeste, impacte logiquement les services et les acteurs dans les processus de management au sens global. La gestion des compétences et des formations, les aspects décisionnels et prévisionnels d’une politique d’établissement et le rôle des services informatiques sont clairement interrogés par ce type de démarche. Une nouvelle politique numérique dans les organisations s’impose, surtout en France où le retard est criant. Au risque d’être débordé, puis dépassé…

Chroniques du Web, chapitre 2

Merci à tous ceux qui sont venus lire mes deux derniers posts, surtout celui consacré aux données de l’U.T.C. Chacun aura compris qu’ils sont liés: les Chroniques du Web font office de support de cours pour mon enseignement ce semestre et les projets autour de l’analyse des data ont servi à valider les étudiants. Parmi les pistes qu j’ai présentées dans le second post, « L’U.T.C. sous toutes les coutures », quelques-uns parmi vous m’ont fait retour sur le projet d’exploiter nos premiers résultats sous la forme d’un moteur interne à notre université. Je réfléchis encore à son ampleur et aux nombreuses directions qu’il faudra tester, depuis la gestion des données jusqu’aux interfaces.

En attendant, je vous livre le chapitre 2 des Chroniques. « Questions de distances » est l’un des chapitres les plus développés de l’ouvrage (enfin, un « ouvrage » encore virtuel matériellement mais dont j’ai presque fini de rédiger l’intégralité des 14 chapitres).

chapitre2

Le concept de distances peut se prêter à bien des traitements théoriques mais appliqué aux graphes du web et aux technologies de l’information-réseau il m’a d’emblée fasciné dès le début des années 2000. Les mesures du web documentaire et leurs métriques à base graphes dépassent les frontières des statistiques ou de la question des modes de classement des documents dans un système d’information: elles ont transformé un vaste réseau ouvert et distribué en un objet physique, une structure qui possède un diamètre, une densité, une circonférence, presque décomposable en parties distinctes. Dès mes premières lectures sur le sujet, il y a longtemps maintenant, j’ai acquis la conviction que posséder les clés théoriques de ce qui était déjà devenu le plus vaste systèmes de document de l’histoire permettrait d’imaginer les technologies et les méthodes qui lui seraient nativement associées. Evidemment, les californiens l’avaient déjà compris, avec ce temps d’avance sur le reste du monde qui s’explique pour leur pragmatisme et leur ouverture d’esprit aux pistes scientifiques les plus aventureuses. Le concept de distances appliqué aux structures de graphes fait résonner de bien des façons nos représentations implicites du web, avec des questions qui lui sont complémentaires comme de la temporalité (déjà esquissée dans ce chapitre) et la signification de ces mesures si on les considère d’un point de vue plus anthropologique.

Voilà l’essentiel, en souhaitant pouvoir vous embarquer avec moi dans cette première expédition.