Mathieu Jacomy est aujourd’hui ingénieur de recherche au Médialab de Science-Po-Paris. Ingénieur U.T.C. et rompu aux méthodologies de construction des corpus de données numériques pour les sciences humaines et sociales, il a intégré l’équipe du Médialab depuis l’origine du projet de cette structure d’innovation pour les sciences humaines et politiques imaginée par Bruno Latour. Pour le situer dans notre mille-feuilles qui règle administrativement le paysage de la recherche académique, Mathieu est responsable de l’un des trois volets de l’Equipex DIME-SHS (DIME-web), un équipement conçu comme une infrastructure de compétences techniques et méthodologiques pour l’extraction et l’analyse de données numériques pour les SHS. Le web est son domaine auquel il aime appliquer des instruments toujours inédits et développés en open-source de façon contributive. Voilà l’essentiel du «portrait officiel» de Mathieu, s’il est permis de le résumer ainsi.

MathieuPour moi, c’est un compagnon de longue date à travers nos premières tribulations dans le domaine de la recherche: la migration de nos premiers projets de développements technologiques depuis l’UTC vers la MSH de Paris (boulevard Raspail), les premières conférences sur la cartographie web des controverses que nous avons imaginées, nos premiers «grands graphes» de co-occurrence de mots-clés extrait du moteur web d’Exalead, «l’invention» de Gephi dont Mathieu a eu la première intuition (il est membre du Consortium), la naissance de Linkfluence (ex-R.T.G.I.) à laquelle il est mêlé, la création de WebAtlas, sans oublier tous ces «petits» instruments qu’il a conçus et/ou développés ces dernières années et qui ont constitué ma première «boîte à outils» de cartographe de l’information: le vieux navicrawler et le tout récent Hyphe, Table2Net, ScienceScape, I Want Hue…A travers toute cette activité technique, il faut savoir lire le pari de Mathieu: miser sur nos capacités d’imagination, embrasser l’univers du web et de ses données en masses comme un espace à explorer, réinventer les instruments d’accès et de représentation de l’information numérique en réseau.

Mais ce qui fait la renommée de Mathieu ce ne sont pas tous ces instruments d’analyse et de visualisation de l’information sous forme de graphes ou de cartes mais l’attention qu’il porte à ce moment délicat et riche d’enseignements de construction des corpus de données, ce moment qui va donner corps aux phénomènes étudiés ou, alors, nous obliger à revoir des «hypothèses» qui parfois ne trouvent pas prise sur les data. Pour le dire autrement, Mathieu pratique une école de patience et de minutie dans la construction méthodique d’un corpus, un savoir-faire qu’il sait partager et qu’il est en capacité d’argumenter épistémologiquement. La (trop) fameuse question de la relativité de la démarche du chercheur, de ses instruments ou des données ne l’effraie pas: il y a chez lui une volonté et un optimisme qui caractérisent souvent les inventeurs auxquels l’avenir est promis, et qui m’apparaît souvent en décalage avec le conservatisme érudit des S.H.S.

MathieuA

Les enseignements que l’on peut tirer de son savoir-faire d’ingénieur vont bien au delà du registre restreint de la cartographie des controverses telle qu’elle est pratiquée aujourd’hui. Car Mathieu est avant tout un spécialiste des techniques d’arpentage des espaces documentaires, et particulièrement de la plus difficiles d’entre elles: le web. Depuis longtemps, il a poli les outils et les méthodes qui lui permettent de mettre à jour ces “entités” productrices d’informations (le web est d’abord un système d’informations) mais aussi reliées entre elles par des liens hypertextes, des similarités de contenus et par d’autres indicateurs de connexion (le web est aussi un espace social). Comme pour moi, le travail de Mathieu se situe au delà des data (il les rassemble de façon cohérente en corpus) mais souvent en deçà de l’interprétation qu’il laisse à d’autres (les “experts” du social). C’est avec Mathieu, entre autres, et les travaux expérimentaux de l’association WebAtlas, que j’ai découvert dans les faits l’importance des principes de corrélation contenu-structure qui règlent la structure et l’évolution du web, comme l’avait annoncé les contributions scientifiques de J. Kleinberg, V.-L. Barabasi ou D. Watts. La cartographie des controverses scientifiques et techniques ont constitué un terrain propice à cette vérification (les phénomènes d’opposition-complémentarités sont parmi les plus aisés à observer sur le web parce qu’ils sont l’occasion d’agrégation fortes et distinctes comme dans l’univers de la politique en ligne ou les sujets polémiques comme les OGM ou le “mariage pour tous”). Mais les enseignements que Mathieu en a tiré sont plus génériques dans la conception d’instruments associés à l’arpentage de la structure hyperliée du web, et même de toute architecture documentaire.

MathieuB

Le coeur de sa démarche consiste à interroger les mécanismes de la constitution de “l’objet de science” dans le contexte des technologies numériques. La voie qu’il emprunte n’est pas celle de la théorie ou de l’érudition mais de l’activité outillée et de la réflexion (qu’il veut ouverte et commune) en nous montrant qu’en SHS, comme ailleurs, « l’objet de science » est souvent construit logiquement en articulant deux types de curseurs qui permettent de saisir « l’objet » ou le « phénomène » étudié: le premier consiste à contrôler le nombre d’unités qui permettent quantitativement d’asseoir le phénomène, en quelques sortes ce qui dans un corpus en fait la substance ou la masse. Ce sont les lignes d’une table de données que Mathieu, dans ses formations, nous oblige à nourrir, à compter et à contrôler ces lignes d’où il espère (notamment sur le web) pouvoir tirer une capacité de dénombrement des « entités » productrices d’informations mais aussi actrices de la dynamique sociale. Le second curseur est celui des dimensions de l’objet, que l’on retrouve sous la forme d’attributs ou de colonnes dans une table de données. Comme ingénieur, Mathieu connaît l’importance du contrôle de la multidimensionnalité d’un phénomène et des batteries d’attributs qui offrent différentes prises (ou « points de vue ») pour faire « tourner » l’objet sous différents angles comme un prisme. Ses formations consistent souvent à construire avec patience la fenêtre de saisie constituée par les deux curseurs, comme s’il s’agissait de monter une machine logique artisanale et de contribuer aux pièces qualitatives du web-mining et de ses méthodes.

On comprend dès lors les difficultés et les contraintes du métier «d’ingénieur de recherche», surtout dans un contexte SHS où l’on est naturellement porté à questionner les limites ou les relativités des méthodes dès qu’il s’agit de données, surtout numériques. C’est pourquoi le travail de Mathieu consiste aussi à palier aux difficultés liées au processus de construction de corpus interprétables, difficultés aussi bien cognitives que techniques en développant une infrastructure d’extraction, d’outils de (pré)traitement automatique, de réduction et de visualisation pour identifier des clusters, analyser des composantes multiples, agréger des dimensions, visualiser des croisements ou des résultats de seuillage. Malgré les masses de données à traiter, leur diversité ou leur caractère parfois très dynamique (notamment les tweets), il veille à maintenir opérationnel chez le chercheur en SHS (ou pour le chercheur) le contrôle qualitatif des frontières de son corpus à partir de critères de pertinence et d’exhaustivité (que connaissent bien les documentalistes et les bibliothécaires) et le contrôle quantitatif de l’étendue en veillant à pouvoir parcourir le corpus à tout instant (que connaissent les bien les ingénieurs avec leur art du requêtage sur les bases de données pour balayer les plus rapidement possible tous les objets d’une collection). Il va même plus loin: pour lui, dans un processus de recherche, les frontières des corpus peuvent être mouvantes et doivent être parfois redessinées (ce qui utile ou pertinent à un instant peut ne pas l’être demain) si bien qu’il est l’un des premiers ingénieurs qui, à ma connaissance, a avoir apporter autant de soin à archiver aussi les éléments exclus, jugés incertains ou inutiles comme dans un soucis de conservation de ce qui n’apparaît pas dans les (beaux) corpus finalisés de la recherche en SHS.

Mathieu rassemble ainsi ses compétences d’ingénieur et les problématiques parfois complexes de la recherche en SHS dans un exercice de synthèse ou d’équilibre qui fait la valeur de sa démarche. Son savoir-faire n’a pas encore de nom. Evidemment, il ne m’apparaît pas comme un « ingénieur de recherche » mais comme un authentique chercheur qui s’obstine à transformer, à travers les données, les corpus et les instruments, ceux qui les utilisent. Un maître de la méthode.