Il arrive souvent que l’on me demande ce que j’entends par « cartographie de l’information » et il n’est pas aisé de répondre : est-ce une « science » ou une simple pratique ? Relève-t-elle de l’informatique ou du design graphique ? Implique-telle forcément l’utilisation de structures de graphes ? Quelles sont ses limites ou comment peut-on l’évaluer ? Ce que j’appelle « cartographie de l’information » relève d’abord et avant tout d’un champ de pratique et d’intervention (il ne s’agit donc pas de « science » à priori), finalement, assez restreint et articulé autour d’une même question : en quoi les structures de graphes (via leurs propriétés statistiques et visuelles) peuvent-elles enrichir notre rapport à l’information ? Et, si oui, comment mesurer leur plus-value dans des contextes expérimentaux d’exploration de grandes masses de données, d’aide à la décision, de veille ou encore de construction d’indicateurs d’aide à la gouvernance ? Tous ces aspects peuvent être discutés in abstracto, de façon « scientifique » et prêter à bien des analyses. Ici, pourtant, je voudrais aborder la question de la « cartographie de l’information » sous un angle pragmatique et lié aux enseignements que j’ai pu tirer d’une (longue) série d’expériences, aussi bien du point de vue de l’objet (la cartographie comme produit) que du (ou des) rôles joués par le cartographe quand il intervient.

A parcourir ce blog, il va sans dire que la cartographie de l’information représente un instrument privilégié de découverte et d’analyse de propriétés dans « des données » jusque-là méconnues, ou supposées implicitement, ou posées par hypothèses. Cela est vrai autant pour les web sciences que pour la bibliométrie, les réseaux sociaux en ligne que pour les transactions financières, les grandes organisations ou  les statistiques archivées dans les moteurs de recherche. A partir du moment que des données numériques circulent ou sont archivées, localement ou non, il y a potentiellement la place pour une démarche de cartographie de l’information qui est, fondamentalement, une démarche de valorisation. Sa plus-value réside dans les « vues » sur les données qu’elle permet : à titre d’instrument de synthèse (réduction des masses), d’exploration ou de découverte de connaissances (nous avons encore tant de choses à découvrir dans des univers pourtant numériques et artefactuels comme le web), d’indicateurs ou d’outils d’aide à la décision en matière de gestion et de stratégie. Cette démarche de valorisation se situe dans un espace encore peu exploité mais précis : le cartographe intervient à l’endroit où finissent les données et s’achève là où commence l’interprétation. Dans son atelier, il conçoit des instruments particuliers (parmi d’autres comme la logique floue ou l’économie contemporaine des connaissances) qui accompagnent notre compréhension et nos capacités d’intervention sur des univers informationnels qui aujourd’hui nous dépassent (en masses, en dimensions et en dynamisme). En somme, il s’agit de « monter d’un cran en abstraction » pour les réduire mais aussi, ce que l’on oublie trop souvent, poser de nouvelles questions (en ce sens, les cartographies de l’information attestent de propriétés connues dans les données autant qu’elles en révèlent de nouvelles).

Cartographie et chaînes de traitement de l’information. En contexte, la cartographie de l’information se situe entre les « systèmes d’information » (au sens large) et les interfaces (aux multiples déclinaisons), supports matériels qui accompagnent la recherche d’information, la réflexion, la décision ou l’orientation. Dans cet entre-deux, la cartographie de l’information s’appuie sur des processus d’analyse des données mais aussi, de façon indissociable, sur leur spatialisation. Les patterns qu’elle permet d’exhiber sont donc à la fois statistiques et visuels.

C’est dans cet espace que je loge la théorie des graphes, méthode puissante pour identifier des patterns relationnels qui nous fait apercevoir combien la « recherche verticale par mots-clés » et les résultats sous forme de listes à plat constituent une façon efficace mais limitée d’exploitation nos systèmes d’information. C’est en faisant jouer de façon alternative travail d’analyse et techniques de spatialisation  que se développe une façon inédite de valoriser un patrimoine informationnel, qu’il soit public (web) ou privé (intranet, BDD). La cartographie de l’information, sous ce double aspect, prend place parmi les méthodes de « data intelligence » où doivent (nécessairement) s’associer une forme d’ingénierie et des capacités d’interprétation.

La cartographie de l’information représente donc un pivot dans les nombreuses chaînes de traitement de l’information que l’on peut imaginer, depuis l’amont (le système d’information) jusqu’à l’aval des usages et des contextes d’utilisation. Parler comme ici des modalités d’interaction entre données et usages, c’est souligner de fait les deux écueils majeurs auxquels la cartographie est confrontée : une ingénierie des systèmes informatiques fermée sur elle-même et tournée essentiellement vers des problématiques d’optimisation des calculs ou de l’architecture (sous la forme éventuelle de « Directions aux Systèmes Informatiques » bunkerisées dans les organisations) et, de l’autre côté, les fameuses « infovis » ou « dataviz » (voire le « dataporn ») qui relèvent le plus souvent de l’exploit esthétique momentané, sans pérennité ni soucis de l’accès aux informations représentées. Il m’est même arrivé de croiser certains pour qui, à l’avenir, il suffira « d’un clic » pour transformer directement (et sans analyse ou expertise) des rapports indigestes de données statistiques en des visualisations synthétiques et agréables, présentable à sa hiérarchie.

Les enseignements du web classique ou « 2.0 » sont pourtant là : dans les univers informationnels contemporains, la plus-value vient essentiellement des fonctionnalités successives de manipulation des données (enrichissement, croisement, réplications) et qui s’agrègent au cours du temps. A l’heure des réseaux distribués et ouverts, la data-processing est devenu peut être plus important que les « briques » technologiques elles-mêmes prises isolément et quiconque réussit à « faire dialoguer » ou à construire des « passages » entre données native archivées et interfaces et contextes d’usages s’ouvre des pistes manifestes d’innovation. Rétrospectivement, je m’aperçois combien les projets auxquels j’ai participés se sont inscrits dans les rapports mutuels et dynamiques qui lient analyse de données et cartographies ou visualisation de graphes : Gephi évidemment, avec ses deux volets d’exploration de graphes (l’un dédié à la gestion de la spatialisation, l’autres au calcul des statistiques et des filtres mathématiques), le Navicrawler avec ses fonctionnalités de tagging de sites web et ses exports de graphes, les méthodes originales d’exploitation du web social de Linkfluence.

Cartographie et connectique. En un sens, la cartographie de l’information n’a guère évolué en ses principes depuis les apports de Solla Price en bibliométrie sur la représentation de patterns, les enseignements de Jacques Bertin sur la sémiologie graphique ou les travaux d’E. Tufte. Ce qui a profondément évolué, en revanche, c’est l’univers dans lequel elle prend place aujourd’hui, celui des réseaux d’informations avec lesquels elle doit dialoguer (faute de rester un exercice purement formel). Un cartographe passe peut être autant de temps à développer toute cette tuyauterie analytique qui permet aux données de circuler entre différents types de traitements qu’à produire les cartes elles-mêmes :

C’est sur le déploiement de cette connectique qui repose le travail d’analyse et de d’exploration des données, lui-même objet de différentes formes de spatialisation ou de projection graphique. L’expertise du cartographe vient essentiellement de là : déployer un processus de migration des données qui viendra placer de façon centrale son activité de construction des « vues ». C’est pour intervenir entre les systèmes d’information et les interfaces finales que l’on fait appel à lui, et produire ainsi une forme inédite d’expertise qui dépasse les simples mesures statistiques ou les recherches verticales par « mots-clés ». La plupart des projets auxquels j’ai participés ont été largement gouvernés vers la mise en place d’une phase intermédiaire d’exploration des données (et jamais facile techniquement) :

Au-delà de ses qualités intrinsèques (par exemple la pertinence d’une vue sur les données cristallisée sous forme de poster), la cartographie peut aussi être évaluée en fonction de la nature, du nombre ou de la complexité des opérations de transformation des données qui vont migrer d’un support ou d’un format à l’autre.  Je suppose que nombre de cartographes essayent d’automatiser au maximum ces chaînes de traitement et, dans l’environnement qui est le mien, plusieurs chantiers de développement technologique concernent spécifiquement le déploiement de cette connectique si nécessaire. Ainsi, toutes les cartographies ne se valent pas, non seulement pour leur efficacité visuelle ou les conclusions que l’on en tire, mais aussi pour la méthodologie et le dispositif de traitement des données d’où elles sont produites. Par exemple, Anne Helmond et Esther Weltvrede ont proposé dans un article une série de vue sur l’évolution de la blogosphère hollandaise (“Where do bloggers blog ? Platform transitions within the historical Dutch blogosphere “). La méthode déployée, les procédures de traitement, les outils et parfois certains sets de données natives sont détaillés à titre d’éléments d’une chaîne en partie reproductible.

Dans un registre similaire, Clément Levallois (membre du Consortium Gephi) a proposé une méthode simple de visualization “3D” en bibliométrie (à partir des données de L. Leydesdorff) largement accessible à tous et reproductible sur bien des fichiers de graphes (au format « .net » que lit et génère Gephi) :

Ces expérimentations scientifiques (largement artisanales) illustrent bien l’un des enjeux majeurs de la cartographie actuellement : l’intensité et la richesse des connexions qu’elle tisse avec les environnements informationnels. De fait, sa pertinence viendra de sa capacité à intégrer le temps réel, la gestion des flux et du multi-sourcing, le mapping des réseaux sociaux à grande échelle, le traitement des archives ou la géolocalisation.

Des cartographies à l’enrichissement du système. Le déploiement d’une phase d’analyse des données et de cartographie entre le système d’information et les interfaces finales conduit aussi à enrichir, en retour, l’ensemble du processus de traitement des données. L’exploitation d’une interface pourra conduire à la production de nouvelles vues sur les données, ces nouvelles vues permettront d’identifier de nouveaux patterns qu’il faudra décrire statistiquement, et ils feront eux-mêmes l’objet d’un nouveau descripteur ou d’un nouveau type de méta-données qu’il faudra intégrer dans le système d’information.

On aurait tort de réduire la cartographie de l’information à un type de « sortie » parmi d’autres et, au départ d’un projet cartographique, on ne mesure pas l’ampleur que peut souvent prendre ce principe récursif : outre l’aspect qualitatif du processus pour les données d’un système (auquel les informaticiens ne s’attendent pas toujours), la construction d’indicateurs cartographiques ou le repérage de certains patterns en analyse des données conduisent à modifier le modèle de données d’origine. Les figures sont nombreuses, de l’ajout à des notices bibliographiques de scores de centralité ou de Pagerank dans un graphe de co-publications à des classifications entières issues d’un vaste travail de regroupement en « communautés » (et sur plusieurs niveaux de hiérarchie) que l’on fait porter sur plus de 15.000 sources d’information comme à Linkfluence. Dans le programme VisIR pour le pôle de compétitivité Images et Réseaux, je viens par exemple d’intégrer au système de description des projets labellisés un descripteur « technologies-clés 2015 ». Parmi les opérations d’analyse des données de la BDD du pôle, j’ai été amené à comparer les types de technologies développées en Bretagne et Pays de Loire avec celles qui ont été identifiées par le cabinet Erdyn et la DGCIS au titre de « technologies d’avenir » et présentées dans un rapport public (dont j’ai parlé sur ce blog). J’ai donc intégré à mes données VisIR des informations externes provenant du rapport « Les Technologies-clés 2015 » pour pouvoir valider le principe de corrélation entre deux sources d’information différentes. Parmi les 85 technologies-clés identifiées, y-en-a-t-il qui sont déjà présentes dans les domaines de compétences du pôle ? Si oui, selon quels principes se regroupent-elles, entre elles et par rapport aux autres ?

Cet enrichissement des données internes du pôle permet aujourd’hui de produire à la demande des cartographies qui contextualisent et de positionnent les activités du pôle en fonction d’un contexte national dans le domaine des technologies d’avenir ou émergentes (à gauche, en rouge, les technologies qui entrent dans le champ de compétences du pôle images et Réseaux ; à droite, avec un contour gris). Mais le même principe peut potentiellement être déployé pour des bases de brevets, de publications scientifiques ou des sources web. L’une des idées que je poursuis en ce moment, consiste à positionner sur le même fonds de carte (les technologies-clés 2015) les activités d’autres pôles de compétitivité (notamment pour pouvoir les comparer sous un angle nouveau). Dans VisIR, la variable « technologie-clé »  constitue un type d’enrichissement du système d’information issu directement de la phase d’analyse des données et de leur spatialisation. Si la cartographie de l’information s’inscrit donc aujourd’hui dans un écosystème informationnel complexe et distribué, il apparaît évident qu’un projet cartographique réclame des compétences multiples et ne peut relever que d’un travail collectif.