La plateforme Vizir dédiée à la cartographie des différentes dimensions de l’activité des Pôles de Compétitivité et déployé pour Images et Réseaux s’enrichit aujourd’hui d’un nouveau prototype en Javascript. Développée par Fabien Minard (U.T.C.), la cartographie interactive en ligne vient s’ajouter à d’autres types d’outils comme la « Dashboard » de Linkfluence dans lequel ont été intégrées les informations relatives à la gestion des projets labellisés par le pôle depuis 2005. Le dispositif est basé sur l’exploitation des graphes bi-partites associant, d’un côté, les quelques 650 partenaires (laboratoires de recherche, groupes industriels, PMI-PME, institutions publiques, associations) associés entre eux à travers plus de 400 projets labellisés. Ce type de cartographie devient aujourd’hui assez classique et figure parmi les premiers instruments d’investigation à mettre en place quand on veut observer la « géographie » sociale et thématique d’une grande organisation distribuée géographiquement comme le sont les pôles de compétitivité (en quelques sortes, « qui fait quoi, et avec qui? »). C’est l’occasion, ici, de revenir sur une chaîne de traitement cartographique que j’ai eu l’occasion de tester en formant deux groupes d’étudiants, les interactivité 3e année de l’Ecole de Design Nantes-Atlantique et ceux de l’Université de Technologie de Compiègne.

Données d’origine et process. Comme je l’ai déjà indiqué auparavant, le déploiement du processus de cartographie s’effectue depuis des données de départ sous forme de tables de données puis à travers un double travail d’analyse (notamment en croisant les différentes dimensions de l’information en cherchant à isoler des indicateurs pertinents pour l’analyse ou l’aide à la décision) et de spatialisation des données qui accompagne le travail d’analyse.

Les effets « rétroactifs » d’une phase de traitement sur la précédente (soulignées en rouge) ont joué ici une grande importance, comme souvent. Par exemple, en phase d’analyse, il a manqué des indicateurs de contenus assez précis pour chacun des projets, de façon à comprendre les logiques de regroupements des partenaires en fonction de « compétences ». Nous sommes donc « retournés aux données » pour extraire (manuellement) des résumés des projets des mots-clefs pertinents, et ainsi ont été rajoués de nombreux descripteurs de contenus pour chacun des projets. Autre exemple : le besoin s’est fait sentir de produire des cartes géoréférencées pour étudier la logique de distribution territoriale des acteurs. L’algorithme de géolocalisation implémenté dans Gephi fonctionne à partir de coordonnées GPS, qu’il a donc fallu rajouté aux données d’origine en complément des seules indications de départements et de régions. Des développements futurs permettront de coupler directement l’interface avec GoogleMap. Là encore, il faut retenir le principe d’enrichissement des données d’origine à travers le projet cartographique.

Le croisement des différentes dimensions de l’information. La cartographie de l’information repose sur un principe central de croisement des différentes dimensions de l’information : plus elles sont nombreuses (et de qualité), plus le nombre de vues sur les données est important. C’est l’une des facettes de la « démarche qualité » associée à la cartographie quand on explore les données d’un système d’information (à prendre au sens large : du fichier Excel aux exports XML ou CSV de grands systèmes).

Il est encore difficile aujourd’hui de classer avec précision toutes les formes de cartographie de l’information. Cependant, au moins deux grands types emblent se dégager (qui correspondent aussi aux différentes demandes formulées par les partenaires du projets et/ou les commanditaires de l’étude cartographique) : les cartographies de réseaux d’acteurs (réseaux sociaux, réseaux de collaboration, positionnement géographique et distribution territoriale, gestion membres) et les cartographies de « compétences » ou ce que j’appelle souvent « cartographies thématiques » (mots-clefs, résumés de projets, indicateurs de contenus de tous types associés, par exemple, aux publications, aux brevets ou à la documentation technique). La répartition en deux grands types, thématique et social, permet ainsi d’envisager de déployer pour chaque organisation un tableau de bord permettant de mesurer, d’un côté les « inputs » (réseaux d’acteurs) et, de l’autre, les « outputs » ou ce que produit l’organisation en termes de contenus, de réalisations, de compétences.

La production de structures de graphes. La production de structures de graphes à partir des données d’origine a toujours constitué un problème majeur, notamment pour tous ceux qui, comme moi, n’ont pas les compétences d’un ingénieur ou d’un informaticien. Comment transformer les lignes et les colonnes d’un fichier Excel en fichier GEXF que GEPHI peut lire? Mathieu Jacomy (Médialab, Sciences-Po) a développé il y a quelques temps un système original et très pratique : Table2Net (from Table To Network). A partir d’une URL, on « up-load » un fichier au format CSV (Excel ou GoogleDoc permettent d’en produire) et, ensuite, il suffit de spécifier les paramètres essentiels qui permettent de produire une structure de graphe (quelle colonne représente les noeuds du graphe? A partir de quelle colonne produit-on les liens? quels types de méta-données veut-on associer aux noeuds et aux liens? Le fichier admet-il une dimension temporelle? Etc.). Une fois effectués ces choix, le fichier est généré automatiquement et s’ouvre directement avec Gephi. On peut ainsi produire autant de fichiers GEXF que l’on souhaite à partir d’une même table de données.

Il s’agit là, pour moi, d’une « brique » essentielle et qui rend désormais possible le déploiement d’un projet cartographique sans passer par les étapes (parfois complexes) de la production de scripts. Table2Net permet ainsi, avec une initiation minimale, à tout-un-chacun de réaliser (relativement) aisément ses premiers pas en matière de cartographie de l’information et d’assurer son autonomie en termes de compétences techniques. Evidemment, Table2Net constitue pour moi un élément central dans une formation à la cartographie de l’information.

La phase d’analyse et d’interprétation des résultats. Un schéma linéaire où se succèdent les différents dispositifs laisse dans l’ombre le travail d’analyse et d’interprétation des graphes permis par Gephi, tant du point de vue des propriétés statistiques (mesures de centralité, distribution de la connectivité, ranking, détection de clusters…) que des modalités de spatialisation des données (la famille des ForceAtlas notamment et leurs différents réglages). Ce travail est absolument nécessaire avant toute migration d’une vue donnée vers Sigmajs, en insistant sur le fait qu’une production cartographique résulte d’un certain nombre de choix précis et assumés. Ainsi, la structure de graphe choisie (relations partenaires/Projets labellisés) permet d’appréhender de façon synthétique l’ensemble de l’activité du pôle sur plus de 7 années (650 partenaires, plus de 400 projets reliés ensemble par 2335 liens de collaboration). La vue générale laisse apercevoir de vastes zones dédiées à différents types de collaboration mais aussi des « clusters » précis et visiblement représentatifs de communautés très actives dans des domaines très spécialisés. S’agit-il là de regroupement d’acteurs ayant des compétences similaires ou complémentaires ou bien existe-t-il une autre raison (par exemple des questions de proximité géographique par villes, départements ou régions)? C’est pour répondre à cette question qu’un (long) travail de relecture des résumés des projets a été nécessaire pour ajouter aux données natives des batteries de descripteurs de contenus sous forme de mots-clefs. Une fois réalisée cette étape, on peut alors afficher la vue générale mais en associant à chaque projet les descripteurs de contenu, ce qui permet de valider l’idée que la géographie sociale du pôle est bien gouvernée par des principes de compétences partagées et/ou complémentaires quelle que soit l’origine géographique des acteurs ou, encore, le type de partenaires – laboratoires de recherche, grands groupes industriels, PMI-PME…- (notamment dans des clusters très spécialisés autour des applications médicales, de la TV Haute Définition ou de la Réalité Virtuelle). Ce type de travail d’analyse conditionne aussi en partie les choix techniques associés à l’interface finale, par exemple en autorisant de trier de façon croisée à la fois à partir de critères géographiques (par départements) et de critères thématiques (compétences). Il a aussi permis de construire des catégories qui permettent de classer les projets et les partenaires mais aussi simultanément de spécifier des zones de la carte (d’où la fonction « Afficher les catégories »).

Le système d’exploration en ligne. La cartographie interactive en ligne est basée sur l’exploitation de Sigmajs (Alexis Jacomy, Linkfluence) et sur le travail produit à l’occasion de la publication du projet Facenuke de Geenpeace-France. Fabien Minard a implémenté différentes fonctionnalités qui permettent de naviguer dans les données « partenaires » et « projets » (le prototype sera bientôt documenté). Le menu principal permet une recherche par mot-clef (avec un « suggest » associé) et l’élément sélectionné « s’allume » dans le graphe (par ailleurs zoomable). Différents types d’informations sont affichés dans un espace à droite, comme le site web des partenaires, les autres noeuds auxquels l’élément est associé (qui « s’allument » dans le graphe par « roll-over »).

Les fonctions de l’interface ne se limitent à la recherche d’information et à l’analyse contextuel d’un élément. On peut aussi afficher et naviguer dans le système de catégories et de sous catégories issu du travail d’analyse des résumés des projets. Il s’agit donc d’une classification issue d’une démarche « bottom-up », bien que le pôle dispose par ailleurs de grandes catégories pré-définies. Le système cartographique peut être mobilisé pour enrichir une discussion générale sur la pertinence des types de classification et leur confrontation problématique : doit-on épouser des classes prédéfinies et, en quelques sortes, imposées aux données? Ou bien doit-on doit-on baser son système d’information sur des classes issues de l’analyse des données?

Hormis quelques groupes de projets et de partenaires, la plupart des catégories sont concentrées dans des espaces bien définis de la cartographie. On peut afficher les catégories et en sélectionner une pour ne faire apparaître que les noeuds qui lui sont associés, une tâche nécessaire pour comprendre les logiques de regroupement des partenaires ou des acteurs. On peut aussi afficher par superposition sur le graphe général les différentes zones et leurs labels, ce qui permet d’appréhender à grande échelle les principes de concentration de compétences ou de métiers.

Comme les sélections peuvent être multiples (par exemple une thématique et un département, comme à droite ci-dessus), on peut explorer de façon croisée à la fois une localisation et des thématiques (un département est-il associé à un ou plusieurs types de partenaires ou de compétences? Ou, à l’inverse, comment se distribuent les compétences à l’échelle d’un territoire?). Evidemment, ce type de recherche préfigure une série de cartes géoréférencées. Plus globalement, le prototype développé par Fabien Minard annonce un système de visualisation de fichier GEXF (Gephi) qui permettra à chacun, sans trop de difficultés techniques, de produire ses propres cartes interactives. Les développements annoncés pour cet été par la petite communauté sigmajs paraissent prometteurs, en intégrant notamment une « time-line » pour appréhender l’évolution des réseaux de partenariats. Tout comme Table2Net, la prochaine version du prototype fera partie de la boîte à outils de l’Atelier, et de tous ceux qui pourront suivre bientôt mes formations à la cartographie de l’information.