« Clichés cartographiques autour de 481 notices bibliographiques consacrées à la recherche française dans le domaine du véhicule autonome », tel est le sous titre de l’étude cartographique que j’ai menée sur le thème du « véhicule autonome » en compagnie de Clément Boussard (chercheur à l’IFSTTAR), Akin Kazakci (chercheur à l’Ecole des Mines ParisTech), de Doriane Ibarra et Jordane Raisin-Dadre de la bibliothèque de l’Ecole des Mines de Paris et de l’Atelier Iceberg pour finaliser les vues (ou m’obliger à réduire mon texte, ou à rendre mes phrases plus simples à lire!). Le rapport d’étude et le poster associé ne sont pas nés d’un projet académique labellisé par l’A.N.R. ou d’une demande ministérielle, à une époque où se multiplient les références au « véhicule du futur » dans les politiques actuelles d’innovation et de reconquête industrielle. Ils sont simplement à considérer comme les produits d’une démarche d’expérimentation, initiée de façon spontanée au printemps dernier. Notre démarche commune a reposé sur l’idée qu’il est possible d’extraire des informations pertinentes sur la thématique du « véhicule autonome » en visant particulièrement l’observation du travail des chercheurs des laboratoires français à partir de leur activité de publication scientifique. Et voilà encore un voyage dans l’univers de l’Information Scientifique et Technique…

PosterVueGen

On peut tirer de ce travail exploratoire plusieurs enseignements. Tout d’abord en ce qui concerne les sources de données: nous nous sommes tournés naturellement vers les notices de Scopus (mais celles du Web Of Science auraient aussi pu convenir je crois), l’occasion de vérifier encore une fois combien les techniques de cartographie d’information peuvent se « greffer » efficacement aux structures de données des éditeurs, et les enrichir notablement (y compris sur les données d’affiliation). L’autre enseignement réside dans la validation qu’un projet de cartographie se développe dans une organisation sur le travail d’un trio incontournable d’acteurs: l’expert du domaine pour la pertinence de son regard, le bibliothécaire pour sa maîtrise des sources (et l’ouverture à leur accès!) et le cartographe pour ses solution techniques ou méthodologiques. Enfin, le cartographe et l’Atelier Iceberg auront trouvé dans ce projet expérimental plusieurs occasions de produire des « vues sur les données, depuis le traitement des données jusqu’au poster final.

BibliothequeL’expédition cartographique commence à la bibliothèque de l’Ecole des Mines de Paris, où se trouvent les spécialistes de la documentation et l’accès aux bases d’Information Scientifique et Technique comme Scopus. C’est là que nous avons extrait, par phases successives, 481 notices bibliographiques dans lesquelles au moins un auteur est associé à un laboratoire français ainsi qu’un jeu de 1300 termes, expressions ou descripteurs de contenus (Index Keywords). Etant donné que chaque notice de publication est associée à une batterie de descripteurs de contenu, il est possible de construire une structure de graphe des 1300 termes du corpus reliés entre eux par degrés de cooccurrence (deux termes étant liés quand ils apparaissent ensemble dans la même notice, donc pour décrire une même publication). Le rapport décrit plus précisément la méthode d’extraction des données et les autres étapes du processus de leur transformation mais il est vite apparu que nos descripteurs se concentraient Le processus d’analyse des données fait clairement apparaître un domaine « central » (control theory) et six domaines « périphériques » (computer systems, oceans and marine science, propulsion/flight, entries and aerodynamics, space autonomy, control systems).

Process4

C’est sur cette distribution des clusters qu’est basée la boussole thématique, depuis le domaine des computer systems et la « théorie du contrôle » (en bas) jusqu’aux champs d’application (en haut: océans, espace et ciel avec ses aspects d’aérodynamique et de propulsion). Entre les 6 clusters, un domaine central, lui-même (re)spatialisé avec l’algorithme Forceatlas2 sous Gephi et qui laisse apparaître des régions où la robotique et la théorie de la décision jouent un rôle de noyau conceptuel.

PlanVueGen

C’est sur cette géographie générale que s’est basé le travail de représentation cartographique, depuis la création de la boussole thématique avec ses sept clusters jusqu’au « gros plan » sur le cluster central. Pour cette vue centrale, les choix graphiques sont basés sur des métriques appliquées aux données, notamment la distribution des couleurs (issue de l’utilisation de l’algorithme de « détection de communautés » Modularity) et les tailles de noeuds (tailles en fonction des degrés de cooccurrence, seuls ceux ayant plus de 25 occurrences ont été gardés dans la vue centrale).

La seconde partie du rapport est constitué de clichés cartographiques qui interrogent le corpus de 481 notices sous d’autres angles que les seuls contenus et leurs descripteurs. En croisant différentes dimensions du corpus comme les auteurs, les sources et/ou les données d’affiliation aux structures de recherche (laboratoires ou établissements) via les adresse postales ou les noms des villes, on peut essayer de rendre compte de la géographie sociale d’un domaine: qui sont et où se situent les établissements qui contribuent à la recherche sur le véhicule autonome? Existe-t-i l un réseau étendu et ouvert de chercheurs autour de la thématique ou, au contraire, des myriades de groupes qui ne sont pas « connectés » entre eux via des productions scientifiques? Comment positionner un laboratoire dans notre boussole conceptuelle? Il s’agit donc de passer du « quoi » on parle au « qui » en parle, de la distribution des concepts aux réseaux de ceux qui les portent. Pour le cartographe, c’est aussi l’occasion de s’essayer à quelques vues expérimentales en croisant les données de différentes façons, en soulignant encore une fois qu’il s’agit là d’un enjeu fort pour la cartographie d’information et qui suscite un intérêt particulier de la part des directions d’établissements ou de laboratoires ou les services de soutien ou de gestion à la recherche. Mais nos clichés ne sont que partiels, et parfois sûrement discutables sur telle ou telle information véhiculée par nos cartes car, malgré un (gros) premier nettoyage des données d’affiliation, notre base de données reste encore  à modifier pour certains établissements et certains laboratoires. Néanmoins, ils préfigurent les grandes directions que pourraient emprunter d’autres expéditions cartographiques.

1) Le géoréférencement des laboratoires. La normalisation des données d’affiliation permet de fixer des adresses postales qui peuvent alors être transformées en coordonnées GPS. Le géoréférencement permet d’enrichir notablement des données natives et constitue, tout comme le traitement de la dimension temporelle, un enjeu important de la cartographie d’informations aujourd’hui. Notre travail de vérification des données n’est pas encore achevé. Cependant, une première série de géoprojections a pu être testée. Evidemment, étant donné notre domaine large du « véhicule autonome », la carte de France avec les unités identifiées couvre l’ensemble des grands pôles nationaux de recherche avec la présence des universités mais aussi d’industriels comme Hitachi europe, Renault (technocentre), Vehipole en Bretagne, Siemens, Thomson et les divisions de Thalès Airborne Systems – Underwater Systems – Alenia Space… On retrouve, notamment, la tri-parition qu’annonçait notre boussole conceptuelle: mer et océans avec des concentrations d’acteurs en Bretagne et en PACA (ecole navale, alstom transport, bassin d’essais des carenes, dcns, la dga et le groupe d’etudes sous-marines de l’atlantique – GESMA -géoazur, un observatoire océanologique, les centres IFREMER, l’institut de physique du globe de paris, le laboratoire de géosciences marines…), espace (aérospatiale, agence spatiale européenne, astrium satellites, le cnes…) et l‘aérien (supaero, dassault aviation, eads…).

VuesGeoref

Comme souvent en matière de cartographie géoréférencée à grande échelle, la région Ile-De-France concentre tellement d’acteurs que l’on peut lui dédier une carte spécifique avec ses acteurs comme les Mines-ParisTech, l’Ecole des ponts-ParisTech,L’Ecole polytechnique, l’ENS de cachan, l’université Pierre et Marie Curie et ses structures de recherche…). Au delà de Paris intra-muros, la carte de la région IDF fait apparaître une distribution géographique où l’essentiel des acteurs du véhicule autonome se concentrent dans la partie ouest/sud-ouest. Cette concentration a fait l’objet d’une série de clichés cartographiques particulier. Les projections géoréférencées peuvent aussi, à partir de Gephi, être transformées en fichiers affichables dans GoogleEarth ou GoogleMap. Nos essais sont en cours mais il est important de noter qu’à termes, une fois les affiliations finalisées, il sera possible de croiser les termes d’index ou les liens de co-publication avec, par exemple, les établissements recensés. Il sera donc possible de projeter sur la carte géographique les différents types de liaisons qui existent les structures de recherche à l’échelle nationale, que ce soient des liens de proximité ou de complémentarité scientifiques ou des liens de réseaux d’acteurs, de laboratoires (si l’on pense par exemple aux G.D.R.) ou encore d’établissements (pôles de recherche et de compétitivité, I.R.T., PRES universitaires…).

GoogleEarth

2) Les sources de publications. Où publient les auteurs? Existe-t-il des « lieux » privilégiés d’édition scientifique, des revues ou des conférences centrales où se croisent les chercheurs? Le croisement des données « auteurs » et « sources » est l’occasion de photographier le réseau des sources de publication. Sachant qu’un nombre significatif d’auteurs publie des articles ou diffuse des contributions dans plusieurs sources différentes, il est alors possible de relier les différentes sources (ici, en rouge) à partir du travail de dépôt des auteurs (chaque auteur est représenté par un noeud bleu).

sources

Dans notre corpus de notices Scopus le procédé de croisement fait apparaître une carte de 121 sources de publication et 647 auteurs (ayant au moins deux publications identifiées dans notre corpus et associés à des laboratoires français) où les conférences semblent jouer un rôle moteur. Parmi ces sources, les différents systèmes en ligne de publication de l’IFAC (International Federation of Automatic Control) semblent jouer un rôle fédérateur central pour la communauté française. Axés essentiellement sur l’accès à des archives de « conference papers », le site central de l’IFAC donne accès à des recherches d’information par auteurs ou par conférences, et selon différentes dates. Ce premier cliché global mériterait d’être affiné, notamment par un travail de regroupement des sources de publication en fonction de leurs domaines respectifs de spécialisation (les applications en milieux marins, glacière ou aérien semblent se concentrer dans certaines zones de la carte). Notre photographie des sources a fait l’objet d’un poster imprimable au format « A0 » accessible sur demande.

3) Groupes d’acteurs et communautés de connaissances. Si la carte des réseaux de coopération autour de la question du véhicule autonome mérite d’être enrichie, celle des réseaux français de connaissances apparaît d’emblée très riche. En croisant les données « auteurs » et les termes d’index (ceux qui ont servi à construire la boussole thématique), se dessine un espace où l’on peut évoluer de proche en proche sans rupture, avec seulement ces quelques effets de « clustering » qui permettent de générer les composants de notre boussole thématique et ses zones de spécialisation. A grande comme à petite échelle, le graphe qui relie auteurs et termes d’index offre une continuité intellectuelle remarquable (où « tout est lié à tout », et de façon assez hiérarchisée et « clusterisée »). Cet aspect contraste fortement avec nos essais de cartes de co-publications qui laissent apercevoir un espace très morcelé de 193 « micro-clusters » disjoints.

AuteursKW

Cette carte pourrait inaugurer la création d’un répertoire de compétences puisque les auteurs s’y trouvent liés à des descripteurs de contenu qui représentent des domaines de recherche. Mais on pourrait enrichir encore le procédé: un effort à grande échelle sur la normalisation des données d’affiliation pourrait permettre de voir à la fois les domaines de compétences mais aussi les réseaux de coopération entre laboratoires, ou entre établissements.

4) Le cas du sud-ouest parisien. La concentration d’acteurs dans le sud-ouest de l’lle-de-France (à supposer que notre corpus de notices soit fiable) constitue un élément remarquable du principe du géoréférencement de nos données. Chacun pensera, évidemment, au fameux « plateau de Saclay » où se concentrent depuis quelques années des acteurs majeurs de la recherche et de l’industrie en France. Le processus de concentration géographique d’acteurs divers, et éventuellement travaillant sur des domaines de recherche voisins et/ou complémentaires, est un des principes de la logique de « cluster » (à la française!) qui préside à la création de certains pôles de compétitivité, ou même des Instituts de Recherche Technologique (au nombre de huit actuellement).

Pour la cartographie d’informations, voilà l’occasion de produire des « vues » sur les données qui associent coordonnées géographiques, informations sur les acteurs et descripteurs de contenu. Autrement dit, dans une zone géographique déterminée, qui travaille sur quoi? Qui travaille avec qui? Eventuellement depuis combien de temps?  C’est tout le principe des indicateurs territoriaux, une problématique centrale aujourd’hui en matière, notamment, d’évaluation des politiques publiques et pour laquelle la cartographie d’informations géoréférencées jouera de plus en plus un rôle central. Notre travail de normalisation des données d’affiliation n’étant pas achevé (notre carte de la région IDF comporte donc encore des modifications à apporter), nous avons tenté néanmoins de comprendre la « logique de cluster » de cette région à travers la projection des termes d’index communs aux acteurs locaux de la zone. Le principe en est simple: à partir des structures ou établissements présents dans la carte géographique, il s’agit de produire une carte des « mots-clés » communs, autrement dit des thématiques communes de recherche sous la forme de ce que l’on appelé un réseau local de connaissances.

Dans cette perspective, un premier cliché cartographique a été produit en croisant les établissements (en rouge pour les groupes industriels, en jaune pour les organismes de recherche) avec les termes d’index liés (en bleu) aux publications (issues des laboratoires associés). Un travail plus fin d’analyse devrait permettre à termes d’isoler des zones de compétences spécifiques, tout comme une zone centrale avec des acteurs majeurs. Dans notre illustration, seuls quelques-uns des termes d’index ont été conservés (un poster complet est disponible sur demande).

Saclay3

5) Comparer deux structures de recherche. Les derniers clichés de notre expédition cartographique concernent une opération centrale en matière d’exploitation des données de l’I.S.T.: la comparaison entre deux « acteurs », qu’il s’agisse de deux chercheurs, de deux laboratoires ou de deux établissements. Le principe du « focus » cartographique est une forme d’exploration fine et détaillée des données Scopus, notamment parce qu’en sélectionnant deux items (deux termes d’index, deux chercheurs, deux lieux géographiques ou deux dates…) il s’agit de réorganiser l’ensemble des données présentes. Par exemple, à partir des don0nées associées à deux laboratoires de deux établissements différents (22 publications issues du S.E.T., laboratoire Systèmes et Transports de l’Université de Technologie de Belfort-Montbelliard, 39 publications issues des laboratoires COSTECH et Heudiasyc pour l’Université de Technologie de Compiègne), on peut cartographier l’ensemble des termes d’index qu’ils ont en commun et ceux qui les différencient.

CompiegneBelfort2

Un expert reconnaîtra ici des complémentarités en termes d’approche, ou pourra juger éventuellement du degré de généralité ou de spécialisation commun aux deux établissements. Il pourra même, si une direction l’exige, réfléchir aux liens qui pourraient être construits entre des domaines de spécialité complémentaires. En termes de conception d’interfaces ou de scénarios d’exploration des données, de nombreuses solutions restent encore à inventer sur ce point (notamment du côté des éditeurs!). Selon le même principe de croisement des termes d’index communs et distinctifs entre les notices associées à deux établissements de recherche, il est possible de sélectionner un terme (« 3-d modeling » fixé au centre) et de faire jouer des forces d’attraction sur l’ensemble des données de façon circulaire (l’opération est accessible depuis Gephi). Ainsi, les deux établissements et leurs termes d’index spécifiques se positionnent en fonction de leur degré de proximité avec l’expression choisie.

UTC-UTBM

Le déploiement d’une solution de visualisation de ce type à l’échelle du corpus devrait intéresser nombre de chercheurs, voire de directions à la recherche. Ce cliché cartographique pourrait figurer parmi d’autres dans une sorte de « tableau de bord » dédié à l’observation des productions scientifiques autour du véhicule autonome, ou à toute autre thématique. Personnellement, je le verrait comme un tableau de bord interactif, accessible en ligne, où l’on choisirait son propre jeu de solutions de visualisations, directement branché (par extraction régulières, ou via une A.P.I.) sur un corpus de données qualifiées comme notre lot de notices (ou bien une BDD interne de brevets, les URL du veilleur web ou les projets labellisés par les structures d’innovation). Assurément, ce serait un bel outil…