CarteGen

C’est le genre planche synthétique que j’aime bien produire: autour d’une vue centrale sous forme de graphe spatialisé avec Gephi, différentes vues complémentaires viennent enrichir l’exploration d’un vaste corpus de plus de 5200 notices bibliographiques issues de Scopus. Cette planche au format « A0 » vient clore la première partie d’un projet entamé voici plusieurs mois en compagnie de Corentin Lefevre, Mathieu Bost, Marion Dupuydt, Christophe Virot et Nicolas Lhomme, tous étudiants inscrits dans mon enseignement à l’Université de Technologie de Compiègne. Notre objectif est simple mais ambitieux: cartographier l’ensemble des notices bibliographiques associées à plus de quarante années de publication scientifique dans les laboratoires de l’U.T.C. Par certains côtés, ce travail de cartographie de l’information s’inscrit dans une veine maintenant classique sur ce blog (et ailleurs) de carte des sciences en reprenant une méthodologie de traitement des données qui a fait ses preuves. Cependant, nous comptons bien aller au delà: synthétisés sous forme d’une planche imprimable, les principaux patterns que nous avons isolés doivent maintenant être affinés et discutés de façon collégiale avec les services de la recherche et de la bibliothèque de l’UTC. En effet, notre ambition est de concevoir aujourd’hui une série d’indicateurs pertinents qui pourront être matérialisés dans une interface numérique et accessibles/manipulables sur un écran tactile grand format. Notre objectif est donc clairement scénographique.

Données et extraction. Les vues cartographiques sur les données ont été produites à partir d’un jeu de plus de 5200 notices bibliographiques extraites de Scopus, la base qui semble le mieux couvrir les sciences pour l’ingénieur. Cependant, ce jeu ne semble guère couvrir les travaux publiés par les chercheurs en sciences humaines et sociales (l’équipe COSTECH dans laquelle je suis) et ceux publiés par mes collègues de l’équipe AVENUES du génie des systèmes urbains (G.S.U.).

labos1

Les informations ont ensuite été intégrées à une BDD qui permet donc de poursuivre et d’étendre le projet à de futures interrogations pour produire à nouveau de nouvelles cartes. On peut aussi penser à enrichir et/ou à modifier le jeu de données, en particulier (encore une fois!) sur les informations liées aux affiliations qui doivent nécessairement être revues. Ainsi, à travers nos travaux cartographiques, il s’agit de doter l’Université de Technologie de Compiègne d’une BDD fiable contenant l’ensemble le plus exhaustif de ses productions de recherche, mobilisable en continue sous la forme d’un web-service ou de façon ponctuelle pour produire des cartographies pour le service de la recherche ou le conseil scientifique.

schemaUML

Réglages cartographiques. Le premier objectif d’un travail de cartographie de l’information scientifique, surtout à cette échelle, consiste à mon sens à définir les champs de recherche et leur évolution temporelle. Autrement dit, à produire ce genre de boussoles conceptuelles qui permettrait de comprendre l’originalité des contenus, leurs complémentarité et la façon dont ils peuvent se distribuer dans une géographie générale. Ce n’est qu’en second lieu qu’il me paraît nécessaire de travailler sur cette autre (grande) dimension des cartographie de l’information scientifique que constituent les réseaux de coopération entre chercheurs, laboratoires ou structures (si l’on veut, l’approche plus « réseau social »). Nous nous sommes donc orientés pour cette première étape vers l’étude de la distribution des Index Terms de Scopus et leurs cooccurrences à travers le jeu de 5200 notices. Ces descripteurs de contenu sont qualitativement contrôlés par Elsevier et sont issus de différents thésaurus dont les croisements permettent de traitement de haut-niveau (comme la détection de domaines de recherche émergents). Un premier graphe bipartite intégrant les 5200 notices et plus de 15.000 termes d’index a été généré, puis un second où ne figuraient que les termes d’index reliés entre eux par cooccurrence entre chaque notice (un terme A est lié à un terme B s’ils apparaissent tous les deux comme descripteurs d’une même notice). Le niveau de granularité descriptive paraissant trop élevé pour construire une première « carte » générale, nous avons décidé de ne conserver que les termes ayant un nombre élevé d’occurrences (seuil fixé à 7) de façon à travailler sur une structure de graphe comprenant 1000 termes. Le seuil paraît élevé mais la réduction semble nécessaire si l’on veut identifier les courant principaux de recherche de l’université tout en visant la migration des données cartographiques sur une interface numérique. Par ailleurs, chacun des 1.000 termes retenus pour caractériser la recherche à l’U.T.C. a été associé à la date de sa première apparition dans les notices.

La seconde étape a consisté à produire une structure de graphe simplifiée. En premier lieu, les 1000 termes descripteurs ont été regroupés en 81 clusters en prenant en compte la distribution des liens de cooccurrence en utilisant l’algorithme modularity (non-contraint). Les 81 classes ainsi identifiées ont été spatialisées avec forceatlas2. Les liens entre les 81 classes sont des liens agrégés de cooccurrences entre termes de chaque cluster (il existe un lien entre une classe et une autre quand un terme contenu dans une classe entretient un lien de cooccurrence avec un terme d’une autre classe – ils servent donc à décrire une même notice bibliographique dans la base Scopus). Les labels de nos 81 classes sont constitués par le terme ayant le meilleur score de cooccurrence de la classe, hormis pour les clusters en vert dans la carte où nous avons fait appel à un chimiste pour les valider et, parfois, les modifier pour les rendre plus pertinents. Nous envisageons la possibilité d’étendre le principe aux labels de tout les classes car, souvent, les savoirs d’expertise permettent de valider des frontières que le cartographe ne perçoit pas immédiatement. Par ailleurs, nous allons tester d’autres méthodes de clustering, en exploitant notamment des méthodes plus proches de la modélisation sémantique pour les comparer à l’approche purement statistique liée aux liens de cooccurrence.

zoom3

Dans son ensemble, la carte obtenue semble dresser un paysage représentatif des différents domaines de recherche de l’Université de Technologie de Compiègne sur quarante années de contribution scientifique (telle qu’elle apparaît dans Scopus du moins): chimie-chimie verte en vert, les sciences mécaniques en rose depuis les fluides jusqu’à la mécatronique, en bleu les sciences informatiques et les mathématiques, en rouge les sciences du vivant et la biologie, en orange, enfin, les biotechnologies et les biomatériaux. Deux clusters sont restés isolés, en violet un cluster dédié aux propriétés biomécaniques (à cheval sur les sciences du vivant et les sciences mécaniques) et un cluster en gris dédié au scanner à électrons. Actuellement, les différentes vues composant le poster sont en discussion, soit sur des questions de méthodologie, soit sur des questions de représentativité des données Scopus par rapport au nombre et à la diversité des domaines de recherche à l’UTC tels que l’établissement les soutient réellement.

Variations temporelles. Nos premiers essais sur les variations temporelles ont été effectués sur la même vue mais en dégroupant les 81 cluters, ce qui permet de conserver globalement la même géographie. Une fois les 1.000 termes positionnés en couleurs grise, il suffit d’effectuer des partitions temporelles que nous avons définies en tranches de 5 ans (hormis la première de 10 ans étant donné le faible nombre de publications recensées sur les dix premières années de publication). Les noeuds du graphe appartenant à une tranche temporelle se sont vus attribuer une couleurs spécifique, du bleu le plus « froid » au « rouge » le plus marqué pour les plus récents.

Temp1

Associées les unes aux autres, les vues temporelles constituent une frise historique où l’on peut voir évoluer les domaines de recherche, au moins dans leurs grandes lignes. Le procédé ne suffit pas encore à rendre compte finement des phénomènes d’évolution mais il a le mérite de pointer globalement leur apparition historique.

Temp2

Au premier abord, le jeu permis par la time-line de Gephi offre une vue évolutive générale que l’on aime bien faire jouer chronologiquement, le graphe se densifiant et/ou s’étendant au fur et à mesure des années (ou des périodes choisies) comme dans un film. Dans la dernière période, on voit ainsi poindre quelques domaines majeurs de la recherche comme « réseaux et sécurité » et le cluster dédié à la théorie de la décision, à l‘aircraft control et aux vehicular networks. De même, certains thèmes de recherche et d’expérimentation technologique apparaissent nettement comme les « wheels » et « magnetic noise » en sciences mécaniques mais aussi l’ingénierie cellulaire et les tissus organiques ou encore la chimie verte, la nanofiltration et l’impression moléculaire. Méthodologiquement (et techniquement aussi!), la dimension temporelle, quand elle est accessible dans les données, pose de nombreux problèmes qui constituent aujourd’hui un enjeu de recherche important en matière de graphe et d’ingénierie des connaissances. Mais l’un des aspects importants de l’exploration temporelle est aussi de type épistémologique: en faisant jouer la time-line rétrospectivement, en « remontant le temps » en quelques sortes, on s’aperçoit combien les domaines-phares de la recherche actuelle de l’UTC s’inscrivent dans une remarquable continuité avec les savoirs précédents, dans un jeu d’enrichissement continu et de l’accumulation historique qui fait parfois rupture, comme l’avait déjà remarqué Michel Foucault dans les Mots et les Choses. Nous allons donc explorer plus avant le jeu du temps dans les concepts scientifiques locaux de l’UTC mais peut-être à une échelle plus restreinte (par exemple les sciences informatiques et/ou la biochimie) pour essayer de mesurer plus finement les effets cumulatifs du savoir mais aussi les ruptures qui permettent de le redistribuer en nouveaux thèmes de recherche. Autant d’occasions, pour un cartographe, de photographier le savoir scientifique sous de nouveaux angles.