Interfaces et Données ouvertes. Ces derniers mois, la communication autour de plusieurs projets novateurs de cartographie de l’Information Scientifique et Technique (I.S.T.) sont venus nous rappeler combien l’exploration du savoir scientifique (formalisé sous forme de publications) constitue un champ de recherche et d’expérimentation fécond depuis les travaux de Derek John de Solla Price et Eugene Garfield dans la deuxième moitié des années 50. L’intérêt pour la cartographie de l’I.S.T. s’est renforcé depuis quelques années car il s’agit, à l’époque du web et des données numérisées, d’un puissant instrument de traçabilité de la science, de ses concepts comme des communautés sociales qui l’incarnent. Certains peuvent y voir la marque d’une époque soucieuse de la mesure et de la gestion financière de la recherche, l’expression d’une volonté de contrôle des Ministères d’Etat ou encore la généralisation, dans tous les organismes de recherche, d’un « esprit scientométrique » pointilleux. Certes, on peut s’interroger légitimement sur les finalités de ces dispositifs cartographiques : ils sont gouvernés par nature sur des mesures statistiques (méthodes quantitatives), par des choix spécifiques dans les dimensions des données exploitées (les citations par exemple) et dans les niveaux de granularité de l’analyse (les revues souvent, mais aussi les équipes ou les chercheurs).

Cependant, ces nouveaux dispositifs cartographiques, novateurs techniquement, n’ont pas pour objectif de réduire les productions scientifiques au seul visage du « facteur d’impact » mais de traiter l’IST sous une multitude de vues, parfois paradoxales et surprenantes. Les voies inédites qu’ils explorent nous rappellent combien les systèmes de mesure de la science basés presque exclusivement sur la notoriété des revues, des indicateurs calculés sur la distribution des citations (donc sur une mesure de la notoriété à postériori puisque les citations s’accumulent seulement au cours du temps)  et orientés sur un système de « points » censés assurés la visibilité d’un chercheur ou d’une équipe relève du conservatisme politique et d’un attachement viscéral à une tradition scientométrique qui se perpétue encore à l’heure des réseaux ouverts de données, de l’internet et des réseaux sociaux.

Ces nouvelles formes de cartographie de la production scientifique indiquent selon moi que le domaine de l’observation, de la mesure, voire de l’évaluation de la science et de ses acteurs vit en ce moment le même bouleversement que d’autres domaines où chacun (ou presque) peut s’équiper de ses propres instruments (dont GEPHI évidemment), accéder à une multitude de données de plus en plus ouvertes pour mener ses propres analyses, construire ses propres mesures ou indicateurs ou observer les publications scientifiques de différents points de vue. Les systèmes de données ouverts et publics sont aujourd’hui nombreux (…) mais il faut noter que les éditeurs s’y mettent aussi, remarquablement par la promotion faite par Elsevier de ses A.P.I. et de l’ouverture de ses données à de nombreux projets expérimentaux, tout comme Thomson-Reuters avec le Web of Science (WoS).

Ainsi, récemment, l’institut Max Planck a rendu public un dispositif d’exploration dynamique sur table tactile de plus de 94.000 notices issues de SCOPUS associées aux publications de ses chercheurs. L’interface permet de naviguer sous trois angles majeurs : les thématiques de recherche (calculées sur la base de mots-clefs), la géographie et le temps (sur la période des dix années passées). On doit ce triple croisement, entre autre, à Moritz Stefaner connu pour ses travaux sur la visualisation de l’information. Développé en Java et basé sur des graphes produits avec GEPHI, l’application a été intégrée dans un grand dispositif de communication scénographique à Berlin. Mais l’important ici n’est pas dans la prouesse technique mais dans l’esprit d’un projet qui vise à souligner “The international flow of ideas […] represented metaphorically by streams of energy particles, being continuously exchanged between the institutions” et, donc, le dynamisme collectif des chercheurs du Max Planck.

Parallèlement, aux Etats-Unis, une équipe conduite par deux biologistes (Carl T. Bergstrom and Jevin D. West) et un physicien (Martin Rosvall) développe aujourd’hui des visualisations basées sur les flux de citations pour comprendre l’émergence récente de certains domaines scientifiques. Le principe n’est pas nouveau, mais ces « aluvial diagrams » sont basées sur un indicateur plus évolué que le facteur d’impact (Eigenvector qui prend en compte les citations mais aussi l’origine ou les sources des citations, sur le même principe que le fameux PageRank de Google) et produites à partir des notices et des méta-données étendues du Web of Science mais aussi de Microsoft Academic Search, du Social Science Research Network, et de JSTOR. Comme le soulignent les chercheurs de l’équipe, “access to data is not the major bottleneck anymore” et leurs efforts consistent aujourd’hui à réinventer nos façons d’explorer l’univers des productions scientifiques pour comprendre, par exemple, comment ces dernières des domaines pluridisciplinaires émergents se sont cristallises sous forme de disciplines autonomes et reconnues.

Les visualisations dynamiques ont quelque-chose de subversif pour qui vient d’un univers de l’évaluation quantitative, hiérarchisée, normative et rigide de la recherche en laissant apercevoir, par exemple, la dynamique sociale, intellectuelle et collective des réseaux émergents d’innovation scientifique plutôt que des classements hiérarchisés basés sur une seule dimension des données.  C’est à mon sens tout l’intérêt de la cartographie comme instrument d’exploration de l’Information Scientifique et Technique : la « vue » produite indique par nature que d’autres sont possibles, que l’on peut potentiellement changer sa logique et calculer d’autres propriétés de « la science » à partir des mêmes données ou des mêmes structures de graphes. Et les dispositifs numériques d’exploration des corpus d’IST commencent à intégrer ce principe de relativité, ce qui les rend parfois surprenants. Si l’on ajoute qu’il est désormais possible de croiser les informations issues des articles scientifiques avec d’autres sources comme les « pre-print » trouvés via Google-Scholar sur le web, les « power-point » de présentation dans les conférences, les sites web des équipes jusqu’aux comptes Twitter des chercheurs, leurs blogs personnels ou la géolocalisation de leurs activités, on comprend rapidement à quel point peut aujourd’hui varier le périmètre des « indicateurs » qui permettent d’observer (voire donc d’évaluer) l’activité scientifique. En somme, le champ de la « mesure de la science » rejoint aujourd’hui celui du « Big Data Analytics » où règneront demain les acteurs (publics ou privés) qui ont appris à corréler différentes sources d’informations et à jouer sur ce que Sean Gourley appelle la manipulation des différentes dimensions des données (« dimensionality manipulations »).

La production scientifique, vues sous tous les angles. Ces nouvelles approches éclairent d’un jour singulier les polémiques récurrentes sur la question des classements des revues et des chercheurs (et donc des indicateurs de classement). A vrai dire, la question n’est pas, ou n’est plus, de savoir s’il faut ou non observer/évaluer les productions scientifiques (et donc, au-delà, les chercheurs eux-mêmes) mais de savoir sur quels indicateurs (ou dimensions des données) se baser. Il me paraît vain de tenter vouloir échapper à ce qui n’est, en somme, qu’un principe généralisé de traçabilité inhérent aux technologies numériques, qu’il s’agisse d’articles scientifiques ou d’autres aspects de nos usages. Certes, j’admets volontiers les critiques actuelles sur les méthodes d’évaluation quantitatives en cours de la connaissance scientifique (comme dans cet excellent document). Et le débat devient encore plus problématique dans un contexte de concurrence entre établissements de recherche, dans l’exercice de comparaison tous azimuts des universités et des grandes écoles au niveau mondial et dans la recherche généralisée de la « performance individuelle » chez les chercheurs.

Mais l’important dans cette course à la visibilité ou dans la mesure de la « performance » n’est pas dans sa nature ou ses objectifs, mais dans ce qu’elle annonce, dans ce qu’elle promet ou pour ce qu’elle ouvre en termes d’invention, d’imagination, d’innovation : la recherche de nouveaux indicateurs, la multiplications des sources d’informations, l’accès de plus en plus grand à de nombreux types de données, la possibilité de calculer différemment les patterns de la géographie scientifique, jusque-là imposés par un nombre réduit d’acteurs (l’OST, l’INIST-DIST du CNRS, l’AERES), rivés à des méthodes plutôt conventionnelles et débouchant sur des indicateurs, au final, assez réducteurs. La porte est aujourd’hui grande ouverte et elle ne se refermera plus. Plus nombreux seront les projets de mapping des sciences, de conception d’indicateurs inédits ou de méthodes nouvelles de calcul des « scores », plus grande apparaîtra la relativité et l’étroitesse du « facteur d’impact » des revues ou du classement des chercheurs. Et il faut même souhaiter que des équipes entières, voire des établissements se dotent d’une politique scientifique basée sur des choix originaux d’évaluation dont on aura défini collectivement le périmètre et l’efficience.

La multiplication actuelle des projets de cartographie de l’IST est une aubaine car elle annonce des changements profonds dans notre façon d’observer et de quantifier l’activité scientifique. Tout d’abord parce que tous ces possibles techniques et méthodologiques permettent, dès aujourd’hui, de répondre aux besoins légitimes qui émanent des acteurs locaux impliqués à divers degrés dans le management de l’activité scientifique et qui sont à la recherche d’indicateurs spécifiques. Il est ainsi possible aujourd’hui de concevoir un « tableau de bord » qui permettrait de suivre en région les effets d’une politique d’investissement public (par exemple la Chimie verte en Picardie, la RetD dans les industries de l’électronique et des telecom en Bretagne, les industries des nanotechnologies du pôle Minatech). Cette variation des niveaux de granularité de l’analyse et la spécificité de ces indicateurs locaux permet aussi d’envisager des « cartes de laboratoires » internes à un organisme et la mise en place d’indicateurs de coopération entre chercheurs dans la perspective d’une fusion ou d’une réorganisation de structures. Cette diversité de granularité et de contextes s’accompagnera inéluctablement d’un élargissement du périmètres des mesures et des indicateurs, en prenant bientôt en compte, au-delà des publications scientifiques formalisées, les informations associées aux prototypes techniques, aux informations administratives comme les rapports d’activité ou les données présentes sur les réseaux sociaux et sur le web plus généralement.  Le croisement de ce type d’information pour une région, un pôle de compétitivité ou un PRES permettrait immanquablement de mieux cibler les foyers actifs de recherche et d’innovation.

Ensuite, la manipulation expérimentale autour des données bibliographiques peut déboucher sur la construction d’indicateurs (autrement dit une série de filtres et de traitements successifs sur les données) tout à fait différents de ceux que nous connaissons. Par exemple, j’aimerais tant que les grands établissements de recherche français déploient (ne serait-ce qu’une fois !) cette série conjuguées de filtres : a) cherchons à identifier une communauté (un « cluster ») de chercheurs plutôt que de les classer b) publiant depuis 5 années ou moins (donc plutôt jeunes) c) co-publiants et/ou fréquentant les mêmes conférences (oui, c’est possible à partir des méta-données étendues de SCOPUS par exemple) d) partageant entre eux les mêmes concepts spécifiques (peu répandus dans le reste d’une communauté disciplinaire) e) dans le domaine de la recherche sur biodiversité, les sciences de l’environnement ou les sciences et technologies de l’information. Quelle occasion, pour le cartographe que je suis, de redessiner le paysage de l’activité scientifique ! Tout est prêt pour le faire, et pas seulement techniquement : la scientométrie a fourni depuis déjà longtemps des études rétrospectives sur la morphologie d’un champ de recherche émergent (et souvent de type pluri-disciplinaire), les méta-données (notamment chez les éditeurs) sont aujourd’hui riches et suffisamment diversifiées, les procédés de cartographies se développent rapidement et les dispositifs de monitoring en temps réel sur les réseaux comme le web permettent déjà l’identification de communautés actives. Nous pourrions ainsi obtenir une carte des « domaines émergents », les recenser chaque année et observer leur évolution. Et, pour ceux qui exercent un pouvoir d’orientation et/ou de financement, favoriser leur émergence pour les promesses qu’ils manifestent pour l’avenir d’un pays.

L’innovation ou la science en mouvement. La cartographie de l’IST ouvre donc directement sur la dimension politique des indicateurs, et non sur celle de leur faisabilité technique. Peut-on, doit-on déployer à grande échelle des indicateurs « d’émergence », miser sur la nouveauté, la jeunesse ? S’agit-il de renforcer la position hégémonique de certains laboratoires, via un système de « rente annuelle » (en rappelant que pour être financé par l’Agence Nationale de la Recherche il faut au préalable avoir un « profil académique » reconnu) et d’évaluer les productions scientifiques dans un système cloisonné d’évaluation à partir d’indicateurs rétrospectifs comme les citations? Doit-on miser sur la pérennisation de structures anciennes de recherche (quitte à les regrouper en renforçant ainsi les phénomènes de hiérarchisation verticale des acteurs) ou bien décide-t-on de miser sur la nouveauté, l’initiative, l’innovation scientifique ascendante qui, à peine détectée, se voit soutenue et accompagnée ? Pour en revenir au dispositif du Max Planck Institute et aux Aluvial diagrams, je note que les projets expérimentaux sont nés dans deux pays leaders en termes d’innovation technologique et scientifique. Certes, les deux pays n’ont pas les mêmes modèles ou la même organisation de la recherche et de l’innovation. Cependant, les similitudes sont nombreuses : les Aluvial Diagrams naissent dans un contexte où l’on est habitué « depuis toujours » à faire varier les points de vue sur la science et ses productions, pas seulement pour « rayonner à l’international », mais aussi pour orienter des choix politiques internes et des orientations en termes d’investissements financiers. Je ne me lasse pas de consulter, par exemple, les différents appels à projets de la National Science Foundation comme celui, ouvert et aventureux, qu’elle a publié récemment sur les Social-Computational Systems (SoCS) explicitement orienté vers la rupture des cloisonnements disciplinaires, la fusion du design technologique et des usages sociétaux et l‘appel insistant à la création de « new forms of knowledge creation, new models of computation, new forms of culture, and new types of interaction will result. Further, the investigation of such systems and their emergent behaviors and desired properties will inform the design of future systems”. Les expérimentations sur la géographie du savoir scientifique me semblent être l’expression d’une volonté d’interroger la production scientifique sous différents angles, non pour des raisons esthétiques, mais pour identifier les forces et les faiblesses d’un pays, explorer la dynamique de production collective du savoir scientifique (une évidence à l’heure des réseaux) et, surtout, chercher à positionner sa recherche nationale dans des domaines nouveaux ou émergents, demain stratégiques. Le cas de l’Allemagne est encore plus symptomatique : le pays s’est doté au début des années 2000 d’une politique nationale d’innovation tout à fait inédite, notamment en termes de méthodologie (que décrit très bien que décrit Kerstin Cuhls du Fraunhofer Institute for Systems and Innovation Research). FUTUR n’est pas un énième programme mais un process permanent de renouvèlement des thématiques de recherche qui s’accompagne d’un signal fort adressé au chercheurs et aux étudiants et articulé autour de sept domaines clef. Et c’est un process ascendant qui a mobilisé, lors de sa mise en place, des milliers d’acteurs (chercheurs mais aussi industriels et organisations de la société civile) pour redéfinir les contours de « l’Allemagne en 2020 », englobant de fait (et par vocation) les domaines de recherche ou les projets émergents, inédits, parfois risqués ou inclassables.

Pour mesurer les effets de ce type de politique, plusieurs chercheurs en cartographie et en scientométrie commencent depuis 2008 à classer les pays, les organismes et les équipes en fonction de leurs capacités à occuper des champs stratégiques de la recherche en se basant sur des indicateurs d’émergence et de multidisciplinarité, et non plus sur le calcul de la visibilité internationale ou de la course aux citations. C’est ce que l’on appelle maintenant des mesures de compétences spécifiques. Résultats ? Dans bien des domaines, comme celui des énergies renouvelables, l’Allemagne (qui ne peut rivaliser en nombre de publications avec, par exemple, la Chine) se distingue nettement au niveau mondial en occupant des créneaux originaux d’innovation. Comme l’indique Michelle Pirotta :

« Identifying distinctive competencies rather than simply replying on citation counts shows where competition could come from in the future. While Germany may not yet be leading the United Stated on alternative-energy research, it is certainly developing deep expertise in a wide range of disciplines, which could result in breakthroughs in the near future. If our most urgent scientific challenges, such as alternative-energy, require a multidisciplinary approach, then we urgently need to find ways of measuring output in these areas. »

Au delà des aspects techniques, voire esthétiques, les cartographies de l’IST et des dimensions des données qu’elles exploitent sont donc porteuses de questions éminemment politiques. De ce point de vue, on ne peut qu’être inquiet de voir se renforcer aujourd’hui en France la « course individuelle aux citations », alimentée d’un côté par le désir (très libéral) d’augmenter la « productivité des chercheurs » et, de l’autre, par le conservatisme des agences d’évaluation et les pratiques très traditionnelles de la recherche académique en matière d’évaluation.

(PS : merci à Sébastien Heymann et à Mathieu Bastian pour leurs références)