L’innotron

Voici un post qui ne parle pas de cartographie de l’information, du moins pas directement. Il s’agit pour moi de signaler à mes lecteurs deux chantiers importants auxquels m’a conduit la cartographie depuis quelques mois. La première concerne la rubrique white papers de ce blog où je viens de rendre accessible deux documents sur ce que l’on peut appeler les « modèles d’innovation ». A force d’analyser et de cartographier les projets, les thèmes ou les acteurs de l’innovation industrielle et scientifique en France, j’en suis venu à m’intéresser de façon détaillée aux modèles (politiques) de ce que l’on appelle « innovation », surtout dans le contexte actuel de renouveau (souhaité et promis) de la compétitivité économique. Sous forme d’une synthèse, puis d’un document plus critique, j’ai rassemblé dans ces deux documents quelques-uns des enseignements majeurs que j’ai pu tirer en accompagnant des projets comme Gephi, linkfluence ou l’Atelier Iceberg plus récemment.

La seconde chose importante concerne un projet de « pépinière expérimentale » que je compte mettre en œuvre, du moins si je trouve un environnement susceptible de l’accueillir. En somme, je passe ainsi de la réflexion à l’action. Après tout, il n’est pas meilleur moyen de valider ses idées que de les mettre en œuvre. Ce projet d’innotron est un concentré de différentes idées que j’avais dispersées ici ou là sur ce blog et repose sur quelques principes simples. Pour moi, l’idée semble s’imposer d’elle-même: à l’image de la recherche en biodiversité qui dispose aujourd’hui d’un écotron (comme les physiciens ont eu leur grand équipement synchrotron), il doit être possible de concevoir une sorte d’Innotron, autrement dit un accélérateur de solutions innovantes dans le domaine des industries numériques et des data. Il peut être centralisé ou distribué géographiquement mais entretient toujours avec le territoire qui l’accueille des relations privilégiées (à l’opposé des clusters artificiels dans lesquels on enferme les acteurs du numérique). Si l’expression n’est pas des plus poétiques, elle renvoie explicitement à un projet d’expérimentation destiné à valider (ou non), en territoires, certaines pistes suggérées dans les deux documents accessibles depuis la rubrique white papers. Le premier, sous forme de synthèse, tentait de résumer la colonne vertébrale du « modèle français » de l’innovation sous l’angle d’un triptyque innovation-compétitivité-grands groupes industriels. Le second, largement critique, a permis d’insister sur le rôle des écosystèmes locaux d’innovation, du moins si l’on entend par écosystème un réseau riche d’interactions entre des éléments par nature diverses.

Je précise, tout de suite, que j’ai commencé à poser les premières briques de ce projet au mois de novembre dernier, avant donc que Fleur Pellerin n’annonce en janvier de cette année le lancement du concours à labellisation « FrenchTech » pour une dizaine de métropoles nationales. Hormis cette synchronisation involontaire, il n’y a aucune raison de confondre les deux approches : le label « FrenchTech » s’inscrit en droite ligne dans le sillage tracé par nombre de documents stratégiques analysés dans la synthèse, à commencer par le « rapport Gallois ». L‘innotron que j’imagine épouse des directions par nature très différentes de celles qui guident l’action actuelle de nos ministres ou de nos secrétaires d’Etat, et interroge l’organisation même (voire l’efficacité) des différents moyens ou services de l’Etat et des collectivités territoriales en matière d’innovation numérique.

A l’obsession du « rayonnement international » des projets technologiques ou numériques français, je préfère la culture du local et du marché intérieur (en soutenant par exemple une politique de la demande ciblée sur des compétences locales ou nationales); aux critères de valorisation capitalistique (avec toujours les mêmes deux ou trois success stories que l’on propose de sociétés françaises qui ont réussi leur entrée en bourse à New-York) je préfère le critère de pérennité des emplois créés dans le numérique (les modèles de star-ups actuels me semblent beaucoup trop spéculatifs), aux grandes démarches programmatiques de l’Etat (top-down) j’oppose le principe d’émergence et d’autonomie des projets d’innovation (innovation ascendante); enfin, à la spécialisation territoriale en « filières » et aux projets de concentration d’un même type de métier en un même lieu (la vision très française de la notion de cluster sous la forme, par exemple, des fameux « quartiers de la création »), je voudrais développer un projet de fédération d’acteurs différents et de petite taille autour de complémentarités métier encore peu explorées et dont l’intelligence des données constituent le ciment. Evidemment, je ne suis pas Ministre ou secrétaire d’Etat et je n’ai pas les moyens d’imposer cette conception de l’innovation un peu « en décalage » par rapport au (seul) modèle d’organisation et de soutien imposé actuellement (surtout qu’une grande partie de l’innotron repose sur un principe d’auto-gestion pleinement assumé). Je tiendrai informés mes lecteurs régulièrement de cette nouvelle aventure où je compte embarquer quelques-uns des acteurs majeurs de la cartographie numérique d’information, ainsi qu’une collection originale d’outils et/ou de méthodes. Une fois finalisé, le projet complet d’innotron sera diffusé dans le rubrique white papers. Je ne sais pas encore où tout cela va me mener, peut être nulle part d’ailleurs. Cependant, à travers ce projet d’innotron, j’aurais pu mesurer combien la pratique de la cartographie de l’information et la culture des réseaux peut contribuer à la conception d’un projet en matière de politique d’innovation et d’aide aux structures émergentes et portés par les plus jeunes notamment.

Cartographie des publications de l’U.T.C. depuis 1972, première version

CarteGen

C’est le genre planche synthétique que j’aime bien produire: autour d’une vue centrale sous forme de graphe spatialisé avec Gephi, différentes vues complémentaires viennent enrichir l’exploration d’un vaste corpus de plus de 5200 notices bibliographiques issues de Scopus. Cette planche au format "A0" vient clore la première partie d’un projet entamé voici plusieurs mois en compagnie de Corentin Lefevre, Mathieu Bost, Marion Dupuydt, Christophe Virot et Nicolas Lhomme, tous étudiants inscrits dans mon enseignement à l’Université de Technologie de Compiègne. Notre objectif est simple mais ambitieux: cartographier l’ensemble des notices bibliographiques associées à plus de quarante années de publication scientifique dans les laboratoires de l’U.T.C. Par certains côtés, ce travail de cartographie de l’information s’inscrit dans une veine maintenant classique sur ce blog (et ailleurs) de carte des sciences en reprenant une méthodologie de traitement des données qui a fait ses preuves. Cependant, nous comptons bien aller au delà: synthétisés sous forme d’une planche imprimable, les principaux patterns que nous avons isolés doivent maintenant être affinés et discutés de façon collégiale avec les services de la recherche et de la bibliothèque de l’UTC. En effet, notre ambition est de concevoir aujourd’hui une série d’indicateurs pertinents qui pourront être matérialisés dans une interface numérique et accessibles/manipulables sur un écran tactile grand format. Notre objectif est donc clairement scénographique.

Données et extraction. Les vues cartographiques sur les données ont été produites à partir d’un jeu de plus de 5200 notices bibliographiques extraites de Scopus, la base qui semble le mieux couvrir les sciences pour l’ingénieur. Cependant, ce jeu ne semble guère couvrir les travaux publiés par les chercheurs en sciences humaines et sociales (l’équipe COSTECH dans laquelle je suis) et ceux publiés par mes collègues de l’équipe AVENUES du génie des systèmes urbains (G.S.U.).

labos1

Les informations ont ensuite été intégrées à une BDD qui permet donc de poursuivre et d’étendre le projet à de futures interrogations pour produire à nouveau de nouvelles cartes. On peut aussi penser à enrichir et/ou à modifier le jeu de données, en particulier (encore une fois!) sur les informations liées aux affiliations qui doivent nécessairement être revues. Ainsi, à travers nos travaux cartographiques, il s’agit de doter l’Université de Technologie de Compiègne d’une BDD fiable contenant l’ensemble le plus exhaustif de ses productions de recherche, mobilisable en continue sous la forme d’un web-service ou de façon ponctuelle pour produire des cartographies pour le service de la recherche ou le conseil scientifique.

schemaUML

 

Réglages cartographiques. Le premier objectif d’un travail de cartographie de l’information scientifique, surtout à cette échelle, consiste à mon sens à définir les champs de recherche et leur évolution temporelle. Autrement dit, à produire ce genre de boussoles conceptuelles qui permettrait de comprendre l’originalité des contenus, leurs complémentarité et la façon dont ils peuvent se distribuer dans une géographie générale. Ce n’est qu’en second lieu qu’il me paraît nécessaire de travailler sur cette autre (grande) dimension des cartographie de l’information scientifique que constituent les réseaux de coopération entre chercheurs, laboratoires ou structures (si l’on veut, l’approche plus "réseau social"). Nous nous sommes donc orientés pour cette première étape vers l’étude de la distribution des Index Terms de Scopus et leurs cooccurrences à travers le jeu de 5200 notices. Ces descripteurs de contenu sont qualitativement contrôlés par Elsevier et sont issus de différents thésaurus dont les croisements permettent de traitement de haut-niveau (comme la détection de domaines de recherche émergents). Un premier graphe bipartite intégrant les 5200 notices et plus de 15.000 termes d’index a été généré, puis un second où ne figuraient que les termes d’index reliés entre eux par cooccurrence entre chaque notice (un terme A est lié à un terme B s’ils apparaissent tous les deux comme descripteurs d’une même notice). Le niveau de granularité descriptive paraissant trop élevé pour construire une première "carte" générale, nous avons décidé de ne conserver que les termes ayant un nombre élevé d’occurrences (seuil fixé à 7) de façon à travailler sur une structure de graphe comprenant 1000 termes. Le seuil paraît élevé mais la réduction semble nécessaire si l’on veut identifier les courant principaux de recherche de l’université tout en visant la migration des données cartographiques sur une interface numérique. Par ailleurs, chacun des 1.000 termes retenus pour caractériser la recherche à l’U.T.C. a été associé à la date de sa première apparition dans les notices.

La seconde étape a consisté à produire une structure de graphe simplifiée. En premier lieu, les 1000 termes descripteurs ont été regroupés en 81 clusters en prenant en compte la distribution des liens de cooccurrence en utilisant l’algorithme modularity (non-contraint). Les 81 classes ainsi identifiées ont été spatialisées avec forceatlas2. Les liens entre les 81 classes sont des liens agrégés de cooccurrences entre termes de chaque cluster (il existe un lien entre une classe et une autre quand un terme contenu dans une classe entretient un lien de cooccurrence avec un terme d’une autre classe – ils servent donc à décrire une même notice bibliographique dans la base Scopus). Les labels de nos 81 classes sont constitués par le terme ayant le meilleur score de cooccurrence de la classe, hormis pour les clusters en vert dans la carte où nous avons fait appel à un chimiste pour les valider et, parfois, les modifier pour les rendre plus pertinents. Nous envisageons la possibilité d’étendre le principe aux labels de tout les classes car, souvent, les savoirs d’expertise permettent de valider des frontières que le cartographe ne perçoit pas immédiatement. Par ailleurs, nous allons tester d’autres méthodes de clustering, en exploitant notamment des méthodes plus proches de la modélisation sémantique pour les comparer à l’approche purement statistique liée aux liens de cooccurrence.

zoom3

 

Dans son ensemble, la carte obtenue semble dresser un paysage représentatif des différents domaines de recherche de l’Université de Technologie de Compiègne sur quarante années de contribution scientifique (telle qu’elle apparaît dans Scopus du moins): chimie-chimie verte en vert, les sciences mécaniques en rose depuis les fluides jusqu’à la mécatronique, en bleu les sciences informatiques et les mathématiques, en rouge les sciences du vivant et la biologie, en orange, enfin, les biotechnologies et les biomatériaux. Deux clusters sont restés isolés, en violet un cluster dédié aux propriétés biomécaniques (à cheval sur les sciences du vivant et les sciences mécaniques) et un cluster en gris dédié au scanner à électrons. Actuellement, les différentes vues composant le poster sont en discussion, soit sur des questions de méthodologie, soit sur des questions de représentativité des données Scopus par rapport au nombre et à la diversité des domaines de recherche à l’UTC tels que l’établissement les soutient réellement.

Variations temporelles. Nos premiers essais sur les variations temporelles ont été effectués sur la même vue mais en dégroupant les 81 cluters, ce qui permet de conserver globalement la même géographie. Une fois les 1.000 termes positionnés en couleurs grise, il suffit d’effectuer des partitions temporelles que nous avons définies en tranches de 5 ans (hormis la première de 10 ans étant donné le faible nombre de publications recensées sur les dix premières années de publication). Les noeuds du graphe appartenant à une tranche temporelle se sont vus attribuer une couleurs spécifique, du bleu le plus "froid" au "rouge" le plus marqué pour les plus récents.

Temp1

 

Associées les unes aux autres, les vues temporelles constituent une frise historique où l’on peut voir évoluer les domaines de recherche, au moins dans leurs grandes lignes. Le procédé ne suffit pas encore à rendre compte finement des phénomènes d’évolution mais il a le mérite de pointer globalement leur apparition historique.

Temp2

 

Au premier abord, le jeu permis par la time-line de Gephi offre une vue évolutive générale que l’on aime bien faire jouer chronologiquement, le graphe se densifiant et/ou s’étendant au fur et à mesure des années (ou des périodes choisies) comme dans un film. Dans la dernière période, on voit ainsi poindre quelques domaines majeurs de la recherche comme "réseaux et sécurité" et le cluster dédié à la théorie de la décision, à l‘aircraft control et aux vehicular networks. De même, certains thèmes de recherche et d’expérimentation technologique apparaissent nettement comme les "wheels" et "magnetic noise" en sciences mécaniques mais aussi l’ingénierie cellulaire et les tissus organiques ou encore la chimie verte, la nanofiltration et l’impression moléculaire. Méthodologiquement (et techniquement aussi!), la dimension temporelle, quand elle est accessible dans les données, pose de nombreux problèmes qui constituent aujourd’hui un enjeu de recherche important en matière de graphe et d’ingénierie des connaissances. Mais l’un des aspects importants de l’exploration temporelle est aussi de type épistémologique: en faisant jouer la time-line rétrospectivement, en "remontant le temps" en quelques sortes, on s’aperçoit combien les domaines-phares de la recherche actuelle de l’UTC s’inscrivent dans une remarquable continuité avec les savoirs précédents, dans un jeu d’enrichissement continu et de l’accumulation historique qui fait parfois rupture, comme l’avait déjà remarqué Michel Foucault dans les Mots et les Choses. Nous allons donc explorer plus avant le jeu du temps dans les concepts scientifiques locaux de l’UTC mais peut-être à une échelle plus restreinte (par exemple les sciences informatiques et/ou la biochimie) pour essayer de mesurer plus finement les effets cumulatifs du savoir mais aussi les ruptures qui permettent de le redistribuer en nouveaux thèmes de recherche. Autant d’occasions, pour un cartographe, de photographier le savoir scientifique sous de nouveaux angles.

 

La Carte des I.R.T. et de B-com par l’Atelier Iceberg

support-prez

 

L’événement. Le premier forum national des Instituts de Recherche Technologique s’est tenu à Rennes le 4 octobre dernier. Les huit I.R.T. nationaux étaient présents: M2P, Jules Verne, Railenium, Nanoelec, Saint-Exupéry, SystemX, Bioaster et B-com, l’hôte de la journée. Il a rassemblé plus de 400 personnes, parmi lesquelles Louis Gallois (Commissaire Général à l’Investissement), Stéphane Richard (Orange), Christian Streiff (Safran), Philippe Monteyne (Sanofi), Alban Schmutz (OVH), Thierry Damerval (INSERM), Philippe Archinard (Transgene), Ronan Stephan (Alstom), Guy Cathelineau (Université Rennes 1), Marc Moret (Loiretech), Bruno Revellin-Falcoz (Académie des Technologies), Benjamin Gallezot (DGCIS). Dans son discours de synthèse, Louis Gallois qui a précisé les origines et les missions des huit I.R.T.ainsi que la création de "l’Association nationale des I.R.T.".

BWWv9I6IUAAFYIbEn début d’après-midi, Vincent Marcatté, le Président de b<>com, a présenté devant l’assemblée la "carte des I.R.T" conçue pour l’I.R.T. rennais par l’Atelier Iceberg. J’étais présent: une expérience riche d’enseignements quand on se rappelle tout le parcours qui nous fait passer des données d’origine à cette cartographie relationnelle qui emprunte aux cartes du métro sa structure schématique et épurée, presque fonctionnelle. Son objectif est de souligner les relations "bi-latérales" des I.R.T. à travers l’analyse de leurs partenaires industriels et scientifiques communs. Seuls 28 acteurs majeurs de la RetD privée ou publique ont été retenus pour concentrer le regard sur l’essentiel: les relations transversales aux I.R.T. en termes de partenariats industriels ou de thèmes de recherche que viendra renforcer désormais la nouvelle association des I.R.T. Avec ce travail graphique abouti de mise en scène des données, l’Atelier Iceberg démontre son savoir-faire d’agence dont les compétences couvrent désormais tous les aspects de la chaîne de production cartographique, depuis les données de départ jusqu’aux événementiels ou aux dispositifs d’accès en ligne.

png2

Les cartographies de l’innovation. Comme le rappelle la boussole en "vue circulaire", l’un des objectifs de l’Atelier Iceberg est de mettre en place des "indicateurs d’innovation", parmi lesquels la mesure des réseaux de coopération industrielle ou scientifique. A partir du "coeur thématique" des huit I.R.T., on peut déjà esquisser la colonne vertébrale de leurs interactions, notamment à travers des partenariats communs avec les grands groupes industriels autour des domaines majeurs d’innovation comme les matériaux, le transport ou les biotechnologies. Mais l’observation de l’activité des I.R.T. n’est pas le seul terrain où l’Atelier Iceberg teste depuis quelques mois la mise au point d’une batterie "d’indicateurs d’innovation". Les "85 technologies-clés 2015", les 72 projets validés de structures de recherche d’avenir et/ou d’excellence (Idex, Labex, Equipex de la première et seconde vague d’appel à projets) ou encore les "chantiers d’avenir" décrits récemment dans le rapport de la commission "Innovation 2030" présidée par Anne Lauvergeon à partir de 7 grandes thématiques.

Accessibles sous forme de documents structurés ou de rapports (parfois massifs), ces informations sur la stratégie industrielle actuelle de la France peuvent être en partie croisés (à partir de descripteurs communs) et traités sous forme cartographique et servir, sous forme de "boussoles de l’innovation", pour contextualiser l’activité d’un acteur local (centres de RetD, réseaux de PME, laboratoires ou projets de recherches académiques…). A grande échelle, nous cherchons à identifier des thématiques communes et centrales (au sens des réseaux), comme ce vaste ensemble de projets qui couvre la question du "matériau intelligent" depuis les biotechnologies jusqu’au domaine de l’énergie en passant par les sciences mécaniques ou la chimie. A parcourir tous ces documents et à explorer leurs géographies thématiques, on comprend que la révolution industrielle qui s’amorce (et sur laquelle je reviendrai en détails) est d’abord celle d’une matière transformée (au moins autant que celle de l’information et des réseaux), dont les propriétés évoluent en fonction des échelles (du nanomètre aux mètre carrés des bâtiments), productrice d’énergie, mobile et communicante (intelligence embarquée), mimétique ou bio-inspirée. Dans ces paysages de documents, se dessine une autre veine transversale, celle de la personnalisation et de la traçabilité (thérapies personnalisées, nouveaux biomarqueurs, dispositifs mobiles de communication, exploitation des données d’usage personnelles…). Evidemment, au delà des cartes statiques, on rêve d’une plate-forme en ligne permettant de rechercher des informations mais aussi de les croiser, d’en suivre les évolutions, de les cartographier ou de les visualiser à la volée. Partager avec les usagers quelques-uns des patterns qui nous semble marquer une organisation territoriale et thématique de l’innovation en France, "enracinée localement pour mieux rayonner à l’international" pour reprendre les mots de Louis Gallois ce 4 octobre à Rennes.

8 I.R.T., 8 cartes locales, une carte globale. L’Atelier Iceberg accompagne B-com dans ses projets de cartographie de l’innovation, à partir d’un process de transmission et de traitement des données entre les partenaires. L’objectif est de pouvoir monitorer la vie de B-com depuis son origine à travers la cartographie de ses thématiques, de ses orientations ou de ses projets. Une façon habile de valoriser le patrimoine P¨rocessIceberg2informationnel de B-com mais aussi de rendre traçable le processus d’innovation, depuis les projets locaux et spécialisés jusqu’aux orientations générales de politique incitative et de mise en réseau. L’occasion unique de photographier des formes d’émergence, des inventions, les mutations technologiques à venir dans les domaines des réseaux, des nouvelles images et de l’e-santé (les trois piliers de B-com). Au delà de B-com se profilent les 7 autres I.R.T. (…). Autant de territoires géographique et thématiques à radiographier, et ‘occasions de suivre les politiques publiques de l’innovation en France. Etant donnée la compatibilité potentielle des données cartographiques, il est possible d’envisager une carte globale des 8 I.R.T. déclinable sous de multiples facettes (aspects géographiques et territoriaux, réseaux d’acteurs et de coopération, thèmes spécifiques et transversaux, évolutions temporelles simultanées…). Ce projet cartographique ambitieux pourrait inaugurer un dispositif global de veille, avec ses couches informationnelles: projets soutenus, réseaux de partenaires, publications scientifiques, brevets déposés jusqu’au web et aux réseaux sociaux. Allons, je rêve…en restant persuadé que les méthodes et les outils existent aujourd’hui pour le réaliser.

 

Cartographie des Sciences de l’Information et de la Communication, seconde étape.

VueAa

Trouvaille. La cartographie d’un domaine de connaissances a toujours quelque-chose d’une aventure, surtout dans ses premières phases où il s’agit avant tout de recenser des ressources ou de dénombrer des acteurs. Ainsi de cette expédition dans l’univers des Sciences de l’Information et de la Communication que j’arpente avec curiosité; bien que ce soit ma discipline officielle de recherche, il y a déjà longtemps que j’ai rejoint les network sciences et la recherche technologique. Cet éloignement confère peut-être quelques avantages, notamment celui de pouvoir contempler de loin une discipline qui (je m’en rends compte) cherche encore à comprendre sa propre nature ou, plus politiquement, sa "place" dans la géographie implicite des disciplines en SHS et au delà. Un travail de cartographie (à visée expérimentale comme ici) peut accompagner, nourrir et même orienter selon moi ce type de réflexion épistémologique. Dans mon cas, l’objectif consiste à repérer et à décrire un nombre suffisant de sources d’informations, hétérogènes par nature (en intégrant aussi bien des URL que des notices bibliographiques, des listes de revues, des archives, des fiches projets…), pour les réunir sous un modèle de données unique de façon à produire une cartographie générale de la discipline (ou un atlas réduit selon les masses et les dimensions des données recueillies). La démarche est donc exploratoire et de longue haleine: elle consiste à construire depuis les données une géographie intellectuelle (concepts-clés de la discipline) et sociale (acteurs individuels et collectifs) sous forme de réseaux spatialisés dans la lignée des travaux actuels en ENA (Exploratory Network Analysis). 

Pour atteindre l’objectif, il s’agit d’abord de repérer dans divers univers informationnels toutes les sources utiles, à commencer évidemment par ce qui est accessible sur le web. Parfois, je m’arrête sur quelques trouvailles qui sont l’occasion de déballer ma boîte à outils cartographiques et de prendre quelques clichés. Cela a été le cas récemment lorsque j’ai découvert sur le site du Ministère de l’Enseignement Supérieur et de la Recherche, "l’Annuaire des Ecoles Doctorales et des Unités de Recherche". J’ai découvert cet annuaire en parcourant un texte écrit par Mélanie Bourdaa et Aurélia Lamy, "Les laboratoires de recherche en Sciences de l’Information et de la Communication" publié sur le site de la SFIC (Société Française des Sciences de l’Information et de la Communication). Dans cet article, il est fait mention d’une "liste établie par le ministère de l’enseignement supérieur et de la recherche répertorie 56 laboratoires associés à la discipline SIC". Pour chacun des laboratoires, le site propose une fiche-type comportant notamment une batterie de mots-clés, la discipline principale VueF(dont 24 en SIC) ainsi que les disciplines secondaires. Voilà une véritable aubaine pour un cartographe de l’information! Il y a là des descripteurs (mots-clés), des laboratoires, eux-mêmes associés à une ou plusieurs disciplines. La distinction "discipline principale" et "disciplines secondaires" est essentielle puisque c’est sur elle, en partie, que repose la possibilité de cartographier les domaines de recherche voisins des Sciences de l’Information. En quelques sorte, une première image du coeur mais aussi des lisières de la discipline.

La méthode…encore. La carte est produite à partir de la spatialisation d’une structure de graphe de type bipartite: d’un côté, les 55 laboratoires (noeuds blancs avec un tour rouge pour les laboratoires qui ont les SIC pour "discipline principale" et avec un tour bleu pour les laboratoires qui ont d’autres disciplines principales) et de l’autre 286 expressions (en associant les mots-clés qui servent à décrire l’activité du laboratoire et les intitulés des disciplines autres que SIC, par exemple "sociologie" ou "Informatique et mathématiques"). Ainsi, chacun des 55 laboratoires partage (ou non) avec d’autres un ou plusieurs mots-clés, principe de la construction de la structure de graphe qui sera ensuite spatialisée avec ForceAtlas2 (un algorithme générant des forces d’attraction et de répulsion aux noeuds en fonction de la distribution des liens). Ainsi notre carte finale qui comporte au total 345 noeuds et 1065 liens.

Parmi les 55 laboratoires, 24 sont identifiés comme discipline principale "Sciences de l’Information et de la Communication" (rond blancs entourés de rouge – titres tels qu’ils apparaissent sur le site du MESR) (nb:les deux listes suivantes d’URL sont données ici telles qu’elles apparaissent pour le moment dans la "BDD SIC" en cours de construction):

31 laboratoires sont identifiés sur l’annuaire du Ministère avec les SIC comme "discipline secondaire" parmi d’autres (en rond blanc entourés de bleu dans la carte):

  • interactions, corpus, apprentissage, representations (icar)

La structure de base de la carte est donc construite sur une structure de graphe où sont croisés les 55 laboratoire et les 286 mots-clés.

VueE

Un calque coloré vient ensuite spécifier la nature des noeuds: ronds blancs pour les laboratoires (tour rouge pour ceux associés aux SIC comme discipline principale, tour bleu pour leurs "voisins" ayant les SIC commediscipline secondaire), noeuds de couleurs pleines pour les mots-clés. J’ai distribué ces couleurs pleines manuellement en fonction de leur "proximité" sémantique ("arbitrairement" à-priori) mais en me basant aussi sur les indications livrées par l’algorithme de "détection de communautés" Modularity (Gephi). La carte a été finalisée par l’ajout des titres des "régions" en extérieur.

VueD

VueCRepères et orientations (temporaires). Malgré sa complexité apparente avec plus de 300 noeuds, cette version de la carte spatialisée en ForceAtlas2 (Gephi) laisse apparaître une organisation relativement semblable à la première carte diffusée sur ce blog il y a quelques temps. Elle livre assez rapidement les éléments d’un paysage général où apparaissent les domaines voisins des Sciences de l’information et de la Communication (en signalant à nouveau qu’il s’agit des données issues du site du MESR).

VueB

 

Voici donc le pattern général que nous livre cette version de la carte réduite ici à ses grandes régions, livrant une image assez fidèle de la façon dont les SIC sont associées à d’autres domaines scientifiques d’après l’annuaire des écoles doctorales et des équipes de recherche. Au centre, en rouge, un ensemble de mots-clés dont les tailles varient en fonction du nombre d’occurrences. Les plus importants (et donc les plus souvent associés aux laboratoires sur le site de la DGRI) correspondent aux thèmes identifiés lors de la construction de la première carte, pourtant basée sur d’autres sources d’information (les sites web des 14 laboratoires identifiés alors): "medias", "presse", "nouvelles technologies" mais aussi à gauche "information" (qui mène plus loin dans la carte aux sciences cognitives, à l’ergonomie des IHM et aux application informatiques), à droite "communication" (qui mène plus loin dans la carte aux SHS dont la sociologie et l’histoire) et, en bas, "texte" (qui mène en bas de la carte aux domaines des arts et de la littérature). On notera, au passage, la proximité (noeuds roses) des sciences de l’éducation et de la thématique de l’apprentissage (cf.infra).

VueI

La bi-partition du domaine des Sciences de l’Information se révèle être une piste robuste d’interprétation: d’un côté (ici à gauche dans la carte générale), un ensemble de thématiques et de disciplines liées à l’information calculable (mathématiques, informatique), aux technologies numériques d’accès (ergonomie, hypermedias) et aux dimensions anthropologiques de l’interaction (langage, sciences cognitives).

VueL

 

De l’autre, depuis l’histoire et les civilisations jusqu’au thème de l’environnement, se déclinent un ensemble de domaines scientifiques associés à l’interculturalité et à la dimensions sociale des phénomènes de communication (incluant ainsi le droit, l’économie et l’épistémologie).

VueK

 

Eventuellement, on pourrait considérer que le texte, le message verbal, le document ou l’oeuvre littéraire constituent un troisième ensemble (en bas de la carte).

VueJ

 

Il est évidemment hasardeux de se laisser à interpréter la carte sans vérifier les pistes, et donc retourner aux données, à leur traitement ou à leur spatialisation. Je note, cependant, que l’hypothèse d’une bi- ou d’une tripartition des zones de voisinage des Sciences de l’Information et de la Communication ni viole pas les premiers enseignements de la première carte, pourtant produite à partir d’un set de données différentes. De plus, pour les deux cartes, différents modes de spatialisation ont été mobilisés ainsi que des opérations de seuillage (par exemple, ne considérer que les mots-clés qui ont plus de 5 occurrences) ou encore de transformation de structure de graphe (graphe des mots-clés reliés par les laboratoires, graphe des laboratoires reliés entre eux dès qu’ils partagent un mot-clé).

Préparer le crawl et l’indexation des données. Si cette cartographie représente un "cliché" ou une "vue" sur les données, elle est aussi un espace de préparation au déploiement d’un processus automatique d’indexation des données. Elle contient en effet les deux types d’éléments pour alimenter un crawler: des points d’entrée sur le web (les URL des laboratoires) et des mots-clés (éventuellement classés en catégories), comme une sorte d’ontologie primitive du domaine à explorer mobilisable pour orienter un crawler (focus-crawler) ou repérer des expressions pertinentes en termes d’indexation full-text. Ce sera la prochaine étape de notre expédition dans le domaine des Sciences de l’Information et de la Communication: l’indexation complète de toutes les pages web des sites des 55 laboratoires. C’est la phase de test que j’ai entamée avec Unicrawler en cours de développement. Accessible et pilotable en ligne, Unicrawler intègre plusieurs fonctionnalités centrales comme (de haut en bas de l’interface de pilotage):

VueG- le réglage de la "seed" (choix des URL de départ), car l’entrée sur le web dépend d’abord de sa structure hyperliée avant d’être un "système d’informations".

- le réglage de la profondeur de crawl en termes de distances à parcourir depuis les URL de départ (se situe-t-on à 2, 3 ou quatre liens hypertextes de distance par rapport au point de départ?)

- les trois zones de filtrage des contenu peuvent être définies à partir d’une batterie de "mots-clés": seules les adresses et/ou les titres des pages et/ou les pavés de texte contenant les KeyWords sélectionnés seront retenus. Il s’agit donc d’un focus-crawler, développé dans la lignée des travaux de S. Chakrabarti.

Unicrawler intègre plusieurs fonctionnalités d’export, notamment le graphes des URL reliées entre elles par liens hypertextes et le graphes des mots-clés reliés par co-occurrence (au format Gephi). Ces deux fonctionnalités simultanément accessibles permettront d’éprouver le principe de corrélation "contenu-structure" à différents niveaux ou, pour le dire autrement, vérifier jusqu’à quel point ce qui est "similaire" du point de vue du contenu est par ailleurs "proche" du point de la topologie hypertexte du web. Ce type d’exploration du web est particulièrement efficace pour identifier des zones "d’agrégation communautaire" comme les groupes de blogueurs ou encore les communautés de savoirs scientifiques. Sur ce point, le processus de crawl des pages des 55 sites des laboratoires permettra d’analyser précisément  a) à quel point les sites web associés aux sciences de l’information et de la communication entretiennent des similarités de contenus b) mais aussi de mesurer les degrés d’éloignement ou de proximité topologiques des ressources web (par exemple, les sites sont-ils liés? De façon uniforme ou bien dans des "clusters" spécifiques? Etc.). A court terme, il sera possible d’estimer si un "territoire" des SIC existe sur le web, et sous quelles formes?

Dans cette démarche exploratoire, l’un des atouts d’Unicrawler est qu’il vient d’intégrer une visualisation en JS de la structure de graphe en temps réel et spatialisé (au choix) avec un ForceAtlas. Le résultat est assez étonnant et le process assez fluide. Evidemment, on atteint rapidement certaines limites en termes quantitatifs avec des graphes importants mais suffisant pour supporter une étude sur la géographie des sciences de l’information et de la communication. La visualisation cartographique en temps réelle reste optionnelle; on peut donc mobiliser le crawler pour des opérations volumineuses à partir d’un PC. Si tout se passe bien, l’opération "crawler" constituera le prochaine épisode de la cartographie des SIC.

VueH

Le réseau des administrateurs communs des entreprises du CAC40

"Encore une carte du CAC40?" vont s’écrier ceux qui ont suivi mon enseignement à l’Université de Technologie de Compiègne où j’utilise, chaque fois que possible, ce fichier pour illustrer le principe des graphes bipartites. Cette fois, pourtant, ce sont les designers de l’Atelier Iceberg qui s’en sont emparés pour produire des vues finalisées sur ce réseau "classique" où figurent, d’une part, les entreprises cotées à l’indice CAC40 et, de l’autre, les noms des de ceux qui, à titre de mandataires, occupent au moins deux sièges dans les Conseils d’Administration. C’est le principe des affiliation networks que pratiquent depuis longtemps les sociologues américains avec un intérêt marqué pour les boards of directors of compagnies (M.E.J. Newman, Networks – An introduction). Voici donc, en quelques sortes, notre version française avec des données remises à jour pour l’occasion et extraites du site daily-bourse.

Vue1vignetteLe travail graphique est composé de trois vues différentes qui éclairent les données sous des aspects différents. La première d’entre elles est constituée par un graphe bipartie où les entreprises sont reliées entre elles par la présence d’un ou plusieurs administrateurs communs et spatialisé avec un ForceAtlas sous Gephi. L’emphase graphique se porte "naturellement" sur les noms des administrateurs communs aux entreprises du CAC40: alors que les entreprises figurent dans cette carte sous la forme de noeuds gris de même taille, les tailles des noeuds qui figurent les administrateurs sont proportionnels au nombre de mandats occupés simultanément en 2011-2012 (avec une "pointe" pour Jean-Marie Folz). Il serait difficile de tirer des enseignements particuliers de cette carte en termes de "réseaux d’influence" car, pour le faire, il faudrait associer et croiser bien d’autres informations. Pour moi, elle n’est que l’occasion de produire quelques calculs permis par Gephi, comme la recherche de clusters (modularity) ou encore de "centralité" (betweeness). Par exemple, en admettant que deux administrateurs sont liés s’ils fréquentent le même board, quelle est la distance moyenne reliant chacun des administrateurs entre eux (on obtient dans ce cas une sorte de mesure du diamètre du réseau social) ou encore, si l’on veut rencontrer un maximum d’administrateurs le plus directement possible, vers quel administrateur le plus "central" doit-on se tourner?

Vue1

Vue2vignetteC’est ce type de métrique réseau qui gouvernent la seconde vue où les entreprises du CAC40 sont reliées directement entre elles, la distribution des liens ainsi que leur épaisseur étant fonction du nombre d’administrateurs communs. Le placement horizontal des entreprises du CAC40 permet de mettre en relief la distribution des liens et leur intensité, de la même façon qu’une vue circulaire. On aperçoit ainsi les liens "forts" (3 administrateurs communs) qui associent Alstom et Bouygues ou Véolia Environnement et B.N.P. Parisbas. On aurait pu aussi distribuer sur l’axe horizontal les entreprises du CAC40 non pas en fonction de l’ordre alphabétique mais de leurs différents degrés de proximité (autrement dit de leur nombre d’administrateurs communs).

Vue2

La troisième vue emprunte au tableau périodique des éléments sa rigueur systématique. Chacune des 40 vignettes de la table est composée de 4 indicateurs (évolution du CA, CA en 2012, effectif, nom complet de l’entreprise) qui gravitent autour du symbole Euronext de l’entreprise. Ces 5 indicateurs permettent ainsi de distribuer le jeu de 40 vignettes de Vue3vignettebien des façons en croisant deux des cinq dimensions de l’information. Dans la vue produite par l’Atelier Iceberg, elles sont classées en abscisse par ordre croissant en milliers d’employés et en ordonnée en fonction du CA réalisé par les entreprises en 2012. Plus qu’au tableau périodique des éléments régi par les lois rigoureuses de la physique, cette vue me fait plutôt penser à une sorte de jeu de cartes que l’on pourrait étaler sur une table selon différentes solutions, une façon d’anticiper une manipulation matérielle que suggère ici avec succès le designer.

Vue3

Voilà donc un bon exercice de design, surtout avec des données qui varient partiellement chaque année et donc propices à une exploration temporelle. Espace de rassemblement, "la carte du CAC40" est aussi une incitation à enrichir les données, à les croiser avec d’autres données, donc d’autres sources. Chacun pourra donc poursuivre le travail, en explorant notamment les éléments biographiques comme économiques qui, pour les administrateurs comme pour les entreprises, contribuent à éclairer la nature (professionnelle, capitalistique, personnelle, familiale, etc.) des liens qui impriment aux trois vues leur géographie.

Le véhicule autonome

"Clichés cartographiques autour de 481 notices bibliographiques consacrées à la recherche française dans le domaine du véhicule autonome", tel est le sous titre de l’étude cartographique que j’ai menée sur le thème du "véhicule autonome" en compagnie de Clément Boussard (chercheur à l’IFSTTAR), Akin Kazakci (chercheur à l’Ecole des Mines ParisTech), de Doriane Ibarra et Jordane Raisin-Dadre de la bibliothèque de l’Ecole des Mines de Paris et de l’Atelier Iceberg pour finaliser les vues (ou m’obliger à réduire mon texte, ou à rendre mes phrases plus simples à lire!). Le rapport d’étude et le poster associé ne sont pas nés d’un projet académique labellisé par l’A.N.R. ou d’une demande ministérielle, à une époque où se multiplient les références au "véhicule du futur" dans les politiques actuelles d’innovation et de reconquête industrielle. Ils sont simplement à considérer comme les produits d’une démarche d’expérimentation, initiée de façon spontanée au printemps dernier. Notre démarche commune a reposé sur l’idée qu’il est possible d’extraire des informations pertinentes sur la thématique du "véhicule autonome" en visant particulièrement l’observation du travail des chercheurs des laboratoires français à partir de leur activité de publication scientifique. Et voilà encore un voyage dans l’univers de l’Information Scientifique et Technique…

PosterVueGen

On peut tirer de ce travail exploratoire plusieurs enseignements. Tout d’abord en ce qui concerne les sources de données: nous nous sommes tournés naturellement vers les notices de Scopus (mais celles du Web Of Science auraient aussi pu convenir je crois), l’occasion de vérifier encore une fois combien les techniques de cartographie d’information peuvent se "greffer" efficacement aux structures de données des éditeurs, et les enrichir notablement (y compris sur les données d’affiliation). L’autre enseignement réside dans la validation qu’un projet de cartographie se développe dans une organisation sur le travail d’un trio incontournable d’acteurs: l’expert du domaine pour la pertinence de son regard, le bibliothécaire pour sa maîtrise des sources (et l’ouverture à leur accès!) et le cartographe pour ses solution techniques ou méthodologiques. Enfin, le cartographe et l’Atelier Iceberg auront trouvé dans ce projet expérimental plusieurs occasions de produire des "vues sur les données, depuis le traitement des données jusqu’au poster final.

BibliothequeL’expédition cartographique commence à la bibliothèque de l’Ecole des Mines de Paris, où se trouvent les spécialistes de la documentation et l’accès aux bases d’Information Scientifique et Technique comme Scopus. C’est là que nous avons extrait, par phases successives, 481 notices bibliographiques dans lesquelles au moins un auteur est associé à un laboratoire français ainsi qu’un jeu de 1300 termes, expressions ou descripteurs de contenus (Index Keywords). Etant donné que chaque notice de publication est associée à une batterie de descripteurs de contenu, il est possible de construire une structure de graphe des 1300 termes du corpus reliés entre eux par degrés de cooccurrence (deux termes étant liés quand ils apparaissent ensemble dans la même notice, donc pour décrire une même publication). Le rapport décrit plus précisément la méthode d’extraction des données et les autres étapes du processus de leur transformation mais il est vite apparu que nos descripteurs se concentraient Le processus d’analyse des données fait clairement apparaître un domaine "central" (control theory) et six domaines "périphériques" (computer systems, oceans and marine science, propulsion/flight, entries and aerodynamics, space autonomy, control systems).

Process4

C’est sur cette distribution des clusters qu’est basée la boussole thématique, depuis le domaine des computer systems et la "théorie du contrôle" (en bas) jusqu’aux champs d’application (en haut: océans, espace et ciel avec ses aspects d’aérodynamique et de propulsion). Entre les 6 clusters, un domaine central, lui-même (re)spatialisé avec l’algorithme Forceatlas2 sous Gephi et qui laisse apparaître des régions où la robotique et la théorie de la décision jouent un rôle de noyau conceptuel.

PlanVueGen

C’est sur cette géographie générale que s’est basé le travail de représentation cartographique, depuis la création de la boussole thématique avec ses sept clusters jusqu’au "gros plan" sur le cluster central. Pour cette vue centrale, les choix graphiques sont basés sur des métriques appliquées aux données, notamment la distribution des couleurs (issue de l’utilisation de l’algorithme de "détection de communautés" Modularity) et les tailles de noeuds (tailles en fonction des degrés de cooccurrence, seuls ceux ayant plus de 25 occurrences ont été gardés dans la vue centrale).

La seconde partie du rapport est constitué de clichés cartographiques qui interrogent le corpus de 481 notices sous d’autres angles que les seuls contenus et leurs descripteurs. En croisant différentes dimensions du corpus comme les auteurs, les sources et/ou les données d’affiliation aux structures de recherche (laboratoires ou établissements) via les adresse postales ou les noms des villes, on peut essayer de rendre compte de la géographie sociale d’un domaine: qui sont et où se situent les établissements qui contribuent à la recherche sur le véhicule autonome? Existe-t-i l un réseau étendu et ouvert de chercheurs autour de la thématique ou, au contraire, des myriades de groupes qui ne sont pas "connectés" entre eux via des productions scientifiques? Comment positionner un laboratoire dans notre boussole conceptuelle? Il s’agit donc de passer du "quoi" on parle au "qui" en parle, de la distribution des concepts aux réseaux de ceux qui les portent. Pour le cartographe, c’est aussi l’occasion de s’essayer à quelques vues expérimentales en croisant les données de différentes façons, en soulignant encore une fois qu’il s’agit là d’un enjeu fort pour la cartographie d’information et qui suscite un intérêt particulier de la part des directions d’établissements ou de laboratoires ou les services de soutien ou de gestion à la recherche. Mais nos clichés ne sont que partiels, et parfois sûrement discutables sur telle ou telle information véhiculée par nos cartes car, malgré un (gros) premier nettoyage des données d’affiliation, notre base de données reste encore  à modifier pour certains établissements et certains laboratoires. Néanmoins, ils préfigurent les grandes directions que pourraient emprunter d’autres expéditions cartographiques.

1) Le géoréférencement des laboratoires. La normalisation des données d’affiliation permet de fixer des adresses postales qui peuvent alors être transformées en coordonnées GPS. Le géoréférencement permet d’enrichir notablement des données natives et constitue, tout comme le traitement de la dimension temporelle, un enjeu important de la cartographie d’informations aujourd’hui. Notre travail de vérification des données n’est pas encore achevé. Cependant, une première série de géoprojections a pu être testée. Evidemment, étant donné notre domaine large du "véhicule autonome", la carte de France avec les unités identifiées couvre l’ensemble des grands pôles nationaux de recherche avec la présence des universités mais aussi d’industriels comme Hitachi europe, Renault (technocentre), Vehipole en Bretagne, Siemens, Thomson et les divisions de Thalès Airborne Systems – Underwater Systems – Alenia Space… On retrouve, notamment, la tri-parition qu’annonçait notre boussole conceptuelle: mer et océans avec des concentrations d’acteurs en Bretagne et en PACA (ecole navale, alstom transport, bassin d’essais des carenes, dcns, la dga et le groupe d’etudes sous-marines de l’atlantique – GESMA -géoazur, un observatoire océanologique, les centres IFREMER, l’institut de physique du globe de paris, le laboratoire de géosciences marines…), espace (aérospatiale, agence spatiale européenne, astrium satellites, le cnes…) et l‘aérien (supaero, dassault aviation, eads…).

VuesGeoref

Comme souvent en matière de cartographie géoréférencée à grande échelle, la région Ile-De-France concentre tellement d’acteurs que l’on peut lui dédier une carte spécifique avec ses acteurs comme les Mines-ParisTech, l’Ecole des ponts-ParisTech,L’Ecole polytechnique, l’ENS de cachan, l’université Pierre et Marie Curie et ses structures de recherche…). Au delà de Paris intra-muros, la carte de la région IDF fait apparaître une distribution géographique où l’essentiel des acteurs du véhicule autonome se concentrent dans la partie ouest/sud-ouest. Cette concentration a fait l’objet d’une série de clichés cartographiques particulier. Les projections géoréférencées peuvent aussi, à partir de Gephi, être transformées en fichiers affichables dans GoogleEarth ou GoogleMap. Nos essais sont en cours mais il est important de noter qu’à termes, une fois les affiliations finalisées, il sera possible de croiser les termes d’index ou les liens de co-publication avec, par exemple, les établissements recensés. Il sera donc possible de projeter sur la carte géographique les différents types de liaisons qui existent les structures de recherche à l’échelle nationale, que ce soient des liens de proximité ou de complémentarité scientifiques ou des liens de réseaux d’acteurs, de laboratoires (si l’on pense par exemple aux G.D.R.) ou encore d’établissements (pôles de recherche et de compétitivité, I.R.T., PRES universitaires…).

GoogleEarth

2) Les sources de publications. Où publient les auteurs? Existe-t-il des "lieux" privilégiés d’édition scientifique, des revues ou des conférences centrales où se croisent les chercheurs? Le croisement des données "auteurs" et "sources" est l’occasion de photographier le réseau des sources de publication. Sachant qu’un nombre significatif d’auteurs publie des articles ou diffuse des contributions dans plusieurs sources différentes, il est alors possible de relier les différentes sources (ici, en rouge) à partir du travail de dépôt des auteurs (chaque auteur est représenté par un noeud bleu).

sources

Dans notre corpus de notices Scopus le procédé de croisement fait apparaître une carte de 121 sources de publication et 647 auteurs (ayant au moins deux publications identifiées dans notre corpus et associés à des laboratoires français) où les conférences semblent jouer un rôle moteur. Parmi ces sources, les différents systèmes en ligne de publication de l’IFAC (International Federation of Automatic Control) semblent jouer un rôle fédérateur central pour la communauté française. Axés essentiellement sur l’accès à des archives de "conference papers", le site central de l’IFAC donne accès à des recherches d’information par auteurs ou par conférences, et selon différentes dates. Ce premier cliché global mériterait d’être affiné, notamment par un travail de regroupement des sources de publication en fonction de leurs domaines respectifs de spécialisation (les applications en milieux marins, glacière ou aérien semblent se concentrer dans certaines zones de la carte). Notre photographie des sources a fait l’objet d’un poster imprimable au format "A0" accessible sur demande.

3) Groupes d’acteurs et communautés de connaissances. Si la carte des réseaux de coopération autour de la question du véhicule autonome mérite d’être enrichie, celle des réseaux français de connaissances apparaît d’emblée très riche. En croisant les données "auteurs" et les termes d’index (ceux qui ont servi à construire la boussole thématique), se dessine un espace où l’on peut évoluer de proche en proche sans rupture, avec seulement ces quelques effets de "clustering" qui permettent de générer les composants de notre boussole thématique et ses zones de spécialisation. A grande comme à petite échelle, le graphe qui relie auteurs et termes d’index offre une continuité intellectuelle remarquable (où "tout est lié à tout", et de façon assez hiérarchisée et "clusterisée"). Cet aspect contraste fortement avec nos essais de cartes de co-publications qui laissent apercevoir un espace très morcelé de 193 "micro-clusters" disjoints.

AuteursKW

Cette carte pourrait inaugurer la création d’un répertoire de compétences puisque les auteurs s’y trouvent liés à des descripteurs de contenu qui représentent des domaines de recherche. Mais on pourrait enrichir encore le procédé: un effort à grande échelle sur la normalisation des données d’affiliation pourrait permettre de voir à la fois les domaines de compétences mais aussi les réseaux de coopération entre laboratoires, ou entre établissements.

4) Le cas du sud-ouest parisien. La concentration d’acteurs dans le sud-ouest de l’lle-de-France (à supposer que notre corpus de notices soit fiable) constitue un élément remarquable du principe du géoréférencement de nos données. Chacun pensera, évidemment, au fameux "plateau de Saclay" où se concentrent depuis quelques années des acteurs majeurs de la recherche et de l’industrie en France. Le processus de concentration géographique d’acteurs divers, et éventuellement travaillant sur des domaines de recherche voisins et/ou complémentaires, est un des principes de la logique de "cluster" (à la française!) qui préside à la création de certains pôles de compétitivité, ou même des Instituts de Recherche Technologique (au nombre de huit actuellement).

Pour la cartographie d’informations, voilà l’occasion de produire des "vues" sur les données qui associent coordonnées géographiques, informations sur les acteurs et descripteurs de contenu. Autrement dit, dans une zone géographique déterminée, qui travaille sur quoi? Qui travaille avec qui? Eventuellement depuis combien de temps?  C’est tout le principe des indicateurs territoriaux, une problématique centrale aujourd’hui en matière, notamment, d’évaluation des politiques publiques et pour laquelle la cartographie d’informations géoréférencées jouera de plus en plus un rôle central. Notre travail de normalisation des données d’affiliation n’étant pas achevé (notre carte de la région IDF comporte donc encore des modifications à apporter), nous avons tenté néanmoins de comprendre la "logique de cluster" de cette région à travers la projection des termes d’index communs aux acteurs locaux de la zone. Le principe en est simple: à partir des structures ou établissements présents dans la carte géographique, il s’agit de produire une carte des "mots-clés" communs, autrement dit des thématiques communes de recherche sous la forme de ce que l’on appelé un réseau local de connaissances.

Dans cette perspective, un premier cliché cartographique a été produit en croisant les établissements (en rouge pour les groupes industriels, en jaune pour les organismes de recherche) avec les termes d’index liés (en bleu) aux publications (issues des laboratoires associés). Un travail plus fin d’analyse devrait permettre à termes d’isoler des zones de compétences spécifiques, tout comme une zone centrale avec des acteurs majeurs. Dans notre illustration, seuls quelques-uns des termes d’index ont été conservés (un poster complet est disponible sur demande).

Saclay3

5) Comparer deux structures de recherche. Les derniers clichés de notre expédition cartographique concernent une opération centrale en matière d’exploitation des données de l’I.S.T.: la comparaison entre deux "acteurs", qu’il s’agisse de deux chercheurs, de deux laboratoires ou de deux établissements. Le principe du "focus" cartographique est une forme d’exploration fine et détaillée des données Scopus, notamment parce qu’en sélectionnant deux items (deux termes d’index, deux chercheurs, deux lieux géographiques ou deux dates…) il s’agit de réorganiser l’ensemble des données présentes. Par exemple, à partir des don0nées associées à deux laboratoires de deux établissements différents (22 publications issues du S.E.T., laboratoire Systèmes et Transports de l’Université de Technologie de Belfort-Montbelliard, 39 publications issues des laboratoires COSTECH et Heudiasyc pour l’Université de Technologie de Compiègne), on peut cartographier l’ensemble des termes d’index qu’ils ont en commun et ceux qui les différencient.

CompiegneBelfort2

Un expert reconnaîtra ici des complémentarités en termes d’approche, ou pourra juger éventuellement du degré de généralité ou de spécialisation commun aux deux établissements. Il pourra même, si une direction l’exige, réfléchir aux liens qui pourraient être construits entre des domaines de spécialité complémentaires. En termes de conception d’interfaces ou de scénarios d’exploration des données, de nombreuses solutions restent encore à inventer sur ce point (notamment du côté des éditeurs!). Selon le même principe de croisement des termes d’index communs et distinctifs entre les notices associées à deux établissements de recherche, il est possible de sélectionner un terme ("3-d modeling" fixé au centre) et de faire jouer des forces d’attraction sur l’ensemble des données de façon circulaire (l’opération est accessible depuis Gephi). Ainsi, les deux établissements et leurs termes d’index spécifiques se positionnent en fonction de leur degré de proximité avec l’expression choisie.

UTC-UTBM

Le déploiement d’une solution de visualisation de ce type à l’échelle du corpus devrait intéresser nombre de chercheurs, voire de directions à la recherche. Ce cliché cartographique pourrait figurer parmi d’autres dans une sorte de "tableau de bord" dédié à l’observation des productions scientifiques autour du véhicule autonome, ou à toute autre thématique. Personnellement, je le verrait comme un tableau de bord interactif, accessible en ligne, où l’on choisirait son propre jeu de solutions de visualisations, directement branché (par extraction régulières, ou via une A.P.I.) sur un corpus de données qualifiées comme notre lot de notices (ou bien une BDD interne de brevets, les URL du veilleur web ou les projets labellisés par les structures d’innovation). Assurément, ce serait un bel outil…

En route pour la cartographie des Sciences de l’Information et de la Communication

Cartographier la discipline. Il y a quelques temps, m’est venue l’idée de cartographier les sciences de l’information et de la communication comme une forme de réseau de connaissances. Comme les autres disciplines scientifiques, on peut considérer les S.I.C. sous l’angle d’une géographie intellectuelle, où seraient associées aussi bien des concepts, des hypothèses, des orientations théoriques, des méthodes et des "terrains" de travail que des acteurs particuliers (les chercheurs) ou collectifs (les laboratoires). La carte, à grande échelle, montrerait peut-être quelques traits remarquables que chacun des acteurs, avec son niveau local de connaissances sur la discipline, ne peut percevoir. En analysant les résultats d’une enquête auprès de certains laboratoires en sciences de l’information réalisée par la CPdirSIC (Conférence Permanente des Directeurs de laboratoire en SIC, l’une des instances de gouvernance de la discipline en France), je me suis lancé dans ce projet de cartographie de l’information avec l’idée de produire régulièrement de nouvelles vues sur les données, à mesure que j’intègrerais de nouvelles sources que me seraient soumises.

DirSICi

L’émergence d’une géographie de la recherche. Voici donc le premier cliché de la géographie de la discipline (téléchargeable au format PDF "A0" pour impression). Il est composé de deux série d’éléments distincts. Les laboratoires, pour commencer, au nombre de 14 (carism-IFP, cérilac, ciméos, communication et solidarité, crem, crap, élico, épin, geriico, gresec, gripic, i3m, irsic, mica), représentés par les noeuds rouge du graphe. Cette liste est ouverte et peut intégrer demain de nouveaux éléments (quand le dénombrement des laboratoires sera achevé). Elle peut aussi être articulée à un niveau de granularité descriptive plus fin, avec l’intégration pour chacun des laboratoires des noms des chercheurs (permanents ou non) ou encore la liste des chercheurs qualifiés par la commission nationale de la "discipline 71". L’autre type d’éléments dans la carte sont les "mots-clés" ou "descripteurs de contenus" et sont au nombre de 304 pour le moment. Ils forment un ensemble composite de mots ou d’expressions issus de l’enquête comme des sites web (les URL des laboratoires, maintenant indexés dans mes données). Ils représentent un niveau moyen de granularité descriptive (plus fins que des expressions trop générales comme "sciences de l’information" ou trop particulière comme on en trouve tant dans les "tags" libres associés aux notices des publications). Je teste donc, manuellement, le "bon niveau" de granularité de façon à apercevoir les connaissances partagées ou particulières de chacun des 14 laboratoires. L’ensemble des 14 laboratoires se trouvent associés aux 304 termes en fonction des informations intégrées petit à petit à la base. C’est le principe du graphe bi-partite où les laboratoires sont liés à des termes représentatifs de leurs domaines de recherche. Le pattern visuel produit avec Gephi dépend donc beaucoup de la façon dont les laboratoires "échangent" des termes communs, et qui donc peuvent contribuer à grande échelle à dessiner des "zones de spécialisation scientifique".

Certains des termes apparaissent en blanc dans la carte car ils sont en cours de validation. Les autres apparaissent de différentes couleurs, regroupés en zones où ils sont associés par famille de même couleur. La distribution des couleurs est issue d’un double jeu: les noeuds sont ainsi placés par proximité topologique dans la structure de graphe (par exemple, deux termes sont proches l’un de l’autre dans la carte parce qu’ils sont liés de la même façon à un ou plusieurs laboratoires) et par similarité ou complémentarité de contenu que je valide manuellement. Pour affiner les choix, on peut aussi mobiliser un algorithme de détection de communautés (comme Modularity) qu’affectionnent les approches de type "sociologie des réseaux". Dans notre cas, l’algorithme confirme bien la distribution générale des couleurs de la vue proposée. A termes, cet index artisanal comportera trois sous-ensembles d’expressions: les termes généraux (se rapportant aux orientations théoriques), les termes liées aux méthodes (voire aux terrains de recherche associés) et, enfin, les noms propres associés aux auteurs cités dans les sources. En évolution continue, l’ensemble des termes intégrés au corpus pourrait constituer une table d’indexation éventuellement implémentable dans un moteur dédié à la discipline.

DirSICh

Fabriquant de boussoles. J’ai entouré de gris 5 termes car ils m’ont rapidement paru "synthétiser" ou "résumer" la spécificité locale de leurs différentes zones thématiques. Ils pourraient faire office de titres aux régions distinctes mais, à titre de noeuds contribuant à tisser une structure, on devrait plutôt les voir comme des "attracteurs" locaux permettant de qualifier chacun des laboratoires de recherche qui s’y trouve relié directement ou DirSICkindirectement. Quand on regarde la carte, les 5 termes semblent placés à des points cardinaux et, si l’on n’a pas oublié que fabriquer des boussoles fait partie des compétences du cartographe, j’ai commencé à dessiner les contours d’un instrument d’aide à la navigation dans les thèmes de recherche en sciences de l’information et de la communication. Au fur et à mesure que des données supplémentaires entreront dans l’index et la liste des laboratoires, les thèmes cardinaux pourront varier, tout comme la structure générale de la carte. Mais l’expérience montre que, passée une certaine échelle quantitative dans les données, une partie des premiers patterns obtenus restent souvent inscrits lorsque l’on intègre de nouvelles informations aux structures de graphes de ce type.

DirSICg

Pour le moment, je me demande toujours quelle est la nature conceptuelle des zones qui se dessinent entre chacun des attracteurs. En position centrale, la question des "médias" semble irriguer autour d’elle différents champs (titres extérieurs en gris, dans la carte comme dans la boussole). Celle, par exemple, des "systèmes" ("sociotechniques"?) qui se trouve comprise entre "dispositifs" (médiatiques au sens technique, notamment numériques) et (formes des) "organisations" sociales. Entre "organisations" et "sociologie de la communication" semblent se décliner une série de problématiques qui vont des modèles d’organisation sociale (instrumentés médiatiquement) aux catégories d’usages des médias, notamment sous l’angle professionnels (où l’on placerait des thèmes émergents de recherche comme le "data journalism" ou l’étude des médias sociaux sur le web). La présence, et le choix, du terme "patrimoine" peut intriguer mais il faut le prendre au sens large de patrimoine formel (par exemple les genres dans la littérature), de patrimoine historique (les archives, la mémoire culturelle), de patrimoine artistique et esthétique (l’avant-garde numérique, institutions culturelles) et de patrimoine "médiatique" (mémoire du journalisme). De ce côté gauche de la carte, plus on remonte, plus se profile les thématiques liées au langage (littératures, genres, discours, auctorialité…), puis à ses techniques (techno-sémiotiques, écritures, récits…). De là, si l’on redescend sur l’autre versant à droite de la carte, on voit comment se calent des questions comme celles des controverses, de la démocratie délibérative ou de la transmission des savoirs à l’intersection des questions de techniques d’écriture et des formes sociales d’organisation.

Etendre les données. La boussole des sciences de l’information, en son principe, fait partie de la boîte à outils que va utiliser le cartographe. A mon avis, elle concentrera nombre de discussions sur les éléments ou les "attracteurs" fondamentaux de la discipline, ce qui permettra par exemple de la comparer à d’autres comme la sociologie, les sciences informatiques ou la linguistique ou encore de la façon dont notre géographie conceptuelle intègre les métiers de l’information (veille, documentation, archives, bibliothèques…). L’essentiel, pour le moment, est d’ouvrir le projet aux contributions spontanées, soit pour m’indiquer des sources à prendre en compte ultérieurement, soit pour m’indiquer l’existence de laboratoires en sciences de l’information qui possèdent des sites web (relativement) remis à jour. Pour ma part, je pense à plusieurs pistes: celle, par exemple, des sujets de thèse (pour les termes d’index) et de la composition de leurs jurys (où figurent souvent plusieurs chercheurs de plusieurs laboratoires en SIC), mais aussi aux copublications associant plusieurs chercheurs de plusieurs laboratoires (un bon moyen de mesurer la pertinence de notre première photographie du domaine) ou encore aux projets déposés auprès de l’A.N.R. (qu’ils soient sélectionnés au financement ou bien refusés). Mais je suppose (enfin j’espère!) que des références me seront soumises bientôt.

Côté technique, je compte utiliser pour le moment Gephi pour tester différentes façons de "fusionner" des informations qui viennent de sources diverses d’information et élaborer un modèle de données robuste. Gephi propose plusieurs fonctionnalités dédiées à la gestion des données, comme "l’écran de contrôle" que constitue le "Laboratoire de Données" dans lequel on peut gérer (comme dans Excel) ses lignes et ses colonnes. Comme je le rappelle souvent, cet espace central dans Gephi n’est pas un simple moyen d’accéder à une structure de données mais aussi un espace d’agrégation, de croisement et d’enrichissement des données (notamment avec les métriques-réseau accessibles depuis le menu "Statistiques").

DirSICc

La gestion des données concernant la géographie scientifique des sciences de l’information peut aussi s’effectuer via l’interface d’exploration de la carte avec Gephi. Pour chaque noeud du graphe (laboratoires ou termes de l’index en construction), on peut ouvrir depuis Gephi une URL associée (quand elle existe dans la table de données) ou bien encore ajouter une colonne de "commentaire" ou taguer à la volée chacun des éléments.

DirSICa

Encore modeste, l’ensemble du dispositif cartographique avec cette première carte me paraît prêt, dès à présent, à recevoir les contributions de ceux qu’intéresse la géographie scientifique des sciences de l’information.