En route pour la cartographie des Sciences de l’Information et de la Communication

Cartographier la discipline. Il y a quelques temps, m’est venue l’idée de cartographier les sciences de l’information et de la communication comme une forme de réseau de connaissances. Comme les autres disciplines scientifiques, on peut considérer les S.I.C. sous l’angle d’une géographie intellectuelle, où seraient associées aussi bien des concepts, des hypothèses, des orientations théoriques, des méthodes et des "terrains" de travail que des acteurs particuliers (les chercheurs) ou collectifs (les laboratoires). La carte, à grande échelle, montrerait peut-être quelques traits remarquables que chacun des acteurs, avec son niveau local de connaissances sur la discipline, ne peut percevoir. En analysant les résultats d’une enquête auprès de certains laboratoires en sciences de l’information réalisée par la CPdirSIC (Conférence Permanente des Directeurs de laboratoire en SIC, l’une des instances de gouvernance de la discipline en France), je me suis lancé dans ce projet de cartographie de l’information avec l’idée de produire régulièrement de nouvelles vues sur les données, à mesure que j’intègrerais de nouvelles sources que me seraient soumises.

DirSICi

L’émergence d’une géographie de la recherche. Voici donc le premier cliché de la géographie de la discipline (téléchargeable au format PDF "A0" pour impression). Il est composé de deux série d’éléments distincts. Les laboratoires, pour commencer, au nombre de 14 (carism-IFP, cérilac, ciméos, communication et solidarité, crem, crap, élico, épin, geriico, gresec, gripic, i3m, irsic, mica), représentés par les noeuds rouge du graphe. Cette liste est ouverte et peut intégrer demain de nouveaux éléments (quand le dénombrement des laboratoires sera achevé). Elle peut aussi être articulée à un niveau de granularité descriptive plus fin, avec l’intégration pour chacun des laboratoires des noms des chercheurs (permanents ou non) ou encore la liste des chercheurs qualifiés par la commission nationale de la "discipline 71". L’autre type d’éléments dans la carte sont les "mots-clés" ou "descripteurs de contenus" et sont au nombre de 304 pour le moment. Ils forment un ensemble composite de mots ou d’expressions issus de l’enquête comme des sites web (les URL des laboratoires, maintenant indexés dans mes données). Ils représentent un niveau moyen de granularité descriptive (plus fins que des expressions trop générales comme "sciences de l’information" ou trop particulière comme on en trouve tant dans les "tags" libres associés aux notices des publications). Je teste donc, manuellement, le "bon niveau" de granularité de façon à apercevoir les connaissances partagées ou particulières de chacun des 14 laboratoires. L’ensemble des 14 laboratoires se trouvent associés aux 304 termes en fonction des informations intégrées petit à petit à la base. C’est le principe du graphe bi-partite où les laboratoires sont liés à des termes représentatifs de leurs domaines de recherche. Le pattern visuel produit avec Gephi dépend donc beaucoup de la façon dont les laboratoires "échangent" des termes communs, et qui donc peuvent contribuer à grande échelle à dessiner des "zones de spécialisation scientifique".

Certains des termes apparaissent en blanc dans la carte car ils sont en cours de validation. Les autres apparaissent de différentes couleurs, regroupés en zones où ils sont associés par famille de même couleur. La distribution des couleurs est issue d’un double jeu: les noeuds sont ainsi placés par proximité topologique dans la structure de graphe (par exemple, deux termes sont proches l’un de l’autre dans la carte parce qu’ils sont liés de la même façon à un ou plusieurs laboratoires) et par similarité ou complémentarité de contenu que je valide manuellement. Pour affiner les choix, on peut aussi mobiliser un algorithme de détection de communautés (comme Modularity) qu’affectionnent les approches de type "sociologie des réseaux". Dans notre cas, l’algorithme confirme bien la distribution générale des couleurs de la vue proposée. A termes, cet index artisanal comportera trois sous-ensembles d’expressions: les termes généraux (se rapportant aux orientations théoriques), les termes liées aux méthodes (voire aux terrains de recherche associés) et, enfin, les noms propres associés aux auteurs cités dans les sources. En évolution continue, l’ensemble des termes intégrés au corpus pourrait constituer une table d’indexation éventuellement implémentable dans un moteur dédié à la discipline.

DirSICh

Fabriquant de boussoles. J’ai entouré de gris 5 termes car ils m’ont rapidement paru "synthétiser" ou "résumer" la spécificité locale de leurs différentes zones thématiques. Ils pourraient faire office de titres aux régions distinctes mais, à titre de noeuds contribuant à tisser une structure, on devrait plutôt les voir comme des "attracteurs" locaux permettant de qualifier chacun des laboratoires de recherche qui s’y trouve relié directement ou DirSICkindirectement. Quand on regarde la carte, les 5 termes semblent placés à des points cardinaux et, si l’on n’a pas oublié que fabriquer des boussoles fait partie des compétences du cartographe, j’ai commencé à dessiner les contours d’un instrument d’aide à la navigation dans les thèmes de recherche en sciences de l’information et de la communication. Au fur et à mesure que des données supplémentaires entreront dans l’index et la liste des laboratoires, les thèmes cardinaux pourront varier, tout comme la structure générale de la carte. Mais l’expérience montre que, passée une certaine échelle quantitative dans les données, une partie des premiers patterns obtenus restent souvent inscrits lorsque l’on intègre de nouvelles informations aux structures de graphes de ce type.

DirSICg

Pour le moment, je me demande toujours quelle est la nature conceptuelle des zones qui se dessinent entre chacun des attracteurs. En position centrale, la question des "médias" semble irriguer autour d’elle différents champs (titres extérieurs en gris, dans la carte comme dans la boussole). Celle, par exemple, des "systèmes" ("sociotechniques"?) qui se trouve comprise entre "dispositifs" (médiatiques au sens technique, notamment numériques) et (formes des) "organisations" sociales. Entre "organisations" et "sociologie de la communication" semblent se décliner une série de problématiques qui vont des modèles d’organisation sociale (instrumentés médiatiquement) aux catégories d’usages des médias, notamment sous l’angle professionnels (où l’on placerait des thèmes émergents de recherche comme le "data journalism" ou l’étude des médias sociaux sur le web). La présence, et le choix, du terme "patrimoine" peut intriguer mais il faut le prendre au sens large de patrimoine formel (par exemple les genres dans la littérature), de patrimoine historique (les archives, la mémoire culturelle), de patrimoine artistique et esthétique (l’avant-garde numérique, institutions culturelles) et de patrimoine "médiatique" (mémoire du journalisme). De ce côté gauche de la carte, plus on remonte, plus se profile les thématiques liées au langage (littératures, genres, discours, auctorialité…), puis à ses techniques (techno-sémiotiques, écritures, récits…). De là, si l’on redescend sur l’autre versant à droite de la carte, on voit comment se calent des questions comme celles des controverses, de la démocratie délibérative ou de la transmission des savoirs à l’intersection des questions de techniques d’écriture et des formes sociales d’organisation.

Etendre les données. La boussole des sciences de l’information, en son principe, fait partie de la boîte à outils que va utiliser le cartographe. A mon avis, elle concentrera nombre de discussions sur les éléments ou les "attracteurs" fondamentaux de la discipline, ce qui permettra par exemple de la comparer à d’autres comme la sociologie, les sciences informatiques ou la linguistique ou encore de la façon dont notre géographie conceptuelle intègre les métiers de l’information (veille, documentation, archives, bibliothèques…). L’essentiel, pour le moment, est d’ouvrir le projet aux contributions spontanées, soit pour m’indiquer des sources à prendre en compte ultérieurement, soit pour m’indiquer l’existence de laboratoires en sciences de l’information qui possèdent des sites web (relativement) remis à jour. Pour ma part, je pense à plusieurs pistes: celle, par exemple, des sujets de thèse (pour les termes d’index) et de la composition de leurs jurys (où figurent souvent plusieurs chercheurs de plusieurs laboratoires en SIC), mais aussi aux copublications associant plusieurs chercheurs de plusieurs laboratoires (un bon moyen de mesurer la pertinence de notre première photographie du domaine) ou encore aux projets déposés auprès de l’A.N.R. (qu’ils soient sélectionnés au financement ou bien refusés). Mais je suppose (enfin j’espère!) que des références me seront soumises bientôt.

Côté technique, je compte utiliser pour le moment Gephi pour tester différentes façons de "fusionner" des informations qui viennent de sources diverses d’information et élaborer un modèle de données robuste. Gephi propose plusieurs fonctionnalités dédiées à la gestion des données, comme "l’écran de contrôle" que constitue le "Laboratoire de Données" dans lequel on peut gérer (comme dans Excel) ses lignes et ses colonnes. Comme je le rappelle souvent, cet espace central dans Gephi n’est pas un simple moyen d’accéder à une structure de données mais aussi un espace d’agrégation, de croisement et d’enrichissement des données (notamment avec les métriques-réseau accessibles depuis le menu "Statistiques").

DirSICc

La gestion des données concernant la géographie scientifique des sciences de l’information peut aussi s’effectuer via l’interface d’exploration de la carte avec Gephi. Pour chaque noeud du graphe (laboratoires ou termes de l’index en construction), on peut ouvrir depuis Gephi une URL associée (quand elle existe dans la table de données) ou bien encore ajouter une colonne de "commentaire" ou taguer à la volée chacun des éléments.

DirSICa

Encore modeste, l’ensemble du dispositif cartographique avec cette première carte me paraît prêt, dès à présent, à recevoir les contributions de ceux qu’intéresse la géographie scientifique des sciences de l’information.

About these ads

2 réflexions sur “En route pour la cartographie des Sciences de l’Information et de la Communication

  1. Bonjour
    Je travaille sur un projet de cartographie de la revue Etude de Communication du laboratoire Gerrico. Vous avez réalisé un joli travail mais vous n’avez pas exposé votre méthodologie. Quelles sont vos sources de données? je pense pas que ça soit le WoS puisque les SIC y sont bien représentées.

    • Il est vrai que je n’ai guère détaillé la fameuse "méthodologie de recueil des données" dans cet article. Je vois aussi passer des commentaires sur ce point, ici ou là sur le web et les réseaux sociaux. Tout d’abord il s’agit d’un travail de recueil continu (ce n’est donc que la première d’une longue série de remises à jour). Ce projet au long cours s’appuie donc sur une posture qui assume le "versioning" du corpus de données, tout comme on cartographie des flux ou des évolutions continue (l’important étant d’avoir les descripteurs temporels associés pour pouvoir les traiter, par exemple sous la forme d’une carte à une time-lin. Ensuite, l’étude est basée sur un autre principe, celui de l’intégration de sources de données différentes. Pour cette première version j’ai associé les résultats d’une enquête de la CPdirSIC en cours mais aussi des termes ou des expressions que j’ai trouvés sur les sites web des 14 équipes cartographiées (indexation full-text des pages). L’important, dans une perspective multi-sources (à mon avis nécessaire si l’on veut produire une géographie exhaustive d’un paysage scientifique ou d’une discipline), c’est de travailler sur la "couche" d’indexation qui permet, non pas seulement d’associer des sources, mais surtout de les corréler à partir d’un principe d’indexation commun. L’intégration, demain peut-être, des notices du WoS, des projets labellisés par l’ANR ou d’un catalogue de thèses en SIC (ou même des brevets), ne posera donc pas de problèmes insurmontables si l’on dispose de la méthode et des outils pour croiser des sources hétérogènes. En fait il n’y a pas de limites particulières (de types ou de tailles de sources) et j’appelle tous ceux que cela intéresse à me soumettre des idées. Et pourquoi pas Etudes de Communication…

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s