VueAa

Trouvaille. La cartographie d’un domaine de connaissances a toujours quelque-chose d’une aventure, surtout dans ses premières phases où il s’agit avant tout de recenser des ressources ou de dénombrer des acteurs. Ainsi de cette expédition dans l’univers des Sciences de l’Information et de la Communication que j’arpente avec curiosité; bien que ce soit ma discipline officielle de recherche, il y a déjà longtemps que j’ai rejoint les network sciences et la recherche technologique. Cet éloignement confère peut-être quelques avantages, notamment celui de pouvoir contempler de loin une discipline qui (je m’en rends compte) cherche encore à comprendre sa propre nature ou, plus politiquement, sa « place » dans la géographie implicite des disciplines en SHS et au delà. Un travail de cartographie (à visée expérimentale comme ici) peut accompagner, nourrir et même orienter selon moi ce type de réflexion épistémologique. Dans mon cas, l’objectif consiste à repérer et à décrire un nombre suffisant de sources d’informations, hétérogènes par nature (en intégrant aussi bien des URL que des notices bibliographiques, des listes de revues, des archives, des fiches projets…), pour les réunir sous un modèle de données unique de façon à produire une cartographie générale de la discipline (ou un atlas réduit selon les masses et les dimensions des données recueillies). La démarche est donc exploratoire et de longue haleine: elle consiste à construire depuis les données une géographie intellectuelle (concepts-clés de la discipline) et sociale (acteurs individuels et collectifs) sous forme de réseaux spatialisés dans la lignée des travaux actuels en ENA (Exploratory Network Analysis). 

Pour atteindre l’objectif, il s’agit d’abord de repérer dans divers univers informationnels toutes les sources utiles, à commencer évidemment par ce qui est accessible sur le web. Parfois, je m’arrête sur quelques trouvailles qui sont l’occasion de déballer ma boîte à outils cartographiques et de prendre quelques clichés. Cela a été le cas récemment lorsque j’ai découvert sur le site du Ministère de l’Enseignement Supérieur et de la Recherche, « l’Annuaire des Ecoles Doctorales et des Unités de Recherche« . J’ai découvert cet annuaire en parcourant un texte écrit par Mélanie Bourdaa et Aurélia Lamy, « Les laboratoires de recherche en Sciences de l’Information et de la Communication » publié sur le site de la SFIC (Société Française des Sciences de l’Information et de la Communication). Dans cet article, il est fait mention d’une « liste établie par le ministère de l’enseignement supérieur et de la recherche répertorie 56 laboratoires associés à la discipline SIC ». Pour chacun des laboratoires, le site propose une fiche-type comportant notamment une batterie de mots-clés, la discipline principale VueF(dont 24 en SIC) ainsi que les disciplines secondaires. Voilà une véritable aubaine pour un cartographe de l’information! Il y a là des descripteurs (mots-clés), des laboratoires, eux-mêmes associés à une ou plusieurs disciplines. La distinction « discipline principale » et « disciplines secondaires » est essentielle puisque c’est sur elle, en partie, que repose la possibilité de cartographier les domaines de recherche voisins des Sciences de l’Information. En quelques sorte, une première image du coeur mais aussi des lisières de la discipline.

La méthode…encore. La carte est produite à partir de la spatialisation d’une structure de graphe de type bipartite: d’un côté, les 55 laboratoires (noeuds blancs avec un tour rouge pour les laboratoires qui ont les SIC pour « discipline principale » et avec un tour bleu pour les laboratoires qui ont d’autres disciplines principales) et de l’autre 286 expressions (en associant les mots-clés qui servent à décrire l’activité du laboratoire et les intitulés des disciplines autres que SIC, par exemple « sociologie » ou « Informatique et mathématiques »). Ainsi, chacun des 55 laboratoires partage (ou non) avec d’autres un ou plusieurs mots-clés, principe de la construction de la structure de graphe qui sera ensuite spatialisée avec ForceAtlas2 (un algorithme générant des forces d’attraction et de répulsion aux noeuds en fonction de la distribution des liens). Ainsi notre carte finale qui comporte au total 345 noeuds et 1065 liens.

Parmi les 55 laboratoires, 24 sont identifiés comme discipline principale « Sciences de l’Information et de la Communication » (rond blancs entourés de rouge – titres tels qu’ils apparaissent sur le site du MESR) (nb:les deux listes suivantes d’URL sont données ici telles qu’elles apparaissent pour le moment dans la « BDD SIC » en cours de construction):

31 laboratoires sont identifiés sur l’annuaire du Ministère avec les SIC comme « discipline secondaire » parmi d’autres (en rond blanc entourés de bleu dans la carte):

  • interactions, corpus, apprentissage, representations (icar)

La structure de base de la carte est donc construite sur une structure de graphe où sont croisés les 55 laboratoire et les 286 mots-clés.

VueE

Un calque coloré vient ensuite spécifier la nature des noeuds: ronds blancs pour les laboratoires (tour rouge pour ceux associés aux SIC comme discipline principale, tour bleu pour leurs « voisins » ayant les SIC commediscipline secondaire), noeuds de couleurs pleines pour les mots-clés. J’ai distribué ces couleurs pleines manuellement en fonction de leur « proximité » sémantique (« arbitrairement » à-priori) mais en me basant aussi sur les indications livrées par l’algorithme de « détection de communautés » Modularity (Gephi). La carte a été finalisée par l’ajout des titres des « régions » en extérieur.

VueD

VueCRepères et orientations (temporaires). Malgré sa complexité apparente avec plus de 300 noeuds, cette version de la carte spatialisée en ForceAtlas2 (Gephi) laisse apparaître une organisation relativement semblable à la première carte diffusée sur ce blog il y a quelques temps. Elle livre assez rapidement les éléments d’un paysage général où apparaissent les domaines voisins des Sciences de l’information et de la Communication (en signalant à nouveau qu’il s’agit des données issues du site du MESR).

VueB

 

Voici donc le pattern général que nous livre cette version de la carte réduite ici à ses grandes régions, livrant une image assez fidèle de la façon dont les SIC sont associées à d’autres domaines scientifiques d’après l’annuaire des écoles doctorales et des équipes de recherche. Au centre, en rouge, un ensemble de mots-clés dont les tailles varient en fonction du nombre d’occurrences. Les plus importants (et donc les plus souvent associés aux laboratoires sur le site de la DGRI) correspondent aux thèmes identifiés lors de la construction de la première carte, pourtant basée sur d’autres sources d’information (les sites web des 14 laboratoires identifiés alors): « medias », « presse », « nouvelles technologies » mais aussi à gauche « information » (qui mène plus loin dans la carte aux sciences cognitives, à l’ergonomie des IHM et aux application informatiques), à droite « communication » (qui mène plus loin dans la carte aux SHS dont la sociologie et l’histoire) et, en bas, « texte » (qui mène en bas de la carte aux domaines des arts et de la littérature). On notera, au passage, la proximité (noeuds roses) des sciences de l’éducation et de la thématique de l’apprentissage (cf.infra).

VueI

La bi-partition du domaine des Sciences de l’Information se révèle être une piste robuste d’interprétation: d’un côté (ici à gauche dans la carte générale), un ensemble de thématiques et de disciplines liées à l’information calculable (mathématiques, informatique), aux technologies numériques d’accès (ergonomie, hypermedias) et aux dimensions anthropologiques de l’interaction (langage, sciences cognitives).

VueL

 

De l’autre, depuis l’histoire et les civilisations jusqu’au thème de l’environnement, se déclinent un ensemble de domaines scientifiques associés à l’interculturalité et à la dimensions sociale des phénomènes de communication (incluant ainsi le droit, l’économie et l’épistémologie).

VueK

 

Eventuellement, on pourrait considérer que le texte, le message verbal, le document ou l’oeuvre littéraire constituent un troisième ensemble (en bas de la carte).

VueJ

 

Il est évidemment hasardeux de se laisser à interpréter la carte sans vérifier les pistes, et donc retourner aux données, à leur traitement ou à leur spatialisation. Je note, cependant, que l’hypothèse d’une bi- ou d’une tripartition des zones de voisinage des Sciences de l’Information et de la Communication ni viole pas les premiers enseignements de la première carte, pourtant produite à partir d’un set de données différentes. De plus, pour les deux cartes, différents modes de spatialisation ont été mobilisés ainsi que des opérations de seuillage (par exemple, ne considérer que les mots-clés qui ont plus de 5 occurrences) ou encore de transformation de structure de graphe (graphe des mots-clés reliés par les laboratoires, graphe des laboratoires reliés entre eux dès qu’ils partagent un mot-clé).

Préparer le crawl et l’indexation des données. Si cette cartographie représente un « cliché » ou une « vue » sur les données, elle est aussi un espace de préparation au déploiement d’un processus automatique d’indexation des données. Elle contient en effet les deux types d’éléments pour alimenter un crawler: des points d’entrée sur le web (les URL des laboratoires) et des mots-clés (éventuellement classés en catégories), comme une sorte d’ontologie primitive du domaine à explorer mobilisable pour orienter un crawler (focus-crawler) ou repérer des expressions pertinentes en termes d’indexation full-text. Ce sera la prochaine étape de notre expédition dans le domaine des Sciences de l’Information et de la Communication: l’indexation complète de toutes les pages web des sites des 55 laboratoires. C’est la phase de test que j’ai entamée avec Unicrawler en cours de développement. Accessible et pilotable en ligne, Unicrawler intègre plusieurs fonctionnalités centrales comme (de haut en bas de l’interface de pilotage):

VueG– le réglage de la « seed » (choix des URL de départ), car l’entrée sur le web dépend d’abord de sa structure hyperliée avant d’être un « système d’informations ».

– le réglage de la profondeur de crawl en termes de distances à parcourir depuis les URL de départ (se situe-t-on à 2, 3 ou quatre liens hypertextes de distance par rapport au point de départ?)

– les trois zones de filtrage des contenu peuvent être définies à partir d’une batterie de « mots-clés »: seules les adresses et/ou les titres des pages et/ou les pavés de texte contenant les KeyWords sélectionnés seront retenus. Il s’agit donc d’un focus-crawler, développé dans la lignée des travaux de S. Chakrabarti.

Unicrawler intègre plusieurs fonctionnalités d’export, notamment le graphes des URL reliées entre elles par liens hypertextes et le graphes des mots-clés reliés par co-occurrence (au format Gephi). Ces deux fonctionnalités simultanément accessibles permettront d’éprouver le principe de corrélation « contenu-structure » à différents niveaux ou, pour le dire autrement, vérifier jusqu’à quel point ce qui est « similaire » du point de vue du contenu est par ailleurs « proche » du point de la topologie hypertexte du web. Ce type d’exploration du web est particulièrement efficace pour identifier des zones « d’agrégation communautaire » comme les groupes de blogueurs ou encore les communautés de savoirs scientifiques. Sur ce point, le processus de crawl des pages des 55 sites des laboratoires permettra d’analyser précisément  a) à quel point les sites web associés aux sciences de l’information et de la communication entretiennent des similarités de contenus b) mais aussi de mesurer les degrés d’éloignement ou de proximité topologiques des ressources web (par exemple, les sites sont-ils liés? De façon uniforme ou bien dans des « clusters » spécifiques? Etc.). A court terme, il sera possible d’estimer si un « territoire » des SIC existe sur le web, et sous quelles formes?

Dans cette démarche exploratoire, l’un des atouts d’Unicrawler est qu’il vient d’intégrer une visualisation en JS de la structure de graphe en temps réel et spatialisé (au choix) avec un ForceAtlas. Le résultat est assez étonnant et le process assez fluide. Evidemment, on atteint rapidement certaines limites en termes quantitatifs avec des graphes importants mais suffisant pour supporter une étude sur la géographie des sciences de l’information et de la communication. La visualisation cartographique en temps réelle reste optionnelle; on peut donc mobiliser le crawler pour des opérations volumineuses à partir d’un PC. Si tout se passe bien, l’opération « crawler » constituera le prochaine épisode de la cartographie des SIC.

VueH