La question paraît naïve mais justifiée de mon point de vue: est-on capable, spontanément, de citer la plupart des 5 ou 10 grands domaines sur lesquels se prononcent nos députés européens? N’étant pas spécialiste de la question, l’activité politique qui se déroule au parlement européen m’a toujours semblé lointaine, comme une sorte d’horizon énigmatique et très éloigné des préoccupations quotidiennes de mes concitoyens. Les récentes élections européennes ont constitué l’occasion de lancer un projet global de cartographie des débats, des acteurs et, surtout, des domaines ou des thématiques dont s’est emparé le parlement européen sur les cinq dernières années. Trois étudiants de l’U.T.C. (Nicolas Rangeon, Bruno Marcel, Paul Marillonnet) ont ainsi posé les premières briques d’un système cartographique d’exploration des domaines thématiques qui émergent de l’analyse de plus de 2.000 documents (notamment les textes votés par les parlementaires pour le mandat 2009-2014). Le navicorpus qui est né de la démarche fonctionne en ligne comme un dispositif hybridant trois « modules » techniques (selon une « recette » maintenant éprouvée dans mon enseignement): une interface dynamique de graphe, des batteries de mots-clés (à peu près 1.000 retenus pour cette version) regroupés en domaines ou en thèmes et un accès à des ressources externes, notamment les textes eux-mêmes. Le travail sur l’extraction et le traitement des mots-clés est fondamental dans ce genre d’exercice: construits comme une sorte d’ontologie primitive (méthode TF/IDF avec 15 mots-clés retenus par document puis construction d’une structure de graphe de co-occurrence où le terme « A » est relié au terme « B » quand ils sont issus du même document), ils permettent en amont de visualiser une géographie thématique en fonction de leurs regroupements/éloignements en « zones » de densité mais aussi, en aval, de proposer à l’utilisateur une recherche classique de documents par requêtage ou, alors, par sélection d’un ou plusieurs termes (successivement comme simultanément).

En début de navigation, navicorpus propose de choisir un corpus (deux sont accessibles actuellement: les textes européens et les pages web de ce blog). L’interface cartographique du navicorpus est maintenant un « classique » (sigmaJS) avec son zoom, la possibilité d’afficher ou non les liens de co-occurrence ou encore sa loupe qui permet de grossir des zones particulières sans oublier l’inévitable « mini-map » dynamique.

Illus1

Sélectionnez un terme et s’ouvre alors (après un petit temps de calcul) deux frames (ou deux volets). Celui de gauche permet d’afficher les termes associés statistiquement au terme choisi mais aussi d’en sélectionner d’autres. L’ensemble fonctionne donc un filtre de recherche de documents. La frame du bas permet de contrôler le nombre et le type de document retrouvés dans la base. Chaque document est lui-même associé à une batterie de mots-clés qui peuvent être aussi mobilisés comme filtre en les sélectionnant. L’ensemble de ces fonctionnalités assure une recherche rapide et souple aussi bien via l’interface de visualisation de graphes que via les deux volets de recherche par mots-clés.

illus2

Les titres affichés des documents sont cliquables et renvoient directement à l’intégralité des documents-source (http://www.europarl.europa.eu/).

illus4

Toujours dans le volet en bas du navicorpus, deux icônes figurent après les titres de chaque document. La seconde indique la « policy area » du texte voté (son domaine ou son thème) mais la première renvoie quant à elle à un autre site web, votewatch.eu, où sont regroupées toutes les informations politiques associées à chacun des texte. Y sont notamment accessibles les votes des parlementaires (récupérables sous forme de CSV).

illus5

Au delà de l’aspect informatif de ces données et du contexte d’une recherche essentiellement documentaire par mots-clés, on aura deviné la prochaine orientation du navicorpus: la cartographie globale des parlementaires eux-mêmes en fonction (notamment) de leurs votes. En somme un travail de traduction en positions cartographiques de positions politiques. Et il sera intéressant, entre autre, de pouvoir les croiser avec notre première géographie thématique.

J’ai produit un poster rudimentaire associé au corpus cartographié. J’ai respecté les choix graphiques des trois étudiants du point de vue de la visualisation du graphe et, une fois imprimé, il peut apporter un espace complémentaire (et peut-être plus synthétique) malgré son aspect statique. J’ai ajouté quelques éléments statistiques, comme le dénombrement et le classement des 21 thèmes majeurs autour desquels se sont déroulés 5 années de débat. Si chaque « clusters » de mots-clés dans la carte est doté d’une couleur spécifique (la délimitation de ces clusters est issue d’un calcul statistique où les termes qui sont le plus liés ensemble sont regroupés en un sous-ensemble du corpus), je leur ai moi-même attribué des titres, ce qui peut parfois les faire apparaître relativement arbitraires. Le navicorpus (sur cette « version européenne » en ligne) préfigure un dispositif plus générique applicable à d’autres corpus documentaires; après chaque utilisation, il permet aussi de nous rapprocher un peu plus de cette Europe politique qui peut sembler si lointaine.

poster