Le semestre d’automne approchant, il est temps d’ouvrir quelques nouvelles pistes de réflexion et d’expérimentation. Si l’essentiel du semestre dernier s’est concentré sur l’exploitation des données internes à l’U.T.C. (notamment les flux d’étudiants à travers leurs choix successifs d’enseignements, mais je reviendrai dessus dans un prochain post sur ce blog), j’ai parcouru cet été le site web consacré au système GDELT dont Sébastien Heymann (linkurious) m’a rappelé l’existence. Et ce pourrait être, effectivement, un terrain d’expérimentations technologiques ou méthodologiques, les premiers chapitres Chroniques du Web faisant office d’accompagnement théorique. Les deux ensemble constituent donc l’essentiel de mon enseignement à l’UTC pour lequel je n’ai toujours pas trouvé de nom pertinent.

GDELTc

A parcourir les pages consacrées au projet, on peut se demander si GDELT est un instrument de prédiction du futur, un détecteur de “tendances”, un révélateur d’opinions ou de sentiment? Oui selon Kalev Hannes Leetaru, le lead créateur du système lancé en 2013. G.D.E.L.T., en toutes lettres, signifie Global Database of Events, Language, and Tone, autrement dit le plus vaste entrepôt d’informations “sociales” accessibles aujourd’hui publiquement. A priori, voilà donc un énième projet scientifique bâti au carrefour de l’univers des data sciences et des problématiques sociétales comme la gestion des crises humanitaires et du risque, des soubresauts de l’économie ou de la géopolitique ou la détection des “influenceurs” à différentes échelles sociétales. A priori seulement.

Car, à y regarder de plus près, la base GDELT est un univers relativement complet côté technique, presque fascinant étant donnée son amplitude en termes de contenus accessibles et, aussi, étant donnés ses objectifs “sociaux” ou “politiques” au sens plein du terme. La base de données GDELT frappe d’abord par son amplitude: plus de 200 millions “d’événements” y sont archivés couvrant aussi bien les champs du politiques, de l’économie, de la santé (épidémies) ou les conflits géopolitiques. Et la base intègre chaque jour plus de 30.000 à 100.000 “événements”! GDELT intègre des traitement sur plus de 100 langues dans la plupart des formats disponibles (web réseaux sociaux, médias, images, sons, livres ou documents numérisés, informations légales, etc.), en notant au passage que le système intègre des données récoltées depuis…1979. On reconnaît là les compétences de K. Leetaru acquises au National Center for Supercomputing Applications, le fameux NCSA où est né Mosaïc.

Mais une telle surface de récolte de data pour quoi faire? En premier lieu GDELT représente aujourd’hui un immense terrain d’expérimentation pour le big data, notamment la recherche de “patterns” large-scale et orientés social data mining. « People talk about oceans of information, If you look below the surface, there’s a whole world of latent information that we’re just beginning to try to understand” indique K. Leetaru. La segmentation des silos informationnels du projet rappelle cette orientation sociétale où les data semblent mises au service de l’observation, de la décision voire de la prédiction collective pour affronter les principaux défis de notre temps:

GDELTa

Mais la véritable plus-value du projet GELT me semble résider dans l’écosystème technologique dans lequel il prend place. GELT est un né chez des experts du web qui pensent leur projet pour la place qu’il occupera rapidement dans un environnement de données multi-sources, sous de formes de flux et en masses avec lesquels il est connecté et, en retour, rediffuse sur le réseau les données raffinées. Cet « esprit réseau » n’est guère étonnant quand on regarde les sociétés et les organisations qui soutiennent GDELT: Google Ideas, Google Cloud, Google and Google News, the Yahoo! Fellowship at Georgetown University, BBC Monitoring, the National Academies Keck Futures Program, Reed Elsevier’s LexisNexis Group, JSTOR, DTIC, and the Internet Archive…

GDELTe

C’est là qu’interviennent les éléments en réseau, les graphes et, peut-être, des formes de cartographies thématiques à produire ou à inventer. GELT propose, en effet, une forme générique de graphes (compatibles avec Gephi cité comme “connecteur” dans le projet, tout comme SigmaJS que les initiateurs du projet proposent comme instrument d’exploration des données). C’est là que j’aimerais sonder la qualité et les dimensions de l’information en testant quelques-uns des aspects du “massive network diagram connecting every person, organization, location, theme and emotion. More than three quarters of a trillion emotional assessments and over 1.5 billion location references were captured in 2015 alone and in just the first half of 2016 more than 70 million images were processed. GDELT’s vision is to leverage this data to construct a catalog of human societal-scale behavior and beliefs across all countries of the world, connecting every person, organization, location, count, theme, news source, and event across the planet into a single massive network that captures what’s happening around the world, what its context is and who’s involved, and how the world is feeling about it, every single day”.

GDELTf

La nouvelle version, GDELT-GKG2 désormais accessible, est remise à jour toutes les 15 minutes! Une performance que l’on doit aux compétences de K. Leetaru et à son collègue Philip Schrodt qui continuent à superviser les lignes de code du système.

GDELTd

GDELT propose une “boîte à outils” pour différents connecteurs qui rend les masses de données exploitables, pour peu que l’on sache les interroger intelligemment. Si les aspects techniques en rebutent certains, on pourra lire le rapport quotidien de “tendances” ou parcourir le blog déjà très riche d’études réalisées avec le système. Que de masses à explorer, et de méthodes nouvelles à inventer! Du moins, tant que le projet reste ouvert aux expérimentations, et donc à l’invention de nouveaux services.