Voici trois cartographies de l’écosphère de l‘Open Data français. Sur fond noir, les trois posters (téléchargeable au format « A0 ») livrent un aperçu général sur l’open-data français actuel. Les trois cartographies sont basées sur les données fournies par Data-Publica, notamment deux études réalisées récemment par Guillaume Lebourgeois, Pierrick Boitel et Perrine Letellier (ayant accueilli les deux derniers dans mon enseignement à l’UTC au semestre dernier). L’objectif de ces cartes est d’entamer une « radiographie » assez complète du domaine, renouvelable dans le temps (peut-être tous les six mois) et directement associée aux données présentes chez Data-Publica. En somme, une sorte d’observatoire de l’open-data français dans lequel je me lance à travers les productions de l’Atelier de Cartographie. 

Cartographie thématique. La première cartographie concerne l’identification des “thèmes”” de l’open-data à travers l’analyse sous forme de graphe des “descripteurs” de contenus (ou méta-données). Ces données “thématiques” sont extraites du travail mené de mars à juin 2012 sur un ensemble de plus de 11.000 sets indexés chez Data-Publica.

Cependant, ma façon de les traiter diffère méthodologiquement du travail d’analyse qui a donné lieu à une publication dynamique en ligne avec sigmajsEn effet, cette cartographie thématique a un caractère très exploratoire dont l’objectif principal est de d’apercevoir des principes structurants dans un set de données qui ressemble fort au départ à une « pelote de laine » sous Gephi avec 2483 noeuds (termes)et 49332 liens de co-occurrence (deux termes étant liés s’ils sont utilisés pour décrire un jeu de données).

La distribution des liens de co-occurrences entre termes laissant apparaître une forme “loi de puissance” caractéristique, j’ai opté pour une méthode ad-hoc de réduction du phénomène statistique à l’origine de la “pelote de laine” en éliminant :

  • la “tête” : les mots les plus présents parmi les 2483 ont de très nombreux liens avec l’ensemble des autres termes du corpus mais, pour la plupart, ils sont très généraux et n’ont que peu de pertinence (“année”, “données”, “types”, “mois”, “classement”, “rapports”, “régions”…) dans une recherche de découpage “géographique” en zones typiques.

  • La queue (ou la “long tail” sur laquelle je reviendrai bientôt) qui comporte de très nombreux termes mais rarement utilisés et liés aux particularités de jeux de données singuliers.

Au final, cette cartographie thématique comporte 553 noeuds et 15421 liens. Comme le rappelle Guillaume Lebourgeois dans l’étude associée : “…parmi les tags les plus fréquents, certains d’entre ne se retrouvent pas dans les noeuds les plus cités : impôt, revenu, transport, emploi. Ces tags là représentent de véritables thématiques “autonomes”, et par leur fréquence semble représenter l’ADN de l’open data français à l’heure actuelle. Si on s’y réfère, l’open data français parle donc essentiellement d’indicateurs socio-économiques d’une part (impôt/revenu/emploi), et de statistiques concernant le transport d’autre part”.


Pour identifier ces zones (les dénombrer d’une part et, d’autres part, les délimiter en les coloriant), on peut se baser sur un calcul statistique (par exemple avec la fonction Modularity sous gephi) ou bien sur un algorithme de spatialisation dont on aura réglé les paramètres de façon adéquate (un ForceAtlas par exemple). J’ai choisi une autre voie qui a consisté à classer chaque terme manuellement dans ce qui m’apparaissait “naturellement” comme des classes (ou des “catégories”) que j’ai réaménagées au cours du travail. Au final, j’ai identifié 7 grandes thématiques (Communication et Médias, Agriculture, Economie/Finances, Energie, Transports, Lois/Résidence, Edication, Individus et Vie Sociale) plus une où figurent les “Non-Classés”. Le résultat est relativement comparable aux 7 catégories adoptées par Data-Publica dans son étude (Agriculture, Entrepreunariat, Transport, Numérique, Justice, Environnement, Économie). Evidemment, on pourra trouver çà et là des choix discutables d’attribution de termes à des catégories mais la cartographie confirme les premiers éléments de l’étude data-publica.

Cartographies des acteurs. Les seconde et troisième cartes sont à associer à l’étude sur les acteurs français de l’Open-Data. Les données proviennent aussi de Data-Publica et de sa récente étude (sans oublier l’interface en ligne en sigmajs). L’approche “acteurs” est parfaitement complémentaire au travail sur l’identification des thèmes et s’inscrit dans la veine de l’analyse en réseau social.

Cependant, dans ce cas, les données sont “externes” et ont été extraites du web (ce qui, au passage, représente une forme pertinente d’enrichissement de données internes avec des sources exogènes dont le web fourmille). Les noeuds des deux cartographies représentent donc des URL d’acteurs ou d’organisations et leurs liens hypertextes réciproques (entrants et sortants). Pour extraire les informations, Data-Publica s’est reposé sur Common Crawl, une organisation qui a mis en place des crawlers et un dispositif de stockage des sites crawlés, afin de permettre à tous ceux qui le souhaitent de pouvoir travailler sur des archives à l’échelle du web entier, sans avoir à souffrir de la mise en place d’une lourde architecture, et de problématiques de stockage des données recueillies. Les sites ont été sélectionnés à partir d’un double score, de “focus” (nombre relatif de pages parlant de l’open-data) et de langue (nombre relatif de pages en français). Une fois établi une liste définitive de ressources web, les URL ont été enrichies manuellement avec deux descripteurs, l’un faisant mention du type d’acteurs (entreprises, ONG et acteurs de la société civile, organismes publics), l’autre de sa “fonction” dans l’écosphère de l’open-data (producteur et exploitants de données, actualités et informations sur le domaine). Ce sont ces deux descripteurs dans la structure de données qui m’ont permis de faire produire deux “vues” sur  les données à partir de la même spatialisation (« les acteurs par types », « les acteurs par fonctions »).

Cette première “photographie” des acteurs français de l’open-data révèle certains traits, comme les positions centrales de certains acteurs, ce que souligne l’étude de Data-Publica : “ Plusieurs leçons peuvent être tirées de ce graphe. La première d’entre elles, c’est la position très centrale occupée par La Fing (Fondation Internet Nouvelle Génération) et Internetactu dans l’opendata français, qui se posent véritablement comme les références de la thématique, en étant très cités par tous les autres acteurs. Nous remarquons également la grande variété d’entreprises françaises qui travaillent sur le thème de l’opendata, mais qui sont pour le moment assez isolées les unes des autres. Elles sont par contre très connectées aux autres entités du graphe, que ce soit avec des acteurs de la Société Civile ou de l’État/Collectivités, et ont donc su s’inscrire rapidement au sein d’un écosystème dynamique. La société civile forme pour le moment la clef de voûte de l’opendata français, et semble être un système organisé et interconnecté solide. Par opposition, l’État français a pour le moment une présence assez disparate, avec quelques acteurs clefs de référence (data.gouv.fr, data.rennes-metropole.fr), accompagnés de quelques autres encore peu reconnus dans le graphe. Cette configuration est symptomatique de l’engagement encore timide de l’État et des pouvoirs publics locaux dans l’opendata, mais démontre également du succès des quelques initiatives qui ont pu être lancées dans le domaine”.

Je laisse à tous ceux que cela intéresse le soin d’imprimer et de contempler les trois posters que propose l’Atelier de Cartographie, et de se livrer eux-aussi à l’exercice de l’interprétation. Ces cartes témoignent, surtout, de la mise en place d’un système d’observation relativement complet du domaine de l’open-data français.

Publicité