La cartographie dans les organisations: quelques enseignements

Le domaine de la cartographie d’informations est déjà riche d’expérimentations et de projets opérationnels dans les organisations, notamment les grandes entreprises et les structures de recherche. Les terrains qu’elle occupe sont d’une grande variété en termes de nature des données et des corpus (notices de publications scientifiques, brevets, données web, comptes de réseaux sociaux, projets de coopération industrielle, documentation technique…), de formats de supports (depuis l’impression papier jusqu’à des interfaces de téléphones mobiles) ou encore de modalités de spatialisation de l’information (structures abstraites des graphes, géolocalisation, variations dynamiques temporelles ou de densité, plans et schémas…). Un tel foisonnement ne laisse guère de place pour définir précisément ce qu’est la cartographie d’information, ou même seulement son domaine. De façon générale, on pourrait dire que la cartographie de l’information relève d’abord et avant tout d’un champ de méthodologie de traitement de l’information et pratique technique. Ses vertus résident assurément dans le renouvellement ou l’enrichissement des rapports que l’on entretient avec l’information, ou avec les data numériques. On pourrait essayer de l’étudier, in abstracto, comme une famille sémiotique spécifique, la décliner en types (cartographie de flux, cartographie géographique, cartes sémantiques, schémas logiques…) ou essayer de spécifier comment elle recoupe partiellement le domaine de l’infoviz, celui du design graphique ou celui des systèmes de connaissance. Mais on peut aussi essayer de la définir par les enjeux qui la traversent comme par la dynamique qu’elle génère, non comme un objet en-soi mais comme un dispositif incluant autant les dimensions humaines, techniques et organisationnelles. Dans cette perspective, un regard rétrospectif sur nombre de projets réalisés depuis plus d’une dizaine d’années en France et ailleurs laissent apercevoir un certain nombre de points transversaux et récurrents, depuis la place du projet cartographique, en passant par les mécanismes de production de l’information et les rapports inédits qu’elle instaure jusqu’à cette ligne de mire que constitue la question de la valorisation du patrimoine informationnel des organisations.

I) Une définition. La cartographie d’information n’est évidemment pas une science, du moins au sens académique. Elle n’est pas réductible non plus à un outil (quand bien-même il s’agirait de Gephi), ou à une famille d’outils définis. Il s’agit plutôt d’une sorte d’art dédié aux expérimentations autour de cet objet qu’est l’information. Cet art concentre un ensemble de techniques et de méthodes de spatialisation de l’information. La cartographie d’information est donc à ranger du côté des instruments de connaissance, en marge des systèmes d’écriture sans pour autant verser dans l’image. Son caractère technique et sa nature opérationnelle la situe au carrefour de différentes méthodes et de plusieurs traditions dans lesquelles elle puise des savoirs-faire. La première, et la plus ancienne, est celle de la cartographie géographique, nourrie de rigueur technique et de différents héritages historiques. La seconde est constituée des apports de la sémiologie graphique, une veine qui court depuis les travaux de J.Bertin jusqu’à l' »infoviz » d’aujourd’hui en passant par E.Tufte. La troisième, plus récente encore, concerne l’information numérique et ses interfaces multimodales d’accès, depuis les travaux de B. Shneiderman jusqu’aux questions posées par les technologies cognitives et les supports numériques. La dernière concerne tous les instruments visuels d’exploration et d’analyse des phénomènes complexes massivement distribués et en réseaux, en marge de la théorie des graphes. La cartographie d’information se nourrit des quatre selon des formules variables: elle assume le rôle de carte (de territoires d’informations, notamment de territoires numériques), remplit les fonctions de systèmes graphique signifiant (avec ses réductions symboliques et sa culture des dimensions – ou des facettes – de l’information), elle représente un espace d’action (éventuellement interactif) sur des jeux de données et, pour finir, elle accompagne aujourd’hui l’observation et l’analyse de la topologie des réseaux (d’informations mais pas seulement). Evidemment, ses formes, ses inflexions, ses « tendances » sont directement liées aux problématiques qui se posent localement, historiquement, là où il y a besoin de forger de nouveaux instruments d’investigation pour répondre à des questions ou à des attentes. C’est pourquoi, aujourd’hui, la cartographie d’information est un domaine qui s’alimente notablement de la visualisation de graphes et de tous les instruments d’exploration et/ou de réduction de la complexité. On doit cette inclinaison récente à l’émergence de masses de données potentiellement croisables (la cartographie agissant alors comme instrument de synthèse et d’investigation dynamique) mais aussi à leur distribution sous forme de réseaux distribués à grande échelle où les questions de topologie, de flux, de distances, de dynamiques temporelles (via les A.P.I.), d’évolution à grande échelle constituent un enjeu majeur de la recherche aujourd’hui dans le monde (la cartographie agissant comme instrument de contrôle, de stratégie et d’aide à la décision).

On peut collectionner les cartographies d’informations comme autant d’objets figés dans une galerie, et donc la faire exister comme une catégorie spécifique de productions. Mais sa véritable nature ne peut s’appréhender qu’à travers les fonctions instrumentales qu’elle remplit, les contextes dans lesquels elle advient, la dynamique qu’elle suscite dans nos rapports à l’information. A ce titre, il faut la concevoir comme un instrument de passage, de mutation, d’innovation. C’est là sa plus grande plus-value quand elle permet de franchir un cap dans la construction des connaissances, dans le développement de nouvelles technologies ou dans le management des services et des organisations. A l’échelle cognitive, la cartographie d’information peut constituer un instrument puissant d’exploration de masses de données, de comprendre l’organisation ou les dimensions d’un phénomène complexe, d’accompagner la décision ou de définir une stratégie d’action. Elle intervient pour lever des verrous intellectuels, identifier des patterns implicites ou sous-jacents dans des connaissances jusque-là éparses et peu croisées. Dans ce type de contexte, la cartographie assure le franchissement d’un cap qualitatif dans le raisonnement, avec pour corrolaire de poser de nouvelles questions d’un degré plus élevé d’abstraction. A l’échelle technique, elle constitue indéniablement un pivot original entre les données et les solutions d’interface et peut jouer un rôle majeur dans des chaînes de traitement de l’information. Depuis peu de temps, les cartographies d’informations sont devenues un enjeu de développement technologique important dans l’univers des technologies web et de l’accès à des silos de données interopérables. A l’échelle organisationnelle, elle peut contribuer à enrichir certaines fonctions et à valoriser un patrimoine informationnel trop peu exploité, voire oublié. C’est toute la dynamique générée par un projet cartographique qui fait la valeur de la carte, quand elle accompagne la production de connaissances nouvelles, l’efficience technique d’un système d’information ou la distribution des rôles et des compétences dans une organisation.

II) Une place ambivalente. Dans le domaine des métiers (ou des services) liés à la production de l’information et à la gestion des systèmes documentaires, la cartographie occupe une place ambivalente. Pour ceux qui la connaissent et la pratiquent, la cartographie de l’information représente un instrument privilégié de découverte et d’analyse de propriétés dans « des données » jusque-là méconnues, ou supposées implicitement, ou posées par hypothèses. Donc un instrument et des méthodes pleins de promesses pour les web sciences, la bibliométrie, les réseaux sociaux, les transactions financières, les grandes organisations ou les statistiques archivées dans les moteurs de recherche. Dans une entreprise ou un organisme de recherche, on peut la mobiliser pour évaluer un portefeuille de brevets, des notices de publications scientifiques, un réseau social d’entreprise ou des catalogues de documents techniques. A partir du moment que des données numériques circulent ou sont archivées, localement ou non, il y a potentiellement la place pour une démarche de cartographie de l’information qui est, fondamentalement, une démarche de valorisation. Sa plus-value réside dans les « vues » sur les données qu’elle permet : à titre d’instrument de synthèse (réduction des masses), d’exploration ou de découverte de connaissances (nous avons encore tant de choses à découvrir dans des univers pourtant numériques et artefactuels comme le web), d’indicateurs ou d’outils d’aide à la décision en matière de gestion et de stratégie.

En pratique, cependant, ce nouvel instrument d’analyse des données ne figure pas encore dans la « boîte à outils » standard pour le traitement de l’information, et tout aussi rarement en termes de compétences humaines. Pour tout dire, il semble que le développement d’un projet de cartographie de l’information dans une organisation est le plus souvent le fruit d’une rencontre, une affaire d’occasion ou d’opportunité, en périphérie des activités centrales de gestion de l’information. Aucune place ne lui est destinée à priori : ni en informatique des systèmes (où il est encore rare en France d’intégrer des structures de graphe dans le management de l’information et les D.S.I.) ni, de l’autre côté, en gestion documentaire où règnent encore sans partage les grands systèmes abstraits de classification et les arborescences où se rangent les « mots » ou les « choses » (à l’époque, pourtant, des données distribuées et dynamiques). Quand elle se déploie dans les organisations, la cartographie de l’information se loge dans un espace réduit, imprévu, inexistant : au sens strict, elle commence là où finissent les données et finit là où commence l’interprétation, l’analyse, voire la décision. Et son succès se mesure, d’abord, à l’aune de tous les « déplacements » qu’elle occasionne en cherchant sa place, à commencer dans les rapports que l’on entretient avec l’information telle qu’elle est produite et transformée.

III) L’épreuve cartographique. Pourtant, c’est de cette petite place que l’on aperçoit le mieux la nature, l’étendue ou les qualités du patrimoine informationnel des organisations, ce que le projet cartographique à pour objectif de repérer, de mobiliser et, au final, de valoriser. La traduction visuelle et quasi-géographique de ce patrimoine (BDD internes, bases de connaissance, répertoires où s’accumulent les rapports d’activité et les synthèses, notices bibliographiques ou publications scientifiques, bookmarks de sites web, abonnés Tweeter ou Linkedin…) a pour objectif, bien entendu, de révéler ces fameux « patterns » qu’il s’agit d’interpréter. Mais la production de cartographies constitue aussi et surtout une redoutable épreuve « qualité » pour les données disponibles. Ce sont-là les effets « amont » de l’insertion de la cartographie dans une chaîne de traitement de l’information. A l’occasion de l’extraction des données d’une base (et après leur passage dans différents types de fichiers GEXF), la projection graphique révèle immanquablement toutes les imperfections d’un système de données, et jusque dans ses moindres détails (ce que masquent la plupart du temps des recherches « verticales » par requêtes). La liste est longue de ces « imperfections » jusque là masquées : dimensions non-renseignées, erreurs dans les chaînes de caractères, doublons de tous types, remises à jour « incertaines », problème de formats…Mais l’épreuve « qualité » ne s’arrête pas là : émergent aussi tous les problèmes liés aux formalismes permettant d’enrichir les données comme les affiliations approximatives ou erronées dans les graphes de co-publication en I.S.T., les URL tronquées et/ou l’absence de procédures de remise à jours des ressources web (souvent invalides), descripteurs géographiques multiples (adresses postales ou départements voire régions dans la même base), etc. Et il reste l’épreuve finale : le nombre de cartes possibles (disons le potentiel cartographique) est partout et toujours directement corrélé au nombre de dimensions présentes dans les données (ou de « méta-données ») : plus les ressources sont décrites finement (et les graphes produits peuvent en faire partie), plus le nombre de vues sur les données est important, plus est complexe l’analyse produite. Certes, d’autres méthodes (comme par exemple l’application d’une solution intelligente de type prédictive) peuvent conduire au même exercice d’évaluation de l’information (et avec les mêmes conclusions) mais la cartographie, par son aspect visuel et synthétique, donc comme espace partagé ou partageable collectivement, constitue un vecteur puissant d’identification des aspects problématiques du management de l’information dans les organisations. De là le rôle prépondérant que peut jouer un projet de cartographie dans une organisation engagée dans une politique de changement où derrière chaque opération technique (existante ou à venir) se profile la questions de l’organisation humaine, de la gestion des compétences et de la distribution des objectifs par services.

Chaine2

En aval la cartographie évolue avec les contraintes exercées par différents scénarii d’usage associés aux contraintes métiers. En particulier, la cartographie d’information contribue souvent à renouveler ou à nourrir des projets d’interfaces nouvelles pour l’accès et à la représentation des données. Cependant, sa plus-value majeure ne réside pas dans les solutions d’interface (même si une cartographie interactive de données et en ligne peut représenter une forme d’aboutissement technique spectaculaire) mais dans les procédures d’intelligence des données qui l’accompagnent. Cela concerne, au premier chef, l’intérêt porté aux techniques de spatialisation de l’information: passer d’une information classée en lignes et en colonnes à une structure spatialisée relève d’une forme de grammaire (et donc d’une procédure) qui n’est pas encore une pratique courante mais dont rapidement chacun reconnaît l’intérêt. En exhibant des patterns qui sont à la fois statistiques et visuels, la cartographie est un vecteur pédagogique puissant pour prendre conscience de l’intérêt d’une démarche d’intelligence des données dans les organisations. Autrement dit, développer cet espace de pratiques et de compétences qui commence là où finissent les données et s’achève là où commence l’interprétation, l’analyse contextuelle, voire la décision. De ce point de vue, il faut intégrer au projet cartographique dans une organisation aussi bien les attentes implicites (voir « ce que l’on sait déjà ») que les différentes surprises sur lesquelles il débouche souvent. Elle n’est donc pas qu’un exercice de « réduction » logique ou graphique de masses de données; c’est aussi un espace où l’on cherche à définir de nouveaux principes de classification (hiérarchisation), de nouvelles formes de regroupement (clustering) en faisant jouer plusieurs scénarios de croisement des dimensions natives de l’information. En d’autres termes, la cartographie de l’information oblige à intégrer à la gestion de l’information ou au knowledge management des techniques (et un temps) de knowledge discovery. C’est aussi une façon d’admettre une forme d’ignorance à propos des univers de données construits patiemment année après année et que l’on croyait contrôler intégralement. En soi, la cartographie relève donc d’une forme pari qui consiste, au delà des techniques et des outils, ou même de l’objet « carte », à adopter un regard nouveau et transversal sur des données natives jusque-là étudiées à partir de tableaux et d’indicateurs purement statistiques ou bien de recherches d’information verticales à partir de requêtes ou de mots-clés (et des résultats eux-mêmes accessibles sous forme de listes « à plat »). On relit souvent, trop rapidement à y réfléchir, les techniques de cartographie et les questions de l’augmentation de nos capacités d' »interprétation » des données, voire d » »évaluation » ou de « décision ». Entre les deux, se loge le principe-même de la spatialisation des données et de cette gymnastique de l’association spatiale et logique qui ouvre sur regard nouveau et transversal sur les corpus ou les domaines d’informations cartographiés, comme « vus du haut » ou mis en perspective.

IV) Le patrimoine des données qualifiées. Un projet cartographique dans une organisation rend d’abord compte de la qualité et de l’énergie dépensée au long d’un difficile travail de remise à jour, de corrections, d’ajouts, de modifications, de migrations successives réussies des données natives. L’expression d’information farming transcrit bien l’idée que ce n’est pas tant dans la puissance de calcul d’un système ou sa supposée « couverture » en « masses de données » que réside la valeur d’un patrimoine informationnel mais bien dans les procédures d’enrichissement et de remise à jour des ressources, dans la chaîne (souvent manuelle) de traitement de l’information (formalisée explicitement ou non, enrichie de modules automatiques ou non). C’est pourquoi, dans l’organisation où il intervient, le cartographe se tourne spontanément vers tous ces espaces périphériques au « système d’information » où se concentrent les usages quotidiens : le tableau Excel de la secrétaire, du chargé de mission, de l’ingénieur d’étude, du veilleur ou du bibliothécaire qui grandit jour après jour et se voit adjoindre des colonnes (donc des métadonnées exploitables cartographiquement) pour répondre à une question ponctuelle ou satisfaire des usages émergents d’un client ou de sa direction. La cartographie d’information peut-être considérée comme une forme de migration des données d’un état à un autre et, de ce point de vue, il apparaît logique qu’un cartographe soit particulièrement attentif aux capacités d’une organisation à exercer cette souplesse autour des données natives (migration, interopérabilité, reindexation, extraction de BDD ou mise en place d’une A.P.I….).

Cosmeto1

S’il fallait tirer une leçon de la pratique de la cartographie de l’information, c’est que le bien le plus précieux des organisations réside le plus souvent là où se concentre l’information qualifiée, autrement dit dans les multiples façons dont sont mobilisées des compétences humaines (pour être plus précis : reconnues et valorisées dans les organisations). Cela paraîtra évident ou incontournable (par exemple pour un veilleur ou un documentaliste) mais il n’est pas sûr que, au-delà, cette conclusion s’impose à tous dans les organisations (notamment en termes d’investissement). Ce n’est pas à la masse d’informations traitées par un système (la « couverture des sources »), ni pour « l’intelligence » dans l’analyse du « sémantique » ou la pertinence des « solutions pour le knowledge management » qu’il faut évaluer un système informationnel mais à son espace de diffusion, à son degré d’appropriation, à la façon dont il permet de capitaliser l’expérience localement et, éventuellement, de la partager via sous forme de réseaux ouverts. Bien des formules restent encore à inventer où se marieraient de façon originale le travail de qualification interne et des solutions informatisées, par exemple dans le domaine de la veille ou de la recherche, distribution de l’expertise et modules de traitement automatique. Malgré les difficultés techniques qu’elle suppose, la cartographie constitue l’une de ces formules mais toutes, à l’évidence, placeront l’expertise au cœur du développement technologique.

V) La cartographie connectée. En un sens, la cartographie de l’information n’a guère évolué en ses principes depuis les apports de Solla Price en bibliométrie sur la représentation de patterns, les enseignements de Jacques Bertin sur la sémiologie graphique ou les travaux d’E. Tufte. La mobilisation de la théorie des graphes, notamment, ne constitue pas une nouveauté en matière d’analyse de grands corpus documentaires. Ce qui a profondément évolué, en revanche, c’est l’univers dans lequel prend place aujourd’hui la cartographie de l’information, celui des réseaux d’informations avec lesquels elle doit dialoguer (faute de rester un exercice purement formel). Dans les univers connectés, les compétences en matière de data processing deviennent un enjeu essentiel et, de nos jours, un cartographe passe peut être autant de temps à développer toute cette tuyauterie analytique qui permet aux données de circuler entre différents types de traitements qu’à produire les cartes elles-mêmes. Au-delà de ses qualités intrinsèques (par exemple la pertinence d’une vue sur les données cristallisée sous forme de poster), la cartographie peut aussi être évaluée en fonction de la nature, du nombre ou de la complexité des opérations de transformation des données qui vont migrer d’un support ou d’un format à l’autre dont elle n’est, finalement, qu’un pivot ou une étape dans les chaînes de traitement de l’information. L’intensité et la richesse des connexions qu’elle tisse avec les environnements informationnels dépendent de nombreux paramètres, à commencer par celui du rassemblement des sources internes dans une organisation, sans parler de leur en format commun. Mais le mouvement lent et continu vers « l’interopérabilité » des données dans les grandes organisation notamment est inéluctable. On devine déjà quelques-uns des aspects qui vont venir bouleverser les pratiques et les routines actuelles de gestion de l’information, notamment la capacité pour la cartographie (mais aussi plus largement pour tous les systèmes d’information) d’intégrer le temps réel, la gestion des flux et du multi-sourcing, le mapping des réseaux sociaux à grande échelle, le traitement des archives ou la géolocalisation.

Vizir1

La cartographie de l’information représente donc un pivot dans les nombreuses chaînes de traitement de l’information que l’on peut imaginer, depuis l’amont (le système d’information) jusqu’à l’aval des usages et des contextes d’utilisation. Parler comme ici des modalités d’interaction entre données d’un côté et usages ou interfaces de l’autre, c’est souligner de fait les deux écueils majeurs auxquels la cartographie est confrontée : une ingénierie des systèmes informatiques fermée sur elle-même et tournée essentiellement vers des problématiques d’optimisation des calculs ou de l’architecture (sous la forme éventuelle de « Directions aux Systèmes Informatiques » bunkerisées dans les organisations) et, de l’autre côté, les fameuses « infovis » ou « dataviz » (voire le « dataporn ») qui relèvent le plus souvent de l’exploit esthétique momentané, sans pérennité ni soucis de l’accès aux informations représentées. Les enseignements du web classique ou « 2.0 » sont pourtant là : dans les univers informationnels contemporains, la plus-value vient essentiellement des fonctionnalités successives de manipulation des données (enrichissement, croisement, réplications) et qui s’agrègent au cours du temps. A l’heure des réseaux distribués et ouverts, la data-processing est devenu peut être plus important que les « briques » technologiques elles-mêmes prises isolément. Et quiconque réussit à « faire dialoguer » ou à construire des « passages » entre données native archivées et interfaces et contextes d’usages s’ouvre des pistes manifestes d’innovation.

Les lignes du destin

Dans les jours qui ont immédiatement suivi les attentas du 11 septembre 2001, Valdis Krebs a commencé à reconstituer sous forme de graphe le puzzle des cellules qui ont opéré au nom d’AlQaeda. Comme à chaque fois, tout commence avec une table de données (type fichier Excel) dans laquelle il va accumuler, rivé aux chaînes de télévision et au web, différentes informations en agrégeant les sources comme le ferait un détective. Dans ce travail remarquable de précision et de patience, sa compréhension du phénomène se construit par élargissement progressif de son horizon d’observabilité, au fur et à mesure que  les « cartes » se succèdent. Chaque nouvelle information vient nourrir la perspective: V. Krebs ajoute, en particulier, de nouveaux liens entre les 19 membres des quatre cellules qui concernent les points communs de leurs différentes biographies (certains sont de la même famille, ont fréquenté les mêmes lieux, vécu dans les mêmes camps d’entrainement en Afghanistan, sont des amis d’enfance ou ont côtoyé les mêmes imams). Il ajoute aussi différentes informations juridiques, commerciales ou administratives qui lui permettent alors de comprendre le lent travail préparatoire des attentats (location commune de voiture, logement communs, voyage à deux ou trois membres…sur une période de plusieurs années). Mais apparaissent aussi de nouveaux noeuds dans la carte, tous ces acteurs qui ont assuré la logistique des opérations et/ou qui ont croisé les « kamikazes » au cours de leurs vie. La carte « finale » que livre V. Krebs comporte ainsi plus de 60 membres (dont certains sont seulement soupçonnés d’avoir participé de façon indirecte aux quatre attentats, d’autres ont été condamnés puis relâchés aujourd’hui et d’autres encore à l’identité invérifiable). La plupart des quarante nouveaux de la carte ont été ajoutés à partir d’un double critère: la nature de leurs liens avec les 18 membres des 4 cellules opérationnelles et le fait qu’ils ont été en contact (pour la plupart) avec au moins deux terroristes (presque sur le même principe que la co-citation en bibliométrie).

carteH

Bien des années après les avoir découvert, j’ai parcouru à nouveau ces curieux documents à la lumière des événements qui nous ont touchés à partir du 11 janvier 2015. J’aurais voulu emprunter le même chemin que V. Krebs dès le 11 janvier mais je suis resté pétrifié devant mon écran de télévision sans pouvoir me restreindre à la même discipline. Cependant, au delà de l’émotion intense suscitée par le flots des images et des commentaires, chacun a pu partager avec les journalistes en plateau des chaînes de télévision le besoin de comprendre les faits ou les événements en les reliant de façon logique à mesure qu’ils sont apparus. Je suppose que dans toutes les rédactions de nos médias, on a dû déployer ces instruments de « war-room » qui permettent d’accumuler les informations sur un grand tableau synthétique, l’espace de l’interprétation ou l’analyse, en temps réel.

CarteL

Si je n’ai pas su au cours de ces dernières semaines construire dynamiquement une « carte » des acteurs liés aux attentats (à partir des trois noeuds centraux que représentent Saïd et Chérif Kouachi et Amedi Coulibaly, en y intégrant petit à petit les nombreuses relations qui les unissaient et tous les autres noeuds de la carte qui auraient montré leurs soutiens, comme dans la carte produite par France24 ci-dessus), je suis revenu quelques instants sur le travail de Valdis Krebs et sa méthodologie. Pour bien comprendre les enjeux et les techniques de cartographie d’organisation criminelles et d’organisations terroristes, j’ai reconstruit patiemment le graphe des 4 cellules d’AlQaeda, de leurs membres et des relations qui ont pu connecter un ensemble d’acteurs dans la préparation et la réalisation des attentats du 11 septembre 2001 aux Etats-Unis. Je précise que je suis un néophyte sur ces questions et que je ne suis mandaté ni par un média ni par un service spécialisé. Cependant, la construction de cette « carte des attentats du 11 septembre » m’a permis de mesurer l’intrication extrême des aspects technologiques et méthodologiques d’un côté et, de l’autre, des aspects éthiques et politiques. Avec les événements dramatiques de ce mois de janvier en France et les menaces réelles qui pèsent sur notre pays, cette intrication de la technologie et de l’éthique va devenir un terrain de débat public de premier plan dans les mois à venir. Serons-nous dans la nécessité d’accepter une nouvelle politique des données en matière de lutte contre les organisations criminelles et les réseaux terroristes? Reverrons-nous à la baisse nos exigences en matière de protection des données personnelles? Peut-on longtemps encore tolérer l’accumulation continue de données personnelles par les géants américains de l’information en laissant démunis nos services nationaux? Voilà autant de questions incontournables qui accompagne spontanément un aussi modeste travail de cartographie descriptive que le mien. Et elles sont d’autant plus cruciales qu’en matière de sécurité (comme de marketing ou de big-data), toute capacité descriptive débouche immanquablement sur l’idée d’instruments prédictifs.

La construction de la carte. En matière de sécurité, il n’est guère envisageable de carte finale ou définitive, sauf à la construire de façon rétrospective et/ou en ayant connaissance de toutes les dimensions d’une activité criminelle. L’intérêt des cartes de réseaux criminels réside plutôt dans la dynamique de leur construction, à mesure que qu’adviennent les éléments de connaissance qui permettent de comprendre un contexte. Elles sont proches des instruments de mind-mapping ou de cartographie sémantique et sont très contrôlées qualitativement. Ce sont des instruments de dynamic knowledge discovery mais d’une nature différente de celles que je produis sur ce blog: si j’aime à identifier des patterns généraux à partir de masses de données qualifiées (notamment via des bases de données reconnues), ici « l’information » doit d’abord être collectée, validée et vérifiée pas à pas dans un contexte d’incertitude généralisée. Ces cartes reposent en grande partie sur la maîtrise de trois contraintes majeures:

  • l’Incomplétude – on ne peut souvent les produire qu’à postériori et, qui plus est, en fonction seulement des informations disponibles.
  • des frontières floues – il faut admettre le caractère temporaire des graphes en décidant d’intégrer des éléments qui pourront se révéler par la suite inutiles et/ou injustifiés. Quand il s’agit de d’acteurs ou de groupes sociaux, on comprend les implications éthiques ou morales de la cartographie ou, dans des techniques plus quantitatives, la production de false positiv (individus innocent répondants cependant aux critères d’identification des algorithmes en big-data)
  • une dynamique temporelle forte – d’un double point de vue: a) les cartes évoluent en fonction des enquêtes b) les éléments cartographiés sont reliés entre eux par des liens de différentes durée (longue, courte, occasionnelle) et intensité (connexion occasionnelle dans un meeting politique ou religieux, connexion logistique quand deux acteurs habitent au même endroit près des lieux des attentats, connexion forte et ancienne quand on appartient à la même famille ou quand on a passé des mois dans un camp d’entraînement en Afghanistan).

A priori, me voilà donc très éloigné de mes terrains habituels, la bibliométrie ou la cartographie de brevets, là où j’aime à produire des cartographies à partir de certains seuils quantitatifs de données qualifiées et là où commencent à apparaître des patterns statistiques et visuels. Ici, avec ce type de graphe, nous entrons dans une méthodologie (et donc des outils) très différents où il s’agit de reconstruire localement et en contexte toute la richesse et la diversité des connexions qui ont pu lier seulement quelques éléments. Un peu comme si j’avais à découvrir l’ensemble des recherches françaises en chimie organique en commençant par quelques publications d’un seul chercheur qui m’ouvriraient, de citation en citation, des chemins de plus en plus nombreux, comme autant de liens dont j’aurais, pour chacun d’eux, à évaluer la valeur, la pertinence, la densité, la temporalité. En d’autres termes, il s’agit d’emprunter le même parcours qu’un analyste ou enquêteur qui découvre, pas à pas, un horizon d’observabilité de plus en plus élargi et complexe.

Les données que j’ai retenues concernent les acteurs suivant (avec l’astérisque pour l’identité supposée en reprenant les informations à V. Krebs): Mohamed Atta, Marwan Al-Shehhi,  Hani HanjourEssid Sami Ben KhemaisNawaf AlhazmiRamzi Bin al-ShibhZiad JarrahAbdul Aziz Al-Omari*Fayez AhmedSalem Alhazmi*Satam SuqamiZacarias MoussaouiHamza AlghamdiSaid BahajiKhalid Al-MihdharSaeed Alghamdi*Wail AlshehriWaleed AlshehriAgus BudimanAhmed AlghamdiZakariya EssabarAhmed Al HaznawiImad Eddin Barakat YarkasMajed MoqedMamoun DarkazanliMounir El MotassadeqMustafa Ahmed al-HisawiNabil al-MarabhRayed Mohammed AbdullahAhmed AlnamiRaed HijaziBandar AlhazmiFaisal Al SalmiMohand Alshehri*Abdelghani MzoudiAhmed Khalil Al-AniMohamed Abdi. Les informations proviennent, pour une part, des contributions de V. Krebs en 2002 et 2003 et, pour une autre part, des biographies accessibles sur wikipedia. D’autres sources m’ont aidé à découvrir le vaste domaine de la cartographie d’organisations criminelles ou terroristes: des sites de communication et de sensibilisation publiques, des sites de cartographies géographiques et historiques et des sites de recensement et liés aux différentes organisation de sécurité mises en place dans les années qui ont suivi le 11 septembre 2001 comme le . Le plus utile aura été sans conteste le site du programme S.T.A.R.T. (National Consortium for the Study of Terrorism and Responses to Terrorism), une référence incomparable à ma connaissance. Parmi les projet du programme START, figure par exemple un projet de base de données de profils du radicalisme et issues de l’analyse de milliers de sources d’information (Projet PIRUS – Profiles in Individual Radicalization in the United States (PIRUS) project, at START).

On pourra aussi parcourir, au besoin, des ouvrages comme the terrosrist list disponible sur Google Book ou aller des voir des sites publics d’information sur le recensement des organisations radicales et terroristes dans le monde et des sites qui s’intéressent à la réponse au terrorisme comme celui du Terrorism & Preparedness Data Resource Center (TPDRC). Mes références sont extrêmement partielles mais révèlent déjà l’énorme travail de recensement et d’analyse réalisé par les américains depuis 2001 (pour comparaison, si l’on est européen, aller voir les informations disponibles sur le web autour du Shengen Information System – SIS – dont la v2 a été lancée courant 2013). Les informations retenues peuvent être aisément intégrées dans le laboratoire de données de Gephi que l’on peut aussi utiliser comme une sorte d’instrument avancé de prise de notes manuelles.

carteI

Ainsi, les informations retenues ne présentent pas de difficultés particulières à traiter en empruntant au vaste domaine du social network analysis certaines méthodologies. Les méthodes d’analyse des réseaux sociaux appliqués aux questions de sécurité sont aujourd’hui presque devenues une tradition mais on ne doit pas oublier l’importance que jouent les outils de visualisation dans une démarche d’interprétation et d’analyse locale, de dévoilement progressif d’une structure. Je pense ici, bien évidemment, au système développé par Linkurio.us dont la boîte à outils me paraît être l’une des plus complètes aujourd’hui pour accompagner l’analyste, le journaliste ou l’enquêteur.

linkuriousB

D’autres instruments fameux existent comme d’I2 Enterprise Insight Analysis (racheté par IBM et visiblement intégré projet Watson), keylines de Cambridge Intelligence ou encore DATO (ex-graphlab). Au delà, on ne doit pas oublier le contexte dans lequel sont nées les network sciences dont je me réclame souvent: en englobant, de fait, aussi bien les méthodes du social network analysis que les outils de visualisation ou les mathématiques appliquées, l’un des objectifs majeurs de cette nouvelle science est bien de développer des capacités prédictives des « phénomènes sociaux ». La capacité à décrire et à expliquer des objets aussi complexes que des réseaux sociaux s’associe donc, de fait, à des préoccupations en matière de sécurité, le tout étant de savoir si les réseaux mafieux ou terroristes ont des « signatures statistiques » ou des « empreintes visuelles » particulières. Cette question reste encore aujourd’hui un enjeu majeurs de tous les types d’approche en matière de data mining (statistique, logiques floue, inférences sémantiques…) et de capacités préventives ou prédictives. Ainsi, j’aime à reproduire, encore une fois, ce document de 2006 qui assigne à cette nouvelle science des objectifs opérationnels en matière de recherche et de sécurité:

NetworkSciences

La carte, par étapes. La carte des attentats du 11 septembre poursuit un objectif de démonstration, pas d’information au sens journalistique. Les données retenues sont moins nombreuses que celles analysées par V. Krebs (plus de 60 acteurs pour ce dernier; 37 en ce qui me concerne car j’ai éliminé des acteurs dont le rôle n’était pas avéré – dans les limites de mon travail – et dont 4 sont de nationalité française). Il ne s’agit donc pas à proprement parler d’un travail d’enquêteur mais seulement d’une expérimentation à caractère démonstratif: chaque étape de la construction de cette carte me paraît en effet contenir en germes une série de problématiques éthiques ou politiques posées par les manipulations techniques sur les données. J’aborde quelques points de réflexion dans la seconde partie de ce post, du moins en l’état actuel de mes réflexion à l’articulation de la technologie, de l’éthique et de la politique des données en matière de sécurité.

carteA

La construction de la carte commence au moment où les membres des 4 cellules ont été identifiés (V. Krebs a commencé sa carte à partir des deux premiers suspects identifiés). A ce stade ce sont quatre clusters indépendants, un pour chacun des avions (vol AA11 en rouge s’écrase sur la tour 1 du World Trade Center, vol AA77 en violet s’écrase sur la Pentagone, vol UA175 s’écrase sur la tour 2 du World Trade Center, vol UA93 s’écrase en Pennsylvanie alors qu’il se dirigeait vers la Capitole). Dans ce type de travail, les attributs associés aux liens sont d’une grande importance: ils permettent de faire apparaître des labels aux liens mais, surtout, de qualifier et de pondérer de nombreuses familles potentielles de connexions. La question d’un travail tant qualitatif que quantitatif sur les connexions est un aspect central de la cartographie des réseaux criminels. Pour commencer, je n’ai donc que les liens « logistiques » assurant la présence simultanée des membres du réseau dans les quatre vols différents. Ces quatre clusters sont isolés et ne constituent pas, à proprement parler, une « carte »: l’adjonction de liens supplémentaires permet, dans un second temps, de faire apparaître un graphe connexe où chaque acteur se trouve lié aux autres via la découverte de différents types de relation. Il aura fallu des mois aux enquêteurs pour les identifier à partir de très nombreuses sources d’information. J’ai repris à V. Krebs sa méthodologie et une partie des informations issues de son travail en y ajoutant, par ailleurs, d’autres informations trouvées dans les biographies des membres du réseau accessibles sur wikipedia. V. Krebs a produit sous forme de tableau une répartition des grands types de sources d’information à prendre en compte pour produire le plus grand nombre de connexions pertinentes dans la cartographie d’un réseau terroriste:

carteF

C’est tout le principe des layers, autrement dit des couches de liens en fonction de leur nature en termes de sources. Dans le cadre de mon expérimentation, j’ai réduit le principe à seulement deux familles (liens forts représentant des liens de famille, d’amitié, de scolarité commune ou de présence conjointe dans des camps d’entraînement, notamment en Afghanistan; liens faibles liés à des questions qui m’ont apparu plutôt logistique et opérationnelles comme les cours communs de pilotage, les locations de voitures et de logement, les flux bancaires). Comme le fait Valdis Krebs, j’ai attribué des forces différentes pour chacune des deux familles de liens (liens faibles = poids 1, liens forts= poids 5)  mais chacun pourra adopter la « grammaire » qu’il pense être la plus rentable en termes d’accompagnement à l’interprétation. Par exemple, le poids des liens peuvent, ou non, être cumulés comme le fait V.Krebs (un lien faible entre A et B de poids 1 + un lien fort entre A et B de poids 5 = un lien de poids 6 – sachant que je peux toujours depuis Gephi sélectionner un layer parmi d’autres à partir d’une partition disponible dans la table des liens).

carteB

Avec un graphe connexe et suffisamment de liens, on entre pleinement dans une approche de type SNA ou network sciences: depuis la boîte à outils de Gephi avec ses métriques, différentes propriétés peuvent alors être identifiées. Par exemple, le diamètre du graphe (ramené ici à la longueur moyenne des chemins possibles entre les noeuds considérés par paire), autour de 4,5, ce qui paraît important pour un réseau de seulement 19 acteurs. Cette longueur apparente peut être considérée comme un principe de sécurité pour les membres du réseau (chaque élément étant éloigné des autres, il ne dispose, par exemple, que d’informations partielles sur l’ensemble de l’organisation). Mais cette longueur relative contredit un principe nécessaire de coordination (donc de distance moyenne courte) dans la préparation des attentats comme dans la synchronisation des équipes. Sous un autre aspect, des métriques comme les formes de centralité (notamment betweenness) indiquent le rôle prépondérant de certains acteurs, comme Mohamed Atta, qui ont pu jouer le rôle d’animateur de l’ensemble des 4 cellules. Sachant que ce dernier était aussi l’un des pilotes, ce jihadiste concentre une double compétences (skills) qui rend fragile l’organisation (son arrestation avant les attentats aurait peut-être permis de les éviter). L’étude de la distribution de skills nécessaires à l’échelle d’une organisation pour préparer et réaliser des attentats semble être un enjeu important du programme S.T.A.R.T. et, par bien des égards, la méthodologie se rapproche de celle déployée pour l’analyse des profils linkedin publiée dans ce blog. Elle nous incite à comprendre, notamment, comment la couche des « skills » permet de relier organiquement des individus à une organisation.

La présence de différents types de liens permet d’intéressantes opérations en matière d’analyse. La vue organique des relations (identifiées) qui unissent les 19 membres de cellule d’AlQaeda avant le 11 septembre contient suffisamment de nouveaux liens (notamment de liens forts) pour distribuer les 19 acteurs autrement que par leur action collective en quatre « commandos » opérationnels comme ici. A gauche les couleurs des noeuds sont attribuées en fonction de l’organisation en cellules opérationnelles; à droite à partir des résultats d’un algorithme de détection de communauté (Modularity). Le nombre de classes ou de groupes est équivalent (4) (Modularity n’a pas été ici contraint en nombre de classes et produit donc une distribution « optimale » en termes statistique) mais certains acteurs forment désormais des groupes nouveaux, très liés apparemment à des questions de relations familiales, de nationalité et de coparticipation à des périodes d’entraînement en Afghanistan).

carteC

Avec la phase d’ajout de nouveaux acteurs (nouveaux noeuds de la carte), nous entrons dans une série d’opérations et de questions délicates. J’ai ainsi intégré 18 membres avérés du réseau AlQaeda qui ont joué différents types de rôles dans les attentats du 11 septembre 2001. J’aurais pu, en principe, en ajouter de nombreux autres, ce que je n’ai pas fait. Pourquoi? A priori, c’est, de ma part, à la fois un manque d’expérience dans ce domaine mais aussi un manque évident de temps. Mais la raison est plus profonde car mon travail s’est arrêté au moment où je me suis explicitement posé la question des règles d’expansion du corpus. Sur quels critères (qualitatifs) faire reposer une démarche d’expansion (quantitative) d’un corpus? Ceux qui ont l’habitude des technologies de type focus-crawling sur le web reconnaîtront là un terrain bien connu, comme ceux, d’ailleurs, qui ont la pratique de la co-citation en bibliométrie. Mais ici, il s’agit d’acteurs humains, de vie au sens plein de l’anthropologie. La règle que V. Krebs semble avoir suivie par Valdis Krebs tient d’un double critère (comme dans les méthodes de focus-crawling): pour intégrer un nouvel acteur il faut qu’il ait au moins deux liens avec les membres des cellules qui ont commis les attentats suicides mais, de plus, il faut que ces liens renvoient directement à une connexion associée à la préparation ou à la réalisation des attentats, ce que réclame souvent un projet d’une telle ampleur (ceux qui ont transféré des sommes d’argent notamment ou qui ont, au cours de leur vie, permis de mettre en relation plusieurs acteurs liés aux attentats). Cette question technique n’est pas anodine dans la compréhension d’un phénomène aussi complexe qu’un attentat et l’on pourra se souvenir des nombreux instants d’hésitation des journalistes en plateau télé qui ont révélé petit à petit, et avec maintes précautions, les connexions entre les frères Kouachi et A. Coulibaly au début de mois de janvier. Sur ce point, je n’ai pas repris directement les informations utilisées par V. Krebs (d’où un nombre plus réduit d’acteurs dans ma version de la carte), notamment parce certains personnages ont joué un rôle à priori assez indéterminé, voire se sont révélés être innocents par la suite.

Néanmoins, avec 37 noeuds (acteurs), le graphe laisse maintenant apparaître quelques propriétés nouvelles intéressantes. En terme de métrique, le diamètre se situe désormais autour de 2,5, bien que le nombre d’éléments ait doublé. L’univers des membres d’AlQaeda semble plus réduit (effet small-world), univers dans lequel peuvent alors s’exercer une actions de synchronisation, de coordination ou d’animation de l’ensemble du réseau à partir de distances plus courtes. Mais ce type de propriétés annonce aussi un effet de hiérarchisation autour d’éléments qui semblent jouer un rôle central, soit parce qu’ils développent de nombreux liens avec tous les autres noeuds du système (les hub) soit parce qu’ils occupent une « place centrale » dans le graphe (différents scores de centralité). Cette dernière propriété est intéressante à mobiliser pour identifier des faiblesses potentielles de ce type d’organisation: certains acteurs jouent un rôle déterminant en termes de structure non pas parce qu’ils sont les plus connectés (voire les plus « actifs » ou « en pointe ») mais parce que c’est par eux que passent un grand nombre de connexions (chemins possibles) entre tous les éléments.

CarteComplete

Le principe de l’extension laisse apparaître de nombreuses difficultés, et quelques « surprises ». Par exemple, l’apparition dans le graphe de Zacarias Moussaoui, de nationalité française et emprisonné à vie aux Etats-Unis. Son cas pose d’intéressants problèmes d’intégration au corpus: à priori, rien n’est encore venu prouvé sa participation aux attentats du 11septembre (déjà emprisonné au moment des faits) mais il est lié de bien des façons à plusieurs acteurs de la carte (Afghanistan, séjours en Grande-Bretagne…). Autre « singularité » associée au principe de l’expansion du corpus: Valdis Krebs fait apparaître dans ses graphes la présence de Djamel Beghal, le franco-algérien, parfois présenté comme le « mentor » des frères Kouachi (Chérif avec qui il était en prison et que A. Coulibaly a visité en prison). Les trois se sont retrouvés  par la suite dans le Cantal où Djamel Beghal a été assigné à résidence durant plusieurs mois. Je ne sais pas si les attentats récents sur notre territoire représentent un « 11 septembre français » mais, en terme de cartographie, nous ne sommes ainsi qu’en « distance 2″ avec les événements du 11 septembre 2001 aux Etats-Unis. Il faut cependant se méfier de ce que peuvent exhiber les graphes de liens lorsqu’ils ne prennent pas en compte les corrélations de « contenu » à travers un contrôle qualitatif: si chacun se rappelle l’une des conclusions de l’analyse type SNA à propos des réseaux type facebook sur ce blog, et même plus généralement de la façon dont nous associent les technologies web, nous sommes tous statistiquement reliés les uns aux autres selon des distances moyennes très courtes (et cela peut être vérifié aussi en dehors des connexions électroniques). On pourra lire, à ce sujet, l’article de Thomas A. Stewart dès décembre 2001, Six Degrees of Mohamed Atta. J’ai déjà souligné sur ce blog les implications sociales ou culturelles de ce que signifient ces chiffres qui peuvent aussi être pris comme des mesures « d’éloignement » et non pas de « proximité ». A mon avis, s’il fallait faire un graphe de toutes les connexions des quelques « 3.000 suspects » présents sur notre territoire (selon notre Ministre de l’Intérieur dans ses déclarations de la semaine dernière), une bonne partie de la population française pourrait être concernée! En revanche, un contrôle qualitatif (et manuel) du type de connexions à prendre en compte permettrait d’esquisser les contours réels de ce que les journalistes appellent la « nébuleuse jihadiste ».

Notre petit exercice de cartographie à propos des attentats du 11 septembre lève pourtant une partie du voile qui fait apparaître les réseaux de type AlQaeda comme des « nébuleuses ». Les fils qui ont conditionné le destin des kamikazes du 11 septembre semblent nombreux et très diverses; ils éclairent un contexte mais n’expliquent pas l’événement en tant que tel. Ils constituent cependant sous forme de graphe un espace pertinent où loger l’analyse rétrospective et leur « géographie » renseigne sur la complexité topologique des différents types de causalité à prendre en compte. Une petite expérimentation cartographique comme la nôtre illustre aisément les difficultés dans lesquelles doivent être plongés aussi bien les enquêteurs que les journalistes spécialisés. L’espace qui se découvre petit à petit rend difficile, d’un côté, la théorie du « loup solitaire » (puisque notre graphe peut intégrer potentiellement un grand nombre d’informations biographiques qui permettent alors de le connecter à de nombreuses variables) mais aussi, d’un autre côté, l’idée d’une organisation hiérarchisée et représentable, par exemple, sous forme d’arborescence (il suffirait alors dans ce cas d’en éliminer le leader). En ce sens, la cartographie éclaire de son pouvoir descriptif l’espace multidimensionnel où devront (ou devraient) se loger des pouvoirs prédictifs, qu’ils soient purement manuels, supervisés ou automatiques.

En attendant, on peut (ou il faut) continuer à éclairer sous différentes facettes cet objet-réseau en fonction des informations accessibles (j’y reviens plus loin). A lire V. Krebs, on aura compris que l’intérêt des graphes de réseaux terroristes est directement dépendant du nombre de dimensions qu’ils intègrent comme autant de facettes techniques. Par exemple, à partir des attributs associés aux noeuds (acteurs), on peut faire apparaître les différentes nationalités des membres d’un réseau par nature transnational (l’occasion de noter que les terroristes provenaient de pays considérés plutôt comme des « alliés » des Etats-Unis):

carteD

Dans les mécanismes d’exploration des différentes facettes de l’information concentrée dans les données, l’exploitation des propriétés associées aux liens constitue un enjeu central des graphes d’organisations criminelles ou terroristes. Un instrument comme Gephi permet de faire varier les liens selon plusieurs types de dimensions: les attributs de toute nature (on peut même y associer des commentaires libres), les familles ou les types (qui permettent de créer des partitions) mais aussi l’intensité ou les poids (comme le fait V. Krebs avec ses liens de différentes forces en fonction de la nature de l’information à laquelle ils sont associés) et leur temporalité (les liens, comme les noeuds, peuvent varier en fonction de fenêtres temporelles qui permettent de les rendre présents ou absents dan le graphe). Ainsi, comme avec les noeuds, plus le nombre de dimensions associées aux liens est importante, plus grand est le nombre de combinaisons possibles. Par exemple, en associant des poids à mes deux types de liens (liens forts pour les connexions biographiques identifiées, liens faibles pour les connexions liés à la logistique et à la réalisation des attentats), il devient possible de faire la vue sur les données en fonction de la pondération associée aux liens.

carteE

De gauche à droite, l’algorithme de spatialisation FroceAtlas2 distribue les noeuds dans l’espace en fonction de forces d’attraction et de répulsion calculées en fonction de la distribution des liens sur le même jeu de données. On peut lui demander de calculer ces forces en tenant compte du poids des liens (variable). Ainsi, sans tenir compte de la distinction du poids des liens, à gauche, se dessine notre graphe « fonctionnel » des cellules du 11 septembre 2001 et des acteurs qui ont assuré une partie de la logistiques des attentats. Au centre, et surtout à droite, se le poids des liens influe sur la projection et esquisse le réseaux de connexions familiales et d’amitié qui associe les acteurs du point de vue de leurs biographies respectives. Tout dépend donc d’un choix, l’important dans un système d’information et d’enquête de pouvoir proposer les deux vues à des experts-enquêteurs.

Points (temporaires) de réflexion. Le principe des layers ou des couches de connexions pose la question de l’accès à de multiples sources d’informations et de la possibilité de les croiser. Il s’agit d’une procédure essentielle pour la production de cartes suffisamment exhaustives pour identifier des suspects potentiels. L’accès simultané (techniquement nécessaire et souhaitable) présente de nombreux aspects éthiques et/ou politiques discutables. Il suppose, par exemple, l’accès à l’ensemble des données associée à la vie privée. On aura aussi noter qua, dans son tableau, V.Krebs fait apparaître toute l’importance de ce qu’il appelle l’administrativ network (l’équivalent, par exemple, l’accès aux données de la sécurité sociale dans le cadre d’une enquête en France). On aura aussi noté que ce type de donnée « may only be available in suspect’s native country », mais de façon légale ou non? Enfin, si l’on admet que la majorité des informations nécessaires à la reconstitution de la cellule d’AlQaeda sont potentiellement déjà disponibles avant les attentats, on comprend aisément à quel point le recoupement, ou la corrélation de différentes et nombreuses sources de données, est une étape capital du travail d’enquête (si l’événement a eu lieu) ou de prévention.

carteJ

La nécessité d’un accès presque total à toutes les sources d’informations (auxquelles il faudrait ajouter aujourd’hui la géolocalisation des objets mobiles, tweeter, les bases biométriques…) fait figure d’évidence ne serait-ce qu’à la lumière de notre petite expérimentation cartographique. C’est l’une des hard lessons que les Américains ont tiré du 11 septembre 2001 et toute la logique du Patriot Act et de la mise en place aux Etats-Unis du Intelligence Reform and Terrorism Prevention Act en 2004. Mais elle inaugure, aussi, une frénésie de l’archivage tous azimuts dont la N.S.A. semble être l’instrument principal. Comme beaucoup, j’ai été surpris de l’ampleur du système « d’écoutes » déployé durant des années par la NSA telle qu’elle apparaît avec les informations livrées par E. Snowden. Mais, depuis ce mois de janvier 2015, je pressens combien nous aurons aussi en France à tirer quelques hard lessons des événements terribles récents qui nous ont marqués, comme l’ont fait en 2006 Jeff Jonas et Jim Harper:

« The details of the 9/11 story reveal that federal authorities had significant opportunities to unravel the 9/11 terrorist plot and potentially avert that day’s tragedies. Two of the terrorists who ultimately hijacked and destroyed American Airlines flight 77 were already considered suspects by federal authorities and known to be in the United States. One of them was known to have associated with what a CIA official called a “major league killer.” Finding them and connecting them to other September 11 hijackers would have been possible—indeed, quite feasible— using the legal authority and investigative systems that existed before the attacks (…) What the 9/11 story most clearly calls for is sharper focus on the part of our national security agencies and the ability to efficiently locate, access, and aggregate information about specific suspects. Investigators should use intelligence to identify subjects of interest and then follow specific leads to detect and preempt terrorism (…) If our federal law enforcement and intelligence agencies needed anything, it was neither new technology nor more laws but simply a sharper focus and perhaps the ability to more efficiently locate, access, and aggregate information about specific suspects. They lacked this focus and capability—with tragic results ».

Sur un plan méthodologique, le principe des layers de liens appliqué aux organisations criminelles et terroristes pose d’intéressantes questions. En particulier, la superposition de liens « faibles » et « forts » (ou selon toute échelle de pondération plus complexe) pour analyser différents types de connexions liés à des layers particulier (par exemple A et B se sont entraînés en Afghanistan – lien fort – A appelle B depuis son téléphone mobile – lien faible) ouvre sur une série de problématiques méthodologiques qui peuvent être d’une grande complexité. En particulier, l’étude V. Krebs comme notre modeste cartographie exhibent une série de liens faibles (connexion ponctuelle de type communication électronique) qui peuvent être considérés, à bien des égards, comme la « réactivation » d’anciens liens forts (par exemple A appelle B depuis son téléphone mobile après une période de « silence » de plusieurs années depuis leurs séjours communs en Afganistan). Dans certains contextes, cela pourrait être interprété comme une sorte de « signal faible » précurseur d’une opération. « L’épaisseur » des layers potentiels dans la traçabilité d’un phénomène social comme le terrorisme (et peut-être de tout phénomène social) montre combien ce que l’on appelle « liens faibles » dans les approches par graphe doit être interrogée. Dans la tradition de la modélisation statistique (par exemple chez Watts et Strogatz), les liens faibles sont distribués aléatoirement ( principe de rondomness assumé pour la démonstration statistique) de façon à démontrer le principe du « samll world » où quelques grands ponts (bridging) sont jetés d’un bout à l’autre du graphe faisant ainsi chuter le diamètre d’une structure au départ très clusterisée (en chemins réels ou possibles). On connaît aussi leur importane chez S. Milgram et les « chain of acquaintances » (1969) et, surtout, M. Granovetter (1973). Chez ce dernier, les weak ties tirent leur force dans l’étude de la macrostructure sociale de leur pouvoir de connexion de différents univers sociaux: tandis que les stronglocal ties permettent de décrire les clans familiaux et les univers d’amis proches, les weak-global ties semblent jouer un rôle déterminants dans notre faculté d’adaptation sociétal au sens large (ils sont activés dans des périodes de recherche d’emploi chez les jeunes diplômés). Mais rien ne nous dit dans quelle(s) proportion(s) ni selon quelle(s) formule(s) d’intrication ces liens faibles ne sont pas en même temps d’anciens liens forts de proximité sociale. Je ne sais pas si une organisation terroriste comme AlQaeda peut être définie comme un espace de grande densité de superposition des deux types de liens (on peut évidemment en construire de nombreux types). Mais la question mérite d’être posée si, demain, il fallait concevoir un espace pertinent de rassemblement et de croisement des données sous forme de graphe.

Reste à interroger la question des modèles de prédictibilité possibles/envisageables à partir d’une approche par graphe. Autrement dit peut-on passer de l’observation rétrospective à des formes possibles de prévention? J’imagine qu’à priori qu’une bibliothèque de cas richement décrits (par exemple l’ensemble des attentats réalisés sous le label AlQaeda) et qu’une infrastructure de calcul permettrait déjà d’entamer un terrain d’investigation prometteur. On pourrait en extraire des modèles d’organisation sociale typiques d’une organisation criminelle qui laisserait des « traces d’usage identifiables » (et donc traitables numériquement). Ce serait une façon habile de mobiliser le big-data et les calculs statistiques à partir de modèle construits qualitativement. N’étant pas spécialiste de ces domaines, je ne fais guère autre chose ici que quelques conjectures. Je n’oublie pas non plus que bien d’autres approches existent, probablement plus pertinentes que les graphes en termes de prédiction comme la logique floue. Mais l’idée d’une démarche préventive peut aussi prendre une autre direction: l’idée de produire des structures de graphes (à partir de nombreux layers de connexions) à priori, comme une tâche de fonds continue et nourrie d’informations connues et vérifiées. Evidemment, nul n’a la capacité de produire un tel instrument d’observation à la totalité d’une population mais elle peut-être réalisable à petite échelle. C’est aussi une hypothèse, parmi de nombreuses, qui est née dans la suite des attentats du 11 septembre 2001:

« Of course, the common network researcher will not have access to many of these sources. The best solution for network disruption may be to discover possible suspects and then, via snowball sampling, map their ego networks – see whom else they lead to, and where they overlap. To find these suspects it appears that the best method is for diverse intelligence agencies to aggregate their information – their individual pieces to the puzzle – into a larger emergent map. By sharing information and knowledge, a more complete picture of possible danger can be drawn ».

A travers notre petite expérience de cartographie, plusieurs questions liées à la nature et au déploiement des systèmes d’information de sécurité sont évidemment posées. Tout d’abord quant à la nature des objets visés, à supposer que ce soient des groupes terroristes. Sur ce point, parmi les hard lessons tirées du 11 septembre 2001, quelques points méritent d’être relevés: a) les opérations peuvent être menées par des inconnus et être micro-managées par des animateur de cluster locaux qui ont leur propres ressources, parfois même l’initiative (peut-être typique d’AlQaeda) b) ces petits groupes deviennent opérationnels à partir de 5 éléments et aller jusqu’à 70 membres. Ce nombre apparaît relativement faible à l’époque et dans la foulée du 11 septembre mais indique déjà à l’époque qu’ils peuvent se connecter, se rassembler et agir à partir d’une série de communication rapides et intenses dans les moments qui précèdent l’action, souvent après de longues période de silence (c’est l’un des aspects de notre capacité à identifier ce genre de signal faible qui apparaît rétrospectivement comme un tiping point, le moment où tout s’enclenche et où le micro-réseau s’organise en cellule alors active) C) L’élimination d’un leader (supposé) peut être inefficace dans la mesure où ce type de micro-réseau peut organiquement se recomposer dans d’autres configurations opérationnelles à partir des mêmes éléments. Cependant, une analyse poussée des skills (compétences) nécessaires aux opérations vient modérer en partie ce principe: Mohammed Atta était un pilote mais aussi l’animateur central des groupes opérationnelles (à l’image de l’organisation interne d’un start-up où chacun peut être appelé à remplir différents rôles).

Se pose ensuite la question de la méthode de recueil et de traitement de l’information. Sur ce point, les cartographies réalisées par V. Krebs (comme la nôtre) s’inscrivent pleinement dans une démarche qualitative où les informations sont vérifiées et capitalisés dans un espace à base de graphes. En matière d’intelligence des données (ou de data analysis), on peut leur opposer une orientation plus quantitative où le big-data est mobilisé à la recherche de patterns spécifiques associées aux organisations criminelles et/ou terroristes. Des débats ont lieu depuis plusieurs années aux Etats-Unis où le big-data (ou le data-mining) semble massivement utilisé par les agences gouvernementales. Certains, de plus en plus nombreux, lui oppose la « small » ou le « smart » data et une approche « subject based » (dans lesquels prend place la cartographie de l’information telle que pratiquée par V. Krebs) et reprochent au data-mining généralisé ses dérives en termes de vie privée ou encore son coût et son efficacité. Sur le dernier point, je n’ai pas trouvé de sources suffisamment fiables et détaillée pour le démontrer, l’accès aux sources et aux méthodes de la NSA étant inaccessibles…pour des raisons de sécurité! En revanche, la plupart s’accorde pour souligner certains aspects négatifs du « big data » dédié à la sécurité intérieure, notamment la production de false positiv (personnes innocentes dont le profil a été identifié statistiquement comme suspect possible).

carteK

Comme l’écrit E. Dahl en 2013,  “It’s not Big Data, but Little Data, that Prevents Terrorist Attacks”, non pour revenir aux méthodes intégralement artisanales de l’enquête mais bien pour signaler qu’en matière d’intelligence des données appliquées à la sécurité c’est dans le croisement des deux méthodes que réside le potentiel prédictif des instruments ou des démarches (disons, de démarche instrumentée d’observation). On retrouve-là une question classique dont j’ai déjà examiné sur ce blog quelques aspects sur la question de l’innovation technologique. Dans la conception d’un système d’information, tout dépend de la façon dont sont distribués dans une chaîne de traitement des phases et des approches qualitatives et qualitatives, depuis les algorithmes jusqu’aux interfaces. C’est ce que j’ai appelé l’alchimie quali-quantitative où alternent d’un côté la production qualitative de profils d’entités qui doivent être nourris de données quantitatives pour valider certains de leurs traits. De façon complémentaire, une approche massive de type big-data en termes de recueil et d’archivage des données doit être nourrie de patterns (donc de profils) élaborés qualitativement pour optimiser les recherches (comme une sorte d’ontologie sociale). Ces principes généraux résonnent de façon particulière dans le contexte des récents attentats en France, notamment sur les plateaux de télévision où nombre d’experts ont souligné tour à tour le « manque d’analyse » et l’impossibilité pour les enquêteurs d’avoir accès à de nombreuses sources d’information. Si l’hybridation des deux approches est techniquement prometteuse, éthiquement et légalement il en va tout autrement, et le simple principe des layers adopté par V. Krebs, si l’on envisageait de l’appliquer dans notre pays, ferait bondir plus d’un juriste et une foule de militants. Nous sommes encore loin d’un social data mining de type prédictif, même si certains en rêvent. Mais nous ne sommes plus dans monde où n’existaient ni les bases de données et les réseaux distribués de l’information comme le web et technologies sociales. En regardant la tablette Androïd dans mon salon, je me dis que si nous laissons spontanément autant d’informations personnelles aux géants de l’information et à leurs services marketing, nous  pourrions aussi le faire pour nos enquêteurs.

Le design stratégique

Le design stratégique est l’une des branches les plus récentes du design, comme le design de services ou l’information design. Il n’a pas encore balisé tout son territoire mais certains s’y lancent en pressentant le développement de niches ou de marchés de plus en plus matures. Il n’est pas encore évident de le définir avec précision, contrairement contrairement au design-produits, au design d’espaces, au design d’interactivité et d’interfaces qui ont désormais balisé leur présence sur toute la chaîne de valeur: mise au point d’un produit, évolution d’une marque, marketing et communication  autour d’un service, conception d’événementiels, conseils en développement durable…Pour moi, le design informationnel serait l’art de mobiliser des méthodes et de l’expertise issus de formes plus anciennes et éprouvées de (notamment le design informationnel, le design graphique et le design d’interactivité) pour entrer de pleins dans le domaine feutré de la stratégie d’entreprise et d’organisations. Il ne s’agit de concevoir et de développer un produit ou un service ni, non, d’agir sur sa rencontre avec un marché ou un public mais de scénariser de façon intelligible et collective le comportement global d’une organisation (par exemple dans la conception d’une stratégie d’audience) et/ou de participer à la conception de la stratégie de développement.  C’est là que le design stratégique, ou plutôt le design de stratégie, touche aux domaines de la veille et des métiers de l’information, donc de la prospective, de l’aide à la décision, de l’innovation et de la RetD ou encore de l’évaluation.

Le design stratégique peut, évidemment, concerner la stratégie globale du design dans une organisation, depuis la mise en place d’une politique de design jusqu’au management de projets innovants. Mais il va bien au delà, par exemple dans des séances de créativité pour cibler un nouveau marché, dans la cartographie d’information pour évaluation un patrimoine intellectuel ou le positionnement d’un concurrent, dans le développement d’un service en ligne d’aide à la visualisation de données complexes (par exemple des données web) pour une DRH. Ce sont les domaines sur lesquels s’est concentrée ces derniers mois l’activité de l’Atelier Iceberg pour des groupes industriels: cartographie de brevets, veille concurrentielle, analyse de publications scientifiques, outils et services d’animation de clusters industriels ou de pôles de compétitivité, séances de créativité pour l’innovation…C’est pour cette raison, enfin je crois, que l’Atelier Iceberg a été récompensé au mois de novembre dernier au salon des entrepreneurs à Nantes avec le Prix du Design Stratégique. Les « deux Thomas » (Busson et Dupeyrat) et Léo Bonnargent sont venus recevoir le prix décerné par Christian Guellerin (directeur de l’Ecole de Design Nantes-Atlantique).

kalidience8

Ce premier succès dans ce domaine n’est pas étranger aux différentes collaborations nouées par l’Atelier, soit avec des grands groupes industriels soit avec des acteurs-clés de la veille informationnelle. C’est le cas de Frédéric Datchary (un ancien de Pikko) et de l’activité de cartographie stratégique de sa société Kalidience. La rencontre de Frédéric avec l’Atelier n’a rien de fortuit et tout d’une nécessité si l’on regarde de près les activités de Kalidience. Frédéric Datchary examine depuis longtemps, et minutieusement, le rôle et la place de la cartographie dans le processus de veille. En tant que veilleur et cartographe, il est en particulier un spécialiste de la mise en place des chaînes et de leur contrôle qualitatif et supervisé par un expert.

kalidience10

Frédéric explore ainsi des voies inédites au carrefour des métiers de la veille et de la cartographie d’information. Attentif aux méthodes et aux outils émergents, il intègre ses compétences de cartographe et de veilleur à l’environnement actuel des start-ups du numérique et du management de l’information.

kalidience2

Son domaine de prédilection est cartographie d’informations stratégiques, notamment des marques et des univers concurrentiels dans les domaines de l’énergie (à travers les brevets en particulier), de l’innovation et des énergies renouvelables ou encore des smart-grid. Joint-ventures, filiales, consortiums, co-dépôts de brevets ou projets de recherche collective constituent des univers, ou plutôt des territoires, qu’il arpente depuis longtemps. Remarquables de précision, ses cartes préparent en creux les discussions avec ses clients et constituent des éléments incontournables dans la lecture d’une stratégie industrielle.

Kalidience

« Fred » poste régulièrement certaines de ses productions sur slideshare et il est un inlassable pionnier de la cartographie de l’information. Il y aborde souvent certains aspects majeurs du métier de cartographe comme l’identification et la disponibilité des sources, les méthodes de traitement des données, la prise en main des logiciels de cartographie et la réceptivité de décideurs à la cartographie d’information.

kalidience4

Fort de son expérience, Frédéric recense les services et les acteurs-clés du monde de l’entreprise pour qui la cartographie d’information peut représenter un instrument d’investigation puissant. En particulier, Frédéric travaille au processus de partage des points de vue, d’analyse collaborative et à la scénarisation des séances d’analyse et d’interprétation. En somme, l’antichambre de la décision…

kalidience9

Data intelligence, un projet d’atelier

Tout le monde aura remarqué la multiplication récente des conférences, colloques et autres séminaires autour du « big data », dans le sillage de l’effervescence suscitée par les promesses de « l’open data » ou encore par l’émergence du métier de « data scientist » (en particulier dans l’industrie de l’information et chez les géants californiens). Les big data constituent l’épisode le plus récent d’une longue suite de thématiques qui ont jalonné depuis les années 80 le développement des technologie de l’information, notamment dans leurs rapports au social, au culturel, à l’économie ou à l’éthique. Rétrospectivement, les « événements technoculturels » semblent s’enchaîner comme les perles d’un collier: le text mining avec les premières technologies d’indexation des contenus à grande échelle, la data mining pour englober des formats sémiotiques plus riches comme le son ou les images, le web mining avec l’avènement du principe de la distribution permis par internet et, récemment, le social data mining attaché désormais aux innombrables traces que nous laissons tous à travers Linkedin, Facebook ou Google. La culture naissante des data et de son ingénierie tournée vers les réseaux annonce-t-elle un âge, un nouvel épisode de cette histoire? Tout y contribue, depuis les masses de données elles-mêmes (le big data et son satellite l’opendata), en passant par le data analytics et le data intelligence (autrement dit des processus de traitement de l’information) jusqu’à la figure montante du data scientist qui annonce peut-être une nouvelle « science » hybride gouvernée par des hypothèses et des expérimentations mais aussi par une méthodologie inductive (data driven) de découverte de patterns statistiques – voire de « connaissances » (knowledge discovery) – exploitables sous forme de nouveaux services par les géants de l’information.

La cartographie d’information semble elle-même emporté dans le sillage du big data. Evidemment, pour ses pouvoirs de synthèse ou de réduction des masses d’information et le rôle d’instrument d’exploration de systèmes de connaissances qu’elle peut jouer. Mais plus encore quand je m’aperçois combien certains nouveaux métiers émergent rapidement dans l’univers de l’ingénierie du traitement des données. Récemment, par exemple, le magazine venturebeat a publié un article sur l’organisation interne des compétences des data scientist chez linkedin (et ailleurs). On y retrouve Mathieu Bastian, lead developpeur de Gephi et « senior data scientist » chez linkedin, y est qualifié de  » Swiss Army knife among data scientists« .

DS1

L’image n’est pas anodine et résume très bien le métier de data scientist sous l’angle d’une activité inventive aux multiples facettes qui a tout de l’artisanat de haute-technologie. Autour de moi, je pourrais aussi citer S. Heymann et l’approche linkurious  basée sur l’exploration locale et qualitative des data en réseaux. Un autre data scientist, G. Lebourgeois product manager aujourd’hui chez data publica, la société spécialisée dans la valorisation de grandes masses de données. Ou encore C. Maussang qui a supervisé depuis 2006 le développement technique de l’infrastructure technologique de linkfluence avec ses millions de sources web et le calcul de métriques originales.

Assurément, une nouvelle étape est franchie avec le    avec ses masses déjà accumulées (données d’usage de la téléphonie mobile, parcours patient dans le système hospitalier, données biométriques, données de tests et de mesures d’objets ou de process industriels, données administratives et juridiques…) et celles qui demain vont advenir sous forme de flux puisés dans les environnements quotidiens comme le foyer ou la ville avec leurs nombreuses familles de capteurs. Je ne peux me départir de l’idée que notre époque est engagée dans un vaste programme distribué de recensement et de mesure (donc de contrôle, au sens mécaniste de la cybernétique et des boucles de feed-back) à l’image de celle qui a marqué la naissance de l’écriture en Mésopotamie avec ses innombrables listes d’éléments depuis les dieux jusqu’aux pierres en passant par les univers proprement humains (médecine, économie, religion…). Mais plus encore, cette « fièvre » de la mesure de notre univers avec les data fait résonner le souvenir de l’époque renaissante puis celle de « l’âge classique » avec ses taxinomies, ses arbres classificatoires et le recensement systématique des espèces vivantes. Ce nouvel âge de la mesure et du calcul tire son originalité de la plasticité permise par les supports numériques et des réseaux comme s’il s’agissait de développer de nouveaux instruments d’observation de portions de l »univers jusque-là inexplorées: les cellules ou les gènes avec la bioinformatique, les « agents sociaux » avec le social data mining, les villes, le corps propre, les déplacements géographiques, les mouvements politiques…

Sans aucun doute, nous entrons dans une période foisonnante d’initiatives et de débats autour des (big)data, depuis les innovations technologiques jusqu’aux questionnements de fond sur les implications sociétales, culturelles, économiques, juridiques ou éthiques de ce vaste mouvement qui se caractérise moins (selon moi) par la question des « masses » ou du « big » que par le déploiement d’un principe généralisé de corrélation des sources, d’enrichissement des données natives, voire de revisitation (et donc de valorisation) instrumentée du capital informationnel archivé dans les organisations. Je ne sais pas si mon point de vue est fondé mais il me semble que l’on devrait s’attacher plus souvent aux différentes facettes du métier de data scientist pour comprendre ce qu’exigent les data en termes de compétences et de savoirs-faires pour saisir, au final, cette intelligence des données qui se loge entre les data et les services finalisés, entre l’infrastructure technologique et les usages qu’en font les hommes. L’idée m’est ainsi venue d’organiser au printemps 2015 un atelier de réflexion, un « séminaire » comme on le dit aujourd’hui autour de cette thématique de l’intelligence des données dont la vocation serait tout à la fois théorique et pratique, notamment en accueillant de façon régulière ou occasionnelle aussi bien des chercheurs que des ingénieurs ou des professionnels de l’information. Cet « atelier intelligence des données » pourrait être utile, en particulier, aux jeunes chercheurs en prise avec l’univers des données numériques soit à titre d’objet d’étude soit de façon instrumentale pour constituer des corpus et discuter des méthodologies de traitement associées. J’aimerais qu’y soient présentées, par exemple, quelques grands ensembles de méthodes de traitement des données (sans entrer dans un niveau technique trop élevé) comme autant de « recettes » figurant dans des chaînes de traitement réelles et opérationnelles chez des acteurs du domaine. On pourrait y passer en revue des méthodes statistiques, des matrices de graphes, des principes de logique floue ou encore des aspects de gestion d’infrastructures liées au cloud computing. Au delà de ces éléments de culture technique, il s’agira de s’attacher à comprendre toutes les « recettes » que mettent en oeuvre les ingénieurs et les chercheurs de ce domaine, en insistant sur la conception des chaînes de traitement des données en big data, en particulier en phase de conception et de test (seul « moment » où se construit cette mécanique modulaire qui, une fois déployées, deviendront aux yeux du public des sortes de « boites noires »).

Ce démontage (exemplaire pour l’occasion) des techniques autour du traitement des données en masses constitue le coeur de l’atelier dont je dessine les contours parce qu’il sera l’occasion d’intégrer une série de problématiques abordées jusque-là d’un point de vue trop idéologique à mon sens (notamment en SHS), assez critique, toujours érudit mais rarement basé sur un savoir-faire technique. Il ne s’agira pas non plus, d’un autre côté, d’épouser le vocabulaire incompréhensible mais à la mode des technophiles de salons: qui aurait envie d’écouter un « pitch » sur un « open project » de start-up basée sur le « co-working » lors d’un « meet-up » dédié au « digital manufacturing »? Toute blague mise à part, cette série de problématiques auxquelles je pense décline quelques-uns des aspects majeurs auxquels sont confrontés, en premier lieu, tout ceux qui font métier de l’information et qui voient aujourd’hui se redessiner rapidement la géographie technique et culturelle de leur univers d’intervention (la bibliothèque, le centre de documentation, le système d’information, le services en ligne, la prospective, les études de stratégie…), voire de la nature-même des compétences dont ils sont porteurs.

  1. La distinction entre « approche qualitative » et « approche quantitative », très présente dans les débats de méthodologie en sociologie en particulier, occupe une place centrale dans les réflexions actuelles sur la façon de construire les objets de connaissance à partir des données numériques. La distinction peut, ou non, être scientifiquement « rentable » selon la perspective adoptée. Elle apparaît de peu d’intérêt s’il s’agit (comme trop souvent) d’opposer des « approches qualitatives » supposément tournées vers un travail de conceptualisation ou de construire d’hypothèses théoriques et des approches « quantitatives » réduites à l’utilisation des machines automatiques et à des procédures statistiques d’analyse. Cette dernière réduction est encore trop souvent de mise en SHS qui ne se sont pas dotées suffisamment tôt d’une forme originale d’ingénierie et d’instruments dédiés d’observation. En revanche, la distinction peut être pertinente dans l’étude des procédés (manuels comme automatiques) de data processing, autrement dit dans l’analyse des différentes procédures auxquelles sont soumises les data qui fonctionnent comme une série de filtres où alternent phases qualitatives et quantitatives. Ce thème constituera l’un des débats centraux de l’atelier intelligence des données pour observer et expérimenter les multiples façons dont les deux approches s’hybrident dans le travail sur les data en une sorte d’alchimie quali-quantitative qui peut déboucher, par exemple, sur la conception d’un algorithme. Si les technologies numériques ont démultiplié les possibilités de déployer à différentes échelles cette « alchimie », il doit être possible d’analyser la dynamique des big data sous l’angle de phases successives où alternent réduction/recomposition des masses à travers l’identification d’un ou plusieurs « traits » communs, révélant un pattern statistique qui n’est qu’une façon parmi d’autres d’isoler des identités partielles et partagées. C’est l’agilité avec laquelle les chercheurs et les ingénieurs en data sciences manient les deux opérations qui détermine souvent le nombre et la richesse des prises que l’on se donne sur les corpus de données numériques. Si l’on y regarde de près, recherche de « patterns robustes » en big data semble reposer sur un processus quali-quantitatif hybride: la production d’un ou plusieurs modèles qualitatifs du phénomène (combinaison de traits spécifiques, distribués dans une configuration probable) appliqués à différentes échelle des masses de données (les quantités de données réunies pour valider le modèle pouvant donc se trouver à leur tour mobilisées comme traits qualitatifs à un niveau supérieur d’intégration). C’est cette dynamique qu’il s’agira d’observer chez les grands acteurs du domaine comme, peut-être, d’expérimenter à plus petite échelle et manuellement, notamment avec les données associées aux problématiques des thésards susceptibles de suivre cet atelier.
  2. La nature des corpus en data sciences, que l’on ne peut plus borner seulement par des questions de pertinence (ce qui ne l’est pas à un certain moment ou selon certaines dimensions, le sera sous d’autres angles et à d’autres moments), d’exhaustivité ou même de représentativité (l’impossible appréhension du tout et de ses parties dans l’univers des masses de données en réseau) et de clôture (les données sont prises dans des boucles de transformation, par exemple formatées pour de nouveaux services qui eux-mêmes en produiront de nouvelles). Le principe de la clôture d’un corpus et de ses frontières doit être questionné et repensé dans un univers de masses et en transformation continue. Cela paraît particulièrement important pour des données qui intègrent une dimension temporelle ou encore, à petite échelle, dans la construction d’un jeu de données sur des acteurs ou des organisations sociaux (Quelles données prendre en compte? Comment les agréger pour rendre compte de l’activité d’un agent social individuel ou collectif? Etc.). Ainsi, l’atelier intelligence des données aura pour objectif d’éclaircir sur ce point les différentes méthodologies (extraction, construction, fusion) à l’oeuvre en phase « amont » d’un travail sur les data.
  3. Les rapports du « manuel » et de « l’automatique« , que l’on confond souvent avec la distinction qualitatif-quantitatif. Sur ce point, j’aimerais que l’atelier (si cela est possible) intègre une partie « expérimentations » sur des jeux de données (même réduits) qui permettrait d’éprouver l’hybridation presque systématique des deux « dimensions ». Le travail d’ingénierie des données montre combien la construction d’une « machine logique » comme un algorithme passe d’abord par une série de phases exploratoires et de manipulations presque « artisanales » sur les data. En un sens, on passe donc du « manuel » à « l’automatique » comme deux étapes nécessaires dans la production d’un dispositif d’intelligence des données. Mais la distinction mérite aussi d’être analysée en fonction de la distribution des opérations dans des dispositifs où peuvent s’associer l’automatique et le supervisé (par exemple pour la classification). Des situations ou des dispositifs réclament ainsi que soient associés simultanément les deux types de procédures. L’un des objectifs de l’atelier intelligence des données sera donc d’étudier les multiples façons dont manuellement sont sélectionnés puis associés en chaînes opératoires une série de filtres (par exemple seuils statistiques et/ou algorithmes parmi ceux disponibles avec Gephi), quitte à les associer à leur tour dans des ensembles plus vastes, de façon à concevoir (à minima) ou à tester (au mieux) de petits traitements automatiques à base, par exemple, de scripts appliqués à des corpus de données. Ces expérimentations permettront de discuter des façons dont les instruments informatiques ont contribué à élargir de façon massive nos fenêtres qualitatives et quantitatives de saisi de l’objet scientifique et comment, surtout, ils nous ont permis d’automatiser leur croisement ou leur triangulation, jusqu’à une grande complexité. Il s’agira donc d’étudier les pièces mécaniques d’une chaîne de transformation des données de façon artisanale, y compris en reprenant les étapes méthodologiques de construction des corpus sur des technologies comme les tableurs (Excel) dont les formules de croisement des différentes dimensions des données se révèle étonnantes et déjà très performantes.
  4. L’articulation entre « données » et « hypothèses » et du niveau intermédiaire du « modèle de donnée ». Les data sciences et les méthodes d’intelligence des données se réclament en effet d’une data driven methodology où le travail sur les données précède la formulation d’hypothèses. On peut aussi parler de méthode inductive par opposition à une démarche hypothético-déductive où le dispositif expérimental (et donc les data) sont mobilisées avant tout pour valider ou falsifier une ou plusieurs hypothèses de départ. Plutôt que d’opposer massivement les deux approches, il paraît plus pertinent d’interroger le travail de construction des modèles de données en data sciences, une activité centrale en recherche et développement mais aussi au plan scientifique où on peut les considérer comme des modèles d’intelligibilité des données (des sortes d’objets scientifiques intermédiaires si l’on veut). Le modèle inclut tout à la fois les données et les formules de traitement associées (toujours particulières): il permet d’isoler des patterns ou des régularités fortes dans les masses. En termes de services innovants, le modèle peut être incarné dans un dispositif né de l’agrégation originale d’une série de filtres analytiques qui portent sur une ou plusieurs dimensions des données et qui peut être concentrée dans une interface. Sans prétendre à « La science », les approches data et leur méthodologie inductive contribuent beaucoup à enrichir ce niveau scientifique et technologique intermédiaire autour des modèles dont la « position » reste encore à préciser et à discuter à la lumière de la méthodologie scientifique « classique ».
  5. Les changements d’échelles. Il s’agit d’une question centrale dans une démarche orientée data. Sur ce point, l’atelier conduira une réflexion spécifique sur les effets scientifiques induits dans une démarche où l’accumulation quantitatives des données peut en effet conduire, dans certains cas, à la modification qualitative de l’objet de science. En sciences des réseaux, cela est certain: l’apparition des outils informatiques et des masses de données analysées a propulsé l’univers de la théorie mathématique des graphes vers les network sciences actuelles, en particulier depuis les développement des technologies web et les données indexées dans les moteurs de recherche. Par exemple, deux propriétés statistiques majeurs de ces réseaux (le small world phenomenon et le rôle majeur des « hub » dans la distribution de la connectivité entre chacun des éléments du système) ne sont perceptibles qu’à un certain niveau quantitatif de données mais elles ouvrent aussi de fait l’exploration scientifique à un ensemble de problématiques et de propriétés transversales (et en partie communes) de tous les « objets » ou les « champs » considérés comme des systèmes d’interaction: acteurs sociaux, gènes, molécules, espèces vivante… Chris Anderson a indéniablement raison : « more is different », non pas pour s’extasier devant les performances du calcul distribué et des masses de données en réseau, mais bien parce que l’on aperçoit, passé un certain seuil quantitatif, des configurations dans les données jusque-là insoupçonnées, surprenantes pour un scientifique. La comparaison des différentes architectures logiques ou fonctionnelles de plusieurs objets de science (agents sociaux, gènes, publications scientifiques, comptes facebook…), a-priori très différents, peut être d’un grand rendement réflexif et utile, notamment en période d’analyse et d’interprétation de grands corpus de données numériques.

La liste n’est évidemment pas fermée mais éclaire déjà l’esprit de cet atelier sur l’intelligence des données à venir, ouvert à tous et dont j’espère qu’il pourra se tenir de façon pérenne à Paris, notre hub national.

Atelier Iceberg, from data to vision

lgoIceberg

 

L’Atelier Iceberg vient de mettre en ligne son nouveau site web. Pour la petite start-up, voilà achevée une première période qui a permis à l’équipe d’explorer tous azimuts de nombreuses pistes qui conduisent des données aux interfaces, quels que soient les terrains. Parmi toutes ces activités d’intelligence des données, la cartographie a occupé (et occupe toujours) une place importante mais dans des niches maintenant identifiées: l’exploration heuristique des masses de données d’un côté (notamment avec les clients de l’entreprise), de l’autre, des opérations ponctuelles de communication visuelle et des chantiers particuliers d’interface. Autrement dit, la cartographie d’information n’est qu’un instrument parmi d’autre dans cet atelier artisanal de haute-technologie.

A l’aube d’une nouvelle phase de développement, l’Atelier Iceberg se dote d’une nouvelle organisation. L’équipe est toujours composée de Thomas Busson (co-fondateur, gérant), Thomas Dupeyrat (co-fondateur-gérant), Léo Bonnargent (co-fondateur,  développeur) et Yolaine Chirouze (data designer, en stage). Deux arrivées majeures viennent enrichir l’équipe: Alexis Jacomy (associé, développeur, leader du projet SigmaJS) et Frédéric Datachary (expert veille concurrentielle). Cette réorganisation s’accompagne, évidemment, d’une recomposition de l’offre marché, mieux définie et plus « verticalisée ».

Bien que sortant des membres associés (à mon sens, il n’entre pas dans les compétences d’un chercheur de devenir un capitaine d’industrie), je reste lié au destin de l’Atelier Iceberg puisque j’intègre « l’advisory board » de l’entreprise en compagnie de Gaëlle BRAYER (Consultante, Experte en innovation), Jean-Marc DUPEYRAT (Ancien dirigeant grand compte, Expert énergie et stratégie) et Jean-Marc SEVAULT (Consultant, Expert en stratégie d’entreprise).

boardIceberg

 

En termes métier, l’Atelier développe aujourd’hui une palette variée d’offres de services autour du design d’information ou du data design. De l’analyse de corpus de données jusqu’à la conception d’interface en passant par l’aide à la conception de systèmes d’information. Le domaine d’activité de l’Atelier reste donc, et plus que jamais, la valorisation du patrimoine informationnel des organisation, aussi bien privées que publics. L’une des spécificités de l’entreprise vient à mon sens de l’implication, voire de la coopération nécessaire des clients dans les démarches d’analyse et de conception des processus et/ou des outils. Certains parlent de « conception collaborative »; personnellement, je préfère l’expression de « design participatif » quand il faut imaginer les contours des futurs systèmes d’information des clients ou bien encore pour imaginer les formes d’une communication autour des data rendues plus pertinentes ou plus intelligentes. En ce sens, l’Atelier Iceberg reste une authentique agence de design.

Côté offre de formation, les formats de l’Atelier ont été conservés, en signalant notre volonté affichée désormais de dédier une série de séances d’apprentissage à Gephi. Parfois complexe à utiliser et pas toujours évident à manipuler, Gephi reste néanmoins le seul outil de réduction de la complexité à notre portée et dont les leaders (Mathieu Bastian, Sébastien Heymann, Mathieu Jacomy) nous sont si proches qu’ils pourraient (presque) intégrer l’Atelier Iceberg dans une parfaite continuité avec leurs activités actuelles! Au delà, l’Atelier propose toujours des formations « sur mesure », dont une dédiée à la cartographie d’information. La nouveauté tient en l’ouverture d’une master class SigmaJS animée par Alexis Jacomy. Voilà une belle opportunité d’enrichir les pratiques de tous ceux qui développent en javascript et qui se tournent vers la cartographie d’information ou la visualisation de graphes.

MasterClassJS

 

L’aspect le plus important de cette nouvelle orientation de l’Atelier Iceberg vient de la mise en place d’une offre de veille et d’analyse de l’environnement concurrentiel. Il s’agit là de l’aboutissement (prévisible) du travail réalisé sur de nombreux sets de données depuis maintenant plus 18 mois. L’arrivée de l’expérimenté Frédéric Datchary n’y est pas étrangère. L’équipe de l’Atelier va donc se concentrer sur ces environnements concurrentiels qui sont des espaces stratégiques à l’évolution rapide, et souvent complexe à identifier. Les partenariats, les acquisitions, les fusions, les projets de coopération industrielle ou les stratégies liées à la propriété intellectuelle constitueront donc rapidement des terrains propices aux opérations d’analyse et de visualisation de l’information. L’Atelier Iceberg a donc précisément défini plusieurs scénarios de déploiement d’une activité de veille pour ses partenaires, que ces derniers disposent déjà, ou non, d’une équipe dédiée.

VeilleIceberg

L’Atelier dispose donc d’une équipe déjà rodée et efficace pour des opérations de veille scientifique, technologique ou légale. Il est donc temps pour la petite société de valoriser tout ce capital d’informations accumulées depuis un an et demi (sur les brevets, les articles scientifiques, les rapports techniques ou stratégiques, les documents web et qui concernent les acteurs du monde industriel et de la recherche dans les domaines de l’énergie, de la ville, des objets connectés ou de la santé). Ainsi, l’Atelier Iceberg me semble être allé très vite en termes de connaissances accumulées du milieu de l’industrie et de l’innovation en France. Si l’on ajoute les compétences natives de la jeune équipe en termes de visualisation et son intérêt pour les secteurs émergents des data (notamment les objets connectés ou les masses issues des usages des technologies comme la téléphonie mobile ou les données de parcours de santé), on peut parier qu’elle deviendra bientôt un acteur majeur du data design.

 

VizIR, par datapublica

Ca y’est, une version interactive de Vizir est en ligne et accessible! Et c’est datapublica qui l’a fait. Après une première version expérimentale développée par linkfluence (il y a déjà quelques temps), cette nouvelle version démontre qu’un cap important a été franchi par l’équipe du pôle de compétitivité Images et Réseaux animée aujourd’hui par Gérard Lebihan après Bertrand Guilbaud. Evidemment, j’aurais aimé que l’Atelier Iceberg ait été choisi pour répondre à la demande du pôle de compétitivité breton (mais à vocation mondiale). Finalement, c’est datapublica qui a été sélectionné pour développer cette version (presque) finale d’un projet que j’avais imaginé il y a (je crois) cinq années. Mais je ne cacherai pas mon enthousiasme de voir datapublica à l’oeuvre, un des grands spécialiste français des masses de données et de l’open-data mais aussi un des acteurs majeurs à mon sens de cette communauté de « fabricants de boussoles » qui inventent aujourd’hui de nouveaux moyens de navigation dans les données.

Dans ma démarche de cartographe, Vizir a toujours constitué un projet exemplaire pour imaginer les solutions techniques et méthodologiques qui permettraient de développer cet outil générique de lecture et de navigation dans des sets de données qualifiées. Pour ceux qui accumulent tous les jours des informations dans des fichiers Excel, des tableaux ou des bases de données, Vizir peut représenter une solution pertinente pour observer, suivre, synthétiser voire anticiper le développement de ses projets ou de ses partenariats. La chaîne de traitement, depuis les stocks de données jusqu’à l’interface, a depuis longtemps été conçue comme la plus simple possible: une séance d’une demi-journée suffirait à préciser avec un client le formalisme à utiliser pour « rentrer les données » à partir d’un fichier statique type Excel. Mais datapublica à franchi le véritable « saut » technologique et qualitatif en « pluggant » Vizir de façon dynamique à l’ERP du pôle Images et Réseaux via une API. On imagine aisément, ce que pourrait permettre de collecter et de rassembler comme informations une série de Vizir pour les autres pôles de compétitivité, ou bien alors le dashboard global à concevoir pour une tutelle comme la DGCIS (renommée aujourd’hui DGE – Direction Générale des Entreprises).

Statiques ou dynamiques, les données potentiellement intégrales dans ce nouveau Vizir sont nombreuses: des projets (quelle que soit leur nature ou leur échelle) mais aussi des publications scientifiques, des brevets, des documents techniques…En intégrant ces deux leviers essentiels à l’activité de monitoring ou d’évaluation que sont les cartes géoréréfencées et la time-line, on comprend que Vizir peut être adapté à la gestion (au « management » dirait-on aujourd’hui) des projets et des réseaux de coopération en territoires, à l’échelle régionale notamment. Les organismes consulaires tout comme les industriels et, surtout, les responsables du développement économique et social qui officient pour les métropoles pourraient y trouver un instrument pertinent (Vizir intègre différentes fonctionnalités d’export pour préparer, notamment, des exposés publics).

Vizir3a

Vizir prend enfin une vraie dimension réseau avec une architecture client-serveur déployée par datapublica. L’outil est conçu de façon modulaire, autour d’une série de fenêtres indépendantes mais qui se répondent l’une l’autre, facilitant les requêtes croisées ou multiples à l’écran. Chacun comprendra que ce principe des modules (en javascript, notamment sigmaJS pour la visualisation de graphes) ouvre de nombreuses possibilités pour adapter Vizir à de nombreux contextes et pour d’autres champs que les pôles de compétitivité, ou le management de projets. A titre personnel, j’envisage déjà deux types d’application: un instrument de suivi des publications scientifiques à partir des notices Scopus ou du WoS (pour une direction à la recherche d’un établissement) et pour un acteur de l’industrie comme outil d’aide au management de son portefeuille de brevets.

Avec Vizir, le pôle Images et Réseaux dispose d’un premier outil de cartographie des territoires innovants qu’il a lui-même accompagnés autour, par exemple, des images numériques de demain ou de la photonique. En particulier, cette première version de Vizir permet de naviguer selon les grands trois axes de la gestion de projets en territoires:

La navigation par projets, autour d’une série de modules comme la carte géographique dynamique pour situer les acteurs associés à un projet ou l’affichage, à l’opposé de l’écran, des mots-clés représentatifs du thème principal du projet labellisé.

vizir3b

Navigation par partenaires. Le graphe central affiche les relations entre les partenaires et les projets. Je reconnais la difficulté à naviguer dans un graphe trop volumineux comme ici (synonyme, cependant, de la longévité et dynamique des activités du pôle!). Cependant, le couplage avec le nuage de mots-clés en bas nous permet, en deux clics, de trouver rapidement des partenaires et un répertoire de compétences précises avec un graphe (et des informations latérales) remises à jour en temps réel.

vizir3c

Cliquons sur un mot-clé (ou plusieurs successivement, comme une série de filtres sémantiques), sélectionnons un partenaire d’un projet on l’on accède à sa fiche qui comporte tous les informations nécessaires si l’on est à la recherche de compétences particulières parmi les membres du pôle.

vizir3e

 

La navigation par thèmes. C’est le panneau que je préfère car il permet de faire varier dynamiquement dans le temps le jeu des mots-clés qui servent à décrire le contenu des projets. On peut esquisser l’évolution thématique des projets labellisés par le pôle. C’est tout le principe de ce que j’appelle les « empreintes sémantiques », autrement dit la configuration particulière d’une batterie de descripteurs de « contenu » laissés dans une base de connaissances par un acteur (par exemple l’empreinte d’un chercheur dans une base de publications scientifiques et qui pointent vers ses champs compétences) ou une organisation (le même principe mais appliqué à l’échelle d’un laboratoire).

vizir3d

A travers ces trois panneaux, cette première version de Vizir permet pour la première fois d’apercevoir les multiples façons dont sont mobilisés en amont les moyens techniques, humains et financiers des acteurs publics (Etat, collectivités territoriales, OSEO-BPI…), privés ou industriels (structures de RetD) ou bien encore issus des organisations de la société civile (associations) dans le développement de cet écosystème thématique que l’on appelle un « pôle de compétitivité ». Mais chacun peut aussi se rendre compte des retombées des projets labellisés, individuellement comme globalement (un aspect central que je n’avais pas eu le temps de développer mais qui me semble être au coeur d’une démarche de suivi, voire d’évaluation): projets de start-ups, publications scientifiques, événements ou animations territoriales…Techniquement, Vizir est potentiellement reconfigurable autour de nombreux scénarios d’utilisation, depuis la variété des données en entrée jusqu’aux variations des champs d’études (d’un objet particulier à la cartographie d’ensembles plus vastes, comme ici un pôle de compétitivité en région), sans oublier les multiples facettes de l’information que propose les modules composant l’interface (variation temporelles dans les données, géoréférencement sur des cartes dynamiques, nuages de mots-clés, courbes d’évolution des phénomènes, répertoires de membres ou d’acteurs, description des projets…).

Au delà, il faudrait imaginer aussi ce que pourrait apporter à tous les acteurs de l’innovation de notre pays le déploiement d’une série de « radar de projets » de ce type dans les pôles de compétitivité, et au delà pour les projets européens, ANR, régionaux. J’imagine ce que cela donnerait pour le suivi du travail en région de BPI-France ou encore pour le suivi des partenariats dans l’univers des acteurs industriels. Autant de domaines que datapublica, l’Atelier Iceberg et d’autres occuperont demain. Mais, plus que tout, Vizir rappelle tout ce que ce type de réussite technique doit au travail manuel de qualification et de vérification des informations mené quotidiennement par les acteurs, notamment les documentalistes, les ingénieurs, les bibliothécaires, les chargés d’étude ou les secrétaires auquel le dispositif rend d’abord hommage.

De quoi discutent les députés européens?

La question paraît naïve mais justifiée de mon point de vue: est-on capable, spontanément, de citer la plupart des 5 ou 10 grands domaines sur lesquels se prononcent nos députés européens? N’étant pas spécialiste de la question, l’activité politique qui se déroule au parlement européen m’a toujours semblé lointaine, comme une sorte d’horizon énigmatique et très éloigné des préoccupations quotidiennes de mes concitoyens. Les récentes élections européennes ont constitué l’occasion de lancer un projet global de cartographie des débats, des acteurs et, surtout, des domaines ou des thématiques dont s’est emparé le parlement européen sur les cinq dernières années. Trois étudiants de l’U.T.C. (Nicolas Rangeon, Bruno Marcel, Paul Marillonnet) ont ainsi posé les premières briques d’un système cartographique d’exploration des domaines thématiques qui émergent de l’analyse de plus de 2.000 documents (notamment les textes votés par les parlementaires pour le mandat 2009-2014). Le navicorpus qui est né de la démarche fonctionne en ligne comme un dispositif hybridant trois « modules » techniques (selon une « recette » maintenant éprouvée dans mon enseignement): une interface dynamique de graphe, des batteries de mots-clés (à peu près 1.000 retenus pour cette version) regroupés en domaines ou en thèmes et un accès à des ressources externes, notamment les textes eux-mêmes. Le travail sur l’extraction et le traitement des mots-clés est fondamental dans ce genre d’exercice: construits comme une sorte d’ontologie primitive (méthode TF/IDF avec 15 mots-clés retenus par document puis construction d’une structure de graphe de co-occurrence où le terme « A » est relié au terme « B » quand ils sont issus du même document), ils permettent en amont de visualiser une géographie thématique en fonction de leurs regroupements/éloignements en « zones » de densité mais aussi, en aval, de proposer à l’utilisateur une recherche classique de documents par requêtage ou, alors, par sélection d’un ou plusieurs termes (successivement comme simultanément).

En début de navigation, navicorpus propose de choisir un corpus (deux sont accessibles actuellement: les textes européens et les pages web de ce blog). L’interface cartographique du navicorpus est maintenant un « classique » (sigmaJS) avec son zoom, la possibilité d’afficher ou non les liens de co-occurrence ou encore sa loupe qui permet de grossir des zones particulières sans oublier l’inévitable « mini-map » dynamique.

Illus1

Sélectionnez un terme et s’ouvre alors (après un petit temps de calcul) deux frames (ou deux volets). Celui de gauche permet d’afficher les termes associés statistiquement au terme choisi mais aussi d’en sélectionner d’autres. L’ensemble fonctionne donc un filtre de recherche de documents. La frame du bas permet de contrôler le nombre et le type de document retrouvés dans la base. Chaque document est lui-même associé à une batterie de mots-clés qui peuvent être aussi mobilisés comme filtre en les sélectionnant. L’ensemble de ces fonctionnalités assure une recherche rapide et souple aussi bien via l’interface de visualisation de graphes que via les deux volets de recherche par mots-clés.

illus2

Les titres affichés des documents sont cliquables et renvoient directement à l’intégralité des documents-source (http://www.europarl.europa.eu/).

illus4

Toujours dans le volet en bas du navicorpus, deux icônes figurent après les titres de chaque document. La seconde indique la « policy area » du texte voté (son domaine ou son thème) mais la première renvoie quant à elle à un autre site web, votewatch.eu, où sont regroupées toutes les informations politiques associées à chacun des texte. Y sont notamment accessibles les votes des parlementaires (récupérables sous forme de CSV).

illus5

Au delà de l’aspect informatif de ces données et du contexte d’une recherche essentiellement documentaire par mots-clés, on aura deviné la prochaine orientation du navicorpus: la cartographie globale des parlementaires eux-mêmes en fonction (notamment) de leurs votes. En somme un travail de traduction en positions cartographiques de positions politiques. Et il sera intéressant, entre autre, de pouvoir les croiser avec notre première géographie thématique.

J’ai produit un poster rudimentaire associé au corpus cartographié. J’ai respecté les choix graphiques des trois étudiants du point de vue de la visualisation du graphe et, une fois imprimé, il peut apporter un espace complémentaire (et peut-être plus synthétique) malgré son aspect statique. J’ai ajouté quelques éléments statistiques, comme le dénombrement et le classement des 21 thèmes majeurs autour desquels se sont déroulés 5 années de débat. Si chaque « clusters » de mots-clés dans la carte est doté d’une couleur spécifique (la délimitation de ces clusters est issue d’un calcul statistique où les termes qui sont le plus liés ensemble sont regroupés en un sous-ensemble du corpus), je leur ai moi-même attribué des titres, ce qui peut parfois les faire apparaître relativement arbitraires. Le navicorpus (sur cette « version européenne » en ligne) préfigure un dispositif plus générique applicable à d’autres corpus documentaires; après chaque utilisation, il permet aussi de nous rapprocher un peu plus de cette Europe politique qui peut sembler si lointaine.

poster