Dans les jours qui ont immédiatement suivi les attentas du 11 septembre 2001, Valdis Krebs a commencé à reconstituer sous forme de graphe le puzzle des cellules qui ont opéré au nom d’AlQaeda. Comme à chaque fois, tout commence avec une table de données (type fichier Excel) dans laquelle il va accumuler, rivé aux chaînes de télévision et au web, différentes informations en agrégeant les sources comme le ferait un détective. Dans ce travail remarquable de précision et de patience, sa compréhension du phénomène se construit par élargissement progressif de son horizon d’observabilité, au fur et à mesure que  les « cartes » se succèdent. Chaque nouvelle information vient nourrir la perspective: V. Krebs ajoute, en particulier, de nouveaux liens entre les 19 membres des quatre cellules qui concernent les points communs de leurs différentes biographies (certains sont de la même famille, ont fréquenté les mêmes lieux, vécu dans les mêmes camps d’entrainement en Afghanistan, sont des amis d’enfance ou ont côtoyé les mêmes imams). Il ajoute aussi différentes informations juridiques, commerciales ou administratives qui lui permettent alors de comprendre le lent travail préparatoire des attentats (location commune de voiture, logement communs, voyage à deux ou trois membres…sur une période de plusieurs années). Mais apparaissent aussi de nouveaux noeuds dans la carte, tous ces acteurs qui ont assuré la logistique des opérations et/ou qui ont croisé les « kamikazes » au cours de leurs vie. La carte « finale » que livre V. Krebs comporte ainsi plus de 60 membres (dont certains sont seulement soupçonnés d’avoir participé de façon indirecte aux quatre attentats, d’autres ont été condamnés puis relâchés aujourd’hui et d’autres encore à l’identité invérifiable). La plupart des quarante nouveaux de la carte ont été ajoutés à partir d’un double critère: la nature de leurs liens avec les 18 membres des 4 cellules opérationnelles et le fait qu’ils ont été en contact (pour la plupart) avec au moins deux terroristes (presque sur le même principe que la co-citation en bibliométrie).

carteH

Bien des années après les avoir découvert, j’ai parcouru à nouveau ces curieux documents à la lumière des événements qui nous ont touchés à partir du 11 janvier 2015. J’aurais voulu emprunter le même chemin que V. Krebs dès le 11 janvier mais je suis resté pétrifié devant mon écran de télévision sans pouvoir me restreindre à la même discipline. Cependant, au delà de l’émotion intense suscitée par le flots des images et des commentaires, chacun a pu partager avec les journalistes en plateau des chaînes de télévision le besoin de comprendre les faits ou les événements en les reliant de façon logique à mesure qu’ils sont apparus. Je suppose que dans toutes les rédactions de nos médias, on a dû déployer ces instruments de « war-room » qui permettent d’accumuler les informations sur un grand tableau synthétique, l’espace de l’interprétation ou l’analyse, en temps réel.

CarteL

Si je n’ai pas su au cours de ces dernières semaines construire dynamiquement une « carte » des acteurs liés aux attentats (à partir des trois noeuds centraux que représentent Saïd et Chérif Kouachi et Amedi Coulibaly, en y intégrant petit à petit les nombreuses relations qui les unissaient et tous les autres noeuds de la carte qui auraient montré leurs soutiens, comme dans la carte produite par France24 ci-dessus), je suis revenu quelques instants sur le travail de Valdis Krebs et sa méthodologie. Pour bien comprendre les enjeux et les techniques de cartographie d’organisation criminelles et d’organisations terroristes, j’ai reconstruit patiemment le graphe des 4 cellules d’AlQaeda, de leurs membres et des relations qui ont pu connecter un ensemble d’acteurs dans la préparation et la réalisation des attentats du 11 septembre 2001 aux Etats-Unis. Je précise que je suis un néophyte sur ces questions et que je ne suis mandaté ni par un média ni par un service spécialisé. Cependant, la construction de cette « carte des attentats du 11 septembre » m’a permis de mesurer l’intrication extrême des aspects technologiques et méthodologiques d’un côté et, de l’autre, des aspects éthiques et politiques. Avec les événements dramatiques de ce mois de janvier en France et les menaces réelles qui pèsent sur notre pays, cette intrication de la technologie et de l’éthique va devenir un terrain de débat public de premier plan dans les mois à venir. Serons-nous dans la nécessité d’accepter une nouvelle politique des données en matière de lutte contre les organisations criminelles et les réseaux terroristes? Reverrons-nous à la baisse nos exigences en matière de protection des données personnelles? Peut-on longtemps encore tolérer l’accumulation continue de données personnelles par les géants américains de l’information en laissant démunis nos services nationaux? Voilà autant de questions incontournables qui accompagne spontanément un aussi modeste travail de cartographie descriptive que le mien. Et elles sont d’autant plus cruciales qu’en matière de sécurité (comme de marketing ou de big-data), toute capacité descriptive débouche immanquablement sur l’idée d’instruments prédictifs.

La construction de la carte. En matière de sécurité, il n’est guère envisageable de carte finale ou définitive, sauf à la construire de façon rétrospective et/ou en ayant connaissance de toutes les dimensions d’une activité criminelle. L’intérêt des cartes de réseaux criminels réside plutôt dans la dynamique de leur construction, à mesure que qu’adviennent les éléments de connaissance qui permettent de comprendre un contexte. Elles sont proches des instruments de mind-mapping ou de cartographie sémantique et sont très contrôlées qualitativement. Ce sont des instruments de dynamic knowledge discovery mais d’une nature différente de celles que je produis sur ce blog: si j’aime à identifier des patterns généraux à partir de masses de données qualifiées (notamment via des bases de données reconnues), ici « l’information » doit d’abord être collectée, validée et vérifiée pas à pas dans un contexte d’incertitude généralisée. Ces cartes reposent en grande partie sur la maîtrise de trois contraintes majeures:

  • l’Incomplétude – on ne peut souvent les produire qu’à postériori et, qui plus est, en fonction seulement des informations disponibles.
  • des frontières floues – il faut admettre le caractère temporaire des graphes en décidant d’intégrer des éléments qui pourront se révéler par la suite inutiles et/ou injustifiés. Quand il s’agit de d’acteurs ou de groupes sociaux, on comprend les implications éthiques ou morales de la cartographie ou, dans des techniques plus quantitatives, la production de false positiv (individus innocent répondants cependant aux critères d’identification des algorithmes en big-data)
  • une dynamique temporelle forte – d’un double point de vue: a) les cartes évoluent en fonction des enquêtes b) les éléments cartographiés sont reliés entre eux par des liens de différentes durée (longue, courte, occasionnelle) et intensité (connexion occasionnelle dans un meeting politique ou religieux, connexion logistique quand deux acteurs habitent au même endroit près des lieux des attentats, connexion forte et ancienne quand on appartient à la même famille ou quand on a passé des mois dans un camp d’entraînement en Afghanistan).

A priori, me voilà donc très éloigné de mes terrains habituels, la bibliométrie ou la cartographie de brevets, là où j’aime à produire des cartographies à partir de certains seuils quantitatifs de données qualifiées et là où commencent à apparaître des patterns statistiques et visuels. Ici, avec ce type de graphe, nous entrons dans une méthodologie (et donc des outils) très différents où il s’agit de reconstruire localement et en contexte toute la richesse et la diversité des connexions qui ont pu lier seulement quelques éléments. Un peu comme si j’avais à découvrir l’ensemble des recherches françaises en chimie organique en commençant par quelques publications d’un seul chercheur qui m’ouvriraient, de citation en citation, des chemins de plus en plus nombreux, comme autant de liens dont j’aurais, pour chacun d’eux, à évaluer la valeur, la pertinence, la densité, la temporalité. En d’autres termes, il s’agit d’emprunter le même parcours qu’un analyste ou enquêteur qui découvre, pas à pas, un horizon d’observabilité de plus en plus élargi et complexe.

Les données que j’ai retenues concernent les acteurs suivant (avec l’astérisque pour l’identité supposée en reprenant les informations à V. Krebs): Mohamed Atta, Marwan Al-Shehhi,  Hani HanjourEssid Sami Ben KhemaisNawaf AlhazmiRamzi Bin al-ShibhZiad JarrahAbdul Aziz Al-Omari*Fayez AhmedSalem Alhazmi*Satam SuqamiZacarias MoussaouiHamza AlghamdiSaid BahajiKhalid Al-MihdharSaeed Alghamdi*Wail AlshehriWaleed AlshehriAgus BudimanAhmed AlghamdiZakariya EssabarAhmed Al HaznawiImad Eddin Barakat YarkasMajed MoqedMamoun DarkazanliMounir El MotassadeqMustafa Ahmed al-HisawiNabil al-MarabhRayed Mohammed AbdullahAhmed AlnamiRaed HijaziBandar AlhazmiFaisal Al SalmiMohand Alshehri*Abdelghani MzoudiAhmed Khalil Al-AniMohamed Abdi. Les informations proviennent, pour une part, des contributions de V. Krebs en 2002 et 2003 et, pour une autre part, des biographies accessibles sur wikipedia. D’autres sources m’ont aidé à découvrir le vaste domaine de la cartographie d’organisations criminelles ou terroristes: des sites de communication et de sensibilisation publiques, des sites de cartographies géographiques et historiques et des sites de recensement et liés aux différentes organisation de sécurité mises en place dans les années qui ont suivi le 11 septembre 2001 comme le . Le plus utile aura été sans conteste le site du programme S.T.A.R.T. (National Consortium for the Study of Terrorism and Responses to Terrorism), une référence incomparable à ma connaissance. Parmi les projet du programme START, figure par exemple un projet de base de données de profils du radicalisme et issues de l’analyse de milliers de sources d’information (Projet PIRUS – Profiles in Individual Radicalization in the United States (PIRUS) project, at START).

On pourra aussi parcourir, au besoin, des ouvrages comme the terrosrist list disponible sur Google Book ou aller des voir des sites publics d’information sur le recensement des organisations radicales et terroristes dans le monde et des sites qui s’intéressent à la réponse au terrorisme comme celui du Terrorism & Preparedness Data Resource Center (TPDRC). Mes références sont extrêmement partielles mais révèlent déjà l’énorme travail de recensement et d’analyse réalisé par les américains depuis 2001 (pour comparaison, si l’on est européen, aller voir les informations disponibles sur le web autour du Shengen Information System – SIS – dont la v2 a été lancée courant 2013). Les informations retenues peuvent être aisément intégrées dans le laboratoire de données de Gephi que l’on peut aussi utiliser comme une sorte d’instrument avancé de prise de notes manuelles.

carteI

Ainsi, les informations retenues ne présentent pas de difficultés particulières à traiter en empruntant au vaste domaine du social network analysis certaines méthodologies. Les méthodes d’analyse des réseaux sociaux appliqués aux questions de sécurité sont aujourd’hui presque devenues une tradition mais on ne doit pas oublier l’importance que jouent les outils de visualisation dans une démarche d’interprétation et d’analyse locale, de dévoilement progressif d’une structure. Je pense ici, bien évidemment, au système développé par Linkurio.us dont la boîte à outils me paraît être l’une des plus complètes aujourd’hui pour accompagner l’analyste, le journaliste ou l’enquêteur.

linkuriousB

D’autres instruments fameux existent comme d’I2 Enterprise Insight Analysis (racheté par IBM et visiblement intégré projet Watson), keylines de Cambridge Intelligence ou encore DATO (ex-graphlab). Au delà, on ne doit pas oublier le contexte dans lequel sont nées les network sciences dont je me réclame souvent: en englobant, de fait, aussi bien les méthodes du social network analysis que les outils de visualisation ou les mathématiques appliquées, l’un des objectifs majeurs de cette nouvelle science est bien de développer des capacités prédictives des « phénomènes sociaux ». La capacité à décrire et à expliquer des objets aussi complexes que des réseaux sociaux s’associe donc, de fait, à des préoccupations en matière de sécurité, le tout étant de savoir si les réseaux mafieux ou terroristes ont des « signatures statistiques » ou des « empreintes visuelles » particulières. Cette question reste encore aujourd’hui un enjeu majeurs de tous les types d’approche en matière de data mining (statistique, logiques floue, inférences sémantiques…) et de capacités préventives ou prédictives. Ainsi, j’aime à reproduire, encore une fois, ce document de 2006 qui assigne à cette nouvelle science des objectifs opérationnels en matière de recherche et de sécurité:

NetworkSciences

La carte, par étapes. La carte des attentats du 11 septembre poursuit un objectif de démonstration, pas d’information au sens journalistique. Les données retenues sont moins nombreuses que celles analysées par V. Krebs (plus de 60 acteurs pour ce dernier; 37 en ce qui me concerne car j’ai éliminé des acteurs dont le rôle n’était pas avéré – dans les limites de mon travail – et dont 4 sont de nationalité française). Il ne s’agit donc pas à proprement parler d’un travail d’enquêteur mais seulement d’une expérimentation à caractère démonstratif: chaque étape de la construction de cette carte me paraît en effet contenir en germes une série de problématiques éthiques ou politiques posées par les manipulations techniques sur les données. J’aborde quelques points de réflexion dans la seconde partie de ce post, du moins en l’état actuel de mes réflexion à l’articulation de la technologie, de l’éthique et de la politique des données en matière de sécurité.

carteA

La construction de la carte commence au moment où les membres des 4 cellules ont été identifiés (V. Krebs a commencé sa carte à partir des deux premiers suspects identifiés). A ce stade ce sont quatre clusters indépendants, un pour chacun des avions (vol AA11 en rouge s’écrase sur la tour 1 du World Trade Center, vol AA77 en violet s’écrase sur la Pentagone, vol UA175 s’écrase sur la tour 2 du World Trade Center, vol UA93 s’écrase en Pennsylvanie alors qu’il se dirigeait vers la Capitole). Dans ce type de travail, les attributs associés aux liens sont d’une grande importance: ils permettent de faire apparaître des labels aux liens mais, surtout, de qualifier et de pondérer de nombreuses familles potentielles de connexions. La question d’un travail tant qualitatif que quantitatif sur les connexions est un aspect central de la cartographie des réseaux criminels. Pour commencer, je n’ai donc que les liens « logistiques » assurant la présence simultanée des membres du réseau dans les quatre vols différents. Ces quatre clusters sont isolés et ne constituent pas, à proprement parler, une « carte »: l’adjonction de liens supplémentaires permet, dans un second temps, de faire apparaître un graphe connexe où chaque acteur se trouve lié aux autres via la découverte de différents types de relation. Il aura fallu des mois aux enquêteurs pour les identifier à partir de très nombreuses sources d’information. J’ai repris à V. Krebs sa méthodologie et une partie des informations issues de son travail en y ajoutant, par ailleurs, d’autres informations trouvées dans les biographies des membres du réseau accessibles sur wikipedia. V. Krebs a produit sous forme de tableau une répartition des grands types de sources d’information à prendre en compte pour produire le plus grand nombre de connexions pertinentes dans la cartographie d’un réseau terroriste:

carteF

C’est tout le principe des layers, autrement dit des couches de liens en fonction de leur nature en termes de sources. Dans le cadre de mon expérimentation, j’ai réduit le principe à seulement deux familles (liens forts représentant des liens de famille, d’amitié, de scolarité commune ou de présence conjointe dans des camps d’entraînement, notamment en Afghanistan; liens faibles liés à des questions qui m’ont apparu plutôt logistique et opérationnelles comme les cours communs de pilotage, les locations de voitures et de logement, les flux bancaires). Comme le fait Valdis Krebs, j’ai attribué des forces différentes pour chacune des deux familles de liens (liens faibles = poids 1, liens forts= poids 5)  mais chacun pourra adopter la « grammaire » qu’il pense être la plus rentable en termes d’accompagnement à l’interprétation. Par exemple, le poids des liens peuvent, ou non, être cumulés comme le fait V.Krebs (un lien faible entre A et B de poids 1 + un lien fort entre A et B de poids 5 = un lien de poids 6 – sachant que je peux toujours depuis Gephi sélectionner un layer parmi d’autres à partir d’une partition disponible dans la table des liens).

carteB

Avec un graphe connexe et suffisamment de liens, on entre pleinement dans une approche de type SNA ou network sciences: depuis la boîte à outils de Gephi avec ses métriques, différentes propriétés peuvent alors être identifiées. Par exemple, le diamètre du graphe (ramené ici à la longueur moyenne des chemins possibles entre les noeuds considérés par paire), autour de 4,5, ce qui paraît important pour un réseau de seulement 19 acteurs. Cette longueur apparente peut être considérée comme un principe de sécurité pour les membres du réseau (chaque élément étant éloigné des autres, il ne dispose, par exemple, que d’informations partielles sur l’ensemble de l’organisation). Mais cette longueur relative contredit un principe nécessaire de coordination (donc de distance moyenne courte) dans la préparation des attentats comme dans la synchronisation des équipes. Sous un autre aspect, des métriques comme les formes de centralité (notamment betweenness) indiquent le rôle prépondérant de certains acteurs, comme Mohamed Atta, qui ont pu jouer le rôle d’animateur de l’ensemble des 4 cellules. Sachant que ce dernier était aussi l’un des pilotes, ce jihadiste concentre une double compétences (skills) qui rend fragile l’organisation (son arrestation avant les attentats aurait peut-être permis de les éviter). L’étude de la distribution de skills nécessaires à l’échelle d’une organisation pour préparer et réaliser des attentats semble être un enjeu important du programme S.T.A.R.T. et, par bien des égards, la méthodologie se rapproche de celle déployée pour l’analyse des profils linkedin publiée dans ce blog. Elle nous incite à comprendre, notamment, comment la couche des « skills » permet de relier organiquement des individus à une organisation.

La présence de différents types de liens permet d’intéressantes opérations en matière d’analyse. La vue organique des relations (identifiées) qui unissent les 19 membres de cellule d’AlQaeda avant le 11 septembre contient suffisamment de nouveaux liens (notamment de liens forts) pour distribuer les 19 acteurs autrement que par leur action collective en quatre « commandos » opérationnels comme ici. A gauche les couleurs des noeuds sont attribuées en fonction de l’organisation en cellules opérationnelles; à droite à partir des résultats d’un algorithme de détection de communauté (Modularity). Le nombre de classes ou de groupes est équivalent (4) (Modularity n’a pas été ici contraint en nombre de classes et produit donc une distribution « optimale » en termes statistique) mais certains acteurs forment désormais des groupes nouveaux, très liés apparemment à des questions de relations familiales, de nationalité et de coparticipation à des périodes d’entraînement en Afghanistan).

carteC

Avec la phase d’ajout de nouveaux acteurs (nouveaux noeuds de la carte), nous entrons dans une série d’opérations et de questions délicates. J’ai ainsi intégré 18 membres avérés du réseau AlQaeda qui ont joué différents types de rôles dans les attentats du 11 septembre 2001. J’aurais pu, en principe, en ajouter de nombreux autres, ce que je n’ai pas fait. Pourquoi? A priori, c’est, de ma part, à la fois un manque d’expérience dans ce domaine mais aussi un manque évident de temps. Mais la raison est plus profonde car mon travail s’est arrêté au moment où je me suis explicitement posé la question des règles d’expansion du corpus. Sur quels critères (qualitatifs) faire reposer une démarche d’expansion (quantitative) d’un corpus? Ceux qui ont l’habitude des technologies de type focus-crawling sur le web reconnaîtront là un terrain bien connu, comme ceux, d’ailleurs, qui ont la pratique de la co-citation en bibliométrie. Mais ici, il s’agit d’acteurs humains, de vie au sens plein de l’anthropologie. La règle que V. Krebs semble avoir suivie par Valdis Krebs tient d’un double critère (comme dans les méthodes de focus-crawling): pour intégrer un nouvel acteur il faut qu’il ait au moins deux liens avec les membres des cellules qui ont commis les attentats suicides mais, de plus, il faut que ces liens renvoient directement à une connexion associée à la préparation ou à la réalisation des attentats, ce que réclame souvent un projet d’une telle ampleur (ceux qui ont transféré des sommes d’argent notamment ou qui ont, au cours de leur vie, permis de mettre en relation plusieurs acteurs liés aux attentats). Cette question technique n’est pas anodine dans la compréhension d’un phénomène aussi complexe qu’un attentat et l’on pourra se souvenir des nombreux instants d’hésitation des journalistes en plateau télé qui ont révélé petit à petit, et avec maintes précautions, les connexions entre les frères Kouachi et A. Coulibaly au début de mois de janvier. Sur ce point, je n’ai pas repris directement les informations utilisées par V. Krebs (d’où un nombre plus réduit d’acteurs dans ma version de la carte), notamment parce certains personnages ont joué un rôle à priori assez indéterminé, voire se sont révélés être innocents par la suite.

Néanmoins, avec 37 noeuds (acteurs), le graphe laisse maintenant apparaître quelques propriétés nouvelles intéressantes. En terme de métrique, le diamètre se situe désormais autour de 2,5, bien que le nombre d’éléments ait doublé. L’univers des membres d’AlQaeda semble plus réduit (effet small-world), univers dans lequel peuvent alors s’exercer une actions de synchronisation, de coordination ou d’animation de l’ensemble du réseau à partir de distances plus courtes. Mais ce type de propriétés annonce aussi un effet de hiérarchisation autour d’éléments qui semblent jouer un rôle central, soit parce qu’ils développent de nombreux liens avec tous les autres noeuds du système (les hub) soit parce qu’ils occupent une « place centrale » dans le graphe (différents scores de centralité). Cette dernière propriété est intéressante à mobiliser pour identifier des faiblesses potentielles de ce type d’organisation: certains acteurs jouent un rôle déterminant en termes de structure non pas parce qu’ils sont les plus connectés (voire les plus « actifs » ou « en pointe ») mais parce que c’est par eux que passent un grand nombre de connexions (chemins possibles) entre tous les éléments.

CarteComplete

Le principe de l’extension laisse apparaître de nombreuses difficultés, et quelques « surprises ». Par exemple, l’apparition dans le graphe de Zacarias Moussaoui, de nationalité française et emprisonné à vie aux Etats-Unis. Son cas pose d’intéressants problèmes d’intégration au corpus: à priori, rien n’est encore venu prouvé sa participation aux attentats du 11septembre (déjà emprisonné au moment des faits) mais il est lié de bien des façons à plusieurs acteurs de la carte (Afghanistan, séjours en Grande-Bretagne…). Autre « singularité » associée au principe de l’expansion du corpus: Valdis Krebs fait apparaître dans ses graphes la présence de Djamel Beghal, le franco-algérien, parfois présenté comme le « mentor » des frères Kouachi (Chérif avec qui il était en prison et que A. Coulibaly a visité en prison). Les trois se sont retrouvés  par la suite dans le Cantal où Djamel Beghal a été assigné à résidence durant plusieurs mois. Je ne sais pas si les attentats récents sur notre territoire représentent un « 11 septembre français » mais, en terme de cartographie, nous ne sommes ainsi qu’en « distance 2 » avec les événements du 11 septembre 2001 aux Etats-Unis. Il faut cependant se méfier de ce que peuvent exhiber les graphes de liens lorsqu’ils ne prennent pas en compte les corrélations de « contenu » à travers un contrôle qualitatif: si chacun se rappelle l’une des conclusions de l’analyse type SNA à propos des réseaux type facebook sur ce blog, et même plus généralement de la façon dont nous associent les technologies web, nous sommes tous statistiquement reliés les uns aux autres selon des distances moyennes très courtes (et cela peut être vérifié aussi en dehors des connexions électroniques). On pourra lire, à ce sujet, l’article de Thomas A. Stewart dès décembre 2001, Six Degrees of Mohamed Atta. J’ai déjà souligné sur ce blog les implications sociales ou culturelles de ce que signifient ces chiffres qui peuvent aussi être pris comme des mesures « d’éloignement » et non pas de « proximité ». A mon avis, s’il fallait faire un graphe de toutes les connexions des quelques « 3.000 suspects » présents sur notre territoire (selon notre Ministre de l’Intérieur dans ses déclarations de la semaine dernière), une bonne partie de la population française pourrait être concernée! En revanche, un contrôle qualitatif (et manuel) du type de connexions à prendre en compte permettrait d’esquisser les contours réels de ce que les journalistes appellent la « nébuleuse jihadiste ».

Notre petit exercice de cartographie à propos des attentats du 11 septembre lève pourtant une partie du voile qui fait apparaître les réseaux de type AlQaeda comme des « nébuleuses ». Les fils qui ont conditionné le destin des kamikazes du 11 septembre semblent nombreux et très diverses; ils éclairent un contexte mais n’expliquent pas l’événement en tant que tel. Ils constituent cependant sous forme de graphe un espace pertinent où loger l’analyse rétrospective et leur « géographie » renseigne sur la complexité topologique des différents types de causalité à prendre en compte. Une petite expérimentation cartographique comme la nôtre illustre aisément les difficultés dans lesquelles doivent être plongés aussi bien les enquêteurs que les journalistes spécialisés. L’espace qui se découvre petit à petit rend difficile, d’un côté, la théorie du « loup solitaire » (puisque notre graphe peut intégrer potentiellement un grand nombre d’informations biographiques qui permettent alors de le connecter à de nombreuses variables) mais aussi, d’un autre côté, l’idée d’une organisation hiérarchisée et représentable, par exemple, sous forme d’arborescence (il suffirait alors dans ce cas d’en éliminer le leader). En ce sens, la cartographie éclaire de son pouvoir descriptif l’espace multidimensionnel où devront (ou devraient) se loger des pouvoirs prédictifs, qu’ils soient purement manuels, supervisés ou automatiques.

En attendant, on peut (ou il faut) continuer à éclairer sous différentes facettes cet objet-réseau en fonction des informations accessibles (j’y reviens plus loin). A lire V. Krebs, on aura compris que l’intérêt des graphes de réseaux terroristes est directement dépendant du nombre de dimensions qu’ils intègrent comme autant de facettes techniques. Par exemple, à partir des attributs associés aux noeuds (acteurs), on peut faire apparaître les différentes nationalités des membres d’un réseau par nature transnational (l’occasion de noter que les terroristes provenaient de pays considérés plutôt comme des « alliés » des Etats-Unis):

carteD

Dans les mécanismes d’exploration des différentes facettes de l’information concentrée dans les données, l’exploitation des propriétés associées aux liens constitue un enjeu central des graphes d’organisations criminelles ou terroristes. Un instrument comme Gephi permet de faire varier les liens selon plusieurs types de dimensions: les attributs de toute nature (on peut même y associer des commentaires libres), les familles ou les types (qui permettent de créer des partitions) mais aussi l’intensité ou les poids (comme le fait V. Krebs avec ses liens de différentes forces en fonction de la nature de l’information à laquelle ils sont associés) et leur temporalité (les liens, comme les noeuds, peuvent varier en fonction de fenêtres temporelles qui permettent de les rendre présents ou absents dan le graphe). Ainsi, comme avec les noeuds, plus le nombre de dimensions associées aux liens est importante, plus grand est le nombre de combinaisons possibles. Par exemple, en associant des poids à mes deux types de liens (liens forts pour les connexions biographiques identifiées, liens faibles pour les connexions liés à la logistique et à la réalisation des attentats), il devient possible de faire la vue sur les données en fonction de la pondération associée aux liens.

carteE

De gauche à droite, l’algorithme de spatialisation FroceAtlas2 distribue les noeuds dans l’espace en fonction de forces d’attraction et de répulsion calculées en fonction de la distribution des liens sur le même jeu de données. On peut lui demander de calculer ces forces en tenant compte du poids des liens (variable). Ainsi, sans tenir compte de la distinction du poids des liens, à gauche, se dessine notre graphe « fonctionnel » des cellules du 11 septembre 2001 et des acteurs qui ont assuré une partie de la logistiques des attentats. Au centre, et surtout à droite, se le poids des liens influe sur la projection et esquisse le réseaux de connexions familiales et d’amitié qui associe les acteurs du point de vue de leurs biographies respectives. Tout dépend donc d’un choix, l’important dans un système d’information et d’enquête de pouvoir proposer les deux vues à des experts-enquêteurs.

Points (temporaires) de réflexion. Le principe des layers ou des couches de connexions pose la question de l’accès à de multiples sources d’informations et de la possibilité de les croiser. Il s’agit d’une procédure essentielle pour la production de cartes suffisamment exhaustives pour identifier des suspects potentiels. L’accès simultané (techniquement nécessaire et souhaitable) présente de nombreux aspects éthiques et/ou politiques discutables. Il suppose, par exemple, l’accès à l’ensemble des données associée à la vie privée. On aura aussi noter qua, dans son tableau, V.Krebs fait apparaître toute l’importance de ce qu’il appelle l’administrativ network (l’équivalent, par exemple, l’accès aux données de la sécurité sociale dans le cadre d’une enquête en France). On aura aussi noté que ce type de donnée « may only be available in suspect’s native country », mais de façon légale ou non? Enfin, si l’on admet que la majorité des informations nécessaires à la reconstitution de la cellule d’AlQaeda sont potentiellement déjà disponibles avant les attentats, on comprend aisément à quel point le recoupement, ou la corrélation de différentes et nombreuses sources de données, est une étape capital du travail d’enquête (si l’événement a eu lieu) ou de prévention.

carteJ

La nécessité d’un accès presque total à toutes les sources d’informations (auxquelles il faudrait ajouter aujourd’hui la géolocalisation des objets mobiles, tweeter, les bases biométriques…) fait figure d’évidence ne serait-ce qu’à la lumière de notre petite expérimentation cartographique. C’est l’une des hard lessons que les Américains ont tiré du 11 septembre 2001 et toute la logique du Patriot Act et de la mise en place aux Etats-Unis du Intelligence Reform and Terrorism Prevention Act en 2004. Mais elle inaugure, aussi, une frénésie de l’archivage tous azimuts dont la N.S.A. semble être l’instrument principal. Comme beaucoup, j’ai été surpris de l’ampleur du système « d’écoutes » déployé durant des années par la NSA telle qu’elle apparaît avec les informations livrées par E. Snowden. Mais, depuis ce mois de janvier 2015, je pressens combien nous aurons aussi en France à tirer quelques hard lessons des événements terribles récents qui nous ont marqués, comme l’ont fait en 2006 Jeff Jonas et Jim Harper:

« The details of the 9/11 story reveal that federal authorities had significant opportunities to unravel the 9/11 terrorist plot and potentially avert that day’s tragedies. Two of the terrorists who ultimately hijacked and destroyed American Airlines flight 77 were already considered suspects by federal authorities and known to be in the United States. One of them was known to have associated with what a CIA official called a “major league killer.” Finding them and connecting them to other September 11 hijackers would have been possible—indeed, quite feasible— using the legal authority and investigative systems that existed before the attacks (…) What the 9/11 story most clearly calls for is sharper focus on the part of our national security agencies and the ability to efficiently locate, access, and aggregate information about specific suspects. Investigators should use intelligence to identify subjects of interest and then follow specific leads to detect and preempt terrorism (…) If our federal law enforcement and intelligence agencies needed anything, it was neither new technology nor more laws but simply a sharper focus and perhaps the ability to more efficiently locate, access, and aggregate information about specific suspects. They lacked this focus and capability—with tragic results ».

Sur un plan méthodologique, le principe des layers de liens appliqué aux organisations criminelles et terroristes pose d’intéressantes questions. En particulier, la superposition de liens « faibles » et « forts » (ou selon toute échelle de pondération plus complexe) pour analyser différents types de connexions liés à des layers particulier (par exemple A et B se sont entraînés en Afghanistan – lien fort – A appelle B depuis son téléphone mobile – lien faible) ouvre sur une série de problématiques méthodologiques qui peuvent être d’une grande complexité. En particulier, l’étude V. Krebs comme notre modeste cartographie exhibent une série de liens faibles (connexion ponctuelle de type communication électronique) qui peuvent être considérés, à bien des égards, comme la « réactivation » d’anciens liens forts (par exemple A appelle B depuis son téléphone mobile après une période de « silence » de plusieurs années depuis leurs séjours communs en Afganistan). Dans certains contextes, cela pourrait être interprété comme une sorte de « signal faible » précurseur d’une opération. « L’épaisseur » des layers potentiels dans la traçabilité d’un phénomène social comme le terrorisme (et peut-être de tout phénomène social) montre combien ce que l’on appelle « liens faibles » dans les approches par graphe doit être interrogée. Dans la tradition de la modélisation statistique (par exemple chez Watts et Strogatz), les liens faibles sont distribués aléatoirement ( principe de rondomness assumé pour la démonstration statistique) de façon à démontrer le principe du « samll world » où quelques grands ponts (bridging) sont jetés d’un bout à l’autre du graphe faisant ainsi chuter le diamètre d’une structure au départ très clusterisée (en chemins réels ou possibles). On connaît aussi leur importane chez S. Milgram et les « chain of acquaintances » (1969) et, surtout, M. Granovetter (1973). Chez ce dernier, les weak ties tirent leur force dans l’étude de la macrostructure sociale de leur pouvoir de connexion de différents univers sociaux: tandis que les stronglocal ties permettent de décrire les clans familiaux et les univers d’amis proches, les weak-global ties semblent jouer un rôle déterminants dans notre faculté d’adaptation sociétal au sens large (ils sont activés dans des périodes de recherche d’emploi chez les jeunes diplômés). Mais rien ne nous dit dans quelle(s) proportion(s) ni selon quelle(s) formule(s) d’intrication ces liens faibles ne sont pas en même temps d’anciens liens forts de proximité sociale. Je ne sais pas si une organisation terroriste comme AlQaeda peut être définie comme un espace de grande densité de superposition des deux types de liens (on peut évidemment en construire de nombreux types). Mais la question mérite d’être posée si, demain, il fallait concevoir un espace pertinent de rassemblement et de croisement des données sous forme de graphe.

Reste à interroger la question des modèles de prédictibilité possibles/envisageables à partir d’une approche par graphe. Autrement dit peut-on passer de l’observation rétrospective à des formes possibles de prévention? J’imagine qu’à priori qu’une bibliothèque de cas richement décrits (par exemple l’ensemble des attentats réalisés sous le label AlQaeda) et qu’une infrastructure de calcul permettrait déjà d’entamer un terrain d’investigation prometteur. On pourrait en extraire des modèles d’organisation sociale typiques d’une organisation criminelle qui laisserait des « traces d’usage identifiables » (et donc traitables numériquement). Ce serait une façon habile de mobiliser le big-data et les calculs statistiques à partir de modèle construits qualitativement. N’étant pas spécialiste de ces domaines, je ne fais guère autre chose ici que quelques conjectures. Je n’oublie pas non plus que bien d’autres approches existent, probablement plus pertinentes que les graphes en termes de prédiction comme la logique floue. Mais l’idée d’une démarche préventive peut aussi prendre une autre direction: l’idée de produire des structures de graphes (à partir de nombreux layers de connexions) à priori, comme une tâche de fonds continue et nourrie d’informations connues et vérifiées. Evidemment, nul n’a la capacité de produire un tel instrument d’observation à la totalité d’une population mais elle peut-être réalisable à petite échelle. C’est aussi une hypothèse, parmi de nombreuses, qui est née dans la suite des attentats du 11 septembre 2001:

« Of course, the common network researcher will not have access to many of these sources. The best solution for network disruption may be to discover possible suspects and then, via snowball sampling, map their ego networks – see whom else they lead to, and where they overlap. To find these suspects it appears that the best method is for diverse intelligence agencies to aggregate their information – their individual pieces to the puzzle – into a larger emergent map. By sharing information and knowledge, a more complete picture of possible danger can be drawn ».

A travers notre petite expérience de cartographie, plusieurs questions liées à la nature et au déploiement des systèmes d’information de sécurité sont évidemment posées. Tout d’abord quant à la nature des objets visés, à supposer que ce soient des groupes terroristes. Sur ce point, parmi les hard lessons tirées du 11 septembre 2001, quelques points méritent d’être relevés: a) les opérations peuvent être menées par des inconnus et être micro-managées par des animateur de cluster locaux qui ont leur propres ressources, parfois même l’initiative (peut-être typique d’AlQaeda) b) ces petits groupes deviennent opérationnels à partir de 5 éléments et aller jusqu’à 70 membres. Ce nombre apparaît relativement faible à l’époque et dans la foulée du 11 septembre mais indique déjà à l’époque qu’ils peuvent se connecter, se rassembler et agir à partir d’une série de communication rapides et intenses dans les moments qui précèdent l’action, souvent après de longues période de silence (c’est l’un des aspects de notre capacité à identifier ce genre de signal faible qui apparaît rétrospectivement comme un tiping point, le moment où tout s’enclenche et où le micro-réseau s’organise en cellule alors active) C) L’élimination d’un leader (supposé) peut être inefficace dans la mesure où ce type de micro-réseau peut organiquement se recomposer dans d’autres configurations opérationnelles à partir des mêmes éléments. Cependant, une analyse poussée des skills (compétences) nécessaires aux opérations vient modérer en partie ce principe: Mohammed Atta était un pilote mais aussi l’animateur central des groupes opérationnelles (à l’image de l’organisation interne d’un start-up où chacun peut être appelé à remplir différents rôles).

Se pose ensuite la question de la méthode de recueil et de traitement de l’information. Sur ce point, les cartographies réalisées par V. Krebs (comme la nôtre) s’inscrivent pleinement dans une démarche qualitative où les informations sont vérifiées et capitalisés dans un espace à base de graphes. En matière d’intelligence des données (ou de data analysis), on peut leur opposer une orientation plus quantitative où le big-data est mobilisé à la recherche de patterns spécifiques associées aux organisations criminelles et/ou terroristes. Des débats ont lieu depuis plusieurs années aux Etats-Unis où le big-data (ou le data-mining) semble massivement utilisé par les agences gouvernementales. Certains, de plus en plus nombreux, lui oppose la « small » ou le « smart » data et une approche « subject based » (dans lesquels prend place la cartographie de l’information telle que pratiquée par V. Krebs) et reprochent au data-mining généralisé ses dérives en termes de vie privée ou encore son coût et son efficacité. Sur le dernier point, je n’ai pas trouvé de sources suffisamment fiables et détaillée pour le démontrer, l’accès aux sources et aux méthodes de la NSA étant inaccessibles…pour des raisons de sécurité! En revanche, la plupart s’accorde pour souligner certains aspects négatifs du « big data » dédié à la sécurité intérieure, notamment la production de false positiv (personnes innocentes dont le profil a été identifié statistiquement comme suspect possible).

carteK

Comme l’écrit E. Dahl en 2013,  “It’s not Big Data, but Little Data, that Prevents Terrorist Attacks”, non pour revenir aux méthodes intégralement artisanales de l’enquête mais bien pour signaler qu’en matière d’intelligence des données appliquées à la sécurité c’est dans le croisement des deux méthodes que réside le potentiel prédictif des instruments ou des démarches (disons, de démarche instrumentée d’observation). On retrouve-là une question classique dont j’ai déjà examiné sur ce blog quelques aspects sur la question de l’innovation technologique. Dans la conception d’un système d’information, tout dépend de la façon dont sont distribués dans une chaîne de traitement des phases et des approches qualitatives et qualitatives, depuis les algorithmes jusqu’aux interfaces. C’est ce que j’ai appelé l’alchimie quali-quantitative où alternent d’un côté la production qualitative de profils d’entités qui doivent être nourris de données quantitatives pour valider certains de leurs traits. De façon complémentaire, une approche massive de type big-data en termes de recueil et d’archivage des données doit être nourrie de patterns (donc de profils) élaborés qualitativement pour optimiser les recherches (comme une sorte d’ontologie sociale). Ces principes généraux résonnent de façon particulière dans le contexte des récents attentats en France, notamment sur les plateaux de télévision où nombre d’experts ont souligné tour à tour le « manque d’analyse » et l’impossibilité pour les enquêteurs d’avoir accès à de nombreuses sources d’information. Si l’hybridation des deux approches est techniquement prometteuse, éthiquement et légalement il en va tout autrement, et le simple principe des layers adopté par V. Krebs, si l’on envisageait de l’appliquer dans notre pays, ferait bondir plus d’un juriste et une foule de militants. Nous sommes encore loin d’un social data mining de type prédictif, même si certains en rêvent. Mais nous ne sommes plus dans monde où n’existaient ni les bases de données et les réseaux distribués de l’information comme le web et technologies sociales. En regardant la tablette Androïd dans mon salon, je me dis que si nous laissons spontanément autant d’informations personnelles aux géants de l’information et à leurs services marketing, nous  pourrions aussi le faire pour nos enquêteurs.