Le journal Le Monde a publié il y a quelques jours un article sur les dernières recherches consacrées au fameux «dark web», et plus particulièrement le réseau Tor (The Onion Router). L’article fait référence à une étude que nous avons menée régulièrement depuis quelques mois (F.Ghitalla, F. Boisselier, J. Decayeux, E. Bartholmé, V. Déhaye), en récoltant petit à petit une série d’indices sur le fonctionnement du réseau Tor pour en comprendre la nature…et certains de ses enjeux.

TorArticle

La cartographie publiée, qui peut faire sensation, ne révèle pourtant qu’une partie infime de ce réseau obscure. Examinée dans le détail, on peut en tirer quelques enseignements utiles pour la compréhension de la nature de son fonctionnement (une question technique qui n’est pas triviale pour un néophyte comme moi) mais aussi pour la place qu’occupe Tor (ou d’autres réseaux cryptés et décentralisés) dans l’écosystème global du net.

Cette étude permet d’entrevoir quelques-unes des propriétés fondamentales de ce dark web que j’aime à représenter, selon la vision commune, sous la forme d’un vaste continent enfoui sous les profondeurs comme je l’ai fait dans les Chroniques.

TorArticle3

Cependant, on aurait tort de se le représenter comme un espace figé, presque minéralisé, tellement secret ou enfoui que seuls quelques initiés pourraient atteindre. Cette première étude montre qu’il est largement ouvert à tous mais aussi animé de mouvements très dynamiques si l’on pense, par exemple, à toutes les ressources et les arguments qui y ont cours sur les questions de l’anonymat, des nécessités de se protéger contre les instruments de traçabilité de l’humain en ligne ou de la liberté d’informer. D’une certaine façon, le dark market auquel on réduit trop souvent le réseau Tor, et les technologies type bitcoin qui se profilent au-delà, contribuent à une dynamique d’innovation indéniable.

Personnellement, je verrai Tor comme un refuge, une sorte de sanctuaire où viendraient prendre place tous ceux qui ont de bonnes et de mauvaises raisons de vivre cachés. Pour comprendre Tor, ou plus généralement le dark web, il ne faut pas le confondre avec la strate du deep web (autrefois désigné comme invisible) où sédimentent des masses documentaires qui m’apparaissent plus «statiques» (informations légales, documents techniques, certaines données personnelles, bases de connaissances, dossiers médicaux…), souvent accessibles derrière un identifiant et un mot de passe depuis le web de surface (clear web). Tor est une sorte de toile (vraiment) décentralisée d’ordinateurs dotés d’un cryptage, un réseau privé mais, on le verra, très facile d’accès. Avant cette étude, Tor était pour moi associé à deux aspects contradictoires à ce web crypté et donc anonyme: « l’affaire » Edward Snowden en 2013 et les dark nets ou dark markets où tout, ou presque, peut s’acheter ou se vendre, depuis des numéros de carte bleue jusqu’à la drogue en passant par…tout ce que l’on peut envisager de vendre de façon illégale. Rien de surprenant à ce que la justice américaine s’y intéresse de près («l’affaire Silk Road» date aussi de 2013) tout comme la N.S.A. ou d’autres agences gouvernementales. Mais Tor semble résister, et l’on ne peut être que surpris par l’activité des «silos» que nous avons visités en ce printemps 2017, en passant de hidden service en hidden service dans une navigation sans un Google général dédié au domaine qui en recenserait tous les aspects.

1) L’équipement

Pour visiter Tor, il faut être équipé car les sites en .onion du réseau crypté sont accessibles via une série de couches successives sous lesquelles se cache le trafic « réel ». C’est la métaphore de l’oignon ou le routage en oignon développé dès la années 90 par le laboratoire de mathématiques de l’U.S. Navy puis par la D.A.R.P.A. Mais c’est en 2001 que la version alpha de Tor est lancée et, depuis, le dark web se développe à l’abri du web de surface ou public web et dont des acteurs (souvent bénévoles) aménagent de nombreux passages ou accès sous forme de tunnels, de plus en plus nombreux et accessibles. L’équipement minimal pour s’y plonger consiste à s’équiper d’un navigateur Tor (spécialement dédié au traitement des adresses en .onion) et d’un vpn. Un « vpn » ou Virtual Private Network permet de générer depuis votre PC des accès au web via un autre ordinateur présent sur le réseau. Le protocole de communication crypté Tor et un vpn constituent une forme d’équipement minimal assez facile à trouver: un vpn par exemple sur topvpnsoftware, un navigateur Tor sur tor2web et on peut commencer par explorer les liens proposés par darkwebnews.

IllusTOR2

Le fait de s’équiper ainsi peut conduire certaines agences gouvernementales à considérer l’explorateur comme un suspect potentiel. C’est l’un des aspects des révélations d’E. Snowden mais, comme nous l’apprend Kevin D. Mitnick dans son dernier ouvrage The Art of Invisibility, il semble presque impossible d’échapper à toute forme de contrôle (bienveillant ou malveillant). Les points de passage du clear web à Tor semblent particulièrement surveillés, à l’entrée (entry guard du réseau) comme à la sortie (exit node). On trouvera dans Wired en 2014 un article intéressant résumant quelques-uns des aspects essentiels de cette surveillance des usages sur les réseaux, Use privacy services? The NSA is probably tracking you.

Une fois plongé dans l’univers Tor la navigation peut s’avérer lente car les communications obéissent à une série de principes techniques particuliers qui rendent le réseau imperméable à l’observation détaillée de l’activité de chacun des usagers. En effet, les connexions sur Tor s’effectuent: (a) à travers au moins 3 routers (nodes) sauf en entrée et en sortie (b) sélectionnés au hasard (random pathway) parmi des milliers de routers possibles (maintenus par des milliers de volontaire dans le monde) (c) en transmettant une information cryptée (le client et le serveur étant dotés des clefs cryptographiques de chacun des routers utilisés) (AES – Advanced Encryption Standard) (d) divisée en plusieurs parts égales (cells) (e) à travers le pipe défini (tuyau construit entre les routers pour la transaction/communication) où chaque router ne connaît que le précédent et le suivant (f) l’information étant finalement reconstruite via un router de sortie avant de l’envoyer vers le client final. C’est tout le principe du réseau Tor qui repose donc sur une combinaison hybridant cryptographie et routage des communications par de multiples chemins potentiels. Comme des pelures, les différentes clefs de cryptage opèrent à chaque étape du processus:

TorArticle5

En termes de topologie réseau, on peut en résumer le principe de la façon suivante:

TorArticle6

A l’échelle mondiale, on imagine ainsi l’intensité du trafic entre serveurs Tor si chaque connexion client-serveur génère à chaque fois des chemins aussi longs de façon dynamique, et pour des communications cryptées à chaque étape. C’est pourquoi le programme de la NSA de surveillance (du moins, tel qu’il est présenté depuis les révélations d’E. Snowden avec l’utilisation, notamment, de XkeyScore) se concentre sur tout ce qui est techniquement accessible en termes de traces d’usage: les internautes qui s’équipent (en téléchargeant un navigateur Tor ou un vpn), ceux qui accèdent à des sites ou des serveurs réputés « alternatifs » comme Linux Journal, les utilisateurs de ressources pour installer des outils de cryptage ou de gestion de l’anonymat comme Tails, HotSpotShield, FreeNet, Centurion, FreeProxies.org, MegaProxy

2) Les chemins

Après avoir visité quelques sites du réseau Tor, on se rend vite compte que la navigation semble à chaque fois très localisée et organisée «en silos» : à partir de quelques listes d’adresses, souvent organisées en thèmes (drogues, matériels électroniques, fausse-monnaie…dans les «zones du commerce»), on peut commencer à explorer ce qui nous est apparu massivement comme une série de marchés, ou plutôt de bazars où les biens et les services s’entassent sans ordre apparent et de façon cloisonnée…et dont les adresses changent rapidement. Mais d’autres chemins possibles se mêlent aux accès aux hidden services de ce bazar secret, y compris ceux qui nous font « remonter » vers le web public que l’on peut alors arpenter de façon anonyme. C’est ainsi que notre petit groupe d’explorateurs a eu l’idée d’essayer de recenser une partie significative de tous ces chemins de façon automatique en crawlant les ressources accessibles. Ainsi, en quelques 3 semaines, nous avons obtenu un fichier de graphe comportant 8328 sites (et parfois simplement des pages uniques) reliés entre eux par plus de 13.000 liens. L’idée que nous poursuivions était de recenser une partie des sites en .onion et leurs connexions mutuelles mais aussi d’intégrer au corpus des sites ou des pages du web public en .com, .fr, .edu…) qui permettent d’accéder au réseau Tor. Nous espérions trouver, notamment, ces fameux « points d’entrée » (bridges) particuliers que cherchait à surveiller la NSA et qui assure le passage d’un web à l’autre.

TorArticle7.png

Dès les premières analyses avec Gephi, nous avons été surpris par le foisonnement des chemins possibles entre les clear web (en bleu) et Tor (en rouge). On peut passer massivement de l’un à l’autre et dans les deux sens (notre crawler étant compatible avec les deux univers). Une autre vue produite avec Gephi fait bien apparaître l’intensité des liaisons quasi-organiques entre les deux mondes.

TorVue1.png

Peut-on d’ailleurs encore parler de « deux modes » à partir de cette première expérience ? Pas si sûr car en 2017 le web n’est probablement plus le même qu’au moment de l’affaire Snowden : Tor semble s’être popularisé au point d’être hybridé avec le web public, même si techniquement les zones d’anonymat dessinée par le protocole Tor restent parfaitement distinctes.

Mais d’où viennent toutes les pages qui font office de tunnel du clear au dark web ? Sont-ce des blogs de cyberpunks, des forums d’activistes, de crypto-anarchistes ou de hackers ? Certaines clairement, mais la majorité apparaît d’une grande variété de «communautés» dans l’écosystème du web. Pour le vérifier, nous avons analysé manuellement 295 URL du clear web ayant plus de 3 liens pour rendre compte de cette diversité. Nous les avons classés en grands types ou classes, même si certaines adresses relèvent de plusieurs catégories. En essayant d’aligner nos classes, on s’aperçoit rapidement du lent dégradé qui nous passer des sites web les plus populaires aux sites plus techniques ou les plus spécialisés:

Echelle1

Sans être un spécialiste de toutes les subtilités techniques de certaines de ces ressources du web public, on peut ainsi deviner quelques grands ensembles de classes. Le premier d’entre eux est constitué de pages « classiques » issues des réseaux sociaux (facebook, twitter, linkedin…), des plateformes de blog (type WordPress) ou des pages ramenées depuis les moteurs de recherche (15,25% du corpus). On peut intégrer à ce premier ensemble des sites d’informations générales (type presse et médias en ligne soit 8,47% du corpus). Les deux classes sont en bleu dans notre échelle.

Vient ensuite un ensemble plus vaste, et plus spécialisé aussi d’un point de vue technique et informatique composé de sites dédiés aux I.T. orientées réseau et web, ceux animés par les communautés open-source et des sites plus engagés dans la défense de l’anonymat sur le web. On peut ranger dans le premier groupe des sites comme http://www.privoxy.org/, https://retroshareteam.wordpress.com/, https://www.cryptoparty.in/ qui constituent 11,52% du corpus dans le second groupe dédié à l’open-source des sites comme https://tails.boum.org/, https://whispersystems.org/, http://www.pidgin.im/, http://www.simbiotica.net/…) (constituant 25,08% du corpus). Les deux ensembles se confondent presque et semblent s’associer logiquement au troisième dédié aux sites autant militants que technophiles que sont par exemple https://www.guerrillamail.com/, https://www.piratenpartei.at/, https://www.internetdefenseleague.org/, (soit 22,37% du corpus).

Enfin, un dernier ensemble d’URL semble se constituer autour de deux projets technologiques complémentaires, le réseau Tor lui-même et l’univers du bitcoin et du blockchain. S’il n’est pas aisé de s’y plonger sans compétences techniques avancées, il apparaît manifeste que les URL classées dans ces deux ensembles sont alimentées par des acteurs et des communautés très actives et très inventives, des foyers d’innovations technologiques en mouvement permanent comme https://blog.cryptographyengineering.com/, https://blockchain.info/, https://keybase.io/, http://dogechain.info/ dans le domaine de la crypto-ingénierie (9,15% du corpus) ou les sites du projet Tor comme www.torproject.org, https://www.freehaven.net/, http://torstatus.blutmagie.de/, https://atlas.torproject.org/, https://db.torproject.org/…) (8,13% du corpus).

3) Tor et son dark market

Il faudrait pousser plus loin l’analyse des rapports entre public et dark web, en particulier en termes de types de distribution des liens ou des connexions (pour déterminer, notamment, quels types de sites web publics pointent vers quels types de sites en .onion). Néanmoins, notre crawl sur Tor montre combien les différents marchés sont présents dans les ressources identifiées (avec toutes les précautions que suppose un crawl en termes de méthodologie et de résultats). Le dark market semble en effet particulièrement actif, et désormais suffisamment attractif en 2017 puisque Google en indexe une bonne part. Il suffit pour cela de consulter nucleusmarket, alphabaymarket ou le « top 50 » des .onion produit par deepweb-sites, tous indexés par nos moteurs de recherche préférés.

Notre exploration automatique (crawl) des liens a été l’occasion d’indexer les contenus, en particulier les mots ou expressions les plus présents dans nos plus de 5.000 références en .onion. Pour le moment, cette étude statistique des contenus se limite à un graphe de cooccurrences de termes (un terme A est lié à un terme B quand ils apparaissent dans la même URL) permettant de classer les termes en fonction de leur intensité dans le corpus et de les associer entre eux. L’examen des termes indexés montre la présence massive (dans le cadre de notre corpus) des différents hidden services du dark market. Le vocabulaire le plus massivement utilisés concerne les questions de sécurisation des transactions et la protection de l’anonymat.

TorKWvue2c

Le graphe de cooccurrences laisse apercevoir une série de clusters reliés entre eux, essentiellement constitués par un vocabulaire technique. Plus de la moitié des termes présents dans la base ayant un degré d’occurrence égal ou supérieur à 5 font référence à l’infrastructure de vente et d’achat sur le dark market (en couleurs dans les vues produites avec Gephi). Nous avons ensuite analysé chacun des clusters identifiés (avec l’algorithme Modularity et différents réglages), faisant nettement apparaître deux ensembles complémentaires: en rouge, le vocabulaire associé à la gestion de l’infrastructure des transactions et en jaune la gestion de l’infrastructure de paiement.

TorArticle11b

Une telle concentration de vocabulaire technique n’est pas étonnante pour ceux qui ont l’habitude de naviguer sur Tor: les sites accessibles sur ce réseau sont relativement « statiques », faisant penser au « web 1.0 » des premiers temps. Mais, surtout, de nombreux sites marchands proposent des biens sous forme de catalogues d’images où figure peu de texte. Le texte accompagne surtout les explications techniques, les opérations de cryptage et les procédures à suivre pour les acheteurs. C’est pourquoi, dans la seconde moitié du graphe de cooccurrences, nous avons figuré en vert le vocabulaire lié essentiellement aux opérations de contacts et des procédures d’achat côté utilisateurs ou client. Le cluster qui figure en bas du graphe est exemplaire de « qualité » du service et des garanties apportées aux acheteurs à un niveau mondial (comme tout achat légal en ligne!).

TorArticle12

Côté « marchandises », une première analyse des « biens et services » proposés illustre bien la réputation du réseau Tor: on y trouve, comme l’indique un site de référence du dark net “Most of these Darknet Markets offer things like drugs, counterfeit money and IDs, stolen credit cards, weapons, all kind of accounts for porn and adult websites, lifetime Netflix subscription, stolen ancient artifacts; you can buy services from hackers ». Nous avons repéré manuellement, parmi les mots-clés et les expressions les plus souvent présents dans notre base, ceux qui évoquent ce marché et l’étendue des biens ou services disponibles:

vueTORkwd

Si la nature des biens vendus peut surprendre, il apparaît que le dark market est très divers et qu’il n’est pas réductible à un marché de la pédophilie comme l’a montré récemment un article de Wired en réponse au département de la justice américaine, No, Department of Justice, 80 Percent of Tor Traffic Is Not Child Porn. Toujours est-il que, malgré les spécificités techniques de Tor et la nécessité de s’équiper spécifiquement pour y accéder, on ne peut qu’être frappé par l’accompagnement ou la « prise en main » du client. Comme dans tout marché, différents modes de paiement sont possibles, essentiellement avec des crypto-monnaies, bitcoin évidemment mais aussi parfois Litecoin ou Darkcoin…Et comment s’en procurer? Rien de plus simple puisque le web public « de surface » propose différents types de transaction pour en obtenir comme paxful.

TORb

4) Un continent d’innovations

L’organisation des ressources « en silos » séparés autorise évidemment que coexistent les hidden services et d’innombrables ressources concernant la protection protection des données personnelles et de la vie privée et, au-delà, l’expression d’opinions politiques et idéologiques alternatives. Ces espaces d’expressions libres sont en général associées associées avec un discours sur les technologies de cryptographie, souvent accompagnées de guidelines sur les mesures usuelles à adopter pour chacun depuis sa propre machine.

Sur nos plus de 8.000 URL indexées au cours du crawl, plus de 3.000 sont issues du web public et assurent des chemins vers le TOR et le dark web ou l’inverse. Certaines de ces 3.000 URL ne conduisent pas vers le dark markets mais vers différents «lieux» (à priori assez circonscrits) que l’on peut qualifier d’alternatifs, où se mêlent arguments politiques et défense de l’anonymat, voire de l’action collective anonyme. Pour le moment, il est encore trop tôt pour en proposer un classement en termes de contenus, ou même d’en dresser une carte suffisamment exhaustive. Ce domaine spécifique des ponts entre les deux web fera l’objet d’une campagne de crawl dans les prochaines semaines. Néanmoins, on s’aperçoit de la vitalité de ces différents lieux en termes de participation, de diffusion de la technologie TOR et de ses usages « citoyens ». On trouve ainsi dans note corpus des références au projet ProPublica, qui est annoncé comme le premier média d’informations du réseau Tor. Le succès élargi du réseau Tor dans le domaine du journalisme depuis Wikileaks s’illustre aussi dans une formation (que je ne connaissais pas) du Centre de Formation du Journalisme (CFJ) sur le dark web et ses usages dans le domaine de l’information. On trouve quelques références à certaines initiative de plus grande ampleur comme le partenariat entre Reporters Sans Frontière et Torservers.net dans la lutte contre la surveillance et la censure en ligne. 

On ne peut guère entamer un (court) voyage dans ce dark web miltant sans rencontrer la communauté Anonymous notamment à travers anonymous-france.eu qui indique (notamment) comment soumettre des documents à Wikileaks pour analyse. Comme l’indique la page : «WikiLeaks propose aux lanceurs d’alertes, activistes, hackers, journalistes et citoyens, une plate-forme sécurisée pour envoyer des documents confidentiels. Le système de soumission de documents associe la protection et l’anonymat grâce à l’utilisation du réseau Tor «The Onion Routeur» (pour le Routeur Oignon). Il vous faudra impérativement installer le «Tor Bowser Bundle» (TBB) pour pouvoir y accéder».

Mais si des chemins sur Tor nous mène vers des zones d’innovation sociale et citoyenne, d’autres nous ont aussi amenés vers des lieux d’innovation technologique continue et particulièrement actifs comme Bitcoin et la blockchain. Personnellement, j’en suis encore à m’initier à ces domaines qui sonnent comme des mots magiques depuis peu. La blockchain (bitcoin n’étant que l’un de ses aspects) c’est d’abord un projet fascinant soutenu par des communautés d’acteurs, la plupart du temps des experts de haut niveau à mon sens qui travaillent sur les mécanismes de stockage et de transmission d’actifs immatériels transparents, sécurisés et sans intermédiaire. Si vous allez sur les sites web publics comme chaintech, asseth, le cercleducoin ou ethereum vous serez peut-être surpris comme moi par les enjeux centraux que pose le principe de la blockchain qui ne se limitent à celui de l’anonymat mais ouvrent sur les nouvelles formes de valeur, de gestion de l’identité, la confiance ou des formes de droit à venir dans des univers distribués.

Me voilà plongé pour les mois à venir dans de nouveaux univers, peut-être plus difficiles à pénétrer, mais dont l’exploration contribue petit à petit à esquisser de nouveaux horizons de recherche. Assurément, voilà l’un des chapitres du second volume des Chroniques que je commence à imaginer…