Voici le chapitre 4 des Chroniques du Web. Un peu plus long que les autres, ce chapitre constitue un élément central de l’ouvrage. La «théorie des agrégats de documents web» à laquelle nous avons contribué a constitué un événement central dans nos explorations du réseau, en résonance avec les travaux des chercheurs et des ingénieurs d’IBM regroupés autour du projet CLEVER dans les années 1997-2000. Parmi eux, Jon Kleinberg a joué pour moi un rôle central dans une théorie qu’il a largement nourrie avec son algorithme H.I.T.S. (Hypertext Induced Topic Search). Pour la première fois, un modèle topologique général du web apparaissait dans la littérature scientifique, l’occasion pour nous d’en tester la «robustesse» et de valider nos premières intuitions. Nos expérimentations ont largement validé le principe la corrélation forte qui existe entre deux principes fondateurs du web comme réseau ouvert et distribué: la similarité des contenus et la proximité induite par les liens hypertextes. Et ce principe de corrélation donne naissance à un processus d’agrégation que HITS permet de calculer dans un set de pages web. Ainsi, les agrégats nous ont paru s’enchaîner eux-mêmes par proximité dans une couche médiane. Au delà, la couche haute, grande productrice de connexion, se dessinait à l’époque comme celle des « grands sites » web (commerciaux notamment) et des moteurs de recherche mais on y placerait aujourd’hui les instruments-clés du web 2.0, les réseaux sociaux. Mais, en deçà de la couche médiane, existe aussi un web documentaire, tournés la diffusion de contenus et leurs structuration à titre de documents. Le «modèle du web en couche» a peut être été notre originalité théorique mais il s’est surtout avéré être une synthèse abstraite dans laquelle nous pouvions valider nombre des intuitions nées de nos multiples explorations dans les web data. Enfin, nous pouvions comprendre à la fois le comportements de nos technologies sur le réseau (comme les crawlers) mais aussi les propriétés statistiques de nos données, qu’il s’agisse des contenus ou de la distribution de la connectivité hypertexte. Tout nous a semblé enfin cohérent, articulé, éclairé: la conservation de diamètres courts malgré l’augmentation des masses de documents, la distribution en loi de puissance des liens, une organisation des contenus en agrégats nés de la rencontre deux logiques constitutives du réseau, une dynamique documentaire plus ancienne de production et de diffusion et une dynamique inédite de distribution ouverte et tous azimuts des liens à partir de ces moteurs à connexion que sont les moteurs de recherche généralistes ou les réseaux sociaux. Ceux qui ont navigué avec moi, savent que l’on pourrait facilement consacrer un ouvrage entier aux multiples explorations que nous avons réalisées en analysant les agrégats de documents web. Je n’en résume que l’essentiel en essayant de présenter des concepts surprenants que nous commencions à épouser, comme de «hub», «d’autorité», de «communautés» ou de «géographie des agrégats». Notre modèle du web en couches nous a aussi permis d’explorer bien des territoires jamais cartographiés auparavant. Mais j’en reparlerai plus loin, évidemment…

Chap-4-Illus