Voici le chapitre 6 des Chroniques du Web. Le titre, «Des data ciselées», indique à lui seul le rôle prépondérant qu’a joué le travail qualitatif et manuel dans le contrôle et l’analyse des corpus de documents web. Faute d’infrastructure technique suffisante pour produire de grands graphes du web, et donc sans moyen de sonder l’architecture du système à grande échelle, nous nous sommes tournés vers l’exploration locale d’agrégats particuliers de documents, soit par défi soit parce qu’émergeait déjà, dès les années 2005-2006, une forme de demande pour l’étude de certaines localités thématiques sur le réseau. C’est au cours de ces années que nous travaillé, comme d’autres, à la conception de méthodes et d’instruments dédiés à l’observation continue de certaines thématiques, notamment celles qui bénéficiaient d’une grande résonance sociale. En couplant l’analyse des liens et des contenus des pages, il devint possible de veiller certains domaines sur le web: les univers de la politique et de ses acteurs, la vie des marques et des produits, les bases de données scientifiques mises en réseau. Tout l’esprit et l’originalité de linkfluence est déjà là, tandis que d’autres, comme Dana Diminescu, ont adapté nos méthodes et nos instruments pour investiguer minutieusement le vaste domaine des migrations et des migrants sur le web. Dès cette époque, il apparut que cette couche médiane du web était façonnée par une dynamique particulièrement remarquable dans les données quand il s’agissait de thèmes polémiques, comme le sont souvent les controverses scientifiques et techniques. La rencontre avec le projet de Médialab à Sciences-Po-Paris se fit donc naturellement, et l’on connaît aujourd’hui le succès de leurs outils de cartographie de l’information. Mais ce détour que fut pour moi l’étude des controverses scientifiques a constitué l’occasion de confronter notre approche et notre modèle du web aux données massives indexées par les moteurs de recherche web. Là aussi, la rencontre avec l’équipe d’Exalead fut déterminante dans plusieurs de nos aventures, au croisement des masses de données textuelles et d’un lent et patient travail de validation manuelle…

chapitre6