Tout le monde aura remarqué la multiplication récente des conférences, colloques et autres séminaires autour du « big data », dans le sillage de l’effervescence suscitée par les promesses de « l’open data » ou encore par l’émergence du métier de « data scientist » (en particulier dans l’industrie de l’information et chez les géants californiens). Les big data constituent l’épisode le plus récent d’une longue suite de thématiques qui ont jalonné depuis les années 80 le développement des technologie de l’information, notamment dans leurs rapports au social, au culturel, à l’économie ou à l’éthique. Rétrospectivement, les « événements technoculturels » semblent s’enchaîner comme les perles d’un collier: le text mining avec les premières technologies d’indexation des contenus à grande échelle, la data mining pour englober des formats sémiotiques plus riches comme le son ou les images, le web mining avec l’avènement du principe de la distribution permis par internet et, récemment, le social data mining attaché désormais aux innombrables traces que nous laissons tous à travers Linkedin, Facebook ou Google. La culture naissante des data et de son ingénierie tournée vers les réseaux annonce-t-elle un âge, un nouvel épisode de cette histoire? Tout y contribue, depuis les masses de données elles-mêmes (le big data et son satellite l’open–data), en passant par le data analytics et le data intelligence (autrement dit des processus de traitement de l’information) jusqu’à la figure montante du data scientist qui annonce peut-être une nouvelle « science » hybride gouvernée par des hypothèses et des expérimentations mais aussi par une méthodologie inductive (data driven) de découverte de patterns statistiques – voire de « connaissances » (knowledge discovery) – exploitables sous forme de nouveaux services par les géants de l’information.
La cartographie d’information semble elle-même emporté dans le sillage du big data. Evidemment, pour ses pouvoirs de synthèse ou de réduction des masses d’information et le rôle d’instrument d’exploration de systèmes de connaissances qu’elle peut jouer. Mais plus encore quand je m’aperçois combien certains nouveaux métiers émergent rapidement dans l’univers de l’ingénierie du traitement des données. Récemment, par exemple, le magazine venturebeat a publié un article sur l’organisation interne des compétences des data scientist chez linkedin (et ailleurs). On y retrouve Mathieu Bastian, lead developpeur de Gephi et « senior data scientist » chez linkedin, y est qualifié de » Swiss Army knife among data scientists« .
L’image n’est pas anodine et résume très bien le métier de data scientist sous l’angle d’une activité inventive aux multiples facettes qui a tout de l’artisanat de haute-technologie. Autour de moi, je pourrais aussi citer S. Heymann et l’approche linkurious basée sur l’exploration locale et qualitative des data en réseaux. Un autre data scientist, G. Lebourgeois product manager aujourd’hui chez data publica, la société spécialisée dans la valorisation de grandes masses de données. Ou encore C. Maussang qui a supervisé depuis 2006 le développement technique de l’infrastructure technologique de linkfluence avec ses millions de sources web et le calcul de métriques originales.
Assurément, une nouvelle étape est franchie avec le avec ses masses déjà accumulées (données d’usage de la téléphonie mobile, parcours patient dans le système hospitalier, données biométriques, données de tests et de mesures d’objets ou de process industriels, données administratives et juridiques…) et celles qui demain vont advenir sous forme de flux puisés dans les environnements quotidiens comme le foyer ou la ville avec leurs nombreuses familles de capteurs. Je ne peux me départir de l’idée que notre époque est engagée dans un vaste programme distribué de recensement et de mesure (donc de contrôle, au sens mécaniste de la cybernétique et des boucles de feed-back) à l’image de celle qui a marqué la naissance de l’écriture en Mésopotamie avec ses innombrables listes d’éléments depuis les dieux jusqu’aux pierres en passant par les univers proprement humains (médecine, économie, religion…). Mais plus encore, cette « fièvre » de la mesure de notre univers avec les data fait résonner le souvenir de l’époque renaissante puis celle de « l’âge classique » avec ses taxinomies, ses arbres classificatoires et le recensement systématique des espèces vivantes. Ce nouvel âge de la mesure et du calcul tire son originalité de la plasticité permise par les supports numériques et des réseaux comme s’il s’agissait de développer de nouveaux instruments d’observation de portions de l »univers jusque-là inexplorées: les cellules ou les gènes avec la bioinformatique, les « agents sociaux » avec le social data mining, les villes, le corps propre, les déplacements géographiques, les mouvements politiques…
Sans aucun doute, nous entrons dans une période foisonnante d’initiatives et de débats autour des (big)data, depuis les innovations technologiques jusqu’aux questionnements de fond sur les implications sociétales, culturelles, économiques, juridiques ou éthiques de ce vaste mouvement qui se caractérise moins (selon moi) par la question des « masses » ou du « big » que par le déploiement d’un principe généralisé de corrélation des sources, d’enrichissement des données natives, voire de revisitation (et donc de valorisation) instrumentée du capital informationnel archivé dans les organisations. Je ne sais pas si mon point de vue est fondé mais il me semble que l’on devrait s’attacher plus souvent aux différentes facettes du métier de data scientist pour comprendre ce qu’exigent les data en termes de compétences et de savoirs-faires pour saisir, au final, cette intelligence des données qui se loge entre les data et les services finalisés, entre l’infrastructure technologique et les usages qu’en font les hommes. L’idée m’est ainsi venue d’organiser au printemps 2015 un atelier de réflexion, un « séminaire » comme on le dit aujourd’hui autour de cette thématique de l’intelligence des données dont la vocation serait tout à la fois théorique et pratique, notamment en accueillant de façon régulière ou occasionnelle aussi bien des chercheurs que des ingénieurs ou des professionnels de l’information. Cet « atelier intelligence des données » pourrait être utile, en particulier, aux jeunes chercheurs en prise avec l’univers des données numériques soit à titre d’objet d’étude soit de façon instrumentale pour constituer des corpus et discuter des méthodologies de traitement associées. J’aimerais qu’y soient présentées, par exemple, quelques grands ensembles de méthodes de traitement des données (sans entrer dans un niveau technique trop élevé) comme autant de « recettes » figurant dans des chaînes de traitement réelles et opérationnelles chez des acteurs du domaine. On pourrait y passer en revue des méthodes statistiques, des matrices de graphes, des principes de logique floue ou encore des aspects de gestion d’infrastructures liées au cloud computing. Au delà de ces éléments de culture technique, il s’agira de s’attacher à comprendre toutes les « recettes » que mettent en oeuvre les ingénieurs et les chercheurs de ce domaine, en insistant sur la conception des chaînes de traitement des données en big data, en particulier en phase de conception et de test (seul « moment » où se construit cette mécanique modulaire qui, une fois déployées, deviendront aux yeux du public des sortes de « boites noires »).
Ce démontage (exemplaire pour l’occasion) des techniques autour du traitement des données en masses constitue le coeur de l’atelier dont je dessine les contours parce qu’il sera l’occasion d’intégrer une série de problématiques abordées jusque-là d’un point de vue trop idéologique à mon sens (notamment en SHS), assez critique, toujours érudit mais rarement basé sur un savoir-faire technique. Il ne s’agira pas non plus, d’un autre côté, d’épouser le vocabulaire incompréhensible mais à la mode des technophiles de salons: qui aurait envie d’écouter un « pitch » sur un « open project » de start-up basée sur le « co-working » lors d’un « meet-up » dédié au « digital manufacturing »? Toute blague mise à part, cette série de problématiques auxquelles je pense décline quelques-uns des aspects majeurs auxquels sont confrontés, en premier lieu, tout ceux qui font métier de l’information et qui voient aujourd’hui se redessiner rapidement la géographie technique et culturelle de leur univers d’intervention (la bibliothèque, le centre de documentation, le système d’information, le services en ligne, la prospective, les études de stratégie…), voire de la nature-même des compétences dont ils sont porteurs.
- La distinction entre « approche qualitative » et « approche quantitative », très présente dans les débats de méthodologie en sociologie en particulier, occupe une place centrale dans les réflexions actuelles sur la façon de construire les objets de connaissance à partir des données numériques. La distinction peut, ou non, être scientifiquement « rentable » selon la perspective adoptée. Elle apparaît de peu d’intérêt s’il s’agit (comme trop souvent) d’opposer des « approches qualitatives » supposément tournées vers un travail de conceptualisation ou de construire d’hypothèses théoriques et des approches « quantitatives » réduites à l’utilisation des machines automatiques et à des procédures statistiques d’analyse. Cette dernière réduction est encore trop souvent de mise en SHS qui ne se sont pas dotées suffisamment tôt d’une forme originale d’ingénierie et d’instruments dédiés d’observation. En revanche, la distinction peut être pertinente dans l’étude des procédés (manuels comme automatiques) de data processing, autrement dit dans l’analyse des différentes procédures auxquelles sont soumises les data qui fonctionnent comme une série de filtres où alternent phases qualitatives et quantitatives. Ce thème constituera l’un des débats centraux de l’atelier intelligence des données pour observer et expérimenter les multiples façons dont les deux approches s’hybrident dans le travail sur les data en une sorte d’alchimie quali-quantitative qui peut déboucher, par exemple, sur la conception d’un algorithme. Si les technologies numériques ont démultiplié les possibilités de déployer à différentes échelles cette « alchimie », il doit être possible d’analyser la dynamique des big data sous l’angle de phases successives où alternent réduction/recomposition des masses à travers l’identification d’un ou plusieurs « traits » communs, révélant un pattern statistique qui n’est qu’une façon parmi d’autres d’isoler des identités partielles et partagées. C’est l’agilité avec laquelle les chercheurs et les ingénieurs en data sciences manient les deux opérations qui détermine souvent le nombre et la richesse des prises que l’on se donne sur les corpus de données numériques. Si l’on y regarde de près, recherche de « patterns robustes » en big data semble reposer sur un processus quali-quantitatif hybride: la production d’un ou plusieurs modèles qualitatifs du phénomène (combinaison de traits spécifiques, distribués dans une configuration probable) appliqués à différentes échelle des masses de données (les quantités de données réunies pour valider le modèle pouvant donc se trouver à leur tour mobilisées comme traits qualitatifs à un niveau supérieur d’intégration). C’est cette dynamique qu’il s’agira d’observer chez les grands acteurs du domaine comme, peut-être, d’expérimenter à plus petite échelle et manuellement, notamment avec les données associées aux problématiques des thésards susceptibles de suivre cet atelier.
- La nature des corpus en data sciences, que l’on ne peut plus borner seulement par des questions de pertinence (ce qui ne l’est pas à un certain moment ou selon certaines dimensions, le sera sous d’autres angles et à d’autres moments), d’exhaustivité ou même de représentativité (l’impossible appréhension du tout et de ses parties dans l’univers des masses de données en réseau) et de clôture (les données sont prises dans des boucles de transformation, par exemple formatées pour de nouveaux services qui eux-mêmes en produiront de nouvelles). Le principe de la clôture d’un corpus et de ses frontières doit être questionné et repensé dans un univers de masses et en transformation continue. Cela paraît particulièrement important pour des données qui intègrent une dimension temporelle ou encore, à petite échelle, dans la construction d’un jeu de données sur des acteurs ou des organisations sociaux (Quelles données prendre en compte? Comment les agréger pour rendre compte de l’activité d’un agent social individuel ou collectif? Etc.). Ainsi, l’atelier intelligence des données aura pour objectif d’éclaircir sur ce point les différentes méthodologies (extraction, construction, fusion) à l’oeuvre en phase « amont » d’un travail sur les data.
- Les rapports du « manuel » et de « l’automatique« , que l’on confond souvent avec la distinction qualitatif-quantitatif. Sur ce point, j’aimerais que l’atelier (si cela est possible) intègre une partie « expérimentations » sur des jeux de données (même réduits) qui permettrait d’éprouver l’hybridation presque systématique des deux « dimensions ». Le travail d’ingénierie des données montre combien la construction d’une « machine logique » comme un algorithme passe d’abord par une série de phases exploratoires et de manipulations presque « artisanales » sur les data. En un sens, on passe donc du « manuel » à « l’automatique » comme deux étapes nécessaires dans la production d’un dispositif d’intelligence des données. Mais la distinction mérite aussi d’être analysée en fonction de la distribution des opérations dans des dispositifs où peuvent s’associer l’automatique et le supervisé (par exemple pour la classification). Des situations ou des dispositifs réclament ainsi que soient associés simultanément les deux types de procédures. L’un des objectifs de l’atelier intelligence des données sera donc d’étudier les multiples façons dont manuellement sont sélectionnés puis associés en chaînes opératoires une série de filtres (par exemple seuils statistiques et/ou algorithmes parmi ceux disponibles avec Gephi), quitte à les associer à leur tour dans des ensembles plus vastes, de façon à concevoir (à minima) ou à tester (au mieux) de petits traitements automatiques à base, par exemple, de scripts appliqués à des corpus de données. Ces expérimentations permettront de discuter des façons dont les instruments informatiques ont contribué à élargir de façon massive nos fenêtres qualitatives et quantitatives de saisi de l’objet scientifique et comment, surtout, ils nous ont permis d’automatiser leur croisement ou leur triangulation, jusqu’à une grande complexité. Il s’agira donc d’étudier les pièces mécaniques d’une chaîne de transformation des données de façon artisanale, y compris en reprenant les étapes méthodologiques de construction des corpus sur des technologies comme les tableurs (Excel) dont les formules de croisement des différentes dimensions des données se révèle étonnantes et déjà très performantes.
- L’articulation entre « données » et « hypothèses » et du niveau intermédiaire du « modèle de donnée ». Les data sciences et les méthodes d’intelligence des données se réclament en effet d’une data driven methodology où le travail sur les données précède la formulation d’hypothèses. On peut aussi parler de méthode inductive par opposition à une démarche hypothético-déductive où le dispositif expérimental (et donc les data) sont mobilisées avant tout pour valider ou falsifier une ou plusieurs hypothèses de départ. Plutôt que d’opposer massivement les deux approches, il paraît plus pertinent d’interroger le travail de construction des modèles de données en data sciences, une activité centrale en recherche et développement mais aussi au plan scientifique où on peut les considérer comme des modèles d’intelligibilité des données (des sortes d’objets scientifiques intermédiaires si l’on veut). Le modèle inclut tout à la fois les données et les formules de traitement associées (toujours particulières): il permet d’isoler des patterns ou des régularités fortes dans les masses. En termes de services innovants, le modèle peut être incarné dans un dispositif né de l’agrégation originale d’une série de filtres analytiques qui portent sur une ou plusieurs dimensions des données et qui peut être concentrée dans une interface. Sans prétendre à « La science », les approches data et leur méthodologie inductive contribuent beaucoup à enrichir ce niveau scientifique et technologique intermédiaire autour des modèles dont la « position » reste encore à préciser et à discuter à la lumière de la méthodologie scientifique « classique ».
- Les changements d’échelles. Il s’agit d’une question centrale dans une démarche orientée data. Sur ce point, l’atelier conduira une réflexion spécifique sur les effets scientifiques induits dans une démarche où l’accumulation quantitatives des données peut en effet conduire, dans certains cas, à la modification qualitative de l’objet de science. En sciences des réseaux, cela est certain: l’apparition des outils informatiques et des masses de données analysées a propulsé l’univers de la théorie mathématique des graphes vers les network sciences actuelles, en particulier depuis les développement des technologies web et les données indexées dans les moteurs de recherche. Par exemple, deux propriétés statistiques majeurs de ces réseaux (le small world phenomenon et le rôle majeur des « hub » dans la distribution de la connectivité entre chacun des éléments du système) ne sont perceptibles qu’à un certain niveau quantitatif de données mais elles ouvrent aussi de fait l’exploration scientifique à un ensemble de problématiques et de propriétés transversales (et en partie communes) de tous les « objets » ou les « champs » considérés comme des systèmes d’interaction: acteurs sociaux, gènes, molécules, espèces vivante… Chris Anderson a indéniablement raison : « more is different », non pas pour s’extasier devant les performances du calcul distribué et des masses de données en réseau, mais bien parce que l’on aperçoit, passé un certain seuil quantitatif, des configurations dans les données jusque-là insoupçonnées, surprenantes pour un scientifique. La comparaison des différentes architectures logiques ou fonctionnelles de plusieurs objets de science (agents sociaux, gènes, publications scientifiques, comptes facebook…), a-priori très différents, peut être d’un grand rendement réflexif et utile, notamment en période d’analyse et d’interprétation de grands corpus de données numériques.
La liste n’est évidemment pas fermée mais éclaire déjà l’esprit de cet atelier sur l’intelligence des données à venir, ouvert à tous et dont j’espère qu’il pourra se tenir de façon pérenne à Paris, notre hub national.