De septembre 2013 dernier à la fin janvier de cette année, 25 étudiants ont suivi encore une fois  « IC05 », mon enseignement à l’Université de Technologie de Compiègne. L’occasion, une fois de plus, d’explorer de nouveaux sets de données mais aussi de « bricoler » quelques dispositifs ingénieux de cartographie. Je me rends compte maintenant combien cet enseignement s’est petit à petit tourné (involontairement) vers le développement technologique semestre après semestre. La conception des sets, le suivi de leur développement et les premières manipulations sur les data finissent par occuper une bonne partie des quatre heures hebdomadaires dédiées à cet enseignement. Essentiellement bâti sur la question de l’information en réseaux ouverts (dont le web reste le parangon), ce cours hebdomadaire est désormais intégralement validé par de « petits » projets qui permettent de passer de data natives (extraites, construites, importées) à une interface d’exploration (statique ou dynamique). Sans oublier, évidemment, les étapes intermédiaires d’une chaîne de traitement de l’information que constituent l’exploration et l’analyse des données sous forme de graphe et l’étape (décisive) de conception des indicateurs (cartographiques ou non). 

Cet enseignement s’est aussi notablement diversifié du point de vue de son public puisqu’il accueille des étudiants ingénieurs de l’UTC (et pas tous des informaticiens!) mais aussi des étudiants de Master (UXD et SIC) notamment de l’ESAD d’Amiens. Si l’on veille à mêler autant que possible les deux profils dans chacun des projets, on peut espérer voir naître quelques prototypes de systèmes d’information inédits comme je les apprécie. Si ces dispositifs expérimentaux sont modestes, ils tendent néanmoins à devenir de plus en plus complets: réalisés collectivement en petits groupes les plus hétérogènes possibles, ils reposent sur la maîtrise de chacune des « briques » d’une chaîne de traitement documentaire, depuis les data jusqu’aux interfaces (quelles qu’elles soient: numériques, en javascript, en posters, en scénographies…). On retrouve là cet « art de la connectique » dont ce blog fait régulièrement la promotion, si important en matière de conception de services autour des data.

Parmi ces projets, se trouve le « lecteur de GEXF » (de son vrai nom GrapheMobile), autrement dit un petit explorateur que j’ai testé sur tablette Androïd (mon standard domestique) . Il est désormais possible de lire un fichier Gephi sur des supports mobiles avec une batterie de fonctionnalités tactiles suffisantes pour la partie exploration : plusieurs algorithmes de spatialisation, gestion des liens orientés ou non, édition des informations associées (attributs des nœuds). Pour le moment, le lecteur n’intègre pas de fonction d’export de graphe modifié (car on peut supprimer/ajouter des nœuds) ni de time-line pour traiter les données temporelles. Dans l’optique de mutualiser le code au maximum, et dans la mesure où l’application Gephi est réalisée en Java, Baptiste Pirault, Florian Paillard et Florian Jeanne ont choisi de développer ce premier prototype « GEXF pour tablette mobile » à l’aide de la librairie LibGDX qui permet la gestion de nombreuses plates-formes. GrapheMobile se définit comme une « application fonctionnelle multiplateforme PC, Mac et Android » que l’on peut aussi exporter pour iOs pour peu d’acquérir les licences adéquates. Ce petit bijou de simplicité sur tablette inaugure une série de chantiers exploratoires autour de la représentation des réseaux et des interfaces tactiles qui sont en plein développement en ce moment dans mon enseignement.

Le domaine de la musique et des artistes constitue un univers fascinant de data aujourd’hui accessibles et où les structures de graphe peuvent permettre d’identifier des phénomènes jusque-là supposés mais peu mesurés. A grande échelle, celles qui me semblent les plus pertinentes concernent la mesure des influences réciproques entre artistes ou groupes d’artistes, notamment dans la musique moderne. Découvrir « qui influence qui », non pas à partir de témoignages mais bien de la façon sont repris/réinventés/copiés les morceaux à travers l’analyse des données ouvre un vaste champ d’investigation si l’on s’intéresse à un genre musical ou à la biographie d’un artiste. Cela a été l’objectif du projet Sample mené par Vincent Meyer, Paul Soncourt, Mohamed Berrada, Aurélien Saillet, Oshinn Fitzpatrick avec la coopération de WhoSampled.com dont l’équipe a extrait un jeu de données comprenant les références à 6791 artistes associés à 9425 morceaux. Les données livrées par WhoSampled.com contiennent les liens qui associent les artistes aux morceaux, mais bien plus encore : les liens entre morceaux de musique sur la base de leur « filiation » technique (et juridique), COVER – SAMPLE – REMIX. L’exploitation des données peut alors ouvrir sur de multiples jeux de classement : quels morceaux de musique ont-ils été les plus repris, remixés, samplés? Quels artistes ont-ils le plus inspiré les autres ? Et inversement : quels artistes ont-ils le plus « emprunté » de morceaux aux autres? Au delà de ces mesures ponctuelles, ce type de données peut renseigner précisément sur les influences mutuelles, le développement des courants musicaux, sur ce qui les différencie et les associe au cours de l’histoire.

Sample

Parmi les projets, il faut signaler celui qui concerne les malwares (“Cukoo”) et dont on trouvera une présentation détaillée sur le blog security-x. En son principe, l’étude réalisée repose sur l’analyse des comportements des malwares qui peuvent ainsi être groupés en types. En associant les malwares par types de comportement, il devient possible de cartographier cet univers fascinant et inquiétant pour nos programmes ou nos machines. 

Cukoo

Avec Taxehavenmap, Valentin Hervieu et Clément Mercier entament un chantier délicat et de longue haleine, celui du traitement cartographique lié aux informations sur les paradis fiscaux. Evidemment, chacun aimerait avoir accès (du moins dans mon enseignement!) aux milliers de documents stratégiques et juridiques qui spécifient pour chaque grand groupe industriel la stratégie qui aboutit à l’exil de fonds financiers pharaoniques dans des pays où l’on ne paie guère de taxe, à travers notamment un enchevêtrement de filiales qui ressemble à un jeu dominos. Valentin et Clément ont d’abord rassemblé différents types de données (pour les Etats-Unis sur le site Trade Union Progress, pour les Royaume-Uni sur le site du Guardian et pour la France sur le site d’Alternatives Economiques). On pourrait revenir sur les données, les discuter en termes de fiabilité ou les modifier en termes de précision mais l’idée du projet est de pouvoir les projeter sur une carte du monde et de pointer les paradis fiscaux dans lesquels les grands groupes industriels des trois pays ont des intérêts à travers l’implantation de filiales. Taxehavenmap n’est que l’esquisse d’un système plus vaste et plus complet en terme d’informations qualifiées sur les paradis fiscaux mais chacun appréciera d’apercevoir sur une carte du monde le jeu des filiales, par exemple de la banque dont on est client ou du groupe industriel dont on achète régulièrement les produits.

TaxeHeaven

Enfin, je terminerai ce petit tour des projets du dernier semestre par le chantier entamé autour du « parcours patient » (ou du « parcours de soins ») qui annonce un énorme potentiel de recherche, d’expérimentation sur les données et de conception d’outils d’interrogation et d’exploration des informations.  Sous l’impulsion et dans le prolongement des recherches réalisées par Claire Imbaud à l’U.T.C. dans le cadre de son travail de thèse, portant sur l’influence de l’accès aux technologies de santé dans la prise en charge des maladies chroniques, Audrey Bramy, Alice Ngwembou Delahaye, Victor Joannon et Eric Boudier ont commencé à traiter un jeu volumineux de données provenant de l’hôpital d’Amiens. Les données (au format CSV) contiennent notamment le libellé de chaque patient, l’âge du patient, l’unité médicale (UM) par laquelle il est passé, sa date d’entrée dans cette unité médicale et sa date de sortie, les actes médicaux réalisés dans chaque UM et le li­bellé des actes, les pathologies diagnostiquées, le mode d’entrée (programmée, urgences, consultation), ainsi que le mode de sortie (domicile, mutations, transfert). Il s’agit d’un jeu de données typique de ce que l’on peut extraire des systèmes d’information hospitaliers et ils sont à la fois très riches de croisements possibles et propices à une exploitation cartographique à base de graphes. Les informations que l’on peut extraire de ce type de données peuvent enrichir considérablement aussi bien l’étude des flux-patients entre des unités médicales que contextualiser chaque acte de soin comme ouvrir sur l’étude d’un cas particulier (les identifiants patients permettent de relier potentiellement la cartographie des parcours d’un seul patient à son dossier médical). Dans le cadre des analyses que mène Claire Imbaud, la cartographie des parcours permet de documenter de façon nouvelle le cas des patients âgés chroniques et poly-pa­thologiques.

ParcoursPatient1

L’essentiel de ce travail novateur a consisté essentiellement à tester quelques premières « vues » sur les données, notamment une série de graphes traitant des flux patients à travers les unités médicales et leur groupement en services. Mais l’effort le plus important a porté sur le développement des premières d’un système de traitement des données de ce type robuste et pérenne de façon à capitaliser des éléments qui permettront de mettre au point bientôt un système générique (pour tous les parcours-patient de toutes les structures hospitalières, voire à l’échelle d’une ville ou d’un département, Gephi permettant de géolocaliser les noeuds d’un graphe). Le groupe a donc développé une base de données, requêtable en .sql générant des fichiers GEXF, dotée d’une interface web. Différentes pistes ont ainsi été explorées en termes de traitement des données de façon à pouvoir bientôt répondre aux différentes problématiques que se posent les chercheurs ou les gestionnaires de structures hospitalières en quête d’optimisation des processus d’accueil et de parcours de soins. Parmi toutes ces pistes, celle de la dimension temporelle réclame encore effort de conception, notamment en termes de rendu du point de vue de l’interface de visualisation et d’exploration. Ce projet, qui intégrait deux étudiants en Master UXD, a donc aussi consisté à concevoir les premiers traits d’un modèle d’interface d’exploration temps-réel des données. Evidemment, ce n’est là que le début d’un chantier d’expérimentation qui se poursuit aujourd’hui sur différents terrains et dont je reparlerai bientôt sur ce blog.

ParcoursPatient2