Atelier Iceberg, from data to vision

lgoIceberg

 

L’Atelier Iceberg vient de mettre en ligne son nouveau site web. Pour la petite start-up, voilà achevée une première période qui a permis à l’équipe d’explorer tous azimuts de nombreuses pistes qui conduisent des données aux interfaces, quels que soient les terrains. Parmi toutes ces activités d’intelligence des données, la cartographie a occupé (et occupe toujours) une place importante mais dans des niches maintenant identifiées: l’exploration heuristique des masses de données d’un côté (notamment avec les clients de l’entreprise), de l’autre, des opérations ponctuelles de communication visuelle et des chantiers particuliers d’interface. Autrement dit, la cartographie d’information n’est qu’un instrument parmi d’autre dans cet atelier artisanal de haute-technologie.

A l’aube d’une nouvelle phase de développement, l’Atelier Iceberg se dote d’une nouvelle organisation. L’équipe est toujours composée de Thomas Busson (co-fondateur, gérant), Thomas Dupeyrat (co-fondateur-gérant), Léo Bonnargent (co-fondateur,  développeur) et Yolaine Chirouze (data designer, en stage). Deux arrivées majeures viennent enrichir l’équipe: Alexis Jacomy (associé, développeur, leader du projet SigmaJS) et Frédéric Datachary (expert veille concurrentielle). Cette réorganisation s’accompagne, évidemment, d’une recomposition de l’offre marché, mieux définie et plus « verticalisée ».

Bien que sortant des membres associés (à mon sens, il n’entre pas dans les compétences d’un chercheur de devenir un capitaine d’industrie), je reste lié au destin de l’Atelier Iceberg puisque j’intègre « l’advisory board » de l’entreprise en compagnie de Gaëlle BRAYER (Consultante, Experte en innovation), Jean-Marc DUPEYRAT (Ancien dirigeant grand compte, Expert énergie et stratégie) et Jean-Marc SEVAULT (Consultant, Expert en stratégie d’entreprise).

boardIceberg

 

En termes métier, l’Atelier développe aujourd’hui une palette variée d’offres de services autour du design d’information ou du data design. De l’analyse de corpus de données jusqu’à la conception d’interface en passant par l’aide à la conception de systèmes d’information. Le domaine d’activité de l’Atelier reste donc, et plus que jamais, la valorisation du patrimoine informationnel des organisation, aussi bien privées que publics. L’une des spécificités de l’entreprise vient à mon sens de l’implication, voire de la coopération nécessaire des clients dans les démarches d’analyse et de conception des processus et/ou des outils. Certains parlent de « conception collaborative »; personnellement, je préfère l’expression de « design participatif » quand il faut imaginer les contours des futurs systèmes d’information des clients ou bien encore pour imaginer les formes d’une communication autour des data rendues plus pertinentes ou plus intelligentes. En ce sens, l’Atelier Iceberg reste une authentique agence de design.

Côté offre de formation, les formats de l’Atelier ont été conservés, en signalant notre volonté affichée désormais de dédier une série de séances d’apprentissage à Gephi. Parfois complexe à utiliser et pas toujours évident à manipuler, Gephi reste néanmoins le seul outil de réduction de la complexité à notre portée et dont les leaders (Mathieu Bastian, Sébastien Heymann, Mathieu Jacomy) nous sont si proches qu’ils pourraient (presque) intégrer l’Atelier Iceberg dans une parfaite continuité avec leurs activités actuelles! Au delà, l’Atelier propose toujours des formations « sur mesure », dont une dédiée à la cartographie d’information. La nouveauté tient en l’ouverture d’une master class SigmaJS animée par Alexis Jacomy. Voilà une belle opportunité d’enrichir les pratiques de tous ceux qui développent en javascript et qui se tournent vers la cartographie d’information ou la visualisation de graphes.

MasterClassJS

 

L’aspect le plus important de cette nouvelle orientation de l’Atelier Iceberg vient de la mise en place d’une offre de veille et d’analyse de l’environnement concurrentiel. Il s’agit là de l’aboutissement (prévisible) du travail réalisé sur de nombreux sets de données depuis maintenant plus 18 mois. L’arrivée de l’expérimenté Frédéric Datchary n’y est pas étrangère. L’équipe de l’Atelier va donc se concentrer sur ces environnements concurrentiels qui sont des espaces stratégiques à l’évolution rapide, et souvent complexe à identifier. Les partenariats, les acquisitions, les fusions, les projets de coopération industrielle ou les stratégies liées à la propriété intellectuelle constitueront donc rapidement des terrains propices aux opérations d’analyse et de visualisation de l’information. L’Atelier Iceberg a donc précisément défini plusieurs scénarios de déploiement d’une activité de veille pour ses partenaires, que ces derniers disposent déjà, ou non, d’une équipe dédiée.

VeilleIceberg

L’Atelier dispose donc d’une équipe déjà rodée et efficace pour des opérations de veille scientifique, technologique ou légale. Il est donc temps pour la petite société de valoriser tout ce capital d’informations accumulées depuis un an et demi (sur les brevets, les articles scientifiques, les rapports techniques ou stratégiques, les documents web et qui concernent les acteurs du monde industriel et de la recherche dans les domaines de l’énergie, de la ville, des objets connectés ou de la santé). Ainsi, l’Atelier Iceberg me semble être allé très vite en termes de connaissances accumulées du milieu de l’industrie et de l’innovation en France. Si l’on ajoute les compétences natives de la jeune équipe en termes de visualisation et son intérêt pour les secteurs émergents des data (notamment les objets connectés ou les masses issues des usages des technologies comme la téléphonie mobile ou les données de parcours de santé), on peut parier qu’elle deviendra bientôt un acteur majeur du data design.

 

VizIR, par datapublica

Ca y’est, une version interactive de Vizir est en ligne et accessible! Et c’est datapublica qui l’a fait. Après une première version expérimentale développée par linkfluence (il y a déjà quelques temps), cette nouvelle version démontre qu’un cap important a été franchi par l’équipe du pôle de compétitivité Images et Réseaux animée aujourd’hui par Gérard Lebihan après Bertrand Guilbaud. Evidemment, j’aurais aimé que l’Atelier Iceberg ait été choisi pour répondre à la demande du pôle de compétitivité breton (mais à vocation mondiale). Finalement, c’est datapublica qui a été sélectionné pour développer cette version (presque) finale d’un projet que j’avais imaginé il y a (je crois) cinq années. Mais je ne cacherai pas mon enthousiasme de voir datapublica à l’oeuvre, un des grands spécialiste français des masses de données et de l’open-data mais aussi un des acteurs majeurs à mon sens de cette communauté de « fabricants de boussoles » qui inventent aujourd’hui de nouveaux moyens de navigation dans les données.

Dans ma démarche de cartographe, Vizir a toujours constitué un projet exemplaire pour imaginer les solutions techniques et méthodologiques qui permettraient de développer cet outil générique de lecture et de navigation dans des sets de données qualifiées. Pour ceux qui accumulent tous les jours des informations dans des fichiers Excel, des tableaux ou des bases de données, Vizir peut représenter une solution pertinente pour observer, suivre, synthétiser voire anticiper le développement de ses projets ou de ses partenariats. La chaîne de traitement, depuis les stocks de données jusqu’à l’interface, a depuis longtemps été conçue comme la plus simple possible: une séance d’une demi-journée suffirait à préciser avec un client le formalisme à utiliser pour « rentrer les données » à partir d’un fichier statique type Excel. Mais datapublica à franchi le véritable « saut » technologique et qualitatif en « pluggant » Vizir de façon dynamique à l’ERP du pôle Images et Réseaux via une API. On imagine aisément, ce que pourrait permettre de collecter et de rassembler comme informations une série de Vizir pour les autres pôles de compétitivité, ou bien alors le dashboard global à concevoir pour une tutelle comme la DGCIS (renommée aujourd’hui DGE – Direction Générale des Entreprises).

Statiques ou dynamiques, les données potentiellement intégrales dans ce nouveau Vizir sont nombreuses: des projets (quelle que soit leur nature ou leur échelle) mais aussi des publications scientifiques, des brevets, des documents techniques…En intégrant ces deux leviers essentiels à l’activité de monitoring ou d’évaluation que sont les cartes géoréréfencées et la time-line, on comprend que Vizir peut être adapté à la gestion (au « management » dirait-on aujourd’hui) des projets et des réseaux de coopération en territoires, à l’échelle régionale notamment. Les organismes consulaires tout comme les industriels et, surtout, les responsables du développement économique et social qui officient pour les métropoles pourraient y trouver un instrument pertinent (Vizir intègre différentes fonctionnalités d’export pour préparer, notamment, des exposés publics).

Vizir3a

Vizir prend enfin une vraie dimension réseau avec une architecture client-serveur déployée par datapublica. L’outil est conçu de façon modulaire, autour d’une série de fenêtres indépendantes mais qui se répondent l’une l’autre, facilitant les requêtes croisées ou multiples à l’écran. Chacun comprendra que ce principe des modules (en javascript, notamment sigmaJS pour la visualisation de graphes) ouvre de nombreuses possibilités pour adapter Vizir à de nombreux contextes et pour d’autres champs que les pôles de compétitivité, ou le management de projets. A titre personnel, j’envisage déjà deux types d’application: un instrument de suivi des publications scientifiques à partir des notices Scopus ou du WoS (pour une direction à la recherche d’un établissement) et pour un acteur de l’industrie comme outil d’aide au management de son portefeuille de brevets.

Avec Vizir, le pôle Images et Réseaux dispose d’un premier outil de cartographie des territoires innovants qu’il a lui-même accompagnés autour, par exemple, des images numériques de demain ou de la photonique. En particulier, cette première version de Vizir permet de naviguer selon les grands trois axes de la gestion de projets en territoires:

La navigation par projets, autour d’une série de modules comme la carte géographique dynamique pour situer les acteurs associés à un projet ou l’affichage, à l’opposé de l’écran, des mots-clés représentatifs du thème principal du projet labellisé.

vizir3b

Navigation par partenaires. Le graphe central affiche les relations entre les partenaires et les projets. Je reconnais la difficulté à naviguer dans un graphe trop volumineux comme ici (synonyme, cependant, de la longévité et dynamique des activités du pôle!). Cependant, le couplage avec le nuage de mots-clés en bas nous permet, en deux clics, de trouver rapidement des partenaires et un répertoire de compétences précises avec un graphe (et des informations latérales) remises à jour en temps réel.

vizir3c

Cliquons sur un mot-clé (ou plusieurs successivement, comme une série de filtres sémantiques), sélectionnons un partenaire d’un projet on l’on accède à sa fiche qui comporte tous les informations nécessaires si l’on est à la recherche de compétences particulières parmi les membres du pôle.

vizir3e

 

La navigation par thèmes. C’est le panneau que je préfère car il permet de faire varier dynamiquement dans le temps le jeu des mots-clés qui servent à décrire le contenu des projets. On peut esquisser l’évolution thématique des projets labellisés par le pôle. C’est tout le principe de ce que j’appelle les « empreintes sémantiques », autrement dit la configuration particulière d’une batterie de descripteurs de « contenu » laissés dans une base de connaissances par un acteur (par exemple l’empreinte d’un chercheur dans une base de publications scientifiques et qui pointent vers ses champs compétences) ou une organisation (le même principe mais appliqué à l’échelle d’un laboratoire).

vizir3d

A travers ces trois panneaux, cette première version de Vizir permet pour la première fois d’apercevoir les multiples façons dont sont mobilisés en amont les moyens techniques, humains et financiers des acteurs publics (Etat, collectivités territoriales, OSEO-BPI…), privés ou industriels (structures de RetD) ou bien encore issus des organisations de la société civile (associations) dans le développement de cet écosystème thématique que l’on appelle un « pôle de compétitivité ». Mais chacun peut aussi se rendre compte des retombées des projets labellisés, individuellement comme globalement (un aspect central que je n’avais pas eu le temps de développer mais qui me semble être au coeur d’une démarche de suivi, voire d’évaluation): projets de start-ups, publications scientifiques, événements ou animations territoriales…Techniquement, Vizir est potentiellement reconfigurable autour de nombreux scénarios d’utilisation, depuis la variété des données en entrée jusqu’aux variations des champs d’études (d’un objet particulier à la cartographie d’ensembles plus vastes, comme ici un pôle de compétitivité en région), sans oublier les multiples facettes de l’information que propose les modules composant l’interface (variation temporelles dans les données, géoréférencement sur des cartes dynamiques, nuages de mots-clés, courbes d’évolution des phénomènes, répertoires de membres ou d’acteurs, description des projets…).

Au delà, il faudrait imaginer aussi ce que pourrait apporter à tous les acteurs de l’innovation de notre pays le déploiement d’une série de « radar de projets » de ce type dans les pôles de compétitivité, et au delà pour les projets européens, ANR, régionaux. J’imagine ce que cela donnerait pour le suivi du travail en région de BPI-France ou encore pour le suivi des partenariats dans l’univers des acteurs industriels. Autant de domaines que datapublica, l’Atelier Iceberg et d’autres occuperont demain. Mais, plus que tout, Vizir rappelle tout ce que ce type de réussite technique doit au travail manuel de qualification et de vérification des informations mené quotidiennement par les acteurs, notamment les documentalistes, les ingénieurs, les bibliothécaires, les chargés d’étude ou les secrétaires auquel le dispositif rend d’abord hommage.

De quoi discutent les députés européens?

La question paraît naïve mais justifiée de mon point de vue: est-on capable, spontanément, de citer la plupart des 5 ou 10 grands domaines sur lesquels se prononcent nos députés européens? N’étant pas spécialiste de la question, l’activité politique qui se déroule au parlement européen m’a toujours semblé lointaine, comme une sorte d’horizon énigmatique et très éloigné des préoccupations quotidiennes de mes concitoyens. Les récentes élections européennes ont constitué l’occasion de lancer un projet global de cartographie des débats, des acteurs et, surtout, des domaines ou des thématiques dont s’est emparé le parlement européen sur les cinq dernières années. Trois étudiants de l’U.T.C. (Nicolas Rangeon, Bruno Marcel, Paul Marillonnet) ont ainsi posé les premières briques d’un système cartographique d’exploration des domaines thématiques qui émergent de l’analyse de plus de 2.000 documents (notamment les textes votés par les parlementaires pour le mandat 2009-2014). Le navicorpus qui est né de la démarche fonctionne en ligne comme un dispositif hybridant trois « modules » techniques (selon une « recette » maintenant éprouvée dans mon enseignement): une interface dynamique de graphe, des batteries de mots-clés (à peu près 1.000 retenus pour cette version) regroupés en domaines ou en thèmes et un accès à des ressources externes, notamment les textes eux-mêmes. Le travail sur l’extraction et le traitement des mots-clés est fondamental dans ce genre d’exercice: construits comme une sorte d’ontologie primitive (méthode TF/IDF avec 15 mots-clés retenus par document puis construction d’une structure de graphe de co-occurrence où le terme « A » est relié au terme « B » quand ils sont issus du même document), ils permettent en amont de visualiser une géographie thématique en fonction de leurs regroupements/éloignements en « zones » de densité mais aussi, en aval, de proposer à l’utilisateur une recherche classique de documents par requêtage ou, alors, par sélection d’un ou plusieurs termes (successivement comme simultanément).

En début de navigation, navicorpus propose de choisir un corpus (deux sont accessibles actuellement: les textes européens et les pages web de ce blog). L’interface cartographique du navicorpus est maintenant un « classique » (sigmaJS) avec son zoom, la possibilité d’afficher ou non les liens de co-occurrence ou encore sa loupe qui permet de grossir des zones particulières sans oublier l’inévitable « mini-map » dynamique.

Illus1

Sélectionnez un terme et s’ouvre alors (après un petit temps de calcul) deux frames (ou deux volets). Celui de gauche permet d’afficher les termes associés statistiquement au terme choisi mais aussi d’en sélectionner d’autres. L’ensemble fonctionne donc un filtre de recherche de documents. La frame du bas permet de contrôler le nombre et le type de document retrouvés dans la base. Chaque document est lui-même associé à une batterie de mots-clés qui peuvent être aussi mobilisés comme filtre en les sélectionnant. L’ensemble de ces fonctionnalités assure une recherche rapide et souple aussi bien via l’interface de visualisation de graphes que via les deux volets de recherche par mots-clés.

illus2

Les titres affichés des documents sont cliquables et renvoient directement à l’intégralité des documents-source (http://www.europarl.europa.eu/).

illus4

Toujours dans le volet en bas du navicorpus, deux icônes figurent après les titres de chaque document. La seconde indique la « policy area » du texte voté (son domaine ou son thème) mais la première renvoie quant à elle à un autre site web, votewatch.eu, où sont regroupées toutes les informations politiques associées à chacun des texte. Y sont notamment accessibles les votes des parlementaires (récupérables sous forme de CSV).

illus5

Au delà de l’aspect informatif de ces données et du contexte d’une recherche essentiellement documentaire par mots-clés, on aura deviné la prochaine orientation du navicorpus: la cartographie globale des parlementaires eux-mêmes en fonction (notamment) de leurs votes. En somme un travail de traduction en positions cartographiques de positions politiques. Et il sera intéressant, entre autre, de pouvoir les croiser avec notre première géographie thématique.

J’ai produit un poster rudimentaire associé au corpus cartographié. J’ai respecté les choix graphiques des trois étudiants du point de vue de la visualisation du graphe et, une fois imprimé, il peut apporter un espace complémentaire (et peut-être plus synthétique) malgré son aspect statique. J’ai ajouté quelques éléments statistiques, comme le dénombrement et le classement des 21 thèmes majeurs autour desquels se sont déroulés 5 années de débat. Si chaque « clusters » de mots-clés dans la carte est doté d’une couleur spécifique (la délimitation de ces clusters est issue d’un calcul statistique où les termes qui sont le plus liés ensemble sont regroupés en un sous-ensemble du corpus), je leur ai moi-même attribué des titres, ce qui peut parfois les faire apparaître relativement arbitraires. Le navicorpus (sur cette « version européenne » en ligne) préfigure un dispositif plus générique applicable à d’autres corpus documentaires; après chaque utilisation, il permet aussi de nous rapprocher un peu plus de cette Europe politique qui peut sembler si lointaine.

poster

 

 

LinkedBySkills

LBSLogo

 

 

Avec la masse de données du web, leurs formats différents et leurs différentes dynamiques (du temps réel à tous les segments du temps différé), le dashboard (tableau de contrôle des données) est naturellement devenu un terrain majeur des technologies réseaux. Très lié à l’origine, me semble-t-il, à la culture Apple des interfaces, le dashboarding est aujourd’hui devenu l’espace privilégié du contrôle de l’information par les usagers: sélectionner des sources, rassembler des contrôles d’application, programmer des tâches, suivre un événement en concentrant les flux sont autant de fonctionnalités que doivent assurer ces panneaux de contrôle, si caractéristique, par exemple, des interfaces des téléphones mobiles de dernières générations. La conception d’un dashboard pour l’univers du web et ses données est un véritable défi, quels que soient les contextes d’utilisation ou les données traitées. Pour moi, il s’agit du rassemblement en un même espace d’indicateurs différents, hiérarchisés ou logiquement articulés entre eux selon une scénarisation (ou des usages programmés). La notion d’indicateur a déjà été abordée maintes fois sur ce blog (et détaillée ailleurs). Elle illustre parfaitement cette double compétence si importante aujourd’hui pour le développement des technologies de services informationnels: côté pile, il s’agit d’un exercice de conception d’une interface matérielle auquel nous a habitué la mode de l’infoviz; côté face, il s’agit de calculer selon certaines métriques ou certaines méthodes des propriétés extraites des masses ou des flux de données. L’indicateur permet donc à minima d’observer un « comportement » des données (par exemple des flux, des résultats de calcul, des données issues de capteurs…) mais aussi, le plus souvent, d’agir sur le processus de traitement de l’information (activer un filtre sur les données, remonter le temps via une time-line interactive, orienter une vue, redistribuer des éléments en nouveaux sous-ensembles…).

L’indicateur permet donc d’agir sur les données et leurs propriétés via une interface graphique ou matérielle. C’est pourquoi le design d’interface et l’ingénierie des données sont deux compétences nécessairement associées dans la conception d’indicateurs, éléments centraux notamment des dispositifs de contrôle de l’information web où les masses, les formats et la dynamique des données natives rend l’exercice particulièrement difficile. On comprend aussi par là l’intérêt de les développer pour des secteurs comme la veille stratégique sur certains domaines particuliers: un dashboard, comme une sorte de « tout-en-un » composé d’indicateurs différents et pluggés sur des sources pertinentes, permettant de visualiser et de piloter des calculs automatiques, effectués selon des métriques définies en fonction de scénarios d’usage prédéfinis, serait assurément d’une grande plus-value en terme de raisonnement et de décision. Ceux qui ont développé cette double compétence interface-data (individuellement ou collectivement) occupent indéniablement une position stratégique dans l’univers du développement technologique actuel, surtout si, de plus, ils sont sensibles ou ont été initiés aux sciences des réseaux pour intégrer à leur travail quelques-unes de ces propriétés fascinantes qui font du web un véritable écosystème informationnel. Je pense là, évidemment, à Linkfluence dont Radarly (le dashboard de monitoring du web social) figure maintenant parmi les 3 meilleurs technologies mondiales (3e prix des meilleurs « Earned Media Analytics » lors de la 4ème édition du classement Goldbach qui désigne les meilleurs outils de social media monitoring mondiaux).

Cette troisième marche du podium mondial ne me fait pas oublier d’autres dashboard intelligents et astucieux, comme celui développé par Linkurious. Dans l’univers feutré des données sensibles (banques, assurances, télécommunication, santé…) et relationnelles (traiter les données comme un vaste système d’interactions, et donc analysables sous forme de graphes), linkurious vient de sortir lauréat du concours I-lab édition 2014. 1 314 candidatures déposées, 221 lauréats parmi lesquels 54 jeunes entreprises innovantes lancées en 2013 parmi lesquelles linkurio.us : ici encore la preuve de la combinaison pertinente d’indicateurs graphiques et de procédés originaux de traitement des données. Mais il reste tant encore d’univers informationnels à explorer, à monitorer, à analyser, en somme à contrôler en partant d’un projet de dashboard, avec ses widgets branchés sur l’exploitation de formats documentaires multiples et de sources variées. C’est tout l’enjeu actuel de ces dashboard dédiés à l’intelligence des données pour la décision, la prospective ou la veille territoriale ou stratégique, comme celui que développe l’Atelier Iceberg en ce moment en partant de données journalistiques, de notices de brevets, de publications scientifiques ou de données d’entreprises. Les indicateurs développés actuellement par l’Atelier montrent là aussi combien le succès repose sur la maîtrise de toutes les étapes d’une chaîne de traitement de l’information, aussi bien sur le versant data que sur le versant interface.

« MySpace, c’est le bar, Facebook, c’est le barbecue au fond du jardin, et LinkedIn, c’est le bureau. » (Reid Hoffman, cofondateur de linkedin). Ces belles réalisations ne doivent pas faire oublier que tout commence avec une forme ouverte d’expérimentation, synonyme d’innovation technologique prometteuse, quand se concrétise l’idée d’une indicateur manifestant à travers une forme matérielle l’exécution de calculs originaux, exploitant de nouvelles métriques appliqués à des données encore peu explorées. La perspective convient parfaitement aux séances de travaux dirigés que j’anime à l’U.T.C. (rapidement transformés en séance de créativité dès le début du semestre d’enseignement) et aux « séminaires » ou aux « formations » d’une ou deux semaines consécutives comme cette année à l’Ecole de Design de Nantes-Atlantique. L’occasion de réfléchir, cette année et dans les deux écoles, à ce que pourrait être un dashboard pour faire de la veille et de l’analyse sur des données issues des réseaux professionnels, en particulier linkedin où officie Mathieu Bastian, un autre compagnon de longue route, ingénieur U.T.C., et lead-developer de Gephi. Si l’on se souvient d’inmaps (qui s’arrête bientôt je crois), on a déjà une bonne idée de ce que peut donner l’association d’une interface (cartographique pour l’occasion) et d’un traitement de données relationnelles à grande échelle. Rapidement, l’intérêt s’est porté vers l’étude de la distribution des skills, ces compétences déclarées et reconnues par les inscrits du réseau et que l’on peut voir comme une forme ascendante d’ontologie-métier. L’idée n’est pas neuve mais avec plus de 300 millions d’inscrits, des compétences technologiques de très haut niveau et l’objectif de proposer régulièrement de nouveaux services (par exemple d’aide au recrutement par les entreprises), linkedin a aujourd’hui les moyens et les données suffisantes pour imaginer ce que pourrait être un dashboard global, adaptable aux organisations, aux groupes ou aux individus particuliers. Parmi les nombreuses connexions possible à partir des profils (ne serait-ce que le réseau des invitations ou encore des réseaux de discussion professionnels avec linkedin answers), des étudiants de l’EDNA (Ecole de Design de Nantes-Atlantique) comme de l’U.T.C. ont conçus les premiers éléments de ce que pourrait être un dashboard dédié à l’étude de la nature et de la distribution des skills au sein de leur univers respectifs.

A Nantes, Thomas Chevillotte, Amandine Dugrain, Adrien Frey, Hélène Gérard et Morgane Guyot ont testé différents types de mesures et de calculs et ont élaboré un ensemble d’indicateurs qui composent leur projet de dashboard linkedin. Les cinq jeunes designers d’interactivité ont donc eu l’occasion d’approcher les multiples enjeux d’un travail de modélisation et de veille sur les compétences professionnelles accessibles sur linkedin. Le choix de linkedin est très lié à la place que la plateforme a trouvée dans le vaste écosystème du web où chaque application rencontre sa « niche ». En incitant les membres à agréger les nombreuses informations qui constituent un réseau professionnel, linkedin fonctionne comme une sorte de synthèse du réseau social et du réseaux de connaissances, la plateforme se nourrissant de la dynamique de la recommandation de compétences et/ou de profils. Pour chacun des membres la participation à la plateforme permet, en retour, de cumuler du capital social basé sur un principe de confiance. On comprend l’intérêt qui lui portent les étudiants, les entreprises ou les associations pour développer de nouvelles idées, identifier et mobiliser des compétences ou tisser des partenariats, exploiter la dynamique du crowdsourcing. La question de l’identité ou de la singularité d’un membre (sous la forme, entre autre, du personal branding) y est donc fortement corrélée aux différents réseaux dans lesquels elle se définit et où l’e-reputation individuelle s’y calcule selon différentes échelles (au premier degré, nos contacts directs; au second degré les contacts de nos contacts; etc. jusqu’à ce qu’un profil, sous quelle que facette que ce soit, ne trouve plus d’écho dans les masses de données).

LinkedinTableauGeneral

Le dashboard linkedin des designers a été conçu comme un espace unique et fixe (ici, sous forme de poster) et agrégeant différents types d’indicateurs. L’objectif est d’en faire un espace d’information public et accessible en interne dans les organisations. Au delà des enjeux d’analyse des compétences, voire même d’aide à la décision en termes de gestion ou d’orientation des formations, le dispositif mise évidemment sur « l’effet politique » généré par sa diffusion publique (mise à jour des profils individuels, densification des relations, augmentation des recommandations au sein de la communauté…). Ce tableau de monitoring se concentre sur l’observation des skills, les compétences déclarées et/ou reconnues. Le principe est particulièrement efficace pour faire émerger, à grande échelle, des « profils métiers » par concentration de compétences qui ne dépendent pas d’une classification à-priori (en générale, très verticalisée et très cloisonnée si l’on prend les rubriques « métiers » des catalogues de formation). Les connexions liées aux skills partagées ou non constituent une couche de connectivité transversale aux acteurs (donc de les regrouper et de les identifier) qui permet d’interconnecter de façon très riche et diversifiée des entreprises, des organisations ou des acteurs à d’autres acteurs. La mesure de cette production ascendante de descripteurs de l’activité professionnelle commence ici avec des données statistiques générales sur la gestion des comptes linkedin dans une communauté donnée (en l’occurrence une promotion d’étudiants)

LBSStatsDonneesGeneralesA

LBSStatsDonneesGeneralesC

Ces indicateurs primaires de « taux de présence au réseau » et aux façons de l’utiliser (langage, données personnelles, mise à jour des données…) peuvent aussi fonctionner, dans le cadre d’un projet public et commun, comme de véritables incitations, voire des injonctions implicites. L’indicateur principal du tableau, à mon sens, consiste à juxtaposer les taux individuels de complétude des profil linkedin à une première identification des skills communes (le « top 10″ de droite).

LinkedStat3

Une classification ascendante de compétences à partir des profils individuels peut constituer un élément très pertinent d’analyse (ou d’aide à la décision) pour un responsable de formation ou un établissement en termes de veille des « profils de sortie ». Ils peuvent par exemple correspondre, on non, aux profils « officiels » déclarés par un organisme ou un programme de formation. Dans d’autres cas, cette classification ascendante peut être mobilisée pour comparer deux formations ou deux établissements comme les écoles de design en France. L’introduction de la dimension temporelle (que les étudiants ont testée) pourrait permettre d’identifier des « profils émergents » au cours du temps ou, dans l’autre sens, ceux qui ont disparu. De nombreux feed-back vertueux entre établissements de formation le réseau linkedin peuvent être imaginés et incarnés sous forme d’indicateurs placés dans un dashboard global de contrôle.

Adobe, coeur de compétences. Au coeur du réseau de recommandation de compétences, la suite Adobe occupe la place principale (avec ACS pour gérer les documents Adobe sur les mobiles notamment). Au centre, une illustration avec 3ds max des multiples façons de labéliser une même compétence. A grande échelle, les problématiques de « multi-labélisation » (une même compétence pouvant être nommée différemment par les membres), voire même de langues différentes pour désigner une même compétence, doivent sûrement poser de nombreux problèmes aux ingénieurs de linkedin. Au niveau local du projet, la diffusion publique du dashboard peut amener les membres du groupe à adopter un même « vocabulaire » véhiculaire (permettant de fixer les variations locales d’une sorte d’ontologie-métier).

LBSStatsAdobe

En retour, une première classification permet de distribuer les profils individuels en fonction des compétences, de la même façon qu’un graphe bipartite peut être redistribué en deux graphes « simples » (relations étudiants-étudiants reliés par les compétences communes; relations compétences-compétences selon la façon dont elles sont liées sur les profils individuels).

LBSStatsEtuParSkillsCommunes

Les variations temporelles peuvent être appliquées à chacun des indicateurs du dashboard. Un exemple de variation temporelle a été produit en comparant les recommandations de compétences entre deux promotions (2013 et 2014).

LBSStatsTempAnnées

Surtout, le bandeau bleu en bas du dashboard vient rappeler l’un des effets majeurs généré par le développement du projet lui-même au sein de la promotion. C’est l’une des plus value espérée du projet: mesurer le type et le taux de modification des profils  dans la semaine qui suit l’annonce et la présentation du projet devant la promotion.

LBSStatsTempAnnéesB

Parmi toutes les modifications apportées aux profils personnels durant une semaine, on peut apercevoir l’intensification des relations de recommandation au sein de la promotion (en bleu, la nouvelle distribution; en blanc, l’ancienne une semaine au préalable).

LBSStatsTempMemePromo

Les relations étant plus riches, le nouveau classement des skills laissent apparaître des changements notables (redistribution des compétences 3, 4 et 5 en particulier) mais pas pour les deux premières (Photoshop, Illustrator).

LBSStatsTempMemePromoSkills

 

LinkedBySkills, B. Côté U.T.C., le dashboard linkedin a d’abord été conçu comme un outil de recrutement potentiel, un outil d’identification de compétences pour la constitution d’une communauté professionnelle. Pauline Cuche, Simon Robain, Alexandre Abrantes, Nicolas Monchy, Vincent Lainé et Benjamin Calméjane, ont développé une première version opérationnelle d’un dashboard assez complet techniquement qui assure plusieurs fonctionnalités comme la récupération automatisée des données des profils linkedin (skills notamment), le traitement sous forme de base de graphes, la visualisation dynamique avec sigmaJS. La perspective des étudiants est donc ici plutôt du côté du data mining avec un prototype en ligne constitué de plusieurs pages html intégrant les modules javascript.  L’extraction des données a été conçue comme un processus générique et pilotable en ligne. En son principe, elle fonctionne comme un crawler: on extrait les données (notamment les skills) à partir d’une série de comptes individuels précis puis on renouvelle l’opération pour les profils en relation directe (profondeur 1 ou à « un clic de distance ») ainsi qu’au second degré (relations indirectes ou « les amis de mes amis »). Les données extraites pour le prototype sont à priori relativement homogènes puisque l’extraction a été lancée depuis des profils d’étudiants d’école d’ingénieurs, donc avec un taux important de compétences communes (notamment en informatique).

LBS2worflow

Ce dashboard dédié aux recruteurs permet de composer une équipe en fonction de compétences identifiées, notamment à partir de trois panneaux distincts et complémentaires dans le scénario d’usage imaginé: cartographie des compétences (reliées entre elles comme elles le sont sur les profils linkedin), la recherche de profils particuliers avec des menus associés et, enfin, la cartographie de l’équipe en cours de constitution en termes de compétences associées (sous forme de dendogramme).

LBS2dashboard

La cartographie des compétences permet de naviguer dans le jeu de compétences issu de la phase d’extraction. Elle est basée, comme la suivante, sur une visualisation de graphe relationnel spatialisé avec un algorithme de type ForceAtlas. Ce type de représentation permet tout à la fois de hiérarchiser les compétences en fonction de leur degré de « généralité » ou de partage dans les profils analysés mais aussi d’esquisser des sous-ensembles ou « clusters de compétences ». Le zoom dynamique permet de passer des compétences les plus génériques aux plus « locales » ou les plus originales (partagées par peu de membres du set de données).

LBS2SkillsMap

La sélection d’un noeud (compétence) sur la carte peut activer à la volée une recherche sur la base de profils personnels et les afficher dans une frame dédiée.

LBS2Futur

Cette fonctionnalité de gestion des profils peut être enrichie par un affichage des informations associée à chaque membre du réseau analysé.

LBS2SRightPaneBlueLetters

Enfin, chacun des profils individuels pertinents dans une tâche de recrutement peut être sélectionné et ajouté à l’équipe en cours de constitution, l’organisation collective étant alors représentée sous de dendogramme. Ce troisième panneau permet d’afficher des informations complémentaires, comme les compétences communes ou, au contraire, uniques. Les informations étant disponibles dans le set de données traitées, les noms des universités d’origine des étudiants ou des professionnels potentiellement recrutés.

LBS2Team

Ces premiers essais ouvrent des pistes prometteuses, par exemple dans la recherche de profils particuliers sur un réseau comme linkedin ou encore observer, à partir des groupes de discussion, les sujets émergents dans certains secteurs industriels. Au delà du soin qu’apportent désormais les étudiants à leurs profils linkedin, ils auront aussi découvert quelques-unes des méthodes qui permettent déjà peut-être de les observer sur le web.

 

linkfluence

TourPleyelLa petite start-up que j’ai connue et accompagnée à Compiègne, installée le long des rives de l’Oise, a bien changé. Depuis l’entrée dans son capital de groupes d’investisseurs, l’entreprise a pris une autre dimension, qui me dépasse de loin maintenant. Je suis retourné Tour Pleyel récemment, pour la dernière fois puisque Linkfluence s’installe ces jours-ci rue Choron dans le 9e arrondissement de Paris. Quelque part au bout de la ligne 13 du métro parisien, la Tour Pleyel offre une vue magnifique sur la capitale, au 28e étage où siège la société fondée le 1er octobre 2006. Je retrouve là les locaux où sont passés Alexis Jacomy (bientôt à l’Atelier iceberg), Mathieu Bastian (linkedin) ou Sébastien Heymann (linkurious) et où je retrouve d’autres « compagnons » de longue date (qui sont aussi mes co-équipiers autour du baby-foot de l’entreprise!).

Guilhem Fouetillou notamment, le directeur stratégie et innovation et co-fondateur de la société, m’explique le rachat récent de TrendyBuzz et son intégration progressive à ce qui est devenu un géant national qui comprend plus de 70 collaborateurs et une gamme très complète de technologies dédiées au web social. J’imaginais TrendyBuzz comme un concurrent direct de Linkfluence mais, à y regarder de près, les deux sociétés ont une sorte d’ADN commun et, surtout, un positionnement sur le marché très complémentaire. L’un est orienté web social, l’autre se concentre sur les médias: l’occasion de concevoir pour les stratèges une offre complète « pluri-média » en terme de veille web et d’analyse de ces millions de « messages » produits chaque jour sous forme de tweets, de posts ou de commentaires. Au delà, ce n’est pas un secret que de dire que la nouvelle entreprise vise à intégrer de nouveaux silos d’informations (comme les statistiques des médias possédés par ses clients) ou encore à rendre compatible sa technologie avec des systèmes internes aux entreprises (comme les ERP) en proposant son API Radarly.

Locaux_Linkfluence_(bis)

On aperçoit combien linkfluence accélère le processus qui le conduit maintenant à se positionner comme un leader européen en matière « d’écoute intelligente du web » sous toutes ses formes. Dans un marché de la veille du web social qui est devenu « mûr » (comme disent les experts), il reste aussi deux autres belles sociétés, Synthesio et BrandWatch et toutes (je suppose) anticipent l’arrivée programmée sur ce marché de géants mondiaux comme SAP, Oracle, IBM ou Adobe.

De cette fusion avec TrendyBuzz naîtra à l’automne un type inédit de Radarly, le produit-phare de linkfluence. Je regarde Radarly, depuis sa première version, comme une sorte de « Rolls-Royce » de la veille » sur le web social, un condensé de technologies dont j’ai vu la naissance et dont je mesure les performances à l’aune des maigres expériences que je mène artisanalement et dont ce blog se fait l’écho régulier.

Radarly

Côté pile, Radarly se donne comme un instrument de contrôle et d’analyse de l’information web dédié aux community managers et aux veilleurs, avec ses métriques « d’engagement », de « viralité », de « tonalité » et ses dashboards synthétiques, visuellement très aboutis, qui sont d’indispensables supports d’aide à la décision en matière de gestion de l’image de produits, de marques ou de secteurs d’industriels. Un bel exercice de maîtrise de toute cette information distribuée à grande échelle, en grande masse, hétérogène et dynamique dans le temps qui nous nous avait posé en son temps (avant la fondation de la société) de nombreux problèmes méthodologiques mais aussi de défis techniques. Côté face, Radarly repose sur une infrastructure dédiée et autonome de traitement de l’information, une technologie originale qui capte chaque jour en temps réel plus de 100 millions de sources, 53 langues et plus de 100 pays.

Camille Maussang, un autre compagnon de longue date, a supervisé depuis 2006 le développement technique de cette infrastructure. Sa direction technique sur le projet global de développement technique a été rythmée par des défis techniques que l’on a du mal à imaginer quand on n’est pas un professionnel des data. Comment par exemple, gérer une montée en charge qui fait évoluer une technologie d’indexation de 100.000 retombées par jour à 100 millions en temps réel? Linkfuence a su composer une équipe dont je rêverais pour mes propres projets, une communauté de compétences qui compte quelques « maîtres des algorithmes » comme Hugo Zanghi et Nicolas Yzet. A côté de ses maquettes Légo (dont le faucon Millénium de Star Wars), Camille réfléchit aujourd’hui à la mise en place d’un projet-qualité global, une fonction support renforcée plus orientée vers une démarche produit. La présence de linkfluence à l’étranger, le développement rapide de l’entreprise et la complexité croissante de l’infrastructure technologique rendent nécessaire la démarche. Quel chemin parcouru depuis notre premier crawler web et nos premiers graphes de liens hypertextes!

On aurait tord de croire que linkfluence se concentre sur les questions de distribution des liens à grande échelle, ou bien sur des calculs statistiques appliqués à de grandes masses de données. L’organisation native de la société est un concentré d’approches quantitatives mais aussi qualitatives, une alchimie savamment éprouvée d’analyse des contenus corrélés à celle de la connectivité naturelle du web social où les propriétés des corpus étudiés passent aussi par le filtre redoutable des analystes du secteur des études. C’est le rôle indispensable d’une research manager comme Hélène Girault qui assure la direction de comptes-clients et qui intervient dans la production d’études. Radarly ne doit pas faire oublier que la société développe aussi un secteur « études ». Discuter quelques minutes avec Hélène permet de comprendre le rôle des chargés d’études qui accompagnent les clients dans leurs démarches de veille, depuis l’étude ponctuelle et exhaustive de l’analyse de l’image véhiculée par un produit ou une marque sur les réseaux sociaux jusqu’à la mise en place d’une cellule de crise en cas de polémique généralisée (presque toujours imprévisible). Les termes qu’utilise Hélène pour décrire son activité résonne immanquablement pour moi: elle analyse le web social comme un « ensemble d’acteurs structurés en communautés affinitaires », saisissant de fait tout ce qu’a pu apporter ces dernières années l’analyse croisée des liens et des contenus (ce que les chercheurs américains ont identifié autour des années 2000 comme le grand moteur de l’architecture documentaire du web sous l’angle des méthodes de corrélation contenu-structure). Etudes et développement de Radarly ne sont pas séparés mais hybridés: évidemment, les chargés d’études utilisent Radarly (et avant cela linkscape) mais ils contribuent aussi à l’enrichissement continu des sources indexées par la technologie. Du contrôle qualitatif qu’exercent les experts comme Hélène au traitement automatique permis par la technologie linkfluence (et dont Radarly est une porte d’entrée « client »), la société a ainsi capitalisé des modèles (archivés) de l’organisation du web social sous forme « d’écosphères » qui constituent (pour un chercheur comme moi) la grande plus-value de l’entreprise. S’il fallait résumer pour moi ce que représente « l’aventure linkfluence » depuis les études à l’U.T.C. de ses fondateurs, ce serait bien ce positionnement inédit à l’égard des masses de données qui consiste à les concevoir comme un véritable éco-système (complexe, évolutif, parfois incertain) dont les principes d’organisation ne peuvent être aperçus qu’à un certain niveau (quantitatif) de précision (qualitative). A ce titre, la société m’apparaît pionnière, jusqu’au point d’intégrer un poste « d’écologue du web ». Autant dire, pour un cartographe de l’information et un chercheur comme moi, à quel point des sociétés commerciales ont aujourd’hui intégré plus rapidement et plus efficacement les premières découvertes des web- et des network sciences que la recherche académique!

LivePanel

Des web data à l’expertise des chargés d’études, du bruit natif des flux informationnels à leur mise en forme pour un client, les instruments d’exploration, d’enrichissement et de circulation de l’information repose sur le travail du « maître des images » qu’est Antonin Rhomer (l’équivalent, à l’autre bout de la chaîne, du maître des algorithmes). Antonin est directeur UX et design, un poste-clef puisqu’il conçoit et réalise les interfaces Linkscapelinkfluence qui rendent possibles l’accès et la manipulation de ces grandes masses de données sociales. Longtemps accompagné par Alexis Jacomy (la dernière recrue de l’Atelier Iceberg), cet ancien de l’U.T.C. vit une carrière rythmée par le développement d’une suite d’outils différents, depuis les premières interfaces cartographiques, puis LinkScape et enfin Radarly, l’un des plus aboutis dashboard du marché en termes d’interface (enfin, d’un point de vue personnel, donc tout à fait partial). Pour Antonin, le contact quotidien avec les développeurs est chose naturelle, et même vitale, pour identifier les contraintes techniques d’interfaçage avec le traitement de l’information mais aussi, d’un autre côté, pour intégrer à titre de « modeleur de formes » les contraintes côté usager. C’est entre les données et les scénarios utilisateur que se loge son espace de créativité, le travail minutieux de l’artisan amoureux de son travail et qu’il porte dans son regard devant un écran. Entre phases de créativité et phases opérationnelles plus contraintes par le développement des instruments d’observation, il entrevoit la migration de tous les savoirs-faires de l’entreprise vers les supports mobiles et tactiles, comme mes associés de l’Atelier Iceberg, et probablement comme tous les designers UX du moment. Comme tous ceux-là, Antonin participe de ce qui m’apparaît comme une seconde révolution numérique et qui concerne moins l’information que sa matérialité, nécessaire mais en pleine mutation: son accessibilité en tous points du globe, le principe de captation qui lui est associé à travers tous ces dispositifs de mise en relation dont le téléphone n’est qu’une partie, ses capacités de rendre compte du temps, la démultiplication des accès aux web-services.

Logo

Depuis les grands systèmes comme Google ou linkedin jusqu’aux sociétés d’intelligence des données comme linkfluence, je reste toujours aussi admiratif du degré de compétences techniques et humaines qu’il faut mobiliser pour maîtriser les données web. Il ne faut pas s’y tromper: c’est l’univers le plus difficile à occuper en termes de développement de systèmes d’information, l’espace privilégié (et redoutable) où éprouver des innovations technologiques en termes de traitements de l’information. Comme d’autres, j’attends avec impatience que les acteurs de cet univers s’emparent des marchés de l’information qualifiée et bases structurées de connaissances. Autrement dit, un Radarly pour la veille brevets ou l’évaluation des publications scientifiques…Faisable, non?

Projets et prototypes, IC05 session d’automne

De septembre 2013 dernier à la fin janvier de cette année, 25 étudiants ont suivi encore une fois  « IC05 », mon enseignement à l’Université de Technologie de Compiègne. L’occasion, une fois de plus, d’explorer de nouveaux sets de données mais aussi de « bricoler » quelques dispositifs ingénieux de cartographie. Je me rends compte maintenant combien cet enseignement s’est petit à petit tourné (involontairement) vers le développement technologique semestre après semestre. La conception des sets, le suivi de leur développement et les premières manipulations sur les data finissent par occuper une bonne partie des quatre heures hebdomadaires dédiées à cet enseignement. Essentiellement bâti sur la question de l’information en réseaux ouverts (dont le web reste le parangon), ce cours hebdomadaire est désormais intégralement validé par de « petits » projets qui permettent de passer de data natives (extraites, construites, importées) à une interface d’exploration (statique ou dynamique). Sans oublier, évidemment, les étapes intermédiaires d’une chaîne de traitement de l’information que constituent l’exploration et l’analyse des données sous forme de graphe et l’étape (décisive) de conception des indicateurs (cartographiques ou non). 

Cet enseignement s’est aussi notablement diversifié du point de vue de son public puisqu’il accueille des étudiants ingénieurs de l’UTC (et pas tous des informaticiens!) mais aussi des étudiants de Master (UXD et SIC) notamment de l’ESAD d’Amiens. Si l’on veille à mêler autant que possible les deux profils dans chacun des projets, on peut espérer voir naître quelques prototypes de systèmes d’information inédits comme je les apprécie. Si ces dispositifs expérimentaux sont modestes, ils tendent néanmoins à devenir de plus en plus complets: réalisés collectivement en petits groupes les plus hétérogènes possibles, ils reposent sur la maîtrise de chacune des « briques » d’une chaîne de traitement documentaire, depuis les data jusqu’aux interfaces (quelles qu’elles soient: numériques, en javascript, en posters, en scénographies…). On retrouve là cet « art de la connectique » dont ce blog fait régulièrement la promotion, si important en matière de conception de services autour des data.

Parmi ces projets, se trouve le « lecteur de GEXF » (de son vrai nom GrapheMobile), autrement dit un petit explorateur que j’ai testé sur tablette Androïd (mon standard domestique) . Il est désormais possible de lire un fichier Gephi sur des supports mobiles avec une batterie de fonctionnalités tactiles suffisantes pour la partie exploration : plusieurs algorithmes de spatialisation, gestion des liens orientés ou non, édition des informations associées (attributs des nœuds). Pour le moment, le lecteur n’intègre pas de fonction d’export de graphe modifié (car on peut supprimer/ajouter des nœuds) ni de time-line pour traiter les données temporelles. Dans l’optique de mutualiser le code au maximum, et dans la mesure où l’application Gephi est réalisée en Java, Baptiste Pirault, Florian Paillard et Florian Jeanne ont choisi de développer ce premier prototype « GEXF pour tablette mobile » à l’aide de la librairie LibGDX qui permet la gestion de nombreuses plates-formes. GrapheMobile se définit comme une « application fonctionnelle multiplateforme PC, Mac et Android » que l’on peut aussi exporter pour iOs pour peu d’acquérir les licences adéquates. Ce petit bijou de simplicité sur tablette inaugure une série de chantiers exploratoires autour de la représentation des réseaux et des interfaces tactiles qui sont en plein développement en ce moment dans mon enseignement.

Le domaine de la musique et des artistes constitue un univers fascinant de data aujourd’hui accessibles et où les structures de graphe peuvent permettre d’identifier des phénomènes jusque-là supposés mais peu mesurés. A grande échelle, celles qui me semblent les plus pertinentes concernent la mesure des influences réciproques entre artistes ou groupes d’artistes, notamment dans la musique moderne. Découvrir « qui influence qui », non pas à partir de témoignages mais bien de la façon sont repris/réinventés/copiés les morceaux à travers l’analyse des données ouvre un vaste champ d’investigation si l’on s’intéresse à un genre musical ou à la biographie d’un artiste. Cela a été l’objectif du projet Sample mené par Vincent Meyer, Paul Soncourt, Mohamed Berrada, Aurélien Saillet, Oshinn Fitzpatrick avec la coopération de WhoSampled.com dont l’équipe a extrait un jeu de données comprenant les références à 6791 artistes associés à 9425 morceaux. Les données livrées par WhoSampled.com contiennent les liens qui associent les artistes aux morceaux, mais bien plus encore : les liens entre morceaux de musique sur la base de leur « filiation » technique (et juridique), COVER – SAMPLE – REMIX. L’exploitation des données peut alors ouvrir sur de multiples jeux de classement : quels morceaux de musique ont-ils été les plus repris, remixés, samplés? Quels artistes ont-ils le plus inspiré les autres ? Et inversement : quels artistes ont-ils le plus « emprunté » de morceaux aux autres? Au delà de ces mesures ponctuelles, ce type de données peut renseigner précisément sur les influences mutuelles, le développement des courants musicaux, sur ce qui les différencie et les associe au cours de l’histoire.

Sample

Parmi les projets, il faut signaler celui qui concerne les malwares (“Cukoo”) et dont on trouvera une présentation détaillée sur le blog security-x. En son principe, l’étude réalisée repose sur l’analyse des comportements des malwares qui peuvent ainsi être groupés en types. En associant les malwares par types de comportement, il devient possible de cartographier cet univers fascinant et inquiétant pour nos programmes ou nos machines. 

Cukoo

Avec Taxehavenmap, Valentin Hervieu et Clément Mercier entament un chantier délicat et de longue haleine, celui du traitement cartographique lié aux informations sur les paradis fiscaux. Evidemment, chacun aimerait avoir accès (du moins dans mon enseignement!) aux milliers de documents stratégiques et juridiques qui spécifient pour chaque grand groupe industriel la stratégie qui aboutit à l’exil de fonds financiers pharaoniques dans des pays où l’on ne paie guère de taxe, à travers notamment un enchevêtrement de filiales qui ressemble à un jeu dominos. Valentin et Clément ont d’abord rassemblé différents types de données (pour les Etats-Unis sur le site Trade Union Progress, pour les Royaume-Uni sur le site du Guardian et pour la France sur le site d’Alternatives Economiques). On pourrait revenir sur les données, les discuter en termes de fiabilité ou les modifier en termes de précision mais l’idée du projet est de pouvoir les projeter sur une carte du monde et de pointer les paradis fiscaux dans lesquels les grands groupes industriels des trois pays ont des intérêts à travers l’implantation de filiales. Taxehavenmap n’est que l’esquisse d’un système plus vaste et plus complet en terme d’informations qualifiées sur les paradis fiscaux mais chacun appréciera d’apercevoir sur une carte du monde le jeu des filiales, par exemple de la banque dont on est client ou du groupe industriel dont on achète régulièrement les produits.

TaxeHeaven

Enfin, je terminerai ce petit tour des projets du dernier semestre par le chantier entamé autour du « parcours patient » (ou du « parcours de soins ») qui annonce un énorme potentiel de recherche, d’expérimentation sur les données et de conception d’outils d’interrogation et d’exploration des informations.  Sous l’impulsion et dans le prolongement des recherches réalisées par Claire Imbaud à l’U.T.C. dans le cadre de son travail de thèse, portant sur l’influence de l’accès aux technologies de santé dans la prise en charge des maladies chroniques, Audrey Bramy, Alice Ngwembou Delahaye, Victor Joannon et Eric Boudier ont commencé à traiter un jeu volumineux de données provenant de l’hôpital d’Amiens. Les données (au format CSV) contiennent notamment le libellé de chaque patient, l’âge du patient, l’unité médicale (UM) par laquelle il est passé, sa date d’entrée dans cette unité médicale et sa date de sortie, les actes médicaux réalisés dans chaque UM et le li­bellé des actes, les pathologies diagnostiquées, le mode d’entrée (programmée, urgences, consultation), ainsi que le mode de sortie (domicile, mutations, transfert). Il s’agit d’un jeu de données typique de ce que l’on peut extraire des systèmes d’information hospitaliers et ils sont à la fois très riches de croisements possibles et propices à une exploitation cartographique à base de graphes. Les informations que l’on peut extraire de ce type de données peuvent enrichir considérablement aussi bien l’étude des flux-patients entre des unités médicales que contextualiser chaque acte de soin comme ouvrir sur l’étude d’un cas particulier (les identifiants patients permettent de relier potentiellement la cartographie des parcours d’un seul patient à son dossier médical). Dans le cadre des analyses que mène Claire Imbaud, la cartographie des parcours permet de documenter de façon nouvelle le cas des patients âgés chroniques et poly-pa­thologiques.

ParcoursPatient1

L’essentiel de ce travail novateur a consisté essentiellement à tester quelques premières « vues » sur les données, notamment une série de graphes traitant des flux patients à travers les unités médicales et leur groupement en services. Mais l’effort le plus important a porté sur le développement des premières d’un système de traitement des données de ce type robuste et pérenne de façon à capitaliser des éléments qui permettront de mettre au point bientôt un système générique (pour tous les parcours-patient de toutes les structures hospitalières, voire à l’échelle d’une ville ou d’un département, Gephi permettant de géolocaliser les noeuds d’un graphe). Le groupe a donc développé une base de données, requêtable en .sql générant des fichiers GEXF, dotée d’une interface web. Différentes pistes ont ainsi été explorées en termes de traitement des données de façon à pouvoir bientôt répondre aux différentes problématiques que se posent les chercheurs ou les gestionnaires de structures hospitalières en quête d’optimisation des processus d’accueil et de parcours de soins. Parmi toutes ces pistes, celle de la dimension temporelle réclame encore effort de conception, notamment en termes de rendu du point de vue de l’interface de visualisation et d’exploration. Ce projet, qui intégrait deux étudiants en Master UXD, a donc aussi consisté à concevoir les premiers traits d’un modèle d’interface d’exploration temps-réel des données. Evidemment, ce n’est là que le début d’un chantier d’expérimentation qui se poursuit aujourd’hui sur différents terrains et dont je reparlerai bientôt sur ce blog.

ParcoursPatient2

L’innotron

Voici un post qui ne parle pas de cartographie de l’information, du moins pas directement. Il s’agit pour moi de signaler à mes lecteurs deux chantiers importants auxquels m’a conduit la cartographie depuis quelques mois. La première concerne la rubrique white papers de ce blog où je viens de rendre accessible deux documents sur ce que l’on peut appeler les « modèles d’innovation ». A force d’analyser et de cartographier les projets, les thèmes ou les acteurs de l’innovation industrielle et scientifique en France, j’en suis venu à m’intéresser de façon détaillée aux modèles (politiques) de ce que l’on appelle « innovation », surtout dans le contexte actuel de renouveau (souhaité et promis) de la compétitivité économique. Sous forme d’une synthèse, puis d’un document plus critique, j’ai rassemblé dans ces deux documents quelques-uns des enseignements majeurs que j’ai pu tirer en accompagnant des projets comme Gephi, linkfluence ou l’Atelier Iceberg plus récemment.

La seconde chose importante concerne un projet de « pépinière expérimentale » que je compte mettre en œuvre, du moins si je trouve un environnement susceptible de l’accueillir. En somme, je passe ainsi de la réflexion à l’action. Après tout, il n’est pas meilleur moyen de valider ses idées que de les mettre en œuvre. Ce projet d’innotron est un concentré de différentes idées que j’avais dispersées ici ou là sur ce blog et repose sur quelques principes simples. Pour moi, l’idée semble s’imposer d’elle-même: à l’image de la recherche en biodiversité qui dispose aujourd’hui d’un écotron (comme les physiciens ont eu leur grand équipement synchrotron), il doit être possible de concevoir une sorte d’Innotron, autrement dit un accélérateur de solutions innovantes dans le domaine des industries numériques et des data. Il peut être centralisé ou distribué géographiquement mais entretient toujours avec le territoire qui l’accueille des relations privilégiées (à l’opposé des clusters artificiels dans lesquels on enferme les acteurs du numérique). Si l’expression n’est pas des plus poétiques, elle renvoie explicitement à un projet d’expérimentation destiné à valider (ou non), en territoires, certaines pistes suggérées dans les deux documents accessibles depuis la rubrique white papers. Le premier, sous forme de synthèse, tentait de résumer la colonne vertébrale du « modèle français » de l’innovation sous l’angle d’un triptyque innovation-compétitivité-grands groupes industriels. Le second, largement critique, a permis d’insister sur le rôle des écosystèmes locaux d’innovation, du moins si l’on entend par écosystème un réseau riche d’interactions entre des éléments par nature diverses.

Je précise, tout de suite, que j’ai commencé à poser les premières briques de ce projet au mois de novembre dernier, avant donc que Fleur Pellerin n’annonce en janvier de cette année le lancement du concours à labellisation « FrenchTech » pour une dizaine de métropoles nationales. Hormis cette synchronisation involontaire, il n’y a aucune raison de confondre les deux approches : le label « FrenchTech » s’inscrit en droite ligne dans le sillage tracé par nombre de documents stratégiques analysés dans la synthèse, à commencer par le « rapport Gallois ». L‘innotron que j’imagine épouse des directions par nature très différentes de celles qui guident l’action actuelle de nos ministres ou de nos secrétaires d’Etat, et interroge l’organisation même (voire l’efficacité) des différents moyens ou services de l’Etat et des collectivités territoriales en matière d’innovation numérique.

A l’obsession du « rayonnement international » des projets technologiques ou numériques français, je préfère la culture du local et du marché intérieur (en soutenant par exemple une politique de la demande ciblée sur des compétences locales ou nationales); aux critères de valorisation capitalistique (avec toujours les mêmes deux ou trois success stories que l’on propose de sociétés françaises qui ont réussi leur entrée en bourse à New-York) je préfère le critère de pérennité des emplois créés dans le numérique (les modèles de star-ups actuels me semblent beaucoup trop spéculatifs), aux grandes démarches programmatiques de l’Etat (top-down) j’oppose le principe d’émergence et d’autonomie des projets d’innovation (innovation ascendante); enfin, à la spécialisation territoriale en « filières » et aux projets de concentration d’un même type de métier en un même lieu (la vision très française de la notion de cluster sous la forme, par exemple, des fameux « quartiers de la création »), je voudrais développer un projet de fédération d’acteurs différents et de petite taille autour de complémentarités métier encore peu explorées et dont l’intelligence des données constituent le ciment. Evidemment, je ne suis pas Ministre ou secrétaire d’Etat et je n’ai pas les moyens d’imposer cette conception de l’innovation un peu « en décalage » par rapport au (seul) modèle d’organisation et de soutien imposé actuellement (surtout qu’une grande partie de l’innotron repose sur un principe d’auto-gestion pleinement assumé). Je tiendrai informés mes lecteurs régulièrement de cette nouvelle aventure où je compte embarquer quelques-uns des acteurs majeurs de la cartographie numérique d’information, ainsi qu’une collection originale d’outils et/ou de méthodes. Une fois finalisé, le projet complet d’innotron sera diffusé dans le rubrique white papers. Je ne sais pas encore où tout cela va me mener, peut être nulle part d’ailleurs. Cependant, à travers ce projet d’innotron, j’aurais pu mesurer combien la pratique de la cartographie de l’information et la culture des réseaux peut contribuer à la conception d’un projet en matière de politique d’innovation et d’aide aux structures émergentes et portés par les plus jeunes notamment.