A l’heure des data sciences ou du big data, j’ai déjà signalé sur ce blog l’intérêt qu’il faut porter à des silos informationnels encore peu exploités dans les entreprises et les organisations. Produits de façon interne et maintenus à jour, ils sont souvent l’objet de tous les soins et, donc, d’une grande qualité. Un terrain de jeu idéal pour la cartographie d’informations. C’est le cas des données générées par nos écoles et nos universités où les données sont d’une grande diversité. L’un des objectifs que je poursuis maintenant associés à quelques étudiants motivés de l’U.T.C. est de concevoir le système d’information de demain qui permettrait de valoriser toutes ces données en les raffinant et en les croisant pour doter la communauté universitaire d’un instruments performant de gestion de l’information et, au delà, d’aide à la décision. Cet instrument interne serait à la fois un moteur «vertical» de recherche sur plusieurs silos d’informations mais aussi un tableau de bord où pourraient figurer des indicateurs de suivi dans différentes dimensions de l’activité d’une université…et où il y aurait quelques cartographies pertinentes. En surface, une sorte de Google local; en profondeur, un dashboard analytics pour capter des propriétés intéressantes dans les données.

Pourtant, la cartographie d’information ou de réseaux ne joue dans le projet qu’un rôle périphérique. A titre d’instrument d’investigation et de projection des données relationnelles, elle joue un rôle centrale dans mon enseignement, le plus souvent pour initier des pistes de réflexion plus générale. Mais savoir extraire des données, utiliser Gephi (version 0.9.1) ou construire une base de données associée ne constituent qu’un point de départ pour imaginer des systèmes d’informations aux fonctionnalités plus vastes et qui épouseraient les propriétés découvertes dans les data de départ. Ce chantier a été initié il y a maintenant deux années avec une première série de sondages cartographiques. Ces opérations ponctuelles ont permis de tester les méthodes et les instruments nécessaires à la réalisation plus globale de notre projet de système d’informations combinées. Les publications scientifiques des chercheurs de l’U.T.C. ont ainsi fait l’objet d’un travail de cartographie thématique mais les données sont là et peuvent être encore croisées différemment pour produire de nouveaux indicateurs comme ceux que j’avais déjà esquissés dans un premier post. Un autre silo informationnel est aujourd’hui largement exploité: les bases brevets dont plusieurs cartographies ont été produites à propos de sujets technologiques «de pointe» pour accompagner dans l’écosystème de l’U.T.C. certaines start-ups.

Chacun des silos informationnels explorés peut être potentiellement déployé sur un moteur dédié comme celui qui équipe notre prototype de moteur de recherche de stages. L’infrastructure technologique du moteur a été finalisée au semestre d’automne 2015 par Gabrielle Rit et Bastien Frémondière. Il préfigure les fonctionnalités qui seront associées aux autres silos informationnels: recherche par mots-clés en full-text, sélection des rubriques, des dates, des entreprises, des branches de spécialisation à l’U.T.C. (chimie, informatique, biologie…) et le géoréférencement des lieux de stages.

moteurstageA

Le moteur contient une partie «graphiques» qui annonce le futur «dashboard» de suivi et d’analyse des données archivées. Techniquement, il est déjà possible de produire des GEXF sur n’importe quelle structure réseau présente dans les informations. Par exemple, l’un des sujets que je poursuis consiste à produire une série temporelle de mots-clés liés aux sujets de stages en génie informatique, l’idée étant de voir quel type d’évolution ont suivi les sujets de stages sur les dix dernières années. Un autre aspect de ces data suscite mon intérêt: étudier les réseaux d’entreprises qui déposent des sujets de stage dans au moins deux branches différentes de spécialisation, par exemple «informatique+biologie» ou «procédés+mécanique et matériaux». Je fais ainsi le pari que ces entreprises qui déposent des sujets dans plusieurs domaines se trouvent par ailleurs fortement impliquées dans des processus innovants. Je n’ai pas encore de résultats significatifs mais le graphe est là: y figurent les départements de l’U.T.C. reliés aux entreprises qui déposent au moins deux sujets de stage dans deux de ces départements.

stageMulitbranches

Parmi tous les projets d’exploration de données réalisés au cours des derniers mois, l’un des plus pertinents aura été sans conteste celui mené par par Arnoud Vanhuele, Jean-Côme Douteau et Victor Baconneau. Il a consisté à cartographier le parcours des UTCéens à travers leurs choix d’enseignements (UV – unités de valeur). Voilà un domaine qui devrait en intéresser plus d’un dans la gestion et le suivi des étudiants dans le parcours, des services de la pédagogie à la gestion prévisionnelle. La méthode utilisée est simple mais il fallait y penser: exploiter les emplois du temps des étudiants, semestre après semestre, comme base d’informations exploitables. Une fois obtenus, les emplois du temps peuvent être agrégés et transformés en graphe étudiant-UVs (un étudiant relié aux UVs qu’il suit) puis transformé à nouveau dans un graphe Uvs-UVs ou les liens figurent les parcours des étudiants. Arnoud, Jean-Côme et Victor ont appliqué certaines règles de simplification, notamment des niveaux de seuil à des data massives, pour ne laisser apparaître que les flux les plus importants. Les liens dans la cartographie sont donc pondérés en fonction du nombre d’étudiants inscrits aux UV.

FlucUVa

La dimension temporelle des données a été «écrasée» au profit d’une carte synthétique globale. Cependant, les principe des groupement des UV en clusters (via l’algorithme ForceAtlas2 de Gephi) la retranscrit en partie: on part de la gauche du graphe (début Tronc Commun, TC) puis on descend un peu (fin TC) puis on se dirige vers le milieu du graphe (début de branche) et finalement on s’éloigne du milieu du graphe pour atteindre les clusters des branches spécifiques.

fluxUVb

Les applications dérivées potentielles de cette carte sont nombreuses. Personnellement, il y en a une qui me fascinerait de voir développée sur une table tactile: en fonction d’un identifiant, on pourrait «allumer» des parcours individuels à la volée. On pourrait même y faire figurer, pour chacun des étudiants, les projets réalisés et tous les dossiers ou mémoires rendus dans la scolarité. Ce serait une excellent entrée pour un futur système contributif de capitalisation et d’archivage!

Cependant, les données intégrables à notre futur système d’information ne se limitent pas aux données internes aux établissements. Le futur dashboard pourrait intégrer des indicateurs calculés sur des données web. C’est le chemin exploré par Baptiste Amato et Amélie Perdriaud à travers l’analyse des compétences revendiquées par les étudiants des UT sur LinkedIn. La plate-forme sociale à vocation professionnelle constitue aujourd’hui en instrument presque indispensable aux étudiants pour afficher leurs compétences (skills) comme aux recruteurs et aux entreprises à la recherche de nouveaux talents. Les étudiants du réseau des UT n’en manquent pas, et comme tout bons ingénieurs qui se respectent, nombreux sont ceux qui dévoilent leurs compétences sur ce réseau à travers un vaste système de recommandation. L’objectif poursuivi par Amélie et Baptiste consistait à comparer les réseaux de compétences des étudiants entre les écoles du réseau des UT – l’UTBM à Belfort Montbéliard, l’UTC à Compiègne et l’UTT à Troyes. Les trois établissements reposent sur des principes pédagogiques communs, mais possèdent également leurs propres spécificités, parmi lesquelles certains enseignements bien spécifiques. Par exemple, la branche concernant les systèmes urbains est propre à l’UTC, tandis que celle sur l’Energie et l’environnement n’est présente qu’à l’UTBM. Cette spécificité se retrouve-t-elle sur les réseaux sociaux ? Quelles sont les compétences revendiquées par les étudiants de chaque UT sur LinkedIn? Voilà un projet qui peut s’avérer utile, voire important, si l’on pense à l’idée à une Université de Technologie de France ou à une potentielle fédération des projets de recherche technologique sur la partie Nord-Nord-Est de la France. Mais avant de parler stratégie, le projet permet de produire quelques indicateurs pertinents sur les types de compétences des étudiants des trois U.T. telles qu’elle apparaissent sur les réseaux sociaux, et non pas celles qu’affichent les plaquettes de communication. Avec Webscraper1, un plug-in de Google Chrome, il est possible de récupérer un nombre important d’informations à partir de différentes pages linkedin, associées aux étudiants actuels des trois universités mais aussi des plus anciens. Il a fallu pour cela ouvrir un compte-pro sur linkedin et procéder par étapes d’extraction. Une fois traduites sous forme de structure de graphe, les informations peuvent être traitées sous la forme d’un réseau où apparaissent en jaune les trois écoles en bleu foncé les compétences propres à chaque école, en bleu clair les compétences partagées par deux écoles, et enfin en vert les compétences partagées par toutes les écoles en même temps.

TUfranceb

A l’examen, les compétences communes (en vert) se composent de trois ensembles que l’on peut ainsi cartographier:

TUfrancec

Les compétences spécifiques aux trois écoles peuvent aussi être analysées et visualisées, comme bien d’autres dimensions du corpus constitué.

• UTC: Mathématiques, logique, programmation web, analyse économique, sciences environnementales et mécanique/matériaux
• UTT: Biologie cellulaire, conscience environnementale, méthodes agiles, sécurité informatique, ingénierie audio et interactivité ;
• UTBM: Communication, méthodes de tests, gestion d’équipes, services web, design et énergies renouvelables.

Un premier poster de synthèse a été produit mais les données recueillies recèlent encore de nombreuses propriétés intéressantes à interroger.

TUfrancea

Enfin, Jean Queval et Théo Delalande-Delabre ont cartographié les flux étudiants liés au programme européen Erasmus. Ce projet permet de rôder la méthodes et les modes de projection graphique qui pourront être mobilisés pour l’analyse des mobilités internationales des étudiants de l’U.T.C. Le projet de Jean et Théo est ici plus global puisqu’il s’agit de cartographier à grande échelle les flux d’entrée-sortie des étudiants pays par pays, et de les comparer.

ErasmusCarteGenerale

Et je gardais le plus curieux des projets pour la fin, du moins si vous buvez des bières ou fréquentez les cafés. Alexandre Cortyl et Hugo Rodde ont travaillé sur les données d’usage (administratives et financières) du système de paiement de l’UTC (on paie avec son badge y compris au PICasso, le foyer des étudiants réputé pour ses bières). Là aussi, les données peuvent être nombreuses à analyser et sous de nombreux angles. Alexandre et Hugo se sont intéressé aux propriétés du graphe consommateur-type de bière pour analyser de près s’il se dégageaient des «communautés» spécifiques, aussi bien côté étudiants que côté marques de bières. Après avoir extrait et formaté les données, ils ont développé un petit système d’exploration en ligne (les cartographies en SigmaJS). On peut y explorer les graphes (anonymisés évidemment!) générés pour le projet.

PICa

L’U.T.C. sous toutes les coutures, depuis les publications des chercheurs jusqu’au débit de bières…