Cas d'étude

Formation pour apprendre à monter un MOOC (massive open online course)
Sébastien Iksal
14 août 2017
26 oct. 2018
ENS Paris-Saclay, laboratoire STEF
Enseignement supérieur, formation d'adultes
FUN est propriétaire des données, ENS Cachan destinataire
Numérique pédagogique

Scénario d'analyse: Découvrir le parcours des apprenants sous forme de pattern Export

Note d'utilité de l'étude
Clareté de l'étude
Je peux réutiliser l'étude
Noter

Champs obligatoires

Nom de l'étude Q

MOOCAZ (Monter un MOOC de A à Z)

Description de l'étude Q

Formation sur la conception d'un MOOC à partir de laquelle les données produites vont être traitées et analysées pour répondre aux questions de recherche : Comment décrire le succès d'un MOOC ? Quels sont les indicateurs quantitatifs pertinents pour décrire le succès d'un MOOC selon la représentation que l'on s'en fait ? Quels sont les schèmes d'utilisation du dispositif les plus fréquents parmi les non-certifiés ? Comment les traces d'interaction peuvent-elles en rendre compte ?

Comment la dimension éthique de l'étude a-t-elle été prise en compte ? Q

1. Autorisation traces numériques 2. Anonymisation des données 3. Charte

Nom et contact des personnes qui peuvent donner des informations sur les données Q

Matthieu Cisel (collecte), Tony Doat (Traitement), Matthieu Cisel - Mattias Mano - Sébastien Iksal - Serge Garlatti (Analyse)

Nom du partenaire de l'étude du cas Q

ENS Cachan

Domaine d'enseignement (mathématiques, physique, litterature, ... Q

Numérique pédagogique

Champs complémentaires

Volume horaire de la formation (Nombre de sessions, Durée globale de la formation, nombre d'heures, de séances, ...) Q

5 semaines. 5 heures de vidéos, et entre 20 et 40 heures de travail sur les activités pour obtenir la certification.

Nombre d'élèves ou d'étudiants Q

2500

Nombre d'enseignants

3 / /

Types d'activités mise en places (groupes, distance, ...)

problème ouvert, énigme, quête, jeu de rôle-numérique ou non, simulation, etc. / Activités en groupe, débats organisés sur les forums de discussion

Fichiers associés

Champs obligatoires

Description de la problématique Q

Cette étude s’inscrit dans le cadre général d’une réflexion sur les indicateurs de performance dans les MOOC. La gratuité et l’absence de cadre contraignant contribuent à créer un écart conséquent entre activités prescrites par l’équipe pédagogique, et activité effective des utilisateurs du cours, qui questionne l’usage d’indicateurs de performance comme les taux de certification. Nous tâchons de réfléchir à des alternatives à un tel indicateur en nous penchant sur les utilisations qui sont faites du dispositif, en particulier chez les non-certifés.

Nous nous intéressons aux modes de suivi du cours pour le MOOCAZ, un mode de suivi étant défini comme la combinaison de différentes actions (visionnage de vidéo, réalisation de quiz, rendu de devoirs) au sein d’un module du cours donné. Un mode de suivi alternatif quant à lui correspond à un mode de suivi qui, s’il est adopté pour l’ensemble des modules d’un cours, ne permet pas l’obtention du certificat.

On cherche dans un premier temps à décrire et à quantifier ces écarts, pour ensuite les interpréter par des entretiens semi-directifs, selon une logique de méthode mixte qui sort du cadre de cette étude. A bien des égards, ce mode de suivi alternatif correspond à ce que Rabardel (1995) définit comme une catachrèse. La problématique générale peut être résumée en ces termes : Quels sont les schèmes d'utilisation les plus fréquents parmi les non-certifiés ? Comment la mise en évidence de patterns peut-elle nous aider à mettre au jour de tels schèmes ?

Date de création de la problématique Q

2015

Description des questions de recherche Q

Quels sont les modes de suivi alternatifs, c’est à dire ne débouchant pas sur l’obtention d’un certificat ? Que représentent-ils sur le plan quantitatif par rapport aux modes de suivi débouchant sur l’obtention du certificat ?

Considérations méthodologiques

Quels problèmes éthiques peuvent se poser avec cette problématique ? ( e.g. accès à des données individuelles, ...) Q

Accès à des données individuelles

Réferences sur des problématiques proches Q

Cisel M., Mano, M., Bachelet, R., A Tale of Two MOOCs : Analysing long term dynamics (EMOOCs 2015, in Press) M. Cisel and R. Bachelet, “Understanding engagement in the First French xMOOC,” in Proc. of the First European MOOCs Stakeholders Summit, 2014

Cisel (2016). Utilisations des MOOC, éléments de typologie. Manuscrit de thèse non publié

Champs complémentaires

Description des données

Localisation des données Q

Les données sont stockées sur FUN, puis après transmission au laboratoire STEF, sur les serveurs du laboratoire. Elles ont ensuite été partagées sur Assembla.

Description de la structure physique de stockage des données (e.g. structure en forme de répertoire, base de données , fichiers CSV, ... ) Q

Deux types de données sont mobilisées pour réaliser l’analyse. Le premier jeu de données correspond aux actions des apprenants, ce sont des traces brutes séquentielles d’actions unitaires avec timestamp, id de l’apprenant, id de l’action, id de la ressource sur laquelle porte l’action (visionnage de vidéo, réponse à un quiz, participation sur un forum). Le deuxième type de données correspond à la structure du cours en chapitres. Deux sessions du cours ont été organisées (MOOCAZ V1 et V2) et analysées, avec de légers changement dans le format des traces entre ces deux sessions. Les paragraphes qui suivent donnent davantage de précision eu égard à ces questions.

Format des traces

Format des traces de MOOCAZ V1 : Il s'agit d'un fichier de logs dont la structure est composée pour chaque ligne d'une date/heure au format « Apr 22 06:49:42 », de l'adresse d'une machine « ellms22.cines.fr », du mot clé « edx_tracking: » et de la trace formatée en JSON.

Format de la structure de cours (MOOCAZ V1)

Il s'agit d'un format CSV utilisant la virgule comme séparateur. Il est composé des colonnes suivantes : p_display_name, p_start, p_url_name, p_folder, e_url_name, p_parent_url, e_id_video, e_display_name. Il dispose d'une première ligne reprenant les noms des colonnes et d'une deuxième ligne contenant uniquement « assets » dans les colonnes p_url_name et p_folder. • p_start est une date au format suivant : « 2014-05-12T12:00:00Z » • les urls sont cryptées • p_folder est un champ dont les valeurs possibles sont : chapter, course, discussion, vertical, problem, sequential et pour une ligne « MOOCAZS01_Trimestre_2_2014 » qui est probablement une erreur. • p_parent_url est vide la plupart du temps. => Le format CSV étant pris en charge par l'environnement UTL directement, il n'a pas été nécessaire de prétraiter ces données.

Format de la structure de cours (MOOCAZ V2)

Particularité par rapport à MOOCAZ V1, tous les chapitres ont la même date de démarrage et ils sont beaucoup plus nombreux. 

Description du modèle de données utilisé sur les données analysables (BD, XAPI, CSV, … )

Formats natifs des bases de données de edX. Les logs sont en JSON.

Description des données (contenu,taille, nombre d'enregistrements...) Q

Nombre d’individus statistiques (nombre de lignes) : entre 3000 et 5000

Nombre de logs : plusieurs dizaines de milliers à chaque session.

Nombre de variables : 8

Procédures légales relatives à l'utilisation des données Q

L'utilisation des données est encadrée par les accords que FUN fait signer à chaque laboratoire partenaire.

Pour cas d'étude - Propriété des données (nom, laboratoire ou entreprise propriétaire des données) Q

FUN est propriétaire des données, ENS Cachan destinataire

Description de la collecte des données

Historique sur la production des données (e.g. version, ...)

Contexte de production de données :

Champs complémentaires

Informations générales

Finalités de l'analyse Q

Analyse diachronique de l'activité des utilisateurs de MOOC. Classification d'apprenants sur la base de séquences d'action. Confrontation entre classifications issues de l'analyse de traces d'intereaction, de résultats d'enquête et d'analyses d'entretiens.

Il s’agit ici de reproduire sur des données de FUN des analyses réalisées dans le cadre d’autres MOOC, organisés sur Coursera (plus précisément sur le cours de programmation d'algorithems de Polytechnique), et dont les analyses sont accessibles dans Cisel (2016).

Responsable(s) de l'analyse (pre-traitement et traitement) Q

Matthieu Cisel, Mattias Mano, Sébastien Iksal, Serge Garlatti

Acteurs susceptibles d'être intéressés par l'analyse et pourquoi ?

Enseignant-concepteur, enseignant-accompagnateur, chercheur,responsable de formation, apprenant, institution.

Objectifs et attentes du scénario d’analyse selon les acteurs : Scénario 2 : identifier les types d'apprenants

  • Responsable de formation : gestion personnalisée des différents groupes d’apprenants, relance de décrocheurs, de personnes faiblement engagées, etc. Diminution du taux d’abandon en ciblant des catégories d’usagers particulières. En cours de reconception, mesure de l’usage différentiel des ressources selon les catégories d’apprenants.
  • Institution, décideur : communiquer de manière précise sur l’activité globale du MOOC, évaluer le retour sur investissement (non financier) du MOOC en mesurant les différentes, du point de vue de la communication.
  • Enseignant-accompagnateur : segmenter les différents types d'utilisateurs pour pouvoir éventuellement suivre des stratégies différentes selon les groupes (relances ciblées, etc).
  • Chercheur : Faire le lien entre catégories d'utilisateurs sur le plan des learning analytics et des variables autodéclarées (signalétique sociologiques, motivations et intentions déclarées). Apprenant : être capable de se positionner vis-à-vis des autres inscrits (éventuellement dans une logique de gamification).

Etat d'avancement du scénario d'analyse (e.g.pré-traitement, traitement, tableaux de bords, ...)

Pré-traitement et traitement terminés. 

Date ou période de l'analyse

Période de la collecte : 05/2014-11/2014 

Période de l'analyse : 01/2016 - 06/2016

Comment la dimension éthique de l'analyse a-t-elle été prise en compte ?

Anonymisation des données

Pré-traitement des données

Description globale des pre-traitements

Objectifs des pré-traitements : Permettre l’analyse des données brutes par les outils UTL ou R.

Deux méthodes ont été employées, seule la dernière ayant été retenue. Les logs sont composés d’une mélange de JSON et d’autres formats de données. L’objet du pré-traitement est de décomposer les logs de sorte a ce que ces différents éléments constitutifs (nature de l’action réalisée, horodatage, etc.) soient compris dans des colonnes distinctes. En première approche, une moulinette en Python mise en place par Tony décompose l’ensemble des événements de la partie GET ou POST en une série de colonne. Cela permettait de transformer un fichier de logs qui se présente comme un mélange de JSON et de formats natifs en une matrice CSV plus facilement analysable. Cette approche n'a pas été retenue.

  • Transformation privilégiant les attributs (variables) pour lesquels les données étaient régulièrement fournies et un attribut « vrac » pour les informations rarement fournies : objectif, avoir une table avec un nombre raisonnable d’attributs (variables) 
  • Transformation conservant toutes les colonnes, même si la plupart seront quasi vides Dans les deux cas, les transformations ont été de plusieurs types :
    • Réduction de la taille (de l’ordre du Go ou plus de données) à un taille compatible avec l’utilisation actuelle d’UnderTracks (de l’ordre de qlq dizaines de Mo). La sauvegarde de l’ensemble des données est possible, mais n’a pas été effectué à ce jour (prévu pour bientôt). o
    • Transformation du JSON en CSV o Validation/Modification du CSV pour vérifier que le nombre de colonne est constant, que le csv est « simple », que le codage des caractères est en UTF8.

Plateformes ou logiciels pour pre-traiter les données

Pour le MOOCAZ, l’analyse a été réalisée par la plate-forme UTL. R, UTL, divers éditeurs de texte/code acceptant les « gros fichiers », commandes shell unix, excel.

Traitement des données

Description globale des traitements mis en place (e.g. faire une liste des méthodes utilisées)

  • Agrégation des actions réalisées et construction de variables nouvelles (construction d'une séquence d'états pour chaque utilisateur)
  • Représentation graphique de la séquence d'états, et de la proportion relative des différents états
  • Classification des apprenants sur la base de la séquence d'actions qu'ils ont réalisée

Description des variables utilisées en entrée pour le traitement (e.g. nom, contenu, modalités)

  • user_id (identifier l'utilisateur)
  • event_type (différents événements liés aux vidéos, aux QCM, etc.) :
    • play_video (lancer une vidéo)
    • problem_graded (soumettre un exercice automatisé)
    • openassessmentblock.peer_assess (soumettre un devoir évalué par les pairs)
  • item_id (permet d'identifier l'item sur lequel l'action est réalisée)

Le détail des événements et leur signification est donné dans la documentation d'edX : http://edx.readthedocs.io/projects/devdata/en/stable/internal_data_formats/tracking_logs.html#reviewing-a-sample-event

Champs complémentaires

Informations générales

Description des résultats de l'analyse Q

Ce graphique permet de visualiser l’évolution d’états (Viewer , Collector, etc.) pour chacun des individus ayant  été  actifs  au  moins  une  fois  durant  les  neuf  semaines  de  cours.  Chaque  ligne correspond à un participant dont nous pouvons suivre l’évolution de la première semaine à gauche à la dernière à droite.

Le  nombre  d’individus  actifs  toutes  les  semaines  est  faible. Chaque  semaine semble  apporter  son  lot  de  nouveaux  inscrits  qui  vont  majoritairement  regarder  ou télécharger  les  vidéos,  voir  faire  les  quiz.

Une partie d’entre eux restent adoptent le même mode de suivi sur l’ensemble des semaines, notamment le mode Collector (téléchargement de vidéos), mais les changements de mode de suivi correspondent au cas le plus courant. Pour  valider  notre  classification,  nous appliquons  un  algorithme  de  clustering  prenant  en  compte  la  probabilité  de  passage  d’un état  à  un  autre  sur  deux  semaines  consécutives.  L’algorithme  détermine  que  deux découpages sont pertinents : le premier en quatre classes, le second en six. Étudions ces différentes répartitions. La classification en quatre classes nous permet d’avoir une première idée de division. Le type 1 correspond aux individus parcourant peu le cours : ils s’attardent rarement au-delà de la première moitié du cours et effectuent principalement du visionnage de vidéos.

Les types 2 et 3 représentent les individus les plus actifs du MOOC, regardant les vidéos mais répondant aussi aux quiz et rendant les devoirs. Cependant, le type 2 réunit clairement les mode de suivis Completer avec les Active Viewer, alors que les individus du type 3 sont un peu moins actifs (mode de suivis  Viewer et Solver principalement). Enfin, le type 4 regroupe principalement ceux qui vont venir chaque semaine pour télécharger les vidéos.

Type de résultats produits (modèle, indicateur, algo, … ) Q

1. Catégorisation en fonction de l’activité : tableau avec les effectifs des différentes catégories d’apprenants.

2. Sur la base de cette catégorisation, construction d’indicateurs comme les proportions des différentes catégories d’apprenants, et le ratio entre certaines catégories (exemple: ratio certifié/auditeur).

3. Algorithme de classification des apprenants

Visualisation :

  • Enseignant : tableau de bord réunissant les différents indicateurs d’intérêt.
  • Apprenant : indicateur pop-up
  • Institution : tableau de bord

En quoi les résultats sont ils acceptables d'un point de vue éthique ? ou quels sont les problèmes éthiques perçus ?

Tant que les données sont anonymisées, nous ne voyons pas de problèmes éthiques associés à cette analyse. Nous nous inscrivons dans un contexte d'éducation non-formelle, où les résultats issus des analyses des données ne sont pas susceptibles d'influer sur le cours de la formation, ni même d'être pris en compte pendant la durée de la formation ou pour des formations ultérieures.

Détails

Descriptions des visualisations

Indicator

Dimension éthique des indicateurs Q

Pas de problème éthique particulier à condition qu'il n'y ait pas de déanonymisation

Nom de l'indicateur

1) I_LearnersClassification 2) I_DetailedClassification

Description de l'indicateur

1) Indicateur permettant d'obtenir pour chaque chapitre le pourcentage et le nombre d'apprenants dans chaque catégorie. 2) Indicateur permettant d'obtenir les triplets (apprenant, chapitre, état) afin d’afficher les parcours.

Quels acteurs peuvent être intéressés par ces indicateurs ?

Enseignant, décideur, apprenant

Tableaux de bords

Description des aspects éthiques

Description de toutes informations éthiques ou juridiques sur l'étude de cas, les analyses et les données

Le contenu produit par les internautes est sous Licence restrictive. La production relève de la propriété intellectuelle des auteurs et ne peut donc pas être réutilisée, sauf si l'auteur décide lui-même d'associer, en l'indiquant explicitement, une licence libre sur sa production.

Autres informations

Le seul risque que présente l’étude est l’atteinte à la vie privée qui résulterait d’un problème d’anonymisation des traces d’activité. Il serait alors possible de déterminer avec précision sur quels intervalles de temps un individu donné s’est consacré à la formation depuis la plate-forme qui l’héberge. Le deuxième risque réside dans les problèmes d’anonymisation des questionnaires remplis par les participants, qui dévoilerait des informations relatives à leurs variables sociodémographiques, dont notamment le secteur d’activité ou l’emploi occupé. Pour limiter ce risque, les plates-formes qui transmettent les données concernées se voient demander d’anonymiser au préalable toute donnée transmise. Si par accident une telle donnée n’était pas anonymisée, le chercheur se doit de réaliser le processus d’anonymisation lui-même, avant toute manipulation des jeux de données, puis de détruire le fichier contenant les données non anonymisées.

Comment la dimension éthique de l'étude a-t-elle été prise en compte ? Q

1. Autorisation traces numériques 2. Anonymisation des données 3. Charte

Description de toutes informations éthiques ou juridiques sur l'étude de cas, les analyses et les données

Le contenu produit par les internautes est sous Licence restrictive. La production relève de la propriété intellectuelle des auteurs et ne peut donc pas être réutilisée, sauf si l'auteur décide lui-même d'associer, en l'indiquant explicitement, une licence libre sur sa production.

Quels problèmes éthiques peuvent se poser avec cette problématique ? ( e.g. accès à des données individuelles, ...) Q

Accès à des données individuelles

Procédures légales relatives à l'utilisation des données Q

L'utilisation des données est encadrée par les accords que FUN fait signer à chaque laboratoire partenaire.

Comment la dimension éthique de l'analyse a-t-elle été prise en compte ?

Anonymisation des données

Etat d'avancement du scénario d'analyse (e.g.pré-traitement, traitement, tableaux de bords, ...)

Pré-traitement et traitement terminés. 

En quoi les résultats sont ils acceptables d'un point de vue éthique ? ou quels sont les problèmes éthiques perçus ?

Tant que les données sont anonymisées, nous ne voyons pas de problèmes éthiques associés à cette analyse. Nous nous inscrivons dans un contexte d'éducation non-formelle, où les résultats issus des analyses des données ne sont pas susceptibles d'influer sur le cours de la formation, ni même d'être pris en compte pendant la durée de la formation ou pour des formations ultérieures.

Dimension éthique des indicateurs Q

Pas de problème éthique particulier à condition qu'il n'y ait pas de déanonymisation