Cas d'étude

Open Class Room
Antoine Pigeau
16 oct. 2017
26 oct. 2018
Open Class Room
Recherche - Enseignement supérieur
Environnement Informatique pour l’Apprentissage Humain

Scénario d'analyse: Identifier des types d'apprenants Export

Note d'utilité de l'étude
Clareté de l'étude
Je peux réutiliser l'étude
Noter

Champs obligatoires

Nom de l'étude Q

Open Class Room

Description de l'étude Q

Création de profil des utilisateurs du site web Open Class Room et prédiction de performance des utilisateurs

Nom de l'auteur de l'analyse Q

Antoine  Pigeau

Comment la dimension éthique de l'étude a-t-elle été prise en compte ? Q

Les données fournies sont anonymisées.

Nom et contact des personnes qui peuvent donner des informations sur les données Q

Yannick Prié, Yannick.prie@univ-nantes.fr Antoine Pigeau, antoine.pigeau@univ-nantes.fr

Nom du partenaire de l'étude du cas Q

Open Class Room

Pour Cas d'étude - Types de méthodes et approches pédagogiques

La première partie du projet a consisté à étudier les données Open Class Room afin d'en extraire des profiles utilisateurs.

La deuxième partie a consisté à fournir des outils de prédiction de performance des utilisateurs.

Domaine d'enseignement (mathématiques, physique, litterature, ... Q

Environnement Informatique pour l’Apprentissage Humain

Champs complémentaires

Types de ressources non numériques proposées aux étudiants (Podcast, QCM, texte, etc.)

Antoine  Pigeau

/ 12 cours en ligne

Volume horaire de la formation (Nombre de sessions, Durée globale de la formation, nombre d'heures, de séances, ...) Q

la durée d'enregistrement s'étale de 2014 à 2016

Types de ressources numériques mises à disposition des élèves

Les cours sont composés de page HTML et d'exercices.

Nombre d'élèves ou d'étudiants Q

le nombre d'étudiants varient entre 10 000 et quelques centaines suivant les cours

Nombre d'enseignants

aucune trace d'enseignant n'est fournie

Fichiers associés

Champs obligatoires

Description de la problématique Q

Les problématiques du projet sont les suivantes :

1. comment détecter en début de cours qu’un utilisateur risque d’échouer ?

2. quels sont les processus d’apprentissages courants pour un cours donné ?

3. quelles sont les caractéristiques liées aux processus des apprenants ayant réussis le cours ?

4. quels modèles permettent une bonne qualité des prédictions des performances des étudiants ?

Date de création de la problématique Q

Définition de la problématique en avril 2016

Description des questions de recherche Q

Analyser les méthodes de parcours d'un cours en ligne Open Class Room, afin de déterminer les profils des différents types d'apprenants.

Prédiction des performances des étudiants à l'aide d'approches basées séquence et de méthodes de classification.

Considérations méthodologiques

Quels problèmes éthiques peuvent se poser avec cette problématique ? ( e.g. accès à des données individuelles, ...) Q

A partir des données fournies par Open Class Room, un risque est de pouvoir identifier un utilisateur. Les traces de connexion et quelques informations personnelles sont incluses dans les données d'entrées.

Réferences sur des problématiques proches Q

Détection d'echec/abandon dans les cours en ligne (Dropout detection in MOOC)

Prédiction de performance sur des cours en ligne.

Cadre théorique concerné Q

Cette recherche porte sur le domaine du Learning Analytics.

Champs complémentaires

Description des données

Localisation des données Q

Les données sont stockées sur les ordinateurs personnels des chercheurs.

Description de la structure physique de stockage des données (e.g. structure en forme de répertoire, base de données , fichiers CSV, ... ) Q

Fichiers CSV

Description du modèle de données utilisé sur les données analysables (BD, XAPI, CSV, … )

Base de données SQLITE et data frame Pandas.

Description des données (contenu,taille, nombre d'enregistrements...) Q

Les données ont été fournies par Open Class Room :

- 12 cours en ligne

- la forme des données est un click stream des utilisateurs

- la durée d'enregistrement s'étale de 2014 à 2016

- le nombre d'étudiants varient entre 10 000 et quelques centaines suivant les cours

- aucune trace d'enseignant n'est fournie

Les cours sont composés de page HTML et d'exercices.

Procédures légales relatives à l'utilisation des données Q

Les données sont confidentielles et ne peuvent être partagées sans le consentement d'Open Class Room.

Pour cas d'étude - Propriété des données (nom, laboratoire ou entreprise propriétaire des données) Q

Les données appartiennent à l'entreprise Open Class Room.

Description de la collecte des données

Historique sur la production des données (e.g. version, ...)

4 versions ont été fournies.

Description du mode de collecte des données (écologique, expérimentale, … )

Les données ont été collectées à partir des logs des utilisateurs.

Champs complémentaires

Informations générales

Finalités de l'analyse Q

Création de profils utilisateurs et prédiction de performance des étudiants.

Responsable(s) de l'analyse (pre-traitement et traitement) Q

Antoine Pigeau, antoine.pigeau@univ-nantes.fr

Acteurs susceptibles d'être intéressés par l'analyse et pourquoi ?

Les enseignants ont un retour sur les types d'apprenants suivants leur cours. Les profils des étudiants leur permettent d'adapter le contenu de leur cours. Les étudiants ont un retour sur leur "chance" à réussir le cours en fonction du profil déterminé via leur log.

Etat d'avancement du scénario d'analyse (e.g.pré-traitement, traitement, tableaux de bords, ...)

Les indicateurs ont été extraits des traces des utilisateurs. Pour chaque groupe d'utilisateur, les caractéristiques ont été affichées via un boxplot afin de déterminer les différences de comportements.

Date ou période de l'analyse

Année 2016-2018

Objectifs de l'analyse pour le "learning analytics" Q

Création de profil utilisateur et prédiction des performances des étudiants.

Comment la dimension éthique de l'analyse a-t-elle été prise en compte ?

Les données sont anonymisées et non distribués librement. Les données personnelles ne sont pas actuellement utilisées pour l'analyse.

Pré-traitement des données

Description globale des pre-traitements

Nettoyage des données :

1. suppression des logs non conforme à la structure des cours fournis

2. obtention des sessions des utilisateurs

3. mise à jour des durées d'accès via des valeurs moyennes pour les différents événements de chaque session

Plateformes ou logiciels pour pre-traiter les données

Sqlite pour le stockage + Python pour les traitements

Description du nettoyage des données

Les traces obtenues sont des anciennes structures de cours ont été supprimées.

description de l'enrichissement des données, (e.g. création de nouvelle variables )

Les sessions ont été calculées sur les traces brutes et 26 indicateurs ont été calculés pour produire les entrées de nos modèles de classification.

Description des problèmes rencontrés lors des pré-traitements

Les durées des derniers événements de fin de session ont été extrapolées.

Traitement des données

Description globale des traitements mis en place (e.g. faire une liste des méthodes utilisées)

Méthodes / algorithmes appliqués :

1. Pattern/Sequence mining: trouver les pattern ou séquence fréquente dans les traces. 

2. Classification/Clustering: classification des pattern ou séquences obtenues à l’aide de méthode de supervisée (SVM,...) ou non-supervisée

3. Process Mining: application de méthodes pour construire un modèle de processus des utilisateurs sur un cours donné

Description des variables utilisées en entrée pour le traitement (e.g. nom, contenu, modalités)

Les logs des utilisateurs sont les données d'entrées.

Champs complémentaires

Informations générales

Description des résultats de l'analyse Q

La première partie du projet a consisté à étudier les données Open Class Room pour la création de profil utilisateur :

1. une analyse visuelle des indicateurs sur différents profils d'apprenants (abandon, premium/non premium, succès/échec, …) ;

2. une analyse séquentielle des données, basée sur des approches de pattern mining et de process mining, l'objectif étant de rechercher des éventuelles différences sur la manière dont les apprenants parcourent un cours.

La deuxième partie du projet s'est focalisée sur des aspects de classification. L'objectif a été de déterminer une méthode de prédiction d'échec des apprenants. Les étapes de cette partie sont :

1. la mise en place de scripts d'apprentissages sur différents modèles.

2. le calcul des données d'entrées suivant plusieurs modalités : indicateurs non temporelles et temporelles, séquence de valeurs numériques et catégoriques


 

Type de résultats produits (modèle, indicateur, algo, … ) Q

Pour la partie profil utilisateur, nous avons généré :

1. des visualisations des indicateurs

2. des ensembles de pattern pour chaque groupe d'utilisateurs

Pour la partie prédiction des performances, les modèles suivant ont été générés :

1.  régression logistique

2. support vector machine

3. Adaboost

4. réseaux de neurones denses

5. réseaux de neurones récurrents

En quoi les résultats sont ils acceptables d'un point de vue éthique ? ou quels sont les problèmes éthiques perçus ?

Le modèle ne contient pas de données personnelles.

Détails

Résultats détaillés Q

une analyse séquentielle des données, basée sur des approches de pattern mining et de process mining, l'objectif étant de rechercher des éventuelles différences sur la manière dont les apprenants parcourent un cours. / la mise en place de scripts d'apprentissages sur différents modèles. Les modèles de régression logistique, Support Vector Machine, Adaboost, réseaux de neurones denses et réseaux de neurones récurrents ont été comparés ;

Descriptions des visualisations

une analyse visuelle des indicateurs sur différents profils d'apprenants (abandon, premium/non premium, succès/échec, …) ;

Indicator

Plateformes pour créer les indicateurs (nom et liens)

Les indicateurs ont été créés via un projet Python disponible sur le Gitlab de l'université de Nantes.

Dimension éthique des indicateurs Q

Les indicateurs ne semblent pas permettrent d'indentifier les utilisateurs et ne portent pas sur des données personnels. Ils sont obtenus à partir des traces seuls des utilisateurs.

Nom de l'indicateur

26 indicateurs ont été calculés.

Description de l'indicateur

Quels acteurs peuvent être intéressés par ces indicateurs ?

Nombre de dimensions

Type de valeurs (continue, discrete)

Sémantique de l'information contenue dans les traces nécessaire au calcul

Date de validité

Mode de calcul (temps réel, post session)

Décisions associées à l'indicateur

Autres informations

Tableaux de bords

decription du contenu des tableaux de bords

Aucun tableau de bord n'a été produit sur la phase de la prédiction de la performance des utilisateurs.

Description des aspects éthiques

Comment la dimension éthique de l'étude a-t-elle été prise en compte ? Q

Les données fournies sont anonymisées.

En quoi les résultats sont ils acceptables d'un point de vue éthique ? ou quels sont les problèmes éthiques perçus ?

Le modèle ne contient pas de données personnelles.

Dimension éthique des indicateurs Q

Les indicateurs ne semblent pas permettrent d'indentifier les utilisateurs et ne portent pas sur des données personnels. Ils sont obtenus à partir des traces seuls des utilisateurs.

Comment la dimension éthique de l'analyse a-t-elle été prise en compte ?

Les données sont anonymisées et non distribués librement. Les données personnelles ne sont pas actuellement utilisées pour l'analyse.

Etat d'avancement du scénario d'analyse (e.g.pré-traitement, traitement, tableaux de bords, ...)

Les indicateurs ont été extraits des traces des utilisateurs. Pour chaque groupe d'utilisateur, les caractéristiques ont été affichées via un boxplot afin de déterminer les différences de comportements.

Quels problèmes éthiques peuvent se poser avec cette problématique ? ( e.g. accès à des données individuelles, ...) Q

A partir des données fournies par Open Class Room, un risque est de pouvoir identifier un utilisateur. Les traces de connexion et quelques informations personnelles sont incluses dans les données d'entrées.

Procédures légales relatives à l'utilisation des données Q

Les données sont confidentielles et ne peuvent être partagées sans le consentement d'Open Class Room.