Cas d'étude
Scénario d'analyse: Identifier des types d'apprenants Export
Champs obligatoires
Nom de l'étude Q
Open Class Room
Description de l'étude Q
Création de profil des utilisateurs du site web Open Class Room et prédiction de performance des utilisateurs
Nom de l'auteur de l'analyse Q
Antoine Pigeau
Comment la dimension éthique de l'étude a-t-elle été prise en compte ? Q
Les données fournies sont anonymisées.
Nom et contact des personnes qui peuvent donner des informations sur les données Q
Yannick Prié, Yannick.prie@univ-nantes.fr Antoine Pigeau, antoine.pigeau@univ-nantes.fr
Nom du partenaire de l'étude du cas Q
Open Class Room
Pour Cas d'étude - Types de méthodes et approches pédagogiques
La première partie du projet a consisté à étudier les données Open Class Room afin d'en extraire des profiles utilisateurs.
La deuxième partie a consisté à fournir des outils de prédiction de performance des utilisateurs.
Domaine d'enseignement (mathématiques, physique, litterature, ... Q
Environnement Informatique pour l’Apprentissage Humain
Champs complémentaires
Types de ressources non numériques proposées aux étudiants (Podcast, QCM, texte, etc.)
Antoine Pigeau
/ 12 cours en ligneVolume horaire de la formation (Nombre de sessions, Durée globale de la formation, nombre d'heures, de séances, ...) Q
la durée d'enregistrement s'étale de 2014 à 2016Types de ressources numériques mises à disposition des élèves
Les cours sont composés de page HTML et d'exercices.Nombre d'élèves ou d'étudiants Q
le nombre d'étudiants varient entre 10 000 et quelques centaines suivant les coursNombre d'enseignants
aucune trace d'enseignant n'est fournieFichiers associés
Champs obligatoires
Description de la problématique Q
Les problématiques du projet sont les suivantes :
1. comment détecter en début de cours qu’un utilisateur risque d’échouer ?
2. quels sont les processus d’apprentissages courants pour un cours donné ?
3. quelles sont les caractéristiques liées aux processus des apprenants ayant réussis le cours ?
4. quels modèles permettent une bonne qualité des prédictions des performances des étudiants ?
Date de création de la problématique Q
Définition de la problématique en avril 2016
Description des questions de recherche Q
Analyser les méthodes de parcours d'un cours en ligne Open Class Room, afin de déterminer les profils des différents types d'apprenants.
Prédiction des performances des étudiants à l'aide d'approches basées séquence et de méthodes de classification.
Considérations méthodologiques
Quels problèmes éthiques peuvent se poser avec cette problématique ? ( e.g. accès à des données individuelles, ...) Q
A partir des données fournies par Open Class Room, un risque est de pouvoir identifier un utilisateur. Les traces de connexion et quelques informations personnelles sont incluses dans les données d'entrées.
Réferences sur des problématiques proches Q
Détection d'echec/abandon dans les cours en ligne (Dropout detection in MOOC)
Prédiction de performance sur des cours en ligne.
Cadre théorique concerné Q
Cette recherche porte sur le domaine du Learning Analytics.
Champs complémentaires
Description des données
Localisation des données Q
Les données sont stockées sur les ordinateurs personnels des chercheurs.
Description de la structure physique de stockage des données (e.g. structure en forme de répertoire, base de données , fichiers CSV, ... ) Q
Fichiers CSV
Description du modèle de données utilisé sur les données analysables (BD, XAPI, CSV, … )
Base de données SQLITE et data frame Pandas.
Description des données (contenu,taille, nombre d'enregistrements...) Q
Les données ont été fournies par Open Class Room :
- 12 cours en ligne
- la forme des données est un click stream des utilisateurs
- la durée d'enregistrement s'étale de 2014 à 2016
- le nombre d'étudiants varient entre 10 000 et quelques centaines suivant les cours
- aucune trace d'enseignant n'est fournie
Les cours sont composés de page HTML et d'exercices.
Procédures légales relatives à l'utilisation des données Q
Les données sont confidentielles et ne peuvent être partagées sans le consentement d'Open Class Room.
Pour cas d'étude - Propriété des données (nom, laboratoire ou entreprise propriétaire des données) Q
Les données appartiennent à l'entreprise Open Class Room.
Description de la collecte des données
Historique sur la production des données (e.g. version, ...)
4 versions ont été fournies.Description du mode de collecte des données (écologique, expérimentale, … )
Les données ont été collectées à partir des logs des utilisateurs.Champs complémentaires
Informations générales
Finalités de l'analyse Q
Création de profils utilisateurs et prédiction de performance des étudiants.
Responsable(s) de l'analyse (pre-traitement et traitement) Q
Antoine Pigeau, antoine.pigeau@univ-nantes.fr
Acteurs susceptibles d'être intéressés par l'analyse et pourquoi ?
Les enseignants ont un retour sur les types d'apprenants suivants leur cours. Les profils des étudiants leur permettent d'adapter le contenu de leur cours. Les étudiants ont un retour sur leur "chance" à réussir le cours en fonction du profil déterminé via leur log.
Etat d'avancement du scénario d'analyse (e.g.pré-traitement, traitement, tableaux de bords, ...)
Les indicateurs ont été extraits des traces des utilisateurs. Pour chaque groupe d'utilisateur, les caractéristiques ont été affichées via un boxplot afin de déterminer les différences de comportements.
Date ou période de l'analyse
Année 2016-2018
Objectifs de l'analyse pour le "learning analytics" Q
Création de profil utilisateur et prédiction des performances des étudiants.
Comment la dimension éthique de l'analyse a-t-elle été prise en compte ?
Les données sont anonymisées et non distribués librement. Les données personnelles ne sont pas actuellement utilisées pour l'analyse.
Pré-traitement des données
Description globale des pre-traitements
Nettoyage des données :
1. suppression des logs non conforme à la structure des cours fournis
2. obtention des sessions des utilisateurs
3. mise à jour des durées d'accès via des valeurs moyennes pour les différents événements de chaque session
Plateformes ou logiciels pour pre-traiter les données
Sqlite pour le stockage + Python pour les traitements
Description du nettoyage des données
Les traces obtenues sont des anciennes structures de cours ont été supprimées.
description de l'enrichissement des données, (e.g. création de nouvelle variables )
Les sessions ont été calculées sur les traces brutes et 26 indicateurs ont été calculés pour produire les entrées de nos modèles de classification.
Description des problèmes rencontrés lors des pré-traitements
Les durées des derniers événements de fin de session ont été extrapolées.
Traitement des données
Description globale des traitements mis en place (e.g. faire une liste des méthodes utilisées)
Méthodes / algorithmes appliqués :
1. Pattern/Sequence mining: trouver les pattern ou séquence fréquente dans les traces.
2. Classification/Clustering: classification des pattern ou séquences obtenues à l’aide de méthode de supervisée (SVM,...) ou non-supervisée
3. Process Mining: application de méthodes pour construire un modèle de processus des utilisateurs sur un cours donné
Description des variables utilisées en entrée pour le traitement (e.g. nom, contenu, modalités)
Les logs des utilisateurs sont les données d'entrées.
Champs complémentaires
Informations générales
Description des résultats de l'analyse Q
La première partie du projet a consisté à étudier les données Open Class Room pour la création de profil utilisateur :
1. une analyse visuelle des indicateurs sur différents profils d'apprenants (abandon, premium/non premium, succès/échec, …) ;
2. une analyse séquentielle des données, basée sur des approches de pattern mining et de process mining, l'objectif étant de rechercher des éventuelles différences sur la manière dont les apprenants parcourent un cours.
La deuxième partie du projet s'est focalisée sur des aspects de classification. L'objectif a été de déterminer une méthode de prédiction d'échec des apprenants. Les étapes de cette partie sont :
1. la mise en place de scripts d'apprentissages sur différents modèles.
2. le calcul des données d'entrées suivant plusieurs modalités : indicateurs non temporelles et temporelles, séquence de valeurs numériques et catégoriques
Type de résultats produits (modèle, indicateur, algo, … ) Q
Pour la partie profil utilisateur, nous avons généré :
1. des visualisations des indicateurs
2. des ensembles de pattern pour chaque groupe d'utilisateurs
Pour la partie prédiction des performances, les modèles suivant ont été générés :
1. régression logistique
2. support vector machine
3. Adaboost
4. réseaux de neurones denses
5. réseaux de neurones récurrents
En quoi les résultats sont ils acceptables d'un point de vue éthique ? ou quels sont les problèmes éthiques perçus ?
Le modèle ne contient pas de données personnelles.
Détails
Résultats détaillés Q
une analyse séquentielle des données, basée sur des approches de pattern mining et de process mining, l'objectif étant de rechercher des éventuelles différences sur la manière dont les apprenants parcourent un cours. / la mise en place de scripts d'apprentissages sur différents modèles. Les modèles de régression logistique, Support Vector Machine, Adaboost, réseaux de neurones denses et réseaux de neurones récurrents ont été comparés ;Descriptions des visualisations
une analyse visuelle des indicateurs sur différents profils d'apprenants (abandon, premium/non premium, succès/échec, …) ;Indicator
Plateformes pour créer les indicateurs (nom et liens)
Les indicateurs ont été créés via un projet Python disponible sur le Gitlab de l'université de Nantes.
Dimension éthique des indicateurs Q
Les indicateurs ne semblent pas permettrent d'indentifier les utilisateurs et ne portent pas sur des données personnels. Ils sont obtenus à partir des traces seuls des utilisateurs.
Nom de l'indicateur
26 indicateurs ont été calculés.
Description de l'indicateur
Quels acteurs peuvent être intéressés par ces indicateurs ?
Nombre de dimensions
Type de valeurs (continue, discrete)
Sémantique de l'information contenue dans les traces nécessaire au calcul
Date de validité
Mode de calcul (temps réel, post session)
Décisions associées à l'indicateur
Autres informations
Tableaux de bords
decription du contenu des tableaux de bords
Aucun tableau de bord n'a été produit sur la phase de la prédiction de la performance des utilisateurs.
Description des aspects éthiques
Comment la dimension éthique de l'étude a-t-elle été prise en compte ? Q
Les données fournies sont anonymisées.
En quoi les résultats sont ils acceptables d'un point de vue éthique ? ou quels sont les problèmes éthiques perçus ?
Le modèle ne contient pas de données personnelles.
Dimension éthique des indicateurs Q
Les indicateurs ne semblent pas permettrent d'indentifier les utilisateurs et ne portent pas sur des données personnels. Ils sont obtenus à partir des traces seuls des utilisateurs.
Comment la dimension éthique de l'analyse a-t-elle été prise en compte ?
Les données sont anonymisées et non distribués librement. Les données personnelles ne sont pas actuellement utilisées pour l'analyse.
Etat d'avancement du scénario d'analyse (e.g.pré-traitement, traitement, tableaux de bords, ...)
Les indicateurs ont été extraits des traces des utilisateurs. Pour chaque groupe d'utilisateur, les caractéristiques ont été affichées via un boxplot afin de déterminer les différences de comportements.
Quels problèmes éthiques peuvent se poser avec cette problématique ? ( e.g. accès à des données individuelles, ...) Q
A partir des données fournies par Open Class Room, un risque est de pouvoir identifier un utilisateur. Les traces de connexion et quelques informations personnelles sont incluses dans les données d'entrées.
Procédures légales relatives à l'utilisation des données Q
Les données sont confidentielles et ne peuvent être partagées sans le consentement d'Open Class Room.