Study case

Open Class Room
Antoine Pigeau
Oct 16, 2017
Oct 26, 2018
Open Class Room
Recherche - Enseignement supérieur
Environnement Informatique pour l’Apprentissage Humain

Analysis scenario: Identifier des types d'apprenants Export

Study usefull grade
Study clarity grade
I can reuse this study
Noter

Mandatory fields

Name of study Q

Open Class Room

Description of study Q

Création de profil des utilisateurs du site web Open Class Room et prédiction de performance des utilisateurs

Name of the author of the study Q

Antoine  Pigeau

How has the ethical dimension been taken into account? (Discussion, ethics committee, ...) ? Q

Les données fournies sont anonymisées.

Name and contact of person which can give informations about data Q

Yannick Prié, Yannick.prie@univ-nantes.fr Antoine Pigeau, antoine.pigeau@univ-nantes.fr

Pour cas d'étude > à fusionner avec "Nom du(es) producteurs" Q

Open Class Room

Pour Cas d'étude - Types of methods and pedagogical approaches

La première partie du projet a consisté à étudier les données Open Class Room afin d'en extraire des profiles utilisateurs.

La deuxième partie a consisté à fournir des outils de prédiction de performance des utilisateurs.

Pour cas d'étude - Fields of education (mathematic, physics, litterature, ...) Q

Environnement Informatique pour l’Apprentissage Humain

Additional Fields

Types of non-numerical resources available to students (Podcast, MCQ, text, etc.)

Antoine  Pigeau

/ 12 cours en ligne

Number of hours of training (number of sessions, total duration of training, number of hours, sessions, ...) Q

la durée d'enregistrement s'étale de 2014 à 2016

Types of numerical resources available to students (Podcast, MCQ, text, etc.)

Les cours sont composés de page HTML et d'exercices.

Number of students Q

le nombre d'étudiants varient entre 10 000 et quelques centaines suivant les cours

Number of tutors

aucune trace d'enseignant n'est fournie

Files

Mandatory fields

Problematic description Q

Les problématiques du projet sont les suivantes :

1. comment détecter en début de cours qu’un utilisateur risque d’échouer ?

2. quels sont les processus d’apprentissages courants pour un cours donné ?

3. quelles sont les caractéristiques liées aux processus des apprenants ayant réussis le cours ?

4. quels modèles permettent une bonne qualité des prédictions des performances des étudiants ?

Creation date of problematic Q

Définition de la problématique en avril 2016

Description of research questions Q

Analyser les méthodes de parcours d'un cours en ligne Open Class Room, afin de déterminer les profils des différents types d'apprenants.

Prédiction des performances des étudiants à l'aide d'approches basées séquence et de méthodes de classification.

Methodological considerations

What ethical problems can encountered with this problematic? (E.g. access to individual data, ...) Q

A partir des données fournies par Open Class Room, un risque est de pouvoir identifier un utilisateur. Les traces de connexion et quelques informations personnelles sont incluses dans les données d'entrées.

References about related problematics Q

Détection d'echec/abandon dans les cours en ligne (Dropout detection in MOOC)

Prédiction de performance sur des cours en ligne.

Theoretical framework used Q

Cette recherche porte sur le domaine du Learning Analytics.

Additional fields

Description of data

Data location Q

Les données sont stockées sur les ordinateurs personnels des chercheurs.

Description of the storage format of data (files, data base, ... ) Q

Fichiers CSV

Description of data model used to describe analyzable data (e.g. BD, XAPI, CSV, … )

Base de données SQLITE et data frame Pandas.

Data description (e.g. contents, size, number of records, ...) Q

Les données ont été fournies par Open Class Room :

- 12 cours en ligne

- la forme des données est un click stream des utilisateurs

- la durée d'enregistrement s'étale de 2014 à 2016

- le nombre d'étudiants varient entre 10 000 et quelques centaines suivant les cours

- aucune trace d'enseignant n'est fournie

Les cours sont composés de page HTML et d'exercices.

Legal proceedings regarding the use of data Q

Les données sont confidentielles et ne peuvent être partagées sans le consentement d'Open Class Room.

Pour cas d'étude - Data properties (name, labs, universities, companies, ...) Q

Les données appartiennent à l'entreprise Open Class Room.

Description of data collect

Story of data production (e.g. version, ...)

4 versions ont été fournies.

Description of data collect method (empirical, ecological, ... )

Les données ont été collectées à partir des logs des utilisateurs.

Additional fields

General Information

Purposes of analysis Q

Création de profils utilisateurs et prédiction de performance des étudiants.

Person(s) in charge of the analysis (pre-processing and processing) Q

Antoine Pigeau, antoine.pigeau@univ-nantes.fr

Which actors would be interested in the analysis and why?

Les enseignants ont un retour sur les types d'apprenants suivants leur cours. Les profils des étudiants leur permettent d'adapter le contenu de leur cours. Les étudiants ont un retour sur leur "chance" à réussir le cours en fonction du profil déterminé via leur log.

State of progress of the analysis scenario (e.g. pre-processing, processing, dashboards, ...)

Les indicateurs ont été extraits des traces des utilisateurs. Pour chaque groupe d'utilisateur, les caractéristiques ont été affichées via un boxplot afin de déterminer les différences de comportements.

Date or period of the analysis

Année 2016-2018

Description of learning analytics goals Q

Création de profil utilisateur et prédiction des performances des étudiants.

How has the ethical dimension of the analysis been taken into account?

Les données sont anonymisées et non distribués librement. Les données personnelles ne sont pas actuellement utilisées pour l'analyse.

Pre-processing of data

Global description of pre-processing

Nettoyage des données :

1. suppression des logs non conforme à la structure des cours fournis

2. obtention des sessions des utilisateurs

3. mise à jour des durées d'accès via des valeurs moyennes pour les différents événements de chaque session

Plateforms or softwares to pre-process data

Sqlite pour le stockage + Python pour les traitements

Description of data cleaning

Les traces obtenues sont des anciennes structures de cours ont été supprimées.

Description of data enhancement, (e.g. create new variables, modify variables, ..)

Les sessions ont été calculées sur les traces brutes et 26 indicateurs ont été calculés pour produire les entrées de nos modèles de classification.

Description of the problems encountered during pre-processing

Les durées des derniers événements de fin de session ont été extrapolées.

Treatments of data

Overall description of the treatments used (e.g. make a list of the methods used)

Méthodes / algorithmes appliqués :

1. Pattern/Sequence mining: trouver les pattern ou séquence fréquente dans les traces. 

2. Classification/Clustering: classification des pattern ou séquences obtenues à l’aide de méthode de supervisée (SVM,...) ou non-supervisée

3. Process Mining: application de méthodes pour construire un modèle de processus des utilisateurs sur un cours donné

Description of variables used as input for processing (e.g. name, content, modalities)

Les logs des utilisateurs sont les données d'entrées.

Additional fields

General information

Description of analysis results Q

La première partie du projet a consisté à étudier les données Open Class Room pour la création de profil utilisateur :

1. une analyse visuelle des indicateurs sur différents profils d'apprenants (abandon, premium/non premium, succès/échec, …) ;

2. une analyse séquentielle des données, basée sur des approches de pattern mining et de process mining, l'objectif étant de rechercher des éventuelles différences sur la manière dont les apprenants parcourent un cours.

La deuxième partie du projet s'est focalisée sur des aspects de classification. L'objectif a été de déterminer une méthode de prédiction d'échec des apprenants. Les étapes de cette partie sont :

1. la mise en place de scripts d'apprentissages sur différents modèles.

2. le calcul des données d'entrées suivant plusieurs modalités : indicateurs non temporelles et temporelles, séquence de valeurs numériques et catégoriques


 

Type of results produced (model, indicator, algorithms, ...) Q

Pour la partie profil utilisateur, nous avons généré :

1. des visualisations des indicateurs

2. des ensembles de pattern pour chaque groupe d'utilisateurs

Pour la partie prédiction des performances, les modèles suivant ont été générés :

1.  régression logistique

2. support vector machine

3. Adaboost

4. réseaux de neurones denses

5. réseaux de neurones récurrents

How are the results acceptable from an ethical point of view? Or what are the perceived ethical problems?

Le modèle ne contient pas de données personnelles.

Details

Results details Q

une analyse séquentielle des données, basée sur des approches de pattern mining et de process mining, l'objectif étant de rechercher des éventuelles différences sur la manière dont les apprenants parcourent un cours. / la mise en place de scripts d'apprentissages sur différents modèles. Les modèles de régression logistique, Support Vector Machine, Adaboost, réseaux de neurones denses et réseaux de neurones récurrents ont été comparés ;

Visualisation descriptions

une analyse visuelle des indicateurs sur différents profils d'apprenants (abandon, premium/non premium, succès/échec, …) ;

Indicator

Plateforms to create indicators (names and links )

Les indicateurs ont été créés via un projet Python disponible sur le Gitlab de l'université de Nantes.

Ethical dimension of indicators Q

Les indicateurs ne semblent pas permettrent d'indentifier les utilisateurs et ne portent pas sur des données personnels. Ils sont obtenus à partir des traces seuls des utilisateurs.

Indicator's names

26 indicateurs ont été calculés.

Indicators description

Which actor would be interested by the indicators ?

Number of dimensions

Value type (discrete, continue)

Semantics of the information contained in the traces necessary for processing

Validity date

Mode of processing (real time, delayed)

Decisions associated with the indicator

Other informations

Dashboards

Dashboards description of contents

Aucun tableau de bord n'a été produit sur la phase de la prédiction de la performance des utilisateurs.

Ethical Description

How has the ethical dimension been taken into account? (Discussion, ethics committee, ...) ? Q

Les données fournies sont anonymisées.

How are the results acceptable from an ethical point of view? Or what are the perceived ethical problems?

Le modèle ne contient pas de données personnelles.

Ethical dimension of indicators Q

Les indicateurs ne semblent pas permettrent d'indentifier les utilisateurs et ne portent pas sur des données personnels. Ils sont obtenus à partir des traces seuls des utilisateurs.

How has the ethical dimension of the analysis been taken into account?

Les données sont anonymisées et non distribués librement. Les données personnelles ne sont pas actuellement utilisées pour l'analyse.

State of progress of the analysis scenario (e.g. pre-processing, processing, dashboards, ...)

Les indicateurs ont été extraits des traces des utilisateurs. Pour chaque groupe d'utilisateur, les caractéristiques ont été affichées via un boxplot afin de déterminer les différences de comportements.

What ethical problems can encountered with this problematic? (E.g. access to individual data, ...) Q

A partir des données fournies par Open Class Room, un risque est de pouvoir identifier un utilisateur. Les traces de connexion et quelques informations personnelles sont incluses dans les données d'entrées.

Legal proceedings regarding the use of data Q

Les données sont confidentielles et ne peuvent être partagées sans le consentement d'Open Class Room.