Projet Hubble

Study case

Name

Short description

Etude des méthodes pédagogiques d'enseignement et d'apprentissage dans les études de médecine en PACES (Première Année Commune des Etudes de Santé)

Owner

Vanda Luengo

Created at

Aug 22, 2017

Updated at

Oct 26, 2018

Produceur(s) name(s)

Pierre Gillois, équipe Themas, TIMC.Grenoble.

Level of education

BAC + 1. Filière de préparation après BAC

Data properties (name, labs, universities, companies, ...)

Laboratoire TIMC-IMAG

Fields of education (mathematic, physics, litterature, ...)

Les matières de la Première Année Commune des Etudes de Santé (PACES) (Biologie, Chimie, Math, ... )

Study

Result

Problematic

Ethics

Analyse

Data

Analysis scenario: Identifier les profils des apprenants à partir de leurs questions Export

Study usefull grade

Study clarity grade

I can reuse this study

Noter

Study

40%

Mandatory fields

Name of study Q

PACES

Description of study Q

Analyse des données numériques d'apprentissage pour étudier les méthodes pédagogiques d'enseignement et d'apprentissage dans le cadre des études de médecine en PACES (Première Année Commune aux Etudes de Santé).

Pour cas d'étude > à fusionner avec "Nom du(es) producteurs" Q

Vanda Luengo, Fatima Harrak, François Bouchet et Pierre Gillois

Pour cas d'étude - Fields of education (mathematic, physics, litterature, ...) Q

Les matières de la Première Année Commune des Etudes de Santé (PACES) (Biologie, Chimie, Math, ... )

Additional Fields

Files

Problematic

67%

Mandatory fields

Problematic description Q

Définir une taxonomie de questions pour analyser les questions des étudiants dans le but d'aider l'enseignant à adapter son cours lors des séances SEPI d'une part. D'autre part, trouver le lien entre les questions posées par un étudiant et sa performance.

Creation date of problematic Q

2015

Description of research questions Q

L'objet de cette recherche est d'identifier les profils des étudiants à partir de leurs questions. Questions de recherche détaillées : 1) Peut-on définir une taxonomie de questions pertinentes pour analyser les questions des étudiants ? 2) Peut-on automatiser l'identification de ces questions ? 3) Les questions posées par un étudiant peuvent-elles nous informer sur son profil ? En d’autres termes, existe-t-il des corrélations entre la nature des questions posées et la performance ?

Methodological considerations

What ethical problems can encountered with this problematic? (E.g. access to individual data, ...) Q

accès à des données individuelles

Additional fields

Data

80%

Description of data

Data location Q

Undertracks et ordinateurs personnels

Description of the storage format of data (files, data base, ... ) Q

Fichiers CSV

Data description (e.g. contents, size, number of records, ...) Q

Données 2011-2012 : -Données d'apprentissage : QCM entrainement PACES, notes évaluations semestre 1 et 2, absence, redoublement. -Des traces textuelles : les questions formulées par écrit par les étudiants sur la plateforme en ligne, nombre de votes reçus pour chaque question.

Pour cas d'étude - Data properties (name, labs, universities, companies, ...) Q

Laboratoire TIMC-IMAG

Description of data collect

Story of data production (e.g. version, ...)

une prémière version 2011-2012 puis ensuite 2012-2018

Description of data collect method (empirical, ecological, ... )

venant de la plateforme d'apprentissage

Additional fields

Analyse

100%

General Information

Purposes of analysis Q

Aider l'enseignant à adapter son cours et organiser les questions qu'ils doivent répondre chaque semaine lors de séance SEPI. Ainsi s'assurer que les enseignants répondent non seulement aux questions précises posées par les « bons » étudiants, mais aussi à ceux posées par d'autres catégories d'étudiants.

Person(s) in charge of the analysis (pre-processing and processing) Q

Fatima Harrak, François Bouchet, Vanda Luengo

Which actors would be interested in the analysis and why?

Enseignant : pour adapter son cours. Chercheur : pour identifier le profil d'un apprenant à partir des questions qu'ils pose. Concepteur/ enseignant : pour appliquer la taxonomie développée dans un autre contexte que PACES tels MOOCs

State of progress of the analysis scenario (e.g. pre-processing, processing, dashboards, ...)

Résultats

Date or period of the analysis

2016-2017

Description of learning analytics goals Q

Outiller l'enseignant pour extraire à partir des questions un profil d'apprenant.

La réutilisabilité de la taxonomie dans d'autres contextes (indépendante du domaine)

How has the ethical dimension of the analysis been taken into account?

Anonymisation des données

Pre-processing of data

Global description of pre-processing

Nous avons suivi une approche bottom-up en considérant un échantillon de 600 questions (environ 10% de la taille du corpus) de deux cours (BCH et HBDD. Cet échantillon a été divisé aléatoirement en 3 sous-échantillons de 200 questions pour appliquer 3 étapes de catégorisation différentes : une étape de découverte, une étape de consolidation et une étape de validation.
L'étape de découverte a consisté à regrouper des phrases avec des similitudes pour extraire des concepts significatifs. Ensuite, nous avons segmenté les questions combinées pour normaliser l'annotation précédente. En effet, bien que les étudiants doivent normalement poser une question simple (c.-à-d. centrée sur un seul sujet, pour éviter des questions telles que « Pourriez-vous réexpliquer X ? Aussi, Y n'était pas clair »), nous avons constaté dans 40% des cas qu'un sous-ensemble des questions pouvaient être divisées en deux questions assez indépendantes. Nous définissons une question comme « simple » si elle a une valeur unique dans chaque dimension ; Sinon, elle est considérée comme une question combinée ou mixte et doit être segmentée. Une dimension est un ensemble de catégories qui regrouppent des concepts similaires.
L'étape de consolidation a consisté à annoter le deuxième sous-échantillon pour valider les dimensions préalablement définies. Cela nous a amené à apporter plusieurs rectifications aux dimensions pour s'assurer qu’elles étaient bien indépendantes les unes des autres.
À l'étape de validation, nous avons effectué une double annotation afin de valider la généralité de nos catégories sur le sous-échantillon restant de 200 phrases (précédemment segmentées pour travailler sur le même sous-ensemble de phrases). Deux annotateurs humains ont utilisé comme référence unique la taxonomie précédemment créée. Ils ont fait deux annotations séparées et indépendantes de chaque dimension (kappa = 0,70). Ensuite, ils se sont rencontrés pour discuter et résoudre le désaccord, qui correspondait principalement à des cas ambigus et donc nécessite un raffinement final de la description des catégories. Ensuite, une ré-annotation finale a été effectuée sur l'ensemble de l'échantillon (600 phrases) pour prendre en considération les changements et s’en servir comme base pour comparer l'annotation automatique.

Plateforms or softwares to pre-process data

Analyse sous Excel, RapidMiner

Tableau_des_taxonomies_de_questions.pdf

Treatments of data

Overall description of the treatments used (e.g. make a list of the methods used)

Nous avons choisi NLTK (Natural Language Toolkit) pour l'analyse de texte et développer un tagger automatique à partir d'une liste de mots-clès.

Nous avons effectué quatre analyses de clustering distinctes en utilisant l'algorithme K-Means (avec k variant entre 2 et 10) sur quatre ensembles de données (sur RapidMiner): les étudiants qui ont posé des questions dans le cours BCH (1227 questions par N1 = 244 étudiants), HBDD (979 questions posées par N2 = 201 étudiants), BCE (685 questions posées par N3 = 114 élèves) et ANT (649 questions posées par N4 = 75 étudiants).

La dernière étape consistait à caractériser les clusters en considérant sept attributs non utilisés pour le clustering : (a) la note moyenne des étudiants (AvgGrd) sur les séances de tutorat hebdomadaires (sur 20) et (b) en examen final ( FinGrd) sur ce cours (sur 20), (c) le taux de présence global (sur les 2 semestres - GlbAtt) et (d) la présence dans le cours considéré (CouAtt - de 0 (jamais là) à 1 (toujours là)) , (E) la proportion d'étudiants qui ont redoublé l'année (RetStu), (f) le nombre de questions posées dans ce cours (NbQst) et (g) le nombre de votes reçu par les autres étudiants sur leurs questions dans ce cours (NbVot).

Description of variables used as input for processing (e.g. name, content, modalities)

Nous avons effectué le clustering en utilisant comme critères pour chaque étudiant la proportion de chaque question posée dans chaque dimension (par exemple, la proportion de questions avec la valeur 1 dans la dimension 1) posée (a) globalement, (b) pendant la première moitié du cours et (c) pendant la deuxième moitié du cours (44 variables au total). En distinguant (b) et (c) en plus de (a), nous a permis de prendre en compte la dynamique des questions.

Additional fields

Result

50%

General information

Description of analysis results Q

Dans l'ensemble, les analyses de clustering révèlent qu'il existe 3 clusters similaires dans chacun des 4 cours.

Le cluster A représente 18 à 29% des étudiants et se caractérise par des notes inférieures à la moyenne et une assiduité faible. Les étudiants de ce cluster sont en majorité (85% en moyenne) non redoublants, ont posé moins de questions que la moyenne mais qui sont assez populaires.

À l'autre extrémité, le cluster D représente 14 à 25% des étudiants au premier semestre (et 40% au deuxième semestre, une proportion accrue qui peut être liée à une diminution de l'activité des autres étudiants) et est caractérisé par des notes significativement élevées, qui ont tendance à être présents en cours. Une autre caractéristique distinctive de ce cluster c’est qu'il contient une proportion importante d'étudiants redoublants (42% en moyenne), qui posent plus de questions que la moyenne mais qui sont moins populaires, avec moins de votes dans l'ensemble. Nous supposons que ces questions doivent être très précises qui nécessitent déjà une bonne compréhension du contenu du cours et ne sont donc pas considérées comme importantes par les autres étudiants.

Le cluster B représente de 36 à 40% des étudiants, dont les notes, l'assiduité et le nombre de questions posées sont similaires au groupe D. Cependant, la proportion d'étudiants qui suivent le cours pour la deuxième fois est inférieure à D (31% en moyenne) et leurs questions sont plus populaires.

Le cluster C (uniquement pour les cours BCH et HBDD) tend à être un groupe intermédiaire qui se situe toujours entre les groupes A et D.

Type of results produced (model, indicator, algorithms, ...) Q

Notre clustering (basé seulement sur les dimensions des questions) nous permettent de confirmer que la proportion et la dynamique des questions posées par les étudiants est fortement liée à certaines de leurs caractéristiques (leur performance, leur présence, le nombre de questions qu'ils ont posées, le nombre de votes qu'ils ont reçus, et s'ils suivaient ce cours pour la première fois ou non). De plus, même si les 4 clusterings ont été effectués séparément, le fait que 3 clusters similaires apparaissent systématiquement dans les 4 cours considérés indique que les relations identifiées ne dépendent pas des cours.

Details

Indicator

Dashboards

Ethics

Ethical Description

What ethical problems can encountered with this problematic? (E.g. access to individual data, ...) Q

accès à des données individuelles

How has the ethical dimension of the analysis been taken into account?

Anonymisation des données

State of progress of the analysis scenario (e.g. pre-processing, processing, dashboards, ...)

Résultats

Espace collaboratif