Cas d'étude

Etude des méthodes pédagogiques d'enseignement et d'apprentissage dans les études de médecine en PACES (Première Année Commune des Etudes de Santé)
Vanda Luengo
22 août 2017
26 oct. 2018
Pierre Gillois, équipe Themas, TIMC.Grenoble.
BAC + 1. Filière de préparation après BAC
Laboratoire TIMC-IMAG
Les matières de la Première Année Commune des Etudes de Santé (PACES) (Biologie, Chimie, Math, ... )

Scénario d'analyse: Identifier les profils des apprenants à partir de leurs questions Export

Note d'utilité de l'étude
Clareté de l'étude
Je peux réutiliser l'étude
Noter

Champs obligatoires

Nom de l'étude Q

PACES

Description de l'étude Q

Analyse des données numériques d'apprentissage pour étudier les méthodes pédagogiques d'enseignement et d'apprentissage dans le cadre des études de médecine en PACES (Première Année Commune aux Etudes de Santé).

Nom du partenaire de l'étude du cas Q

Vanda Luengo, Fatima Harrak, François Bouchet et Pierre Gillois

Domaine d'enseignement (mathématiques, physique, litterature, ... Q

Les matières de la Première Année Commune des Etudes de Santé (PACES) (Biologie, Chimie, Math, ... )

Champs complémentaires

Fichiers associés

Champs obligatoires

Description de la problématique Q

Définir une taxonomie de questions pour analyser les questions des étudiants dans le but d'aider l'enseignant à adapter son cours lors des séances SEPI d'une part. D'autre part, trouver le lien entre les questions posées par un étudiant et sa performance.

Date de création de la problématique Q

2015

Description des questions de recherche Q

L'objet de cette recherche est d'identifier les profils des étudiants à partir de leurs questions. Questions de recherche détaillées : 1) Peut-on définir une taxonomie de questions pertinentes pour analyser les questions des étudiants ? 2) Peut-on automatiser l'identification de ces questions ? 3) Les questions posées par un étudiant peuvent-elles nous informer sur son profil ? En d’autres termes, existe-t-il des corrélations entre la nature des questions posées et la performance ?

Considérations méthodologiques

Quels problèmes éthiques peuvent se poser avec cette problématique ? ( e.g. accès à des données individuelles, ...) Q

accès à des données individuelles

Champs complémentaires

Description des données

Localisation des données Q

Undertracks et ordinateurs personnels

Description de la structure physique de stockage des données (e.g. structure en forme de répertoire, base de données , fichiers CSV, ... ) Q

Fichiers CSV

Description des données (contenu,taille, nombre d'enregistrements...) Q

Données 2011-2012 : -Données d'apprentissage : QCM entrainement PACES, notes évaluations semestre 1 et 2, absence, redoublement. -Des traces textuelles : les questions formulées par écrit par les étudiants sur la plateforme en ligne, nombre de votes reçus pour chaque question.

Pour cas d'étude - Propriété des données (nom, laboratoire ou entreprise propriétaire des données) Q

Laboratoire TIMC-IMAG

Description de la collecte des données

Historique sur la production des données (e.g. version, ...)

une prémière version 2011-2012 puis ensuite 2012-2018

Description du mode de collecte des données (écologique, expérimentale, … )

venant de la plateforme d'apprentissage

Champs complémentaires

Informations générales

Finalités de l'analyse Q

Aider l'enseignant à adapter son cours et organiser les questions qu'ils doivent répondre chaque semaine lors de séance SEPI. Ainsi s'assurer que les enseignants répondent non seulement aux questions précises posées par les « bons » étudiants, mais aussi à ceux posées par d'autres catégories d'étudiants.

Responsable(s) de l'analyse (pre-traitement et traitement) Q

Fatima Harrak, François Bouchet, Vanda Luengo

Acteurs susceptibles d'être intéressés par l'analyse et pourquoi ?

Enseignant : pour adapter son cours. Chercheur : pour identifier le profil d'un apprenant à partir des questions qu'ils pose. Concepteur/ enseignant : pour appliquer la taxonomie développée dans un autre contexte que PACES tels MOOCs

Etat d'avancement du scénario d'analyse (e.g.pré-traitement, traitement, tableaux de bords, ...)

Résultats

Date ou période de l'analyse

2016-2017

Objectifs de l'analyse pour le "learning analytics" Q

Outiller l'enseignant pour extraire à partir des questions un profil d'apprenant.

La réutilisabilité de la taxonomie dans d'autres contextes (indépendante du domaine)

Comment la dimension éthique de l'analyse a-t-elle été prise en compte ?

Anonymisation des données

Pré-traitement des données

Description globale des pre-traitements

Nous avons suivi une approche bottom-up en considérant un échantillon de 600 questions (environ 10% de la taille du corpus) de deux cours (BCH et HBDD. Cet échantillon a été divisé aléatoirement en 3 sous-échantillons de 200 questions pour appliquer 3 étapes de catégorisation différentes : une étape de découverte, une étape de consolidation et une étape de validation.
L'étape de découverte a consisté à regrouper des phrases avec des similitudes pour extraire des concepts significatifs. Ensuite, nous avons segmenté les questions combinées pour normaliser l'annotation précédente. En effet, bien que les étudiants doivent normalement poser une question simple (c.-à-d. centrée sur un seul sujet, pour éviter des questions telles que « Pourriez-vous réexpliquer X ? Aussi, Y n'était pas clair »), nous avons constaté dans 40% des cas qu'un sous-ensemble des questions pouvaient être divisées en deux questions assez indépendantes. Nous définissons une question comme « simple » si elle a une valeur unique dans chaque dimension ; Sinon, elle est considérée comme une question combinée ou mixte et doit être segmentée. Une dimension est un ensemble de catégories qui regrouppent des concepts similaires.
L'étape de consolidation a consisté à annoter le deuxième sous-échantillon pour valider les dimensions préalablement définies. Cela nous a amené à apporter plusieurs rectifications aux dimensions pour s'assurer qu’elles étaient bien indépendantes les unes des autres.
À l'étape de validation, nous avons effectué une double annotation afin de valider la généralité de nos catégories sur le sous-échantillon restant de 200 phrases (précédemment segmentées pour travailler sur le même sous-ensemble de phrases). Deux annotateurs humains ont utilisé comme référence unique la taxonomie précédemment créée. Ils ont fait deux annotations séparées et indépendantes de chaque dimension (kappa = 0,70). Ensuite, ils se sont rencontrés pour discuter et résoudre le désaccord, qui correspondait principalement à des cas ambigus et donc nécessite un raffinement final de la description des catégories. Ensuite, une ré-annotation finale a été effectuée sur l'ensemble de l'échantillon (600 phrases) pour prendre en considération les changements et s’en servir comme base pour comparer l'annotation automatique.

Plateformes ou logiciels pour pre-traiter les données

Analyse sous Excel, RapidMiner

Traitement des données

Description globale des traitements mis en place (e.g. faire une liste des méthodes utilisées)

Nous avons choisi NLTK (Natural Language Toolkit) pour l'analyse de texte et développer un tagger automatique à partir d'une liste de mots-clès.

Nous avons effectué quatre analyses de clustering distinctes en utilisant l'algorithme K-Means (avec k variant entre 2 et 10) sur quatre ensembles de données (sur RapidMiner): les étudiants qui ont posé des questions dans le cours BCH (1227 questions par N1 = 244 étudiants), HBDD (979 questions posées par N2 = 201 étudiants), BCE (685 questions posées par N3 = 114 élèves) et ANT (649 questions posées par N4 = 75 étudiants).

La dernière étape consistait à caractériser les clusters en considérant sept attributs non utilisés pour le clustering : (a) la note moyenne des étudiants (AvgGrd) sur les séances de tutorat hebdomadaires (sur 20) et (b) en examen final ( FinGrd) sur ce cours (sur 20), (c) le taux de présence global (sur les 2 semestres - GlbAtt) et (d) la présence dans le cours considéré (CouAtt - de 0 (jamais là) à 1 (toujours là)) , (E) la proportion d'étudiants qui ont redoublé l'année (RetStu), (f) le nombre de questions posées dans ce cours (NbQst) et (g) le nombre de votes reçu par les autres étudiants sur leurs questions dans ce cours (NbVot).

Description des variables utilisées en entrée pour le traitement (e.g. nom, contenu, modalités)

Nous avons effectué le clustering en utilisant comme critères pour chaque étudiant la proportion de chaque question posée dans chaque dimension (par exemple, la proportion de questions avec la valeur 1 dans la dimension 1) posée (a) globalement, (b) pendant la première moitié du cours et (c) pendant la deuxième moitié du cours (44 variables au total). En distinguant (b) et (c) en plus de (a), nous a permis de prendre en compte la dynamique des questions.

Champs complémentaires

Informations générales

Description des résultats de l'analyse Q

Dans l'ensemble, les analyses de clustering révèlent qu'il existe 3 clusters similaires dans chacun des 4 cours.

Le cluster A représente 18 à 29% des étudiants et se caractérise par des notes inférieures à la moyenne et une assiduité faible. Les étudiants de ce cluster sont en majorité (85% en moyenne) non redoublants, ont posé moins de questions que la moyenne mais qui sont assez populaires.

À l'autre extrémité, le cluster D représente 14 à 25% des étudiants au premier semestre (et 40% au deuxième semestre, une proportion accrue qui peut être liée à une diminution de l'activité des autres étudiants) et est caractérisé par des notes significativement élevées, qui ont tendance à être présents en cours. Une autre caractéristique distinctive de ce cluster c’est qu'il contient une proportion importante d'étudiants redoublants (42% en moyenne), qui posent plus de questions que la moyenne mais qui sont moins populaires, avec moins de votes dans l'ensemble. Nous supposons que ces questions doivent être très précises qui nécessitent déjà une bonne compréhension du contenu du cours et ne sont donc pas considérées comme importantes par les autres étudiants.

Le cluster B représente de 36 à 40% des étudiants, dont les notes, l'assiduité et le nombre de questions posées sont similaires au groupe D. Cependant, la proportion d'étudiants qui suivent le cours pour la deuxième fois est inférieure à D (31% en moyenne) et leurs questions sont plus populaires.

Le cluster C (uniquement pour les cours BCH et HBDD) tend à être un groupe intermédiaire qui se situe toujours entre les groupes A et D.

Type de résultats produits (modèle, indicateur, algo, … ) Q

Notre clustering (basé seulement sur les dimensions des questions) nous permettent de confirmer que la proportion et la dynamique des questions posées par les étudiants est fortement liée à certaines de leurs caractéristiques (leur performance, leur présence, le nombre de questions qu'ils ont posées, le nombre de votes qu'ils ont reçus, et s'ils suivaient ce cours pour la première fois ou non). De plus, même si les 4 clusterings ont été effectués séparément, le fait que 3 clusters similaires apparaissent systématiquement dans les 4 cours considérés indique que les relations identifiées ne dépendent pas des cours.

Détails

Indicator

Tableaux de bords

Description des aspects éthiques

Quels problèmes éthiques peuvent se poser avec cette problématique ? ( e.g. accès à des données individuelles, ...) Q

accès à des données individuelles

Comment la dimension éthique de l'analyse a-t-elle été prise en compte ?

Anonymisation des données

Etat d'avancement du scénario d'analyse (e.g.pré-traitement, traitement, tableaux de bords, ...)

Résultats