Cas d'étude
Scénario d'analyse: Qualité des questions QCM Export
Champs obligatoires
Nom de l'étude Q
Tests de pré-requis en science à l’arrivée à l’Université Grenoble Alpes (QcmL1UGA).
Description de l'étude Q
Test de niveau primo entrants en licence des sciences et technologies de Université Grenoble Alpes (UGA).
Comment la dimension éthique de l'étude a-t-elle été prise en compte ? Q
A. Confidentialité Procédé d’anonymisation : les données en entrée de l’analyse ne comportent aucune information personnelle et ont été anonymisées par le service informatique de l’université sans produire de table de correspondance. Parmi les réponses, un nombre important de réponses vient d’un compte “public” ne demandant pas d’authentification. Personnes ayant accès aux données : Ces données ont été mises à disposition des chercheurs de l’ANR Hubble et aux membres de la plateforme UnderTracks. B. Archivage Type de données archivées : Durée de l’archivage : minimum 4 ans (2015-2019). Lieu de l’archivage : serveur undertracks.imag.fr Personne responsable : Denis Bouhineau Possibilité de destruction à la demande du participant (voir cas de figure section 4) : il n’y a pas de lien entre données et participants. C. Partage Type de données partagées : Données anonymes Conditions de partage : cf. contrat de l’ANR Hubble et/ou contrat d’UnderTracks. http://hubblelearn.imag.fr/ https://undertracks.imag.fr/php/
Nom et contact des personnes qui peuvent donner des informations sur les données Q
Denis Bouhineau, Sylvie Tessier, Christian Hoffmann, Marie Lefevre, Alexis Lebis, Nathalie Guin
Nom du partenaire de l'étude du cas Q
Cellule TICE + composante et enseignants concernés+ SUP (mettre les intitulés in extenso)
Domaine d'enseignement (mathématiques, physique, litterature, ... Q
Biologie, chimie, mathématiques, physique, anglais
Champs complémentaires
Volume horaire de la formation (Nombre de sessions, Durée globale de la formation, nombre d'heures, de séances, ...) Q
90 mn : 2 X 45mn / 15 % des étudiants repassent le test chez eux suite à l’évaluation initiale mais ce temps de t / ravail est laissé au libre arbitre de l’étudiant.Types de ressources numériques mises à disposition des élèves
QCMNombre d'élèves ou d'étudiants Q
:1185 étudiants de licence première année en sciences à l’UGANombre d'enseignants
10 enseignantsTypes d'activités mise en places (groupes, distance, ...)
t / est de type QCM en salle / tutorat de remédiationFichiers associés
Champs obligatoires
Description de la problématique Q
Comment améliorer le dispositif au niveau des contenus et le faire évoluer d'année en année ?
- Identifier les questions clés
- Identifier les questions à modifier/remplacer
Date de création de la problématique Q
Septembre 2015
Description des questions de recherche Q
- Identification et qualification des questions du QCM
- Recherche de lien entre les résultats aux test et les résultats au semestre 1.
- Etudes des divers impacts de ce dispositif auprès des étudiants
Autres informations
Suivi de l'expérimentation :
- déroulement sur 2 ans 2015-2016 et 2016-2017
- lors de la seconde année, des informations supplémentaires disponibles "degré de certitude" attribuée à la réponse par l'étudiant, cette nouvelle information a été prise en compte dans les résultats produits.
Considérations méthodologiques
Quels problèmes éthiques peuvent se poser avec cette problématique ? ( e.g. accès à des données individuelles, ...) Q
Les risques éthiques sont faibles (pas de données individuelles, réponses fermées purement disciplinaires)
Champs complémentaires
Autres informations
Suivi de l'expérimentation :
- le déroulement de l'expérimentation a porté sur 2 années : 2015-2016 et 2016-2017
- lors de la seconde année, des informations supplémentaires disponibles "degré de certitude" attribuée à la réponse par l'étudiant étaient disponibles, cette information semble plus sensible, mais couvert par l'anonymat.
Description des données
Localisation des données Q
UnderTracksDescription de la structure physique de stockage des données (e.g. structure en forme de répertoire, base de données , fichiers CSV, ... ) Q
CSVDescription des données (contenu,taille, nombre d'enregistrements...) Q
Le fichier de log L1 fait 200.000 lignes mais seules 100.000 concernent la science (ce qui nous intéresse). 80 lignes par étudiant pour 1000 étudiants. Données apprenant : infos du SI ; dates, heure et temps de connexion à la plateforme, OS utilisé, navigateur, résultats aux tests. Données ressources : Types de questions à choix multiples.Pour cas d'étude - Propriété des données (nom, laboratoire ou entreprise propriétaire des données) Q
Sylvie Tessier ,Hubert BorderiouDescription de la collecte des données
Historique sur la production des données (e.g. version, ...)
Résumé pour la période 2016-2017 :Champs complémentaires
Informations générales
Finalités de l'analyse Q
Cette analyse s’effectue dans le contexte de la formation initiale universitaire en science, à destination des enseignants rédacteurs des questions de QCM des tests de pré-requis à l’arrivée à l’Université Grenoble Alpes. L’intérêt est pratique, il s’agit d’améliorer la qualite de ces tests. Analyse de la qualité des questions de QCM des tests de pré-requis en science à l’arrivée à l’Université Grenoble Alpes en vue d’améliorer ces tests. Sur ces tests, en savoir plus sur : https://dlst.ujf-grenoble.fr/index.phpmodule=classique&url=orientation/prerequis.html Concrètement, il s’agit de produire des indicateurs pertinents pour évaluer la qualité des questions de QCM des tests : recherche des questions “trop” faciles/difficiles globalement ou ayant un taux moindre de succès pour les “bons” étudiants, recherche des questions dont les réponses sont peu corrélées avec les réponses globales, etc. La liste des questions identifiées sera transmise aux enseignants responsables de ces questions pour qu’ils puissent les améliorer.Acteurs susceptibles d'être intéressés par l'analyse et pourquoi ?
Enseignants-concepteurs; accompagnateurs SUP du dispositif, cellule TICE. 1) Pouvoir identifier des variations en difficulté entre questions et groupes de questions a priori équivalents, outils statistiques à l'appui : tests T ; alpha de Cronbach; indice de facilité ... 2) Pouvoir tracer l'évolution des connaissances initiales des bacheliers (concernant cette sélection très restreinte de prérequis) sur plusieurs années.Date ou période de l'analyse
Période de la collecte : Sept -Nov 2015 Période de l’analyse : Dec 2015 - Juin 2016Pré-traitement des données
Description globale des pre-traitements
Pour tout chamillo, il y a une centaine de tables, et un nombre encore plus grand de variables … seulement un extrait a été pris en compte, cela a été l’objet d’un pré-traitement effectué “à la main” en SQL pour la plus grande part et d’un nettoyage à la suite. Description du pré-traitement : le service informatique nous a fournis un dump SQL de la base chamillo anonymisée (fin de semestre), le prétraitement a ensuite compris : ● déploiement en local de la bd reçue ● exploration des tables à la recherches des informations utiles ● extraction d’une table pour les logs “simples” du qcm (ne comporte que les informations date/user/réponse) => export vers log.csv ● construction d’une vue pour le contexte pédagogique (réponse/question/correction/textes/…) => export vers context.csv ● import dans UnderTracks Après les premières analyses, un second traitement semblable à un pré-traitement a été effectué pour avoir un seconde version des traces plus facile à exploitée (traces secondaires) : ce traitement s’est effectué sous UnderTracks, à la manière d’une analyse. Cette analyse avait pour objet de produire à partir des traces initiales comportant un log “simple” et des métadonnées (contexte pédagogique), un log allégé des informations peu utiles, mais enrichi des informations du contexte pédagogique les plus importantes et du résultat du calcul de la correction d’une réponse. Le résultat de l’analyse a été exporté en CSV et réimportant dans UnderTracks sous la forme d’une seconde étude liée à la première.Plateformes ou logiciels pour pre-traiter les données
WAMP/XAMP et SQL , divers éditeurs de texte/code acceptant les « gros fichiers », commandes shell unix, excel.Traitement des données
Description globale des traitements mis en place (e.g. faire une liste des méthodes utilisées)
Calcul de moyenne des résultats, de taux de corrélation, etc. : sur l’ensemble des questions, par groupe de question ou en filtrant sur le niveau des étudiants. De nombreuses analyses ont été faites (plus d’une dizaine) sous UnderTracks. Pour chacune des analyses, le processus d’analyse a été conservé et est visible sur cette plateforme. En bref : ● Analyse de l’étudiant anonyme (pour garantir la qualité des données) ● Analyse du niveau global des étudiants (pour identifier de bons étudiants servant à analyser les réponses attendues 1) par nombre de questions de 4 items correctes 4/4, 2) par nombre d’items corrects en %) ● Analyse du nombre de questionnaires remplie / Identification des qcm remplis pour la première fois ● Analyse du taux de réponses correctes : ● par discipline, ● par catégorie ● par question ● par item ● Corrélation entre taux de réponse correcte global et taux de réponse des “bons” élèves, par discipline, catégorie, question et item de question (pas encore abordé) Liste des méthodes mise en œuvre : Comptage, sélection, renommage, calculs élémentaires, calculs statistiques (corrélation linéaire, eta²). Mode opératoire technique, logiciels utilisés : processus / opérateurs UnderTracksChamps complémentaires
Informations générales
Description des résultats de l'analyse Q
Quelques résultats de l'analyse de ces questionnaires :
- Nombre de répondants : 970 étudiants (dont ~870 ayant répondu au questionnaire une fois en entier seulement et ~80 qui ont répondu 2 fois ou plus)
- Pourcentage de réussite : 74 % de réussite (~idem rentrée 2015 : 0.68% au dessus de 2015-16). Concernant le groupe des étudiants ayant rempli 2 fois le questionnaire, la première fois : 68% de réussite; la seconde fois : 75 %.
- Pourcentage de certitude : 89% de certitude de la justesse de la réponse en moyenne. (91% pour les réponses effectivement justes, 82% pour les réponses fausses). Répartition :
- 100% de certitude pour 55% des réponses, avec un taux de réussite moyen de 84%,
- 90% de certitude pour 14% des réponses, avec un taux de réussite moyen de 71%,
- 80% pour 10% (64% juste),
- 70% pour 8% (57% juste),
- 60% pour 5% (56% juste)
- et 50% de certitude pour 5 % des réponses, avec un taux de réussite moyen de 52%
- (rappel : une réponse aléatoire sera juste à 50% en moyenne)
Type de résultats produits (modèle, indicateur, algo, … ) Q
- liste ordonnées des questions en fonctions de plusieurs indicateurs (taux de réussite, tux de corrélation avec le résultat global, etc. voir fichier joint)
En quoi les résultats sont ils acceptables d'un point de vue éthique ? ou quels sont les problèmes éthiques perçus ?
Les résultats concernent les questions, ils ont été communiqués aux enseignants qui ont pu les prendre en compte.
Détails
Descriptions des tableaux de bords
Analyse du taux de remplissage des questionnaires / Calcul de la note globale moyenne / Classement des étudiants par ordre de mérite / Analyse du taux de bonne réponse / Calcul de la corrélation note par item vs note globale / Analyse du taux de certitude / Production d’un classement des items provoquant des réponsesIndicator
Tableaux de bords
Description des aspects éthiques
Description de toutes informations éthiques ou juridiques sur l'étude de cas, les analyses et les données
Il s’agit d’une analyse de tests de qcm (1) anonymes, (2) qui ne font pas partie d'une expérimentation mais des enseignements normaux, (3) qui ne comportent aucune question ouverte, (4) qui ne comportent aucune question sensible ou personnelle, (5) qui ne donnent pas une big data, (6) et dont l'objectif n'est pas orienté vers les individus mais vers l'évaluation de la qualité du qcm et (7) la recherche scientifique ...
Autres informations
L'étude s'est déroulée sur 2 années (2015-2017)
Comment la dimension éthique de l'étude a-t-elle été prise en compte ? Q
A. Confidentialité Procédé d’anonymisation : les données en entrée de l’analyse ne comportent aucune information personnelle et ont été anonymisées par le service informatique de l’université sans produire de table de correspondance. Parmi les réponses, un nombre important de réponses vient d’un compte “public” ne demandant pas d’authentification. Personnes ayant accès aux données : Ces données ont été mises à disposition des chercheurs de l’ANR Hubble et aux membres de la plateforme UnderTracks. B. Archivage Type de données archivées : Durée de l’archivage : minimum 4 ans (2015-2019). Lieu de l’archivage : serveur undertracks.imag.fr Personne responsable : Denis Bouhineau Possibilité de destruction à la demande du participant (voir cas de figure section 4) : il n’y a pas de lien entre données et participants. C. Partage Type de données partagées : Données anonymes Conditions de partage : cf. contrat de l’ANR Hubble et/ou contrat d’UnderTracks. http://hubblelearn.imag.fr/ https://undertracks.imag.fr/php/
Quels problèmes éthiques peuvent se poser avec cette problématique ? ( e.g. accès à des données individuelles, ...) Q
Les risques éthiques sont faibles (pas de données individuelles, réponses fermées purement disciplinaires)
Description de toutes informations éthiques ou juridiques sur l'étude de cas, les analyses et les données
Il s’agit d’une analyse de tests de qcm (1) anonymes, (2) qui ne font pas partie d'une expérimentation mais des enseignements normaux, (3) qui ne comportent aucune question ouverte, (4) qui ne comportent aucune question sensible ou personnelle, (5) qui ne donnent pas une big data, (6) et dont l'objectif n'est pas orienté vers les individus mais vers l'évaluation de la qualité du qcm et (7) la recherche scientifique ...
En quoi les résultats sont ils acceptables d'un point de vue éthique ? ou quels sont les problèmes éthiques perçus ?
Les résultats concernent les questions, ils ont été communiqués aux enseignants qui ont pu les prendre en compte.