Study case
Analysis scenario: Qualité des questions QCM Export
Mandatory fields
Name of study Q
Tests de pré-requis en science à l’arrivée à l’Université Grenoble Alpes (QcmL1UGA).
Description of study Q
Test de niveau primo entrants en licence des sciences et technologies de Université Grenoble Alpes (UGA).
How has the ethical dimension been taken into account? (Discussion, ethics committee, ...) ? Q
A. Confidentialité Procédé d’anonymisation : les données en entrée de l’analyse ne comportent aucune information personnelle et ont été anonymisées par le service informatique de l’université sans produire de table de correspondance. Parmi les réponses, un nombre important de réponses vient d’un compte “public” ne demandant pas d’authentification. Personnes ayant accès aux données : Ces données ont été mises à disposition des chercheurs de l’ANR Hubble et aux membres de la plateforme UnderTracks. B. Archivage Type de données archivées : Durée de l’archivage : minimum 4 ans (2015-2019). Lieu de l’archivage : serveur undertracks.imag.fr Personne responsable : Denis Bouhineau Possibilité de destruction à la demande du participant (voir cas de figure section 4) : il n’y a pas de lien entre données et participants. C. Partage Type de données partagées : Données anonymes Conditions de partage : cf. contrat de l’ANR Hubble et/ou contrat d’UnderTracks. http://hubblelearn.imag.fr/ https://undertracks.imag.fr/php/
Name and contact of person which can give informations about data Q
Denis Bouhineau, Sylvie Tessier, Christian Hoffmann, Marie Lefevre, Alexis Lebis, Nathalie Guin
Pour cas d'étude > à fusionner avec "Nom du(es) producteurs" Q
Cellule TICE + composante et enseignants concernés+ SUP (mettre les intitulés in extenso)
Pour cas d'étude - Fields of education (mathematic, physics, litterature, ...) Q
Biologie, chimie, mathématiques, physique, anglais
Additional Fields
Number of hours of training (number of sessions, total duration of training, number of hours, sessions, ...) Q
90 mn : 2 X 45mn / 15 % des étudiants repassent le test chez eux suite à l’évaluation initiale mais ce temps de t / ravail est laissé au libre arbitre de l’étudiant.Types of numerical resources available to students (Podcast, MCQ, text, etc.)
QCMNumber of students Q
:1185 étudiants de licence première année en sciences à l’UGANumber of tutors
10 enseignantsTypes of activities set up (groups, distance, ...)
t / est de type QCM en salle / tutorat de remédiationFiles
Mandatory fields
Problematic description Q
Comment améliorer le dispositif au niveau des contenus et le faire évoluer d'année en année ?
- Identifier les questions clés
- Identifier les questions à modifier/remplacer
Creation date of problematic Q
Septembre 2015
Description of research questions Q
- Identification et qualification des questions du QCM
- Recherche de lien entre les résultats aux test et les résultats au semestre 1.
- Etudes des divers impacts de ce dispositif auprès des étudiants
Others informations
Suivi de l'expérimentation :
- déroulement sur 2 ans 2015-2016 et 2016-2017
- lors de la seconde année, des informations supplémentaires disponibles "degré de certitude" attribuée à la réponse par l'étudiant, cette nouvelle information a été prise en compte dans les résultats produits.
Methodological considerations
What ethical problems can encountered with this problematic? (E.g. access to individual data, ...) Q
Les risques éthiques sont faibles (pas de données individuelles, réponses fermées purement disciplinaires)
Additional fields
Other informations
Suivi de l'expérimentation :
- le déroulement de l'expérimentation a porté sur 2 années : 2015-2016 et 2016-2017
- lors de la seconde année, des informations supplémentaires disponibles "degré de certitude" attribuée à la réponse par l'étudiant étaient disponibles, cette information semble plus sensible, mais couvert par l'anonymat.
Description of data
Data location Q
UnderTracksDescription of the storage format of data (files, data base, ... ) Q
CSVData description (e.g. contents, size, number of records, ...) Q
Le fichier de log L1 fait 200.000 lignes mais seules 100.000 concernent la science (ce qui nous intéresse). 80 lignes par étudiant pour 1000 étudiants. Données apprenant : infos du SI ; dates, heure et temps de connexion à la plateforme, OS utilisé, navigateur, résultats aux tests. Données ressources : Types de questions à choix multiples.Pour cas d'étude - Data properties (name, labs, universities, companies, ...) Q
Sylvie Tessier ,Hubert BorderiouDescription of data collect
Story of data production (e.g. version, ...)
Résumé pour la période 2016-2017 :Additional fields
General Information
Purposes of analysis Q
Cette analyse s’effectue dans le contexte de la formation initiale universitaire en science, à destination des enseignants rédacteurs des questions de QCM des tests de pré-requis à l’arrivée à l’Université Grenoble Alpes. L’intérêt est pratique, il s’agit d’améliorer la qualite de ces tests. Analyse de la qualité des questions de QCM des tests de pré-requis en science à l’arrivée à l’Université Grenoble Alpes en vue d’améliorer ces tests. Sur ces tests, en savoir plus sur : https://dlst.ujf-grenoble.fr/index.phpmodule=classique&url=orientation/prerequis.html Concrètement, il s’agit de produire des indicateurs pertinents pour évaluer la qualité des questions de QCM des tests : recherche des questions “trop” faciles/difficiles globalement ou ayant un taux moindre de succès pour les “bons” étudiants, recherche des questions dont les réponses sont peu corrélées avec les réponses globales, etc. La liste des questions identifiées sera transmise aux enseignants responsables de ces questions pour qu’ils puissent les améliorer.Which actors would be interested in the analysis and why?
Enseignants-concepteurs; accompagnateurs SUP du dispositif, cellule TICE. 1) Pouvoir identifier des variations en difficulté entre questions et groupes de questions a priori équivalents, outils statistiques à l'appui : tests T ; alpha de Cronbach; indice de facilité ... 2) Pouvoir tracer l'évolution des connaissances initiales des bacheliers (concernant cette sélection très restreinte de prérequis) sur plusieurs années.Date or period of the analysis
Période de la collecte : Sept -Nov 2015 Période de l’analyse : Dec 2015 - Juin 2016Pre-processing of data
Global description of pre-processing
Pour tout chamillo, il y a une centaine de tables, et un nombre encore plus grand de variables … seulement un extrait a été pris en compte, cela a été l’objet d’un pré-traitement effectué “à la main” en SQL pour la plus grande part et d’un nettoyage à la suite. Description du pré-traitement : le service informatique nous a fournis un dump SQL de la base chamillo anonymisée (fin de semestre), le prétraitement a ensuite compris : ● déploiement en local de la bd reçue ● exploration des tables à la recherches des informations utiles ● extraction d’une table pour les logs “simples” du qcm (ne comporte que les informations date/user/réponse) => export vers log.csv ● construction d’une vue pour le contexte pédagogique (réponse/question/correction/textes/…) => export vers context.csv ● import dans UnderTracks Après les premières analyses, un second traitement semblable à un pré-traitement a été effectué pour avoir un seconde version des traces plus facile à exploitée (traces secondaires) : ce traitement s’est effectué sous UnderTracks, à la manière d’une analyse. Cette analyse avait pour objet de produire à partir des traces initiales comportant un log “simple” et des métadonnées (contexte pédagogique), un log allégé des informations peu utiles, mais enrichi des informations du contexte pédagogique les plus importantes et du résultat du calcul de la correction d’une réponse. Le résultat de l’analyse a été exporté en CSV et réimportant dans UnderTracks sous la forme d’une seconde étude liée à la première.Plateforms or softwares to pre-process data
WAMP/XAMP et SQL , divers éditeurs de texte/code acceptant les « gros fichiers », commandes shell unix, excel.Treatments of data
Overall description of the treatments used (e.g. make a list of the methods used)
Calcul de moyenne des résultats, de taux de corrélation, etc. : sur l’ensemble des questions, par groupe de question ou en filtrant sur le niveau des étudiants. De nombreuses analyses ont été faites (plus d’une dizaine) sous UnderTracks. Pour chacune des analyses, le processus d’analyse a été conservé et est visible sur cette plateforme. En bref : ● Analyse de l’étudiant anonyme (pour garantir la qualité des données) ● Analyse du niveau global des étudiants (pour identifier de bons étudiants servant à analyser les réponses attendues 1) par nombre de questions de 4 items correctes 4/4, 2) par nombre d’items corrects en %) ● Analyse du nombre de questionnaires remplie / Identification des qcm remplis pour la première fois ● Analyse du taux de réponses correctes : ● par discipline, ● par catégorie ● par question ● par item ● Corrélation entre taux de réponse correcte global et taux de réponse des “bons” élèves, par discipline, catégorie, question et item de question (pas encore abordé) Liste des méthodes mise en œuvre : Comptage, sélection, renommage, calculs élémentaires, calculs statistiques (corrélation linéaire, eta²). Mode opératoire technique, logiciels utilisés : processus / opérateurs UnderTracksAdditional fields
General information
Description of analysis results Q
Quelques résultats de l'analyse de ces questionnaires :
- Nombre de répondants : 970 étudiants (dont ~870 ayant répondu au questionnaire une fois en entier seulement et ~80 qui ont répondu 2 fois ou plus)
- Pourcentage de réussite : 74 % de réussite (~idem rentrée 2015 : 0.68% au dessus de 2015-16). Concernant le groupe des étudiants ayant rempli 2 fois le questionnaire, la première fois : 68% de réussite; la seconde fois : 75 %.
- Pourcentage de certitude : 89% de certitude de la justesse de la réponse en moyenne. (91% pour les réponses effectivement justes, 82% pour les réponses fausses). Répartition :
- 100% de certitude pour 55% des réponses, avec un taux de réussite moyen de 84%,
- 90% de certitude pour 14% des réponses, avec un taux de réussite moyen de 71%,
- 80% pour 10% (64% juste),
- 70% pour 8% (57% juste),
- 60% pour 5% (56% juste)
- et 50% de certitude pour 5 % des réponses, avec un taux de réussite moyen de 52%
- (rappel : une réponse aléatoire sera juste à 50% en moyenne)
Type of results produced (model, indicator, algorithms, ...) Q
- liste ordonnées des questions en fonctions de plusieurs indicateurs (taux de réussite, tux de corrélation avec le résultat global, etc. voir fichier joint)
How are the results acceptable from an ethical point of view? Or what are the perceived ethical problems?
Les résultats concernent les questions, ils ont été communiqués aux enseignants qui ont pu les prendre en compte.
Details
Dashboards descriptions
Analyse du taux de remplissage des questionnaires / Calcul de la note globale moyenne / Classement des étudiants par ordre de mérite / Analyse du taux de bonne réponse / Calcul de la corrélation note par item vs note globale / Analyse du taux de certitude / Production d’un classement des items provoquant des réponsesIndicator
Dashboards
Ethical Description
Description of all ethical or legal information about case study, analysis and data
Il s’agit d’une analyse de tests de qcm (1) anonymes, (2) qui ne font pas partie d'une expérimentation mais des enseignements normaux, (3) qui ne comportent aucune question ouverte, (4) qui ne comportent aucune question sensible ou personnelle, (5) qui ne donnent pas une big data, (6) et dont l'objectif n'est pas orienté vers les individus mais vers l'évaluation de la qualité du qcm et (7) la recherche scientifique ...
Other informations
L'étude s'est déroulée sur 2 années (2015-2017)
How has the ethical dimension been taken into account? (Discussion, ethics committee, ...) ? Q
A. Confidentialité Procédé d’anonymisation : les données en entrée de l’analyse ne comportent aucune information personnelle et ont été anonymisées par le service informatique de l’université sans produire de table de correspondance. Parmi les réponses, un nombre important de réponses vient d’un compte “public” ne demandant pas d’authentification. Personnes ayant accès aux données : Ces données ont été mises à disposition des chercheurs de l’ANR Hubble et aux membres de la plateforme UnderTracks. B. Archivage Type de données archivées : Durée de l’archivage : minimum 4 ans (2015-2019). Lieu de l’archivage : serveur undertracks.imag.fr Personne responsable : Denis Bouhineau Possibilité de destruction à la demande du participant (voir cas de figure section 4) : il n’y a pas de lien entre données et participants. C. Partage Type de données partagées : Données anonymes Conditions de partage : cf. contrat de l’ANR Hubble et/ou contrat d’UnderTracks. http://hubblelearn.imag.fr/ https://undertracks.imag.fr/php/
What ethical problems can encountered with this problematic? (E.g. access to individual data, ...) Q
Les risques éthiques sont faibles (pas de données individuelles, réponses fermées purement disciplinaires)
Description of all ethical or legal information about case study, analysis and data
Il s’agit d’une analyse de tests de qcm (1) anonymes, (2) qui ne font pas partie d'une expérimentation mais des enseignements normaux, (3) qui ne comportent aucune question ouverte, (4) qui ne comportent aucune question sensible ou personnelle, (5) qui ne donnent pas une big data, (6) et dont l'objectif n'est pas orienté vers les individus mais vers l'évaluation de la qualité du qcm et (7) la recherche scientifique ...
How are the results acceptable from an ethical point of view? Or what are the perceived ethical problems?
Les résultats concernent les questions, ils ont été communiqués aux enseignants qui ont pu les prendre en compte.