Cas d'étude

Identification et diagnostic des pré-requis en sciences et en anglais des étudiants de L1 en vue de mettre en place du tutorat.
Denis Bouhineau
1 sept. 2017
26 oct. 2018
Cellule TICE + composante et enseignants concernés+ SUP (mettre les intitulés in extenso)
1ère année d'université
Sylvie Tessier ,Hubert Borderiou
Biologie, chimie, mathématiques, physique, anglais

Scénario d'analyse: Qualité des questions QCM Export

Note d'utilité de l'étude
Clareté de l'étude
Je peux réutiliser l'étude
Noter

Champs obligatoires

Nom de l'étude Q

Tests de pré-requis en science à l’arrivée à l’Université Grenoble Alpes (QcmL1UGA).

Description de l'étude Q

Test de niveau primo entrants en licence des sciences et technologies de Université Grenoble Alpes (UGA).

Comment la dimension éthique de l'étude a-t-elle été prise en compte ? Q

A. Confidentialité Procédé d’anonymisation : les données en entrée de l’analyse ne comportent aucune information personnelle et ont été anonymisées par le service informatique de l’université sans produire de table de correspondance. Parmi les réponses, un nombre important de réponses vient d’un compte “public” ne demandant pas d’authentification. Personnes ayant accès aux données : Ces données ont été mises à disposition des chercheurs de l’ANR Hubble et aux membres de la plateforme UnderTracks. B. Archivage Type de données archivées : Durée de l’archivage : minimum 4 ans (2015-2019). Lieu de l’archivage : serveur undertracks.imag.fr Personne responsable : Denis Bouhineau Possibilité de destruction à la demande du participant (voir cas de figure section 4) : il n’y a pas de lien entre données et participants. C. Partage Type de données partagées : Données anonymes Conditions de partage : cf. contrat de l’ANR Hubble et/ou contrat d’UnderTracks. http://hubblelearn.imag.fr/ https://undertracks.imag.fr/php/

Nom et contact des personnes qui peuvent donner des informations sur les données Q

Denis Bouhineau, Sylvie Tessier, Christian Hoffmann, Marie Lefevre, Alexis Lebis, Nathalie Guin

Nom du partenaire de l'étude du cas Q

Cellule TICE + composante et enseignants concernés+ SUP (mettre les intitulés in extenso)

Domaine d'enseignement (mathématiques, physique, litterature, ... Q

Biologie, chimie, mathématiques, physique, anglais

Champs complémentaires

Volume horaire de la formation (Nombre de sessions, Durée globale de la formation, nombre d'heures, de séances, ...) Q

90 mn  : 2 X 45mn / 15 % des étudiants repassent le test chez eux suite à l’évaluation initiale mais ce temps de t / ravail est laissé au libre arbitre de l’étudiant.

Types de ressources numériques mises à disposition des élèves

QCM

Nombre d'élèves ou d'étudiants Q

:1185 étudiants de licence première année en sciences à l’UGA

Nombre d'enseignants

10 enseignants

Types d'activités mise en places (groupes, distance, ...)

t / est de type QCM en salle / tutorat de remédiation

Fichiers associés

Champs obligatoires

Description de la problématique Q

Comment améliorer le dispositif au niveau des contenus et le faire évoluer d'année en année ?

  • Identifier les questions clés
  • Identifier les questions à modifier/remplacer

Date de création de la problématique Q

Septembre 2015

Description des questions de recherche Q

  • Identification et qualification des questions du QCM
  • Recherche de lien entre les résultats aux test et les résultats au semestre 1.
  • Etudes des divers impacts de ce dispositif auprès des étudiants

Autres informations

Suivi de l'expérimentation :

  • déroulement sur 2 ans 2015-2016 et 2016-2017
  • lors de la seconde année, des informations supplémentaires disponibles "degré de certitude" attribuée à la réponse par l'étudiant, cette nouvelle information a été prise en compte dans les résultats produits.

Considérations méthodologiques

Quels problèmes éthiques peuvent se poser avec cette problématique ? ( e.g. accès à des données individuelles, ...) Q

Les risques éthiques sont faibles (pas de données individuelles, réponses fermées purement disciplinaires)

Champs complémentaires

Autres informations

Suivi de l'expérimentation :

  • le déroulement de l'expérimentation a porté sur 2 années : 2015-2016 et 2016-2017
  • lors de la seconde année, des informations supplémentaires disponibles "degré de certitude" attribuée à la réponse par l'étudiant étaient disponibles, cette information semble plus sensible, mais couvert par l'anonymat.

Description des données

Localisation des données Q

UnderTracks

Description de la structure physique de stockage des données (e.g. structure en forme de répertoire, base de données , fichiers CSV, ... ) Q

CSV

Description des données (contenu,taille, nombre d'enregistrements...) Q

Le fichier de log L1 fait 200.000 lignes mais seules 100.000 concernent la science (ce qui nous intéresse). 80 lignes par étudiant pour 1000 étudiants. Données apprenant : infos du SI ; dates, heure et temps de connexion à la plateforme, OS utilisé, navigateur, résultats aux tests. Données ressources : Types de questions à choix multiples.

Pour cas d'étude - Propriété des données (nom, laboratoire ou entreprise propriétaire des données) Q

Sylvie Tessier ,Hubert Borderiou

Description de la collecte des données

Historique sur la production des données (e.g. version, ...)

Résumé pour la période 2016-2017 :

Champs complémentaires

Informations générales

Finalités de l'analyse Q

Cette analyse s’effectue dans le contexte de la formation initiale universitaire en science, à destination des enseignants rédacteurs des questions de QCM des tests de pré-requis à l’arrivée à l’Université Grenoble Alpes. L’intérêt est pratique, il s’agit d’améliorer la qualite de ces tests. Analyse de la qualité des questions de QCM des tests de pré-requis en science à l’arrivée à l’Université Grenoble Alpes en vue d’améliorer ces tests. Sur ces tests, en savoir plus sur : https://dlst.ujf-grenoble.fr/index.phpmodule=classique&url=orientation/prerequis.html Concrètement, il s’agit de produire des indicateurs pertinents pour évaluer la qualité des questions de QCM des tests : recherche des questions “trop” faciles/difficiles globalement ou ayant un taux moindre de succès pour les “bons” étudiants, recherche des questions dont les réponses sont peu corrélées avec les réponses globales, etc. La liste des questions identifiées sera transmise aux enseignants responsables de ces questions pour qu’ils puissent les améliorer.

Acteurs susceptibles d'être intéressés par l'analyse et pourquoi ?

Enseignants-concepteurs; accompagnateurs SUP du dispositif, cellule TICE. 1) Pouvoir identifier des variations en difficulté entre questions et groupes de questions a priori équivalents, outils statistiques à l'appui : tests T ; alpha de Cronbach; indice de facilité ... 2) Pouvoir tracer l'évolution des connaissances initiales des bacheliers (concernant cette sélection très restreinte de prérequis) sur plusieurs années.

Date ou période de l'analyse

Période de la collecte : Sept -Nov 2015 Période de l’analyse : Dec 2015 - Juin 2016

Pré-traitement des données

Description globale des pre-traitements

Pour tout chamillo, il y a une centaine de tables, et un nombre encore plus grand de variables … seulement un extrait a été pris en compte, cela a été l’objet d’un pré-traitement effectué “à la main” en SQL pour la plus grande part et d’un nettoyage à la suite. Description du pré-traitement : le service informatique nous a fournis un dump SQL de la base chamillo anonymisée (fin de semestre), le prétraitement a ensuite compris : ● déploiement en local de la bd reçue ● exploration des tables à la recherches des informations utiles ● extraction d’une table pour les logs “simples” du qcm (ne comporte que les informations date/user/réponse) => export vers log.csv ● construction d’une vue pour le contexte pédagogique (réponse/question/correction/textes/…) => export vers context.csv ● import dans UnderTracks Après les premières analyses, un second traitement semblable à un pré-traitement a été effectué pour avoir un seconde version des traces plus facile à exploitée (traces secondaires) : ce traitement s’est effectué sous UnderTracks, à la manière d’une analyse. Cette analyse avait pour objet de produire à partir des traces initiales comportant un log “simple” et des métadonnées (contexte pédagogique), un log allégé des informations peu utiles, mais enrichi des informations du contexte pédagogique les plus importantes et du résultat du calcul de la correction d’une réponse. Le résultat de l’analyse a été exporté en CSV et réimportant dans UnderTracks sous la forme d’une seconde étude liée à la première.

Plateformes ou logiciels pour pre-traiter les données

WAMP/XAMP et SQL , divers éditeurs de texte/code acceptant les « gros fichiers », commandes shell unix, excel.

Traitement des données

Description globale des traitements mis en place (e.g. faire une liste des méthodes utilisées)

Calcul de moyenne des résultats, de taux de corrélation, etc. : sur l’ensemble des questions, par groupe de question ou en filtrant sur le niveau des étudiants. De nombreuses analyses ont été faites (plus d’une dizaine) sous UnderTracks. Pour chacune des analyses, le processus d’analyse a été conservé et est visible sur cette plateforme. En bref : ● Analyse de l’étudiant anonyme (pour garantir la qualité des données) ● Analyse du niveau global des étudiants (pour identifier de bons étudiants servant à analyser les réponses attendues 1) par nombre de questions de 4 items correctes 4/4, 2) par nombre d’items corrects en %) ● Analyse du nombre de questionnaires remplie / Identification des qcm remplis pour la première fois ● Analyse du taux de réponses correctes : ● par discipline, ● par catégorie ● par question ● par item ● Corrélation entre taux de réponse correcte global et taux de réponse des “bons” élèves, par discipline, catégorie, question et item de question (pas encore abordé) Liste des méthodes mise en œuvre : Comptage, sélection, renommage, calculs élémentaires, calculs statistiques (corrélation linéaire, eta²). Mode opératoire technique, logiciels utilisés : processus / opérateurs UnderTracks

Champs complémentaires

Informations générales

Description des résultats de l'analyse Q

Quelques résultats de l'analyse de ces questionnaires :

  • Nombre de répondants : 970 étudiants (dont ~870 ayant répondu au questionnaire une fois en entier seulement et ~80 qui ont répondu 2 fois ou plus)
  • Pourcentage de réussite : 74 % de réussite (~idem rentrée 2015 : 0.68% au dessus de 2015-16). Concernant le groupe des étudiants ayant rempli 2 fois le questionnaire, la première fois : 68% de réussite; la seconde fois : 75 %.
  • Pourcentage de certitude : 89% de certitude de la justesse de la réponse en moyenne. (91% pour les réponses effectivement justes, 82% pour les réponses fausses). Répartition :
    • 100% de certitude pour 55% des réponses, avec un taux de réussite moyen de 84%,
    • 90% de certitude pour 14% des réponses, avec un taux de réussite moyen de 71%,
    • 80% pour 10% (64% juste),
    • 70% pour 8% (57% juste),
    • 60% pour 5% (56% juste)
    • et 50% de certitude pour 5 % des réponses, avec un taux de réussite moyen de 52%
  • (rappel : une réponse aléatoire sera juste à 50% en moyenne)

Type de résultats produits (modèle, indicateur, algo, … ) Q

  • liste ordonnées des questions en fonctions de plusieurs indicateurs (taux de réussite, tux de corrélation avec le résultat global, etc. voir fichier joint)

En quoi les résultats sont ils acceptables d'un point de vue éthique ? ou quels sont les problèmes éthiques perçus ?

Les résultats concernent les questions, ils ont été communiqués aux enseignants qui ont pu les prendre en compte.

Détails

Descriptions des tableaux de bords

Analyse du taux de remplissage des questionnaires / Calcul de la note globale moyenne / Classement des étudiants par ordre de mérite / Analyse du taux de bonne réponse / Calcul de la corrélation note par item vs note globale / Analyse du taux de certitude / Production d’un classement des items provoquant des réponses

Indicator

Tableaux de bords

Description des aspects éthiques

Description de toutes informations éthiques ou juridiques sur l'étude de cas, les analyses et les données

Il s’agit d’une analyse de tests de qcm (1) anonymes, (2) qui ne font pas partie d'une expérimentation mais des enseignements normaux, (3) qui ne comportent aucune question ouverte, (4) qui ne comportent aucune question sensible ou personnelle, (5) qui ne donnent pas une big data, (6) et dont l'objectif n'est pas orienté vers les individus mais vers l'évaluation de la qualité du qcm et (7) la recherche scientifique ...

Autres informations

L'étude s'est déroulée sur 2 années (2015-2017)

Comment la dimension éthique de l'étude a-t-elle été prise en compte ? Q

A. Confidentialité Procédé d’anonymisation : les données en entrée de l’analyse ne comportent aucune information personnelle et ont été anonymisées par le service informatique de l’université sans produire de table de correspondance. Parmi les réponses, un nombre important de réponses vient d’un compte “public” ne demandant pas d’authentification. Personnes ayant accès aux données : Ces données ont été mises à disposition des chercheurs de l’ANR Hubble et aux membres de la plateforme UnderTracks. B. Archivage Type de données archivées : Durée de l’archivage : minimum 4 ans (2015-2019). Lieu de l’archivage : serveur undertracks.imag.fr Personne responsable : Denis Bouhineau Possibilité de destruction à la demande du participant (voir cas de figure section 4) : il n’y a pas de lien entre données et participants. C. Partage Type de données partagées : Données anonymes Conditions de partage : cf. contrat de l’ANR Hubble et/ou contrat d’UnderTracks. http://hubblelearn.imag.fr/ https://undertracks.imag.fr/php/

Quels problèmes éthiques peuvent se poser avec cette problématique ? ( e.g. accès à des données individuelles, ...) Q

Les risques éthiques sont faibles (pas de données individuelles, réponses fermées purement disciplinaires)

Description de toutes informations éthiques ou juridiques sur l'étude de cas, les analyses et les données

Il s’agit d’une analyse de tests de qcm (1) anonymes, (2) qui ne font pas partie d'une expérimentation mais des enseignements normaux, (3) qui ne comportent aucune question ouverte, (4) qui ne comportent aucune question sensible ou personnelle, (5) qui ne donnent pas une big data, (6) et dont l'objectif n'est pas orienté vers les individus mais vers l'évaluation de la qualité du qcm et (7) la recherche scientifique ...

En quoi les résultats sont ils acceptables d'un point de vue éthique ? ou quels sont les problèmes éthiques perçus ?

Les résultats concernent les questions, ils ont été communiqués aux enseignants qui ont pu les prendre en compte.