📚 Dataset OULAD - Open University Learning Analytics
Vue d’ensemble
Le dataset OULAD (Open University Learning Analytics Dataset) est un dataset majeur dans le domaine de l’analyse de l’apprentissage en ligne. Il contient des données détaillées sur l’interaction de plus de 32 000 étudiants avec l’environnement d’apprentissage virtuel (VLE) de l’Open University au Royaume-Uni.
Caractéristiques principales
Domaine |
Éducation - Analyse de l’apprentissage |
Tâches ML |
Classification (prédiction de réussite) |
Instances |
32 593 étudiants |
Fichiers |
14 fichiers CSV |
Colonnes totales |
93 colonnes |
Année |
2014 |
Accès |
Public |
Licence |
Recherche et éducation |
Objectif du dataset
Analyser l’apprentissage en ligne dans l’enseignement supérieur, notamment :
-
Prédiction du succès académique : Identifier les étudiants à risque d’échec
-
Analyse comportementale : Comprendre les patterns d’interaction avec le VLE
-
Personnalisation de l’apprentissage : Adapter le contenu selon le profil étudiant
-
Optimisation pédagogique : Améliorer les parcours et ressources éducatives
Structure des données
📁 Fichiers principaux
1. Informations étudiants
-
studentInfo.csv
(3.46 MB) - Profils démographiques et académiques -
studentRegistration.csv
(1.11 MB) - Inscriptions et désinscriptions -
studentAssessment.csv
(5.69 MB) - Résultats aux évaluations
🏗️ Modèle de données
Entités principales
Étudiant
Champ |
Type |
Description |
|
int |
Identifiant unique (anonymisé) |
|
string |
Genre (M/F) |
|
string |
Région de résidence UK |
|
string |
Niveau d’éducation le plus élevé |
|
string |
Indice de défavorisation (quintiles) |
|
string |
Tranche d’âge |
|
string |
Statut de handicap (Y/N) |
|
string |
Résultat final (Pass/Withdrawn/Fail/Distinction) |
Module de cours
Champ |
Type |
Description |
|
string |
Code du module (AAA, BBB, CCC, etc.) |
|
string |
Session du cours (2013J, 2014B, etc.) |
|
int |
Durée en jours |
Utilisation recommandée
🎯 Cas d’usage typiques
1. Prédiction de réussite
**Objectif** : Prédire si un étudiant va réussir son cours
**Variables cibles** : `final_result` (Pass/Fail/Withdrawn/Distinction)
**Features principales** :
- Données démographiques (age_band, highest_education, imd_band)
- Activité VLE (sum_click, fréquence d'accès)
- Performance aux évaluations intermédiaires
📊 Pipeline ML recommandé
Préparation des données
1. Nettoyage
-
Gestion des valeurs manquantes : ~0.5% de données manquantes (principalement scores)
-
Suppression des doublons : Vérifier l’unicité des étudiants par cours
-
Validation temporelle : Cohérence des dates d’évaluation et d’interaction
Modélisation
Considérations éthiques
🛡️ Score éthique : 85%
Le dataset OULAD présente un excellent score éthique grâce à :
Ressources et références
📖 Documentation officielle
-
Article de référence : Kuzilek et al. (2017) - Scientific Data 4:170171
-
DOI : 10.1038/sdata.2017.171
-
Citations : Plus de 1800 citations académiques
🔗 Liens utiles
-
Dataset original : https://analyse.kmi.open.ac.uk/open_dataset
-
Code exemple : Notebooks Jupyter communautaires
-
Forum de discussion : Groupe de recherche Learning Analytics