Résumé de l’étude
Cette étude vise à prédire le taux de réussite au baccalauréat d’un lycée sur la base de quelques unes de ses caractéristiques. Les différents modèles permettent de prédire le taux de réussite avec une erreur moyenne d’environ 3,6 points.
Données
Les données utilisées ont été mises à disposition sur le site d’ouverture des données publiques data.gouv.fr par le ministère de l’éducation nationale.
Elles sont disponibles à l’adresse suivante, ainsi que le dictionnaire des variables : https://www.data.gouv.fr/fr/datasets/indicateurs-de-resultat-des-lycees-denseignement-general-et-technologique/
Sur l’ensemble du jeu de données, nous ne retenons que les variables suivantes :
- département de l’établissement : le niveau communal impliquerait une variance faible voire nulle dans des communes qui ne comptent qu’un seul lycée, tandis que le niveau de l’académie semble trop agrégé ;
- secteur : statut public ou privé de l’établissement ;
- structure pédagogique de l’établissement : diversité de l’offre de formation de l’établissement. Par exemple, A désigne un lycée comprenant uniquement les séries L, ES et S, tandis que E désigne les lycées hôteliers ;
- nombre de présents au baccalauréats ;
- effectifs à la rentrée 2016 en terminale ;
- taux de réussite au baccalauréat, toutes séries confondues : il s’agit de la variable à prédire.
Le jeu de données a été retravaillé en conséquence ; les suppressions ont été réalisées en dehors de R et n’apparaissent donc pas dans le code ci-dessous.
library(readr)
library(ggplot2)
library(scatterplot3d)
library(rgl)
library(caret)
library(h2o)
library(xgboost)
lycees_bac_data <- read_csv("lycees_bac_data.csv")
lycees_bac_data <- data.frame(lycees_bac_data)
str(lycees_bac_data)
'data.frame': 2295 obs. of 6 variables:
$ Departement : chr "ALPES DE HTE PROVENCE" "ALPES DE HTE PROVENCE" "ALPES DE HTE PROVENCE" "ALPES DE HTE PROVENCE" ...
$ Secteur : chr "PU" "PU" "PR" "PU" ...
$ Structure.Pedagogique: chr "A" "C" "B" "F" ...
$ nombre_presents_bac : num 48 230 25 181 20 317 185 158 58 415 ...
$ taux_reussite_bac : num 96 88 96 100 100 93 91 89 97 95 ...
$ effectifs_rentree : num 56 228 25 166 50 334 183 158 61 483 ...
# change type of columns
lycees_bac_data$Departement <- factor(lycees_bac_data$Departement)
lycees_bac_data$Secteur <- factor(lycees_bac_data$Secteur)
lycees_bac_data$Structure.Pedagogique <- factor(lycees_bac_data$Structure.Pedagogique)
summary(lycees_bac_data)
Departement Secteur Structure.Pedagogique nombre_presents_bac taux_reussite_bac effectifs_rentree
PARIS : 112 PR: 771 A:456 Min. : 20.0 Min. : 42.00 Min. : 9.0
NORD : 98 PU:1524 B:606 1st Qu.:107.0 1st Qu.: 90.00 1st Qu.:113.5
BOUCHES DU RHONE : 76 C:443 Median :189.0 Median : 93.00 Median :202.0
RHONE : 69 D:259 Mean :206.3 Mean : 92.58 Mean :216.6
SEINE SAINT-DENIS: 55 E: 36 3rd Qu.:290.0 3rd Qu.: 97.00 3rd Qu.:305.0
SEINE ET MARNE : 54 F:395 Max. :858.0 Max. :100.00 Max. :913.0
(Other) :1831 G:100
sum(is.na(lycees_bac_data)) # no NAs
[1] 0
Exploration des données
La variable à prédire - le taux de réussite au baccalauréat - affiche une distribution relativement concentrée autour de sa tendance centrale, d’environ 93 %. Dans plus de trois établissements sur quatre, le taux de réussite dépasse 90 %.
La représentation graphique des données permet de dégager les principales indications suivantes :
- les établissements privés affichent en général un meilleur taux de réussite au baccalauréat que les lycées publics, sauf exception (filière E : hôtellerie). Leurs effectifs apparaissent en moyenne moins nombreux ;
- les taux de réussite selon les départements semblent relativement peu dispersés ;
- au-delà d’environ 50 élèves, la relation entre le taux de réussite au baccalauréat et les effectifs ou le nombre de présents semble légèrement négative ; autrement dit, un plus grand nombre d’élèves est associé à un taux de réussite légèrement plus faible. Ces corrélations négatives, d’ailleurs faibles (-0,12 et -0,14) n’impliquent pas nécessairement de relations causales entre ces variables.
# target
ggplot(data = lycees_bac_data) +
geom_histogram(mapping = aes(x = taux_reussite_bac), binwidth = 1) +
labs(title = "Distribution du taux de réussite au baccalauréat", x = "taux de réussite")

summary(lycees_bac_data$taux_reussite_bac)
Min. 1st Qu. Median Mean 3rd Qu. Max.
42.00 90.00 93.00 92.58 97.00 100.00
sd(lycees_bac_data$taux_reussite_bac)
[1] 5.994898
# predictors
ggplot(data = lycees_bac_data) +
geom_boxplot(mapping = aes(x = Departement, y = taux_reussite_bac)) +
coord_flip()

ggplot(data = lycees_bac_data) +
geom_boxplot(mapping = aes(x = Secteur, y = taux_reussite_bac)) +
labs(title = "Statut de l'établissement et taux de réussite", x = "Statut public ou privé",
y = "taux de réussite")

ggplot(data = lycees_bac_data) +
geom_boxplot(mapping = aes(x = Structure.Pedagogique, y = taux_reussite_bac, fill = Secteur)) +
labs(title = "Offre de formation de l'établissement, statut et taux de réussite",
x = "offre de formation", y = "taux de réussite")

ggplot(data = lycees_bac_data) +
geom_boxplot(mapping = aes(x = Secteur, y = taux_reussite_bac, fill = Structure.Pedagogique)) +
labs(title = "Offre de formation de l'établissement, statut et taux de réussite",
x = "Statut public ou privé", y = "taux de réussite")

ggplot(data = lycees_bac_data) +
geom_violin(mapping = aes(x = Secteur, y = taux_reussite_bac, fill = Structure.Pedagogique)) +
labs(title = "Distribution des variables Statut et Offre de formation")

ggplot(data = lycees_bac_data) +
geom_point(mapping = aes(x = nombre_presents_bac, y = taux_reussite_bac, color = Secteur)) +
geom_smooth(mapping = aes(x = nombre_presents_bac, y = taux_reussite_bac)) +
labs(title = "Nombre d'élèves présents au bac, statut et taux de réussite",
x = "Nombre d'élèves présents au bac", y = "taux de réussite")

ggplot(data = lycees_bac_data) +
geom_point(mapping = aes(x = effectifs_rentree, y = taux_reussite_bac, color = Secteur)) +
geom_smooth(mapping = aes(x = effectifs_rentree, y = taux_reussite_bac)) +
labs(title = "Effectifs en terminale, statut et taux de réussite",
x = "Effectifs en terminale", y = "taux de réussite")

ggplot(data = lycees_bac_data) +
geom_point(mapping = aes(x = nombre_presents_bac, y = taux_reussite_bac, color = Structure.Pedagogique)) +
geom_smooth(mapping = aes(x = nombre_presents_bac, y = taux_reussite_bac)) +
labs(title = "Nombre d'élèves présents au bac, offre de formation et taux de réussite",
x = "Nombre d'élèves présents au bac", y = "taux de réussite")

ggplot(data = lycees_bac_data) +
geom_point(mapping = aes(x = effectifs_rentree, y = taux_reussite_bac, color = Structure.Pedagogique)) +
geom_smooth(mapping = aes(x = effectifs_rentree, y = taux_reussite_bac)) +
labs(title = "Effectifs en terminale, offre de formation et taux de réussite",
x = "Effectifs en terminale", y = "taux de réussite")

# numeric features
scatterplot3d(nombre_presents_bac, effectifs_rentree, taux_reussite_bac)

plot3d(nombre_presents_bac, effectifs_rentree, taux_reussite_bac)
cor(lycees_bac_data$nombre_presents_bac, lycees_bac_data$taux_reussite_bac)
[1] -0.1202353
cor(lycees_bac_data$effectifs_rentree, lycees_bac_data$taux_reussite_bac)
[1] -0.141762
Préparation des données
Les données pour 2016 seront utilisées pour l’entraînement des modèles, tandis que celles pour 2015 permettront d’évaluer leur capacité à prédire le taux de réussite au baccalauréat des établissements. A noter que le jeu de données pour 2015, disponible ici : https://www.data.gouv.fr/fr/datasets/indicateurs-de-resultat-des-lycees-denseignement-general-et-technologique/, a été retravaillé pareillement aux données pour 2016 afin de ne retenir que les six mêmes variables, dont celle à prédire.
La préparation des données implique d’abord de transformer en variables binaires (dummy variables) les trois variables catégoriques (statut de l’établissement, offre de formation, département) puis de centrer et réduire les variables prédictives.
target <- lycees_bac_data$taux_reussite_bac
# preprocess the train set
dummies <- dummyVars(taux_reussite_bac ~ ., data = lycees_bac_data)
train <- predict(dummies, newdata = lycees_bac_data)
train <- data.frame(train)
# transform
transform <- preProcess(train, method = c('center', 'scale'))
train <- predict(transform, newdata = train)
# append the target
train$taux_reussite_bac <- target
# test data
test_2015 <- read_delim("test_2015.csv", ";", escape_double = FALSE, trim_ws = TRUE)
test_2015 <- data.frame(test_2015)
test_2015$Departement <- factor(test_2015$Departement)
test_2015$Secteur <- factor(test_2015$Secteur)
test_2015$Structure.Pedagogique <- factor(test_2015$Structure.Pedagogique)
target_test <- test_2015$taux_reussite_bac
test_2015 <- predict(dummies, newdata = test_2015)
test_2015 <- data.frame(test_2015)
test_2015 <- predict(transform, newdata = test_2015)
Modélisation du taux de réussite au baccalauréat
Les modélisations suivantes sont essayées pour estimer la capacité d’un modèle à prédire le taux de réussite au baccalauréat d’un lycée donné :
- régression linéraire
- support vector machines (SVM)
- arbres de décision
- réseau de neurones
- gradient boosting (XGboost)
Les hyperparamètres sont choisis par validation croisée (cross validation) compte tenu du petit nombre d’observations. Les meilleurs modèles sont ensuite appliqués sur les données 2015 afin de calculer, pour chaque observation, l’écart entre la prédiction du modèle et la valeur constatée en 2015 du taux de réussite au baccalauréat de l’établissement. La mesure de performance retenue ici est l’erreur moyenne absolue (MAE, mean absolute error).
Régression linéaire
# linear regression
control <- trainControl(method = "repeatedcv",
number = 10,
repeats = 5)
lr1 <- train(taux_reussite_bac ~ ., data = train, method = "lm", trControl = control)
summary(lr1)
lr1 # MAE = 3.73 ; R2 = 25 %
# evaluate on test set
predicted_lr <- predict(lr1, newdata = test_2015)
predicted_err <- mean(abs(target_test - predicted_lr))
predicted_err # MAE on test set : 3.68
Support Vector Machines (SVM)
# linear
svmlinear1 <- train(taux_reussite_bac ~ ., data = train,
method = 'svmLinear', trControl = control)
svmlinear1 # MAE 3.618678
svmgrid2 <- expand.grid(cost = c(0.25,0.5,0.75))
svmlinear2 <- train(taux_reussite_bac ~ ., data = train,
method = 'svmLinear2', trControl = control, tuneGrid = svmgrid2)
svmlinear2 # 3.605985
# polynomial
svmpoly_grid <- expand.grid(degree = c(2,3), scale = F, C = c(0.25,0.5,0.75))
svmpoly <- train(taux_reussite_bac ~ ., data = train,
method = 'svmPoly', trControl = control, tuneGrid = svmpoly_grid)
svmpoly # MAE around 4.48 for all
# radial
svmradial <- train(taux_reussite_bac ~ ., data = train,
method = 'svmRadial', trControl = control)
svmradial # best model : C = 1, sigma = 0.006190923. MAE = 3.509334
# evaluate on test set
predicted_svmradial <- predict(svmradial, newdata = test_2015)
predicted_err_svmradial <- mean(abs(target_test - predicted_svmradial))
predicted_err_svmradial # MAE on test set : 3.397091
Modèles à base d’arbres de décision
baggedcart <- train(taux_reussite_bac ~ ., data = train,
method = 'treebag', trControl = control)
baggedcart # MAE : 3.684886
# evaluate on test set
predicted_baggedcart <- predict(baggedcart, newdata = test_2015)
predicted_err_baggedcart <- mean(abs(target_test - predicted_baggedcart))
predicted_err_baggedcart # 3.756589
rpart1 <- train(taux_reussite_bac ~ ., data = train,
method = 'rpart2', maxdepth = 3,
trControl = control)
rpart1 # best MAE for depth = 3 : 3.745707
# evaluate on test set
predicted_rpart <- predict(rpart1, newdata = test_2015)
predicted_err_rpart <- mean(abs(target_test - predicted_rpart))
predicted_err_rpart # MAE : 3.843929
Réseau de neurones
h2o.init(nthreads = -1, max_mem_size = '4g')
# prepare the datasets
train_h2o <- as.h2o(train)
test_h2o <- as.h2o(test_2015)
target_test_h2o <- as.h2o(target_test)
Y <- "taux_reussite_bac"
X <- setdiff(names(train_h2o), Y)
# train the neural network
DL.h2o.1 <- h2o.deeplearning(x = X,
y = Y,
training_frame = train_h2o,
nfolds = 5,
distribution = "gaussian",
activation = "Maxout",
hidden = c(32,32,32),
sparse = FALSE,
l1 = 0.5,
l2 = 0.5,
epochs = 10,
standardize = FALSE,
variable_importances = TRUE,
seed = 2)
DL.h2o.1 # MAE: 4.011346
DL.h2o.2 <- h2o.deeplearning(x = X,
y = Y,
training_frame = train_h2o,
nfolds = 5,
distribution = "gaussian",
activation = "Maxout",
hidden = c(100,100),
sparse = FALSE,
l1 = 0.5,
l2 = 0.5,
epochs = 10,
standardize = FALSE,
variable_importances = TRUE,
seed = 2)
DL.h2o.2 # MAE: 3.752703, no overfit
predicted_dl2 <- h2o.predict(DL.h2o.2, newdata = test_h2o)
predicted_dl2_err <- mean(abs(predicted_dl2 - target_test_h2o))
predicted_dl2_err # test MAE : 4.508496
XGboost
# prepare the train set
dtrain <- xgb.DMatrix(as.matrix(train[, -113]), label = as.matrix(train[, 113]))
# train with cross validation
xgb <- xgb.cv(data = dtrain,
nrounds = 100,
nthread = 2,
nfold = 5,
metrics = "mae",
max_depth = 3,
eta = 0.1,
objective = "reg:linear")
xgb
# model
xgb_model <- xgboost(data = dtrain,
nrounds = 100,
nthread = 2,
metrics = "mae",
max_depth = 3,
eta = 0.1,
objective = "reg:linear")
# evaluate on test set
xgb_predicted <- predict(xgb_model, newdata = as.matrix(test_2015))
xgb_err <- mean(abs(target_test - xgb_predicted))
xgb_err # MAE on test set : 3.59
Conclusion
La meilleure prédiction a été réalisée par le SVM à noyau non-linéaire radial (radial kernel), avec une erreur moyenne absolue de 3,39. Autrement dit, si le modèle prédit, pour un établissement donné, un taux de réussite de 85 % au baccalauréat, le véritable taux se situe probablement entre 81,6 % et 88,4 %. La plupart des modélisations dans cette étude atteignent une erreur moyenne d’environ 3,6.
Cette précision est-elle satisfaisante ? D’un côté, elle l’est compte tenu du faible nombre (5) de variables prédictives disponibles dans le jeu de données. D’un autre côté, elle s’avère modeste au regard de la distribution du taux de réussite au baccalauréat, assez concentrée autour de 93 %, avec un écart-type de 6 points pour 2016. Ce résultat ne doit pas étonner au vu de l’exploration des données (faibles niveaux des corrélations, faibles différences de taux de réussite entre les départements, etc.).
Pour améliorer la précision du modèle, de nouvelles variables prédictives seraient requises. Par hypothèse, on peut songer au budget de l’établissement rapporté au nombre d’élèves en terminale, au nombre d’élèves par enseignant, etc. De même, le niveau intercommunal pourrait s’avérer plus utile que le niveau départemental car il est probable que la dispersion au sein de chaque département soit supérieure à la dispersion entre départements.
