Résumé de l’étude

Cette étude vise à prédire le taux de réussite au baccalauréat d’un lycée sur la base de quelques unes de ses caractéristiques. Les différents modèles permettent de prédire le taux de réussite avec une erreur moyenne d’environ 3,6 points.

Données

Les données utilisées ont été mises à disposition sur le site d’ouverture des données publiques data.gouv.fr par le ministère de l’éducation nationale.

Elles sont disponibles à l’adresse suivante, ainsi que le dictionnaire des variables : https://www.data.gouv.fr/fr/datasets/indicateurs-de-resultat-des-lycees-denseignement-general-et-technologique/

Sur l’ensemble du jeu de données, nous ne retenons que les variables suivantes :

Le jeu de données a été retravaillé en conséquence ; les suppressions ont été réalisées en dehors de R et n’apparaissent donc pas dans le code ci-dessous.

library(readr)
library(ggplot2)
library(scatterplot3d)
library(rgl)
library(caret)
library(h2o)
library(xgboost)
lycees_bac_data <- read_csv("lycees_bac_data.csv")
lycees_bac_data <- data.frame(lycees_bac_data)
str(lycees_bac_data)
'data.frame':   2295 obs. of  6 variables:
 $ Departement          : chr  "ALPES DE HTE PROVENCE" "ALPES DE HTE PROVENCE" "ALPES DE HTE PROVENCE" "ALPES DE HTE PROVENCE" ...
 $ Secteur              : chr  "PU" "PU" "PR" "PU" ...
 $ Structure.Pedagogique: chr  "A" "C" "B" "F" ...
 $ nombre_presents_bac  : num  48 230 25 181 20 317 185 158 58 415 ...
 $ taux_reussite_bac    : num  96 88 96 100 100 93 91 89 97 95 ...
 $ effectifs_rentree    : num  56 228 25 166 50 334 183 158 61 483 ...
# change type of columns
lycees_bac_data$Departement <- factor(lycees_bac_data$Departement)
lycees_bac_data$Secteur <- factor(lycees_bac_data$Secteur)
lycees_bac_data$Structure.Pedagogique <- factor(lycees_bac_data$Structure.Pedagogique)
summary(lycees_bac_data)
            Departement   Secteur   Structure.Pedagogique nombre_presents_bac taux_reussite_bac effectifs_rentree
 PARIS            : 112   PR: 771   A:456                 Min.   : 20.0       Min.   : 42.00    Min.   :  9.0    
 NORD             :  98   PU:1524   B:606                 1st Qu.:107.0       1st Qu.: 90.00    1st Qu.:113.5    
 BOUCHES DU RHONE :  76             C:443                 Median :189.0       Median : 93.00    Median :202.0    
 RHONE            :  69             D:259                 Mean   :206.3       Mean   : 92.58    Mean   :216.6    
 SEINE SAINT-DENIS:  55             E: 36                 3rd Qu.:290.0       3rd Qu.: 97.00    3rd Qu.:305.0    
 SEINE ET MARNE   :  54             F:395                 Max.   :858.0       Max.   :100.00    Max.   :913.0    
 (Other)          :1831             G:100                                                                        
sum(is.na(lycees_bac_data)) # no NAs
[1] 0

Exploration des données

La variable à prédire - le taux de réussite au baccalauréat - affiche une distribution relativement concentrée autour de sa tendance centrale, d’environ 93 %. Dans plus de trois établissements sur quatre, le taux de réussite dépasse 90 %.

La représentation graphique des données permet de dégager les principales indications suivantes :

# target
ggplot(data = lycees_bac_data) +
        geom_histogram(mapping = aes(x = taux_reussite_bac), binwidth = 1) +
        labs(title = "Distribution du taux de réussite au baccalauréat", x = "taux de réussite")

summary(lycees_bac_data$taux_reussite_bac)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
  42.00   90.00   93.00   92.58   97.00  100.00 
sd(lycees_bac_data$taux_reussite_bac)
[1] 5.994898
# predictors 
ggplot(data = lycees_bac_data) +
        geom_boxplot(mapping = aes(x = Departement, y = taux_reussite_bac)) +
        coord_flip()

ggplot(data = lycees_bac_data) +
        geom_boxplot(mapping = aes(x = Secteur, y = taux_reussite_bac)) +
        labs(title = "Statut de l'établissement et taux de réussite", x = "Statut public ou privé", 
             y = "taux de réussite")

ggplot(data = lycees_bac_data) +
        geom_boxplot(mapping = aes(x = Structure.Pedagogique, y = taux_reussite_bac, fill = Secteur)) +
        labs(title = "Offre de formation de l'établissement, statut et taux de réussite",
             x = "offre de formation", y = "taux de réussite")

ggplot(data = lycees_bac_data) +
        geom_boxplot(mapping = aes(x = Secteur, y = taux_reussite_bac, fill = Structure.Pedagogique)) +
        labs(title = "Offre de formation de l'établissement, statut et taux de réussite",
             x = "Statut public ou privé", y = "taux de réussite")

ggplot(data = lycees_bac_data) +
        geom_violin(mapping = aes(x = Secteur, y = taux_reussite_bac, fill = Structure.Pedagogique)) +
        labs(title = "Distribution des variables Statut et Offre de formation")

ggplot(data = lycees_bac_data) +
        geom_point(mapping = aes(x = nombre_presents_bac, y = taux_reussite_bac, color = Secteur)) +
        geom_smooth(mapping = aes(x = nombre_presents_bac, y = taux_reussite_bac)) +
        labs(title = "Nombre d'élèves présents au bac, statut et taux de réussite",
             x = "Nombre d'élèves présents au bac", y = "taux de réussite")

ggplot(data = lycees_bac_data) +
        geom_point(mapping = aes(x = effectifs_rentree, y = taux_reussite_bac, color = Secteur)) +
        geom_smooth(mapping = aes(x = effectifs_rentree, y = taux_reussite_bac)) +
        labs(title = "Effectifs en terminale, statut et taux de réussite",
             x = "Effectifs en terminale", y = "taux de réussite")

ggplot(data = lycees_bac_data) +
        geom_point(mapping = aes(x = nombre_presents_bac, y = taux_reussite_bac, color = Structure.Pedagogique)) +
        geom_smooth(mapping = aes(x = nombre_presents_bac, y = taux_reussite_bac)) +
        labs(title = "Nombre d'élèves présents au bac, offre de formation et taux de réussite",
             x = "Nombre d'élèves présents au bac", y = "taux de réussite")

ggplot(data = lycees_bac_data) +
        geom_point(mapping = aes(x = effectifs_rentree, y = taux_reussite_bac, color = Structure.Pedagogique)) +
        geom_smooth(mapping = aes(x = effectifs_rentree, y = taux_reussite_bac)) +
        labs(title = "Effectifs en terminale, offre de formation et taux de réussite",
             x = "Effectifs en terminale", y = "taux de réussite")

# numeric features
scatterplot3d(nombre_presents_bac, effectifs_rentree, taux_reussite_bac)

plot3d(nombre_presents_bac, effectifs_rentree, taux_reussite_bac)
cor(lycees_bac_data$nombre_presents_bac, lycees_bac_data$taux_reussite_bac)
[1] -0.1202353
cor(lycees_bac_data$effectifs_rentree, lycees_bac_data$taux_reussite_bac)
[1] -0.141762

Préparation des données

Les données pour 2016 seront utilisées pour l’entraînement des modèles, tandis que celles pour 2015 permettront d’évaluer leur capacité à prédire le taux de réussite au baccalauréat des établissements. A noter que le jeu de données pour 2015, disponible ici : https://www.data.gouv.fr/fr/datasets/indicateurs-de-resultat-des-lycees-denseignement-general-et-technologique/, a été retravaillé pareillement aux données pour 2016 afin de ne retenir que les six mêmes variables, dont celle à prédire.

La préparation des données implique d’abord de transformer en variables binaires (dummy variables) les trois variables catégoriques (statut de l’établissement, offre de formation, département) puis de centrer et réduire les variables prédictives.

target <- lycees_bac_data$taux_reussite_bac
# preprocess the train set
dummies <- dummyVars(taux_reussite_bac ~ ., data = lycees_bac_data)
train <- predict(dummies, newdata = lycees_bac_data)
train <- data.frame(train)
# transform
transform <- preProcess(train, method = c('center', 'scale'))
train <- predict(transform, newdata = train)
# append the target
train$taux_reussite_bac <- target
# test data
test_2015 <- read_delim("test_2015.csv", ";", escape_double = FALSE, trim_ws = TRUE)
test_2015 <- data.frame(test_2015)
test_2015$Departement <- factor(test_2015$Departement)
test_2015$Secteur <- factor(test_2015$Secteur)
test_2015$Structure.Pedagogique <- factor(test_2015$Structure.Pedagogique)
target_test <- test_2015$taux_reussite_bac
test_2015 <- predict(dummies, newdata = test_2015)
test_2015 <- data.frame(test_2015)
test_2015 <- predict(transform, newdata = test_2015)

Modélisation du taux de réussite au baccalauréat

Les modélisations suivantes sont essayées pour estimer la capacité d’un modèle à prédire le taux de réussite au baccalauréat d’un lycée donné :

Les hyperparamètres sont choisis par validation croisée (cross validation) compte tenu du petit nombre d’observations. Les meilleurs modèles sont ensuite appliqués sur les données 2015 afin de calculer, pour chaque observation, l’écart entre la prédiction du modèle et la valeur constatée en 2015 du taux de réussite au baccalauréat de l’établissement. La mesure de performance retenue ici est l’erreur moyenne absolue (MAE, mean absolute error).

Régression linéaire

# linear regression
control <- trainControl(method = "repeatedcv",
                        number = 10, 
                        repeats = 5)

lr1 <- train(taux_reussite_bac ~ ., data = train, method = "lm", trControl = control)
summary(lr1)
lr1 # MAE = 3.73 ; R2 = 25 %

# evaluate on test set
predicted_lr <- predict(lr1, newdata = test_2015)
predicted_err <- mean(abs(target_test - predicted_lr))
predicted_err # MAE on test set : 3.68

Support Vector Machines (SVM)

# linear
svmlinear1 <- train(taux_reussite_bac ~ ., data = train, 
                method = 'svmLinear', trControl = control)
svmlinear1 # MAE 3.618678

svmgrid2 <- expand.grid(cost = c(0.25,0.5,0.75))
svmlinear2 <- train(taux_reussite_bac ~ ., data = train, 
                method = 'svmLinear2', trControl = control, tuneGrid = svmgrid2)
svmlinear2 # 3.605985

# polynomial
svmpoly_grid <- expand.grid(degree = c(2,3), scale = F, C = c(0.25,0.5,0.75))
svmpoly <- train(taux_reussite_bac ~ ., data = train, 
                method = 'svmPoly', trControl = control, tuneGrid = svmpoly_grid)
svmpoly # MAE around 4.48 for all

# radial
svmradial <- train(taux_reussite_bac ~ ., data = train, 
                method = 'svmRadial', trControl = control)
svmradial # best model : C = 1, sigma = 0.006190923. MAE = 3.509334

# evaluate on test set
predicted_svmradial <- predict(svmradial, newdata = test_2015)
predicted_err_svmradial <- mean(abs(target_test - predicted_svmradial))
predicted_err_svmradial # MAE on test set : 3.397091

Modèles à base d’arbres de décision

baggedcart <- train(taux_reussite_bac ~ ., data = train, 
                method = 'treebag', trControl = control)
baggedcart # MAE : 3.684886

# evaluate on test set
predicted_baggedcart <- predict(baggedcart, newdata = test_2015)
predicted_err_baggedcart <- mean(abs(target_test - predicted_baggedcart))
predicted_err_baggedcart # 3.756589
rpart1 <- train(taux_reussite_bac ~ ., data = train, 
                method = 'rpart2', maxdepth = 3, 
                trControl = control)
rpart1 # best MAE for depth = 3 : 3.745707

# evaluate on test set
predicted_rpart <- predict(rpart1, newdata = test_2015)
predicted_err_rpart <- mean(abs(target_test - predicted_rpart))
predicted_err_rpart # MAE : 3.843929

Réseau de neurones

h2o.init(nthreads = -1, max_mem_size = '4g')

# prepare the datasets
train_h2o <- as.h2o(train)
test_h2o <- as.h2o(test_2015)
target_test_h2o <- as.h2o(target_test)

Y <- "taux_reussite_bac"
X <- setdiff(names(train_h2o), Y)

# train the neural network
DL.h2o.1 <- h2o.deeplearning(x = X, 
                             y = Y,
                             training_frame = train_h2o,
                             nfolds = 5, 
                             distribution = "gaussian",
                             activation = "Maxout",
                             hidden = c(32,32,32),
                             sparse = FALSE, 
                             l1 = 0.5,
                             l2 = 0.5,
                             epochs = 10, 
                             standardize = FALSE,
                             variable_importances = TRUE,
                             seed = 2)
DL.h2o.1 # MAE: 4.011346

DL.h2o.2 <- h2o.deeplearning(x = X, 
                             y = Y,
                             training_frame = train_h2o,
                             nfolds = 5, 
                             distribution = "gaussian",
                             activation = "Maxout",
                             hidden = c(100,100),
                             sparse = FALSE, 
                             l1 = 0.5,
                             l2 = 0.5,
                             epochs = 10, 
                             standardize = FALSE,
                             variable_importances = TRUE,
                             seed = 2)
DL.h2o.2 # MAE: 3.752703, no overfit

predicted_dl2 <- h2o.predict(DL.h2o.2, newdata = test_h2o)
predicted_dl2_err <- mean(abs(predicted_dl2 - target_test_h2o))
predicted_dl2_err # test MAE : 4.508496

XGboost


# prepare the train set
dtrain <- xgb.DMatrix(as.matrix(train[, -113]), label = as.matrix(train[, 113]))

# train with cross validation
xgb <- xgb.cv(data = dtrain, 
             nrounds = 100, 
             nthread = 2, 
             nfold = 5, 
             metrics = "mae",
             max_depth = 3, 
             eta = 0.1, 
             objective = "reg:linear")
xgb

# model
xgb_model <- xgboost(data = dtrain, 
             nrounds = 100, 
             nthread = 2, 
             metrics = "mae",
             max_depth = 3, 
             eta = 0.1, 
             objective = "reg:linear")

# evaluate on test set
xgb_predicted <- predict(xgb_model, newdata = as.matrix(test_2015))
xgb_err <- mean(abs(target_test - xgb_predicted))
xgb_err # MAE on test set : 3.59

Conclusion

La meilleure prédiction a été réalisée par le SVM à noyau non-linéaire radial (radial kernel), avec une erreur moyenne absolue de 3,39. Autrement dit, si le modèle prédit, pour un établissement donné, un taux de réussite de 85 % au baccalauréat, le véritable taux se situe probablement entre 81,6 % et 88,4 %. La plupart des modélisations dans cette étude atteignent une erreur moyenne d’environ 3,6.

Cette précision est-elle satisfaisante ? D’un côté, elle l’est compte tenu du faible nombre (5) de variables prédictives disponibles dans le jeu de données. D’un autre côté, elle s’avère modeste au regard de la distribution du taux de réussite au baccalauréat, assez concentrée autour de 93 %, avec un écart-type de 6 points pour 2016. Ce résultat ne doit pas étonner au vu de l’exploration des données (faibles niveaux des corrélations, faibles différences de taux de réussite entre les départements, etc.).

Pour améliorer la précision du modèle, de nouvelles variables prédictives seraient requises. Par hypothèse, on peut songer au budget de l’établissement rapporté au nombre d’élèves en terminale, au nombre d’élèves par enseignant, etc. De même, le niveau intercommunal pourrait s’avérer plus utile que le niveau départemental car il est probable que la dispersion au sein de chaque département soit supérieure à la dispersion entre départements.

