I. Analyse descriptive

Justification

L’analyse descriptive permet de comprendre la distribution et les caractéristiques générales des données, offrant ainsi un aperçu préliminaire des tendances et des associations potentielles entre les variables étudiées.

fastggplot <- function(data, x_var, title, x_label, y_label) {
  # Calcul des fréquences
  freq_data <- data %>%
    count(.data[[x_var]]) %>%
    mutate(percentage = n / sum(n) * 100)  # Calcul des pourcentages
  
  ggplot(data, aes(x = factor(.data[[x_var]]), fill = factor(.data[[x_var]]))) +
    geom_bar(color = "black", alpha = 0.8) +
    geom_label(data = freq_data, aes(x = factor(.data[[x_var]]), y = n + 1, label = paste0(round(percentage, 1), "%")), 
               position = position_dodge(width = 0.8), size = 5, color = "black", fontface = "bold", fill = "white", label.padding = unit(0.2, "lines")) +
    labs(title = title, x = x_label, y = y_label, fill = x_var) +
    theme_minimal() +
    theme(axis.text = element_text(size = 12),
          axis.title = element_text(size = 14, face = "bold"),
          plot.title = element_text(size = 16, face = "bold"))
}

a. Répartion des étudiants en fonction de la bourse

Boursier <- fastggplot(data, "Boursier", "Répartition en fonction de la bourse", "", "Nombre d'occurence")
Boursier

b. Répartion des étudiants en fonction du sexe

Sexe <- fastggplot(data, "Sexe", "Répartition homme femme", "", "Nombre de cas")
Sexe <- Sexe + theme(axis.text.x = element_text(angle = 45, hjust = 1))
Sexe

c. Répartion des étudiants en fonction de la catégorie socio-professionnele du parent 1

PCS_Parent1 <- fastggplot(data, "PCS_Parent1", "Catégorie socio-professionnelle du parent 1", "", "Nombre d'occurence")
PCS_Parent1 <- PCS_Parent1 + theme(axis.text.x = element_text(angle = 45, hjust = 1))
PCS_Parent1

d. Répartion des étudiants en fonction de la bourse

PCS_Parent2 = fastggplot(data, "PCS_Parent2", "Catégorie socio-professionnelle du parent 2", "", "Nombre d'occurence")
PCS_Parent2 <- PCS_Parent2 + theme(axis.text.x = element_text(angle = 45, hjust = 1))
PCS_Parent2

e.Répartion des étudiants en fonction du bac

Bac = fastggplot(data, "Bac_Groupe", "Bac", "", "Nombre d'occurence")
Bac <- Bac + theme(axis.text.x = element_text(angle = 45, hjust = 1, size = 7))
Bac

f. Répartion de la mention des étudiants au Bac


Bac_Mention = fastggplot(data, "Bac_Mention", "Mention au Bac", "", "Nombre d'occurence")
Bac_Mention <- Bac_Mention + theme(axis.text.x = element_text(angle = 45, hjust = 1))
Bac_Mention 

g. Intitulé d’étude en 2023-2024

note2023 = fastggplot(data, "2023", "Intitulé d'étude en 2023-2024", "", "Nombre d'occurence")
note2023 <- note2023 +theme(axis.text.x = element_text(angle = 45, hjust = 1, size = 7))
note2023

h. Résultat des étudiants en 2023-2024

Resultat2023 = fastggplot(data, "Resultat", "Résultat 2023", "", "Nombre d'occurence")
Resultat2023 <- Resultat2023 + theme(axis.text.x = element_text(angle = 45, hjust = 1))
Resultat2023

i. Intitulé de formation en 2024-2025


Formation2024 = fastggplot(data, "2024", "Formation 2024-2025", "", "Nombre d'occurence")
Formation2024 <- Formation2024 + theme(axis.text.x = element_text(angle = 45, hjust = 1))
Formation2024

j. Moyenne générale des étudiants en 2023-2024

# Histogramme amélioré pour la variable Note
library(ggplot2)

noted = ggplot(data, aes(x = Note)) +
  geom_histogram(binwidth = 1, fill = "#69b3a2", color = "white", alpha = 0.8) +
  labs(
    title = "Distribution des Notes",
    x = "Note",
    y = "Fréquence"
  ) +
  theme_minimal() +
  theme(
    plot.title = element_text(size = 18, face = "bold", color = "#2a3d3f"),
    axis.title = element_text(size = 14, face = "bold", color = "#2a3d3f"),
    axis.text = element_text(size = 12, color = "#2a3d3f"),
    panel.grid.major = element_line(color = "#d3d3d3"),
    panel.grid.minor = element_blank()
  )
noted

II. Analyse inférentielle

L’analyse inférentielle entre les notes et les autres variables vise à déterminer si des facteurs comme le statut de boursier, le sexe, la catégorie socioprofessionnelle des parents, ou les mentions au bac influencent les résultats académiques.

a. Sexe et notes


# Effectuer le test t de Student entre Sexe et Note
t_test_result10 <- t.test(Note ~ Boursier, data = data, var.equal = TRUE)

# Extraire la p-value du test
p_value10 <- t_test_result1$p.value

# Créer un boxplot et ajouter la p-value sur le graphique
library(ggplot2)

ggplot(data, aes(x = Sexe, y = Note, fill = Sexe)) +
  geom_boxplot(color = "black", alpha = 0.6) +
  labs(title = "Comparaison des notes selon le sexe",
       x = "Sexe", y = "Note") +
  theme_minimal() +
  theme(axis.text = element_text(size = 12),
        axis.title = element_text(size = 14, face = "bold"),
        plot.title = element_text(size = 16, face = "bold")) +
  # Ajouter la p-value sur le graphique
  annotate("text", x = 1.5, y = max(data$Note, na.rm = TRUE), 
           label = paste("p-value =", round(p_value10, 4)), 
           size = 5, color = "red", fontface = "bold")

b. Bourse et notes


# Effectuer le test t de Student entre Boursier et Note
t_test_result1 <- t.test(Note ~ Boursier, data = data)

# Extraire la p-value du test
p_value1 <- t_test_result1$p.value

# Créer un boxplot et ajouter la p-value sur le graphique
library(ggplot2)

ggplot(data, aes(x = Boursier, y = Note, fill = Boursier)) +
  geom_boxplot(color = "black", alpha = 0.6) +
  labs(title = "Comparaison des notes entre boursiers et non-boursiers",
       x = "Statut Boursier", y = "Note") +
  theme_minimal() +
  theme(axis.text = element_text(size = 12),
        axis.title = element_text(size = 14, face = "bold"),
        plot.title = element_text(size = 16, face = "bold")) +
  # Ajouter la p-value sur le graphique
  annotate("text", x = 1.5, y = max(data$Note, na.rm = TRUE), 
           label = paste("p-value =", round(p_value1, 4)), 
           size = 5, color = "red", fontface = "bold")

c. Notes et catégorie socio-professionnelle du parent 1


# Effectuer une ANOVA entre PCS_Parent1 et Note
anova_result1 <- aov(Note ~ PCS_Parent1, data = data)

# Extraire la p-value de l'ANOVA
anova_p_value2 <- summary(anova_result1)[[1]][["Pr(>F)"]][1]

# Créer un boxplot avec p-value et ajuster l'apparence des noms des variables
ggplot(data, aes(x = PCS_Parent1, y = Note, fill = PCS_Parent1)) +
  geom_boxplot(color = "black", alpha = 0.6) +
  labs(
    title = "Comparaison des notes selon la PCS du parent 1",
    x = "PCS Parent 1", 
    y = "Note"
  ) +
  theme_minimal() +
  theme(
    axis.text.x = element_text(size = 10, angle = 45, hjust = 1),  # Taille réduite et rotation des noms
    axis.text.y = element_text(size = 12),                         # Taille des étiquettes de l'axe Y
    axis.title = element_text(size = 14, face = "bold"),           # Taille et style des titres des axes
    plot.title = element_text(size = 16, face = "bold")            # Taille et style du titre principal
  ) +
  # Ajouter la p-value en bas à droite
  annotate(
    "text", 
    x = length(unique(data$PCS_Parent1)),  # Position x (dernière catégorie)
    y = min(data$Note, na.rm = TRUE) - 1,  # Position y légèrement sous le minimum des notes
    label = paste("p-value =", round(anova_p_value2, 4)), 
    size = 5, 
    color = "red", 
    fontface = "bold",
    hjust = 1  # Alignement à droite
  )

NA
NA

d. Notes et catégorie-professionnelle du parent 2


# Effectuer une ANOVA entre PCS_Parent1 et Note
anova_result2 <- aov(Note ~ PCS_Parent2, data = data)

# Extraire la p-value de l'ANOVA
anova_p_value3 <- summary(anova_result2)[[1]][["Pr(>F)"]][1]

# Créer un boxplot avec p-value et ajuster l'apparence des noms des variables
ggplot(data, aes(x = PCS_Parent2, y = Note, fill = PCS_Parent2)) +
  geom_boxplot(color = "black", alpha = 0.6) +
  labs(
    title = "Comparaison des notes selon la PCS du parent 2",
    x = "PCS Parent 2", 
    y = "Note"
  ) +
  theme_minimal() +
  theme(
    axis.text.x = element_text(size = 10, angle = 45, hjust = 1),  # Taille réduite et rotation des noms
    axis.text.y = element_text(size = 12),                         # Taille des étiquettes de l'axe Y
    axis.title = element_text(size = 14, face = "bold"),           # Taille et style des titres des axes
    plot.title = element_text(size = 16, face = "bold")            # Taille et style du titre principal
  ) +
  # Ajouter la p-value en bas à droite
  annotate(
    "text", 
    x = length(unique(data$PCS_Parent1)),  # Position x (dernière catégorie)
    y = min(data$Note, na.rm = TRUE) - 1,  # Position y légèrement sous le minimum des notes
    label = paste("p-value =", round(anova_p_value3, 4)), 
    size = 5, 
    color = "red", 
    fontface = "bold",
    hjust = 1  # Alignement à droite
  )

e. Notes et mention au bac

anova_result3 <- aov(Note ~ Bac_Mention, data = data)

# Extraire la p-value de l'ANOVA
anova_p_value4 <- summary(anova_result3)[[1]][["Pr(>F)"]][1]

# Créer un boxplot avec p-value et ajuster l'apparence des noms des variables
ggplot(data, aes(x = Bac_Mention, y = Note, fill = Bac_Mention)) +
  geom_boxplot(color = "black", alpha = 0.6) +
  labs(
    title = "Comparaison des notes selon la mention au bac",
    x = "Mention au Bac", 
    y = "Note"
  ) +
  theme_minimal() +
  theme(
    axis.text.x = element_text(size = 10, angle = 45, hjust = 1),  # Taille réduite et rotation des noms
    axis.text.y = element_text(size = 12),                         # Taille des étiquettes de l'axe Y
    axis.title = element_text(size = 14, face = "bold"),           # Taille et style des titres des axes
    plot.title = element_text(size = 16, face = "bold")            # Taille et style du titre principal
  ) +
  # Ajouter la p-value en bas à droite
  annotate(
    "text", 
    x = length(unique(data$Bac_Mention)),  # Position x (dernière catégorie)
    y = min(data$Note, na.rm = TRUE) - 1,  # Position y légèrement sous le minimum des notes
    label = paste("p-value =", round(anova_p_value4, 4)), 
    size = 5, 
    color = "green", 
    fontface = "bold",
    hjust = 1  # Alignement à droite
  )

III. Modèle prenant toutes les variables ensemble


# Création du graphique avec ggplot2
ggplot(importance_data, aes(x = reorder(Variable, Importance), y = Importance)) +
  geom_bar(stat = "identity", fill = "skyblue", color = "black") +  # Barres avec couleur et bordure
  coord_flip() +  # Inverser les axes pour une meilleure lisibilité
  labs(title = "Variables significatives avec importance > seuil 95%",
       x = "Variables", y = "Importance") +
  theme_minimal() +  # Thème minimaliste
  theme(
    axis.text.x = element_text(size = 10, angle = 45, hjust = 1),  # Rotation des noms des variables
    axis.text.y = element_text(size = 10)  # Taille des noms des variables
  ) +
  geom_hline(yintercept = seuil_importance, linetype = "dashed", color = "red", size = 1.5)  # Ajouter le seuil

NA
NA
---
title: "Graphique STAPS"
author: "BECK Valentin"
output:
  
  html_notebook:
    toc: true
    df_print: paged
    theme: journal
    toc_float: true
    source: embed
  html_document:
    toc: true
    df_print: paged
---

```{=html}
<style>
body{
  text-align: justify}
</style>
```

------------------------------------------------------------------------

```{r setup, include=FALSE}
options(repos = c(CRAN = "https://cran.r-project.org"))

knitr::opts_chunk$set(echo = TRUE)

library(data.table)
library(caret)
library(randomForest)
library(ggplot2)
library(vcd)
library(rpart)
library(rpart.plot)
library(car)
library(MASS)
library(gridExtra)
library(plotly)
library(pROC)
library(dplyr)
library(FactoMineR)
install.packages("arm")
library(arm)
install.packages("readxl")
library(readxl)

setwd("C:/Users/Valen/Desktop/Machine learning/")


  data = read_excel('STAPS.xlsx')
  data = data[-133,]
  
  data <- data[, -c(1, 2,3, 4, 7 , 8)]  # Supprime les colonnes 1 et 2
  



colnames(data) <- c(
"Boursier", "Sexe", 
  "PCS_Parent2", "PCS_Parent1", "Bac_Groupe", "Bac_Mention", 
  "2023", "Note", "Resultat", "2024"
)



# Transformer les colonnes de type "chr" en "factor"
data <- data %>%
  mutate(across(where(is.character), as.factor))



# Création d'un vecteur de regroupement
categories <- c(
  "11" = "Agriculteurs",
  "12" = "Agriculteurs",
  "21" = "Agriculteurs",
  "22" = "Artisans et commerçants",
  "31" = "Artisans et commerçants",
  "33" = "Cadres",
  "34" = "Cadres",
  "37" = "Professions intermédiaires",
  "38" = "Professions intermédiaires",
  "42" = "Employés",
  "43" = "Employés",
  "45" = "Employés",
  "46" = "Ouvriers",
  "47" = "Ouvriers",
  "48" = "Ouvriers",
  "52" = "Retraités",
  "53" = "Retraités",
  "54" = "Retraités",
  "55" = "Retraités",
  "56" = "Retraités",
  "74" = "Autres inactifs",
  "77" = "Autres inactifs",
  "78" = "Autres inactifs",
  "85" = "Autres inactifs",
  "99" = "Autres inactifs"
)

# Remplacement dans la colonne PCS_Parent1
data$PCS_Parent1 <- as.character(data$PCS_Parent1)  # S'assurer que la colonne est en caractères
data$PCS_Parent1 <- categories[data$PCS_Parent1]   # Remplacer les codes par les noms

# Remplacement dans la colonne PCS_Parent2
data$PCS_Parent2 <- as.character(data$PCS_Parent2)  # S'assurer que la colonne est en caractères
data$PCS_Parent2 <- categories[data$PCS_Parent2]   # Remplacer les codes par les noms



options(warn = -1)

```

# I. Analyse descriptive

## Justification

L'analyse descriptive permet de comprendre la distribution et les caractéristiques générales des données, offrant ainsi un aperçu préliminaire des tendances et des associations potentielles entre les variables étudiées.


```{r cars}
fastggplot <- function(data, x_var, title, x_label, y_label) {
  # Calcul des fréquences
  freq_data <- data %>%
    count(.data[[x_var]]) %>%
    mutate(percentage = n / sum(n) * 100)  # Calcul des pourcentages
  
  ggplot(data, aes(x = factor(.data[[x_var]]), fill = factor(.data[[x_var]]))) +
    geom_bar(color = "black", alpha = 0.8) +
    geom_label(data = freq_data, aes(x = factor(.data[[x_var]]), y = n + 1, label = paste0(round(percentage, 1), "%")), 
               position = position_dodge(width = 0.8), size = 5, color = "black", fontface = "bold", fill = "white", label.padding = unit(0.2, "lines")) +
    labs(title = title, x = x_label, y = y_label, fill = x_var) +
    theme_minimal() +
    theme(axis.text = element_text(size = 12),
          axis.title = element_text(size = 14, face = "bold"),
          plot.title = element_text(size = 16, face = "bold"))
}


```

## a. Répartion des étudiants en fonction de la bourse

```{r}
Boursier <- fastggplot(data, "Boursier", "Répartition en fonction de la bourse", "", "Nombre d'occurence")
Boursier
```


## b. Répartion des étudiants en fonction du sexe

```{r}
Sexe <- fastggplot(data, "Sexe", "Répartition homme femme", "", "Nombre de cas")
Sexe <- Sexe + theme(axis.text.x = element_text(angle = 45, hjust = 1))
Sexe
```
## c. Répartion des étudiants en fonction de la catégorie socio-professionnele du parent 1


```{r}
PCS_Parent1 <- fastggplot(data, "PCS_Parent1", "Catégorie socio-professionnelle du parent 1", "", "Nombre d'occurence")
PCS_Parent1 <- PCS_Parent1 + theme(axis.text.x = element_text(angle = 45, hjust = 1))
PCS_Parent1
```
## d. Répartion des étudiants en fonction de la bourse

```{r}
PCS_Parent2 = fastggplot(data, "PCS_Parent2", "Catégorie socio-professionnelle du parent 2", "", "Nombre d'occurence")
PCS_Parent2 <- PCS_Parent2 + theme(axis.text.x = element_text(angle = 45, hjust = 1))
PCS_Parent2
```

## e.Répartion des étudiants en fonction du bac

```{r}
Bac = fastggplot(data, "Bac_Groupe", "Bac", "", "Nombre d'occurence")
Bac <- Bac + theme(axis.text.x = element_text(angle = 45, hjust = 1, size = 7))
Bac
```
## f. Répartion de la mention des étudiants au Bac

```{r}

Bac_Mention = fastggplot(data, "Bac_Mention", "Mention au Bac", "", "Nombre d'occurence")
Bac_Mention <- Bac_Mention + theme(axis.text.x = element_text(angle = 45, hjust = 1))
Bac_Mention 
```
## g. Intitulé d'étude en 2023-2024

```{r}
note2023 = fastggplot(data, "2023", "Intitulé d'étude en 2023-2024", "", "Nombre d'occurence")
note2023 <- note2023 +theme(axis.text.x = element_text(angle = 45, hjust = 1, size = 7))
note2023
```
## h. Résultat des étudiants en 2023-2024

```{r}
Resultat2023 = fastggplot(data, "Resultat", "Résultat 2023", "", "Nombre d'occurence")
Resultat2023 <- Resultat2023 + theme(axis.text.x = element_text(angle = 45, hjust = 1))
Resultat2023
```

## i. Intitulé de formation en 2024-2025


```{r}

Formation2024 = fastggplot(data, "2024", "Formation 2024-2025", "", "Nombre d'occurence")
Formation2024 <- Formation2024 + theme(axis.text.x = element_text(angle = 45, hjust = 1))
Formation2024
```
## j. Moyenne générale des étudiants en 2023-2024

```{r}
# Histogramme amélioré pour la variable Note
library(ggplot2)

noted = ggplot(data, aes(x = Note)) +
  geom_histogram(binwidth = 1, fill = "#69b3a2", color = "white", alpha = 0.8) +
  labs(
    title = "Distribution des Notes",
    x = "Note",
    y = "Fréquence"
  ) +
  theme_minimal() +
  theme(
    plot.title = element_text(size = 18, face = "bold", color = "#2a3d3f"),
    axis.title = element_text(size = 14, face = "bold", color = "#2a3d3f"),
    axis.text = element_text(size = 12, color = "#2a3d3f"),
    panel.grid.major = element_line(color = "#d3d3d3"),
    panel.grid.minor = element_blank()
  )
noted
```

# II. Analyse inférentielle

L'analyse inférentielle entre les notes et les autres variables vise à déterminer si des facteurs comme le statut de boursier, le sexe, la catégorie socioprofessionnelle des parents, ou les mentions au bac influencent les résultats académiques.


## a. Sexe et notes

```{r}

# Effectuer le test t de Student entre Sexe et Note
t_test_result10 <- t.test(Note ~ Boursier, data = data, var.equal = TRUE)

# Extraire la p-value du test
p_value10 <- t_test_result1$p.value

# Créer un boxplot et ajouter la p-value sur le graphique
library(ggplot2)

ggplot(data, aes(x = Sexe, y = Note, fill = Sexe)) +
  geom_boxplot(color = "black", alpha = 0.6) +
  labs(title = "Comparaison des notes selon le sexe",
       x = "Sexe", y = "Note") +
  theme_minimal() +
  theme(axis.text = element_text(size = 12),
        axis.title = element_text(size = 14, face = "bold"),
        plot.title = element_text(size = 16, face = "bold")) +
  # Ajouter la p-value sur le graphique
  annotate("text", x = 1.5, y = max(data$Note, na.rm = TRUE), 
           label = paste("p-value =", round(p_value10, 4)), 
           size = 5, color = "red", fontface = "bold")
```

## b. Bourse et notes

```{r}

# Effectuer le test t de Student entre Boursier et Note
t_test_result1 <- t.test(Note ~ Boursier, data = data)

# Extraire la p-value du test
p_value1 <- t_test_result1$p.value

# Créer un boxplot et ajouter la p-value sur le graphique
library(ggplot2)

ggplot(data, aes(x = Boursier, y = Note, fill = Boursier)) +
  geom_boxplot(color = "black", alpha = 0.6) +
  labs(title = "Comparaison des notes entre boursiers et non-boursiers",
       x = "Statut Boursier", y = "Note") +
  theme_minimal() +
  theme(axis.text = element_text(size = 12),
        axis.title = element_text(size = 14, face = "bold"),
        plot.title = element_text(size = 16, face = "bold")) +
  # Ajouter la p-value sur le graphique
  annotate("text", x = 1.5, y = max(data$Note, na.rm = TRUE), 
           label = paste("p-value =", round(p_value1, 4)), 
           size = 5, color = "red", fontface = "bold")

```
## c. Notes et catégorie socio-professionnelle du parent 1


```{r}

# Effectuer une ANOVA entre PCS_Parent1 et Note
anova_result1 <- aov(Note ~ PCS_Parent1, data = data)

# Extraire la p-value de l'ANOVA
anova_p_value2 <- summary(anova_result1)[[1]][["Pr(>F)"]][1]

# Créer un boxplot avec p-value et ajuster l'apparence des noms des variables
ggplot(data, aes(x = PCS_Parent1, y = Note, fill = PCS_Parent1)) +
  geom_boxplot(color = "black", alpha = 0.6) +
  labs(
    title = "Comparaison des notes selon la PCS du parent 1",
    x = "PCS Parent 1", 
    y = "Note"
  ) +
  theme_minimal() +
  theme(
    axis.text.x = element_text(size = 10, angle = 45, hjust = 1),  # Taille réduite et rotation des noms
    axis.text.y = element_text(size = 12),                         # Taille des étiquettes de l'axe Y
    axis.title = element_text(size = 14, face = "bold"),           # Taille et style des titres des axes
    plot.title = element_text(size = 16, face = "bold")            # Taille et style du titre principal
  ) +
  # Ajouter la p-value en bas à droite
  annotate(
    "text", 
    x = length(unique(data$PCS_Parent1)),  # Position x (dernière catégorie)
    y = min(data$Note, na.rm = TRUE) - 1,  # Position y légèrement sous le minimum des notes
    label = paste("p-value =", round(anova_p_value2, 4)), 
    size = 5, 
    color = "red", 
    fontface = "bold",
    hjust = 1  # Alignement à droite
  )


```
## d. Notes et catégorie-professionnelle du parent 2

```{r}

# Effectuer une ANOVA entre PCS_Parent1 et Note
anova_result2 <- aov(Note ~ PCS_Parent2, data = data)

# Extraire la p-value de l'ANOVA
anova_p_value3 <- summary(anova_result2)[[1]][["Pr(>F)"]][1]

# Créer un boxplot avec p-value et ajuster l'apparence des noms des variables
ggplot(data, aes(x = PCS_Parent2, y = Note, fill = PCS_Parent2)) +
  geom_boxplot(color = "black", alpha = 0.6) +
  labs(
    title = "Comparaison des notes selon la PCS du parent 2",
    x = "PCS Parent 2", 
    y = "Note"
  ) +
  theme_minimal() +
  theme(
    axis.text.x = element_text(size = 10, angle = 45, hjust = 1),  # Taille réduite et rotation des noms
    axis.text.y = element_text(size = 12),                         # Taille des étiquettes de l'axe Y
    axis.title = element_text(size = 14, face = "bold"),           # Taille et style des titres des axes
    plot.title = element_text(size = 16, face = "bold")            # Taille et style du titre principal
  ) +
  # Ajouter la p-value en bas à droite
  annotate(
    "text", 
    x = length(unique(data$PCS_Parent1)),  # Position x (dernière catégorie)
    y = min(data$Note, na.rm = TRUE) - 1,  # Position y légèrement sous le minimum des notes
    label = paste("p-value =", round(anova_p_value3, 4)), 
    size = 5, 
    color = "red", 
    fontface = "bold",
    hjust = 1  # Alignement à droite
  )
```
## e. Notes et mention au bac

```{r}
anova_result3 <- aov(Note ~ Bac_Mention, data = data)

# Extraire la p-value de l'ANOVA
anova_p_value4 <- summary(anova_result3)[[1]][["Pr(>F)"]][1]

# Créer un boxplot avec p-value et ajuster l'apparence des noms des variables
ggplot(data, aes(x = Bac_Mention, y = Note, fill = Bac_Mention)) +
  geom_boxplot(color = "black", alpha = 0.6) +
  labs(
    title = "Comparaison des notes selon la mention au bac",
    x = "Mention au Bac", 
    y = "Note"
  ) +
  theme_minimal() +
  theme(
    axis.text.x = element_text(size = 10, angle = 45, hjust = 1),  # Taille réduite et rotation des noms
    axis.text.y = element_text(size = 12),                         # Taille des étiquettes de l'axe Y
    axis.title = element_text(size = 14, face = "bold"),           # Taille et style des titres des axes
    plot.title = element_text(size = 16, face = "bold")            # Taille et style du titre principal
  ) +
  # Ajouter la p-value en bas à droite
  annotate(
    "text", 
    x = length(unique(data$Bac_Mention)),  # Position x (dernière catégorie)
    y = min(data$Note, na.rm = TRUE) - 1,  # Position y légèrement sous le minimum des notes
    label = paste("p-value =", round(anova_p_value4, 4)), 
    size = 5, 
    color = "green", 
    fontface = "bold",
    hjust = 1  # Alignement à droite
  )
```
# III. Modèle prenant toutes les variables ensemble


```{r}

# Création du graphique avec ggplot2
ggplot(importance_data, aes(x = reorder(Variable, Importance), y = Importance)) +
  geom_bar(stat = "identity", fill = "skyblue", color = "black") +  # Barres avec couleur et bordure
  coord_flip() +  # Inverser les axes pour une meilleure lisibilité
  labs(title = "Variables significatives avec importance > seuil 95%",
       x = "Variables", y = "Importance") +
  theme_minimal() +  # Thème minimaliste
  theme(
    axis.text.x = element_text(size = 10, angle = 45, hjust = 1),  # Rotation des noms des variables
    axis.text.y = element_text(size = 10)  # Taille des noms des variables
  ) +
  geom_hline(yintercept = seuil_importance, linetype = "dashed", color = "red", size = 1.5)  # Ajouter le seuil


```




