Un échantillon de dossiers d’enfants a été saisi. Ce sont des enfants vus lors d’une visite en 1ère section de maternelle en 1996-1997 dans des écoles de Bordeaux (Gironde, France). L’échantillon est constitué de 152 enfants âgés de 3 ou 4 ans.
Catalogue_variable
La variable poids a un médiane centrée sur 16 kg, un intervale interquartile de 2.5 kg, une boîte à moustache centrée et 4 valeurs aberrantes.
La variable taille a un médiane centrée sur 101 cm, un intervale interquartile de 5.6 cm, une boîte à moustache centrée et une seule valeur aberrante.
La variable imc a un médiane centrée sur 16 kg/m-2, un intervale interquartile de 1.6 kg/m-2, une boîte à moustache centrée et 6 valeurs aberrantes.
Boxplots des variables quantitatives en tenant compte des variables catégorielles
Tous les boxplots ne semblent pas montrer de différences entres les groupes sauf pour la taille en fonction de l’âge, ce qui semble cohérent, un individu plus vieux aura tendance à être plus grand qu’un individu plus jeune.
Ce graphique nous montre : * Les histogrammes des variables poids, moids, taille et imc * Les nuages de points au point de croisement entre deux variables * Le coefficient de corrélation avec leur seuil de significativité * p-values(0, 0.001, 0.01, 0.05, 0.1, 1) <=> symboles(***,**,*, ., " “)
## `geom_smooth()` using formula 'y ~ x'
On remarque une tendance linéaire du poids en fonction de la taille, construisons ce modèle :
Le test d’évaluation de la significativité du lien linéaire entre les deux variables est valide, si les résidus :
## lag Autocorrelation D-W Statistic p-value
## 1 0.04776015 1.904352 0.532
## Alternative hypothesis: rho != 0
Le test de Durbin Watson sur l’indépendance des réusidus a une p-value égale à 0.564, elle est supérieure à 5%, on accepte l’hypothèse nulle au risque de première espèce de 5%.
L’évaluation de la normalité peut se faire par le tracé du Q-Q plot. Si les résidus sont bien distribués le long de la droite figurant sur le plot, alors l’hypothèse de normalité est acceptée. A l’inverse, s’ils s’en écartent, alors l’hypothèse de normalité est rejetée.
Le Q-Q plot montre des résidus distribués le long de la droite présente sur le graphique. Néanmoins des points s’en écartent (dont ceux avec l’index 100, 59 et 101). Ceci sera prit en compte dans la suite de l’étude.
Il faut réaliser un “residuals vs fitted plot”. Les “fitted” correspondent aux réponses prédites par le modèle, pour les valeurs observées de la variable prédicitive.
Les résidus ont tendance à être répartis de façon homogène tout le long du gradient des valeurs de poids prédites. Et donc que l’hypothèse d’homogénéité des résidus est acceptée.
Il est également possible d’évaluer cette hypothèse en employant le test de Breush-Pagan. L’hypothèse d’homogénéité est rejetée si la p-value est inférieure à 0.05.
## Non-constant Variance Score Test
## Variance formula: ~ fitted.values
## Chisquare = 2.826642, Df = 1, p = 0.092712
Ici, le test ne rejette pas non plus l’hypothèse d’homogénéité.
les résidus restent globalement uniformément distribués de part et d’autre de 0. Cela montre, qu’en moyenne, la droite de régression, est bien adaptée aux données, et donc que l’hypothèse de linéarité est acceptable.
## `geom_smooth()` using formula 'y ~ x'
On cherche à savoir s’il existe une différence entre les IMC.
On pose les hypothèses du test :
H0 : Les moyennes d’IMC entre les filles et garçons ne sont pas différentes H1 : Les moyennes d’IMC entre les filles et garçons sont différentes
On effectuera un test de Shapiro-Wilk pour évaluer l’hypothèse de normalité. L’hypothèse de normalité est acceptée si la pvalue est > 0.05.
#### Chez les filles
| Test statistic | P value |
|---|---|
| 0.9687 | 0.07275 |
L’hypothèse de normalité est acceptée
| Test statistic | P value |
|---|---|
| 0.9753 | 0.1193 |
L’hypothèse de normalité est acceptée
outFilles = boxplot.stats(filles$imc)$out
outGarcons = boxplot.stats(garcons$imc)$out
filles = filles[!(filles$imc %in% outFilles),]
garcons = garcons[!(garcons$imc %in% outGarcons),]
Le test employé pour comparer les variances est le test F. Son hypothèse nulle est l’égalité des variances. Aussi, pour accepter cette hypothèse la p-value du test doit être > 0.05.
| Test statistic | num df | denom df | P value | Alternative hypothesis |
|---|---|---|---|---|
| 1.77 | 68 | 76 | 0.0159 * | two.sided |
| ratio of variances |
|---|
| 1.77 |
Ici l’hypothèse d’égalité des variance est rejetée.
Test de Student pour échantillons indépendants et variances inégales (Test de Welch)
| Test statistic | df | P value | Alternative hypothesis | mean of x | mean of y |
|---|---|---|---|---|---|
| 0.1368 | 125.5 | 0.8914 | two.sided | 15.88 | 15.86 |
On pose les hypothèses du test :
H0 : Les moyennes d’IMC entre les enfants issus de zep et enfants non issus de zep ne sont pas différentes H1 : Les moyennes d’IMC entre les enfants issus de zep et enfants non issus de zep sont différentes
Cette étape est nécessaire pour évaluer l’hypothèse de normalité tout d’abord.
zep <- data %>%
filter(zep=="1")
nonZep <- data %>%
filter(zep=="2")
outzep = boxplot.stats(zep$imc)$out
outnonZep = boxplot.stats(nonZep$imc)$out
zep = zep[!(zep$imc %in% outzep),]
nonZep = nonZep[!(nonZep$imc %in% outnonZep),]
On effectuera un test de Shapiro-Wilk pour évaluer l’hypothèse de normalité. L’hypothèse de normalité est acceptée si la pvalue est > 0.05.
#### Chez les filles
| Test statistic | P value |
|---|---|
| 0.9841 | 0.2331 |
L’hypothèse de normalité est acceptée
| Test statistic | P value |
|---|---|
| 0.9797 | 0.6797 |
L’hypothèse de normalité est acceptée
Le test employé pour comparer les variances est le test F. Son hypothèse nulle est l’égalité des variances. Aussi, pour accepter cette hypothèse la p-value du test doit être > 0.05.
| Test statistic | num df | denom df | P value | Alternative hypothesis |
|---|---|---|---|---|
| 1.621 | 106 | 39 | 0.08826 | two.sided |
| ratio of variances |
|---|
| 1.621 |
Ici l’hypothèse d’égalité des variance est rejetée. Les varainces sont donc inégales
Test de Student pour échantillons indépendants et variances inégales (Test de Welch)
| Test statistic | df | P value | Alternative hypothesis | mean of x | mean of y |
|---|---|---|---|---|---|
| 0.7404 | 88.61 | 0.461 | two.sided | 15.97 | 15.83 |
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## data$imc was converted to a data frame
| No | Variable | Stats / Values | Freqs (% of Valid) | Graph | Valid | Missing |
|---|---|---|---|---|---|---|
| 1 | imc [numeric] | Mean (sd) : 16 (1.3) min < med < max: 13.3 < 16 < 20.3 IQR (CV) : 1.6 (0.1) | 109 distinct values | 152 (100.0%) | 0 (0.0%) |
Generated by summarytools 0.9.8 (R version 4.0.4)
2021-02-18
Nous posons les hypothèses pour le test de normalité de la variable IMC :
* H0 : La variable IMC suit une distribution selon une loi normale
* H1 : La variable IMC ne suit pas une distribution selon une loi normale
| Test statistic | P value |
|---|---|
| 0.9749 | 0.006926 * * |
On peut en conclure que les données brutes d’imc (sans suppression des données aberrantes) ne suivent pas une loi normale (p-value < 0.01).
Nous posons les hypothèses pour le test de normalité de la variable IMC :
* H0 : La variable IMC suit une distribution selon une loi normale
* H1 : La variable IMC ne suit pas une distribution selon une loi normale
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
| Test statistic | P value |
|---|---|
| 0.9929 | 0.6815 |
On peut en conclure que les données d’IMC après suppression des données aberrantes, suivent une loi normale (p-value < 0.01).
On réalise notre modèle d’ANOVA après avoir supprimé les données abérrantes d’imc :
| Df | Sum Sq | Mean Sq | F value | Pr(>F) | |
|---|---|---|---|---|---|
| an | 1 | 4.3 | 4.3 | 3.507 | 0.06323 |
| sexe | 1 | 0.0779 | 0.0779 | 0.06353 | 0.8014 |
| zep | 1 | 0.6992 | 0.6992 | 0.5702 | 0.4515 |
| an:sexe | 1 | 0.1416 | 0.1416 | 0.1155 | 0.7345 |
| an:zep | 1 | 1.633 | 1.633 | 1.332 | 0.2505 |
| sexe:zep | 1 | 1.147 | 1.147 | 0.9356 | 0.3351 |
| an:sexe:zep | 1 | 0.3337 | 0.3337 | 0.2721 | 0.6028 |
| Residuals | 138 | 169.2 | 1.226 | NA | NA |
On utilise le test de Dubin-Watson.
* H0 : un coefficient d’autocorrélation = 0
* H1 : un coefficient d’autocorrélation différent de 0
On conclut donc à l’absence d’autocorrélation lorsque la pvalue du test est supérieure à 0.05.
## lag Autocorrelation D-W Statistic p-value
## 1 -0.01009966 2.019454 0.95
## Alternative hypothesis: rho != 0
Ici la p-value est > 0.05, l’hypothèse H0 n’est donc pas rejetée, et on conclut à l’absence d’auto-corrélation.
On trace le Q-Q plot du modèle :
Les points sont bien répartis le long de la ligne, cela signifie que les résidus sont distribués selon une loi normale. Le fait que les points soient centrés sur 0 (sur l’axe des y), montre que leur moyenne est égale à 0.
Pour confirmer ceci nous avons effectué un test de Shapiro-Wilk :
* H0 : Les résidus suivent une loi normale * H1 : Les résidus suivent une autre distribution quelconque
##
## Shapiro-Wilk normality test
##
## data: residuals(res.aov)
## W = 0.99278, p-value = 0.673
La p-value est > 0.5, nous acceptons l’hypothèse de normalité des résidus au seuil de 5%.
On utilise le test de Levene.
* H0 : Les variances des différents groupes sont globalement identiques
* H1 : Au moins 2 variances (les variances de 2 modalités) sont différentes.
## Levene's Test for Homogeneity of Variance (center = median)
## Df F value Pr(>F)
## group 3 0.7727 0.5111
## 142
Ici, la p-value est largement supérieure à 0.05, l’hypothèse d’homogénéité des résidus est donc acceptée.
Ici aucune interaction n’est significative, on va donc ajuster notre modèle avant de conclure.
| Df | Sum Sq | Mean Sq | F value | Pr(>F) | |
|---|---|---|---|---|---|
| an | 1 | 4.3 | 4.3 | 3.54 | 0.06194 |
| zep | 1 | 0.6832 | 0.6832 | 0.5625 | 0.4545 |
| sexe | 1 | 0.09389 | 0.09389 | 0.07731 | 0.7814 |
| Residuals | 142 | 172.5 | 1.215 | NA | NA |
Le modèle montre un IMC qui est statistiquement influencé ni par la classe d’âge, ni le sexe et ni la zone d’éducation.