Données

Un échantillon de dossiers d’enfants a été saisi. Ce sont des enfants vus lors d’une visite en 1ère section de maternelle en 1996-1997 dans des écoles de Bordeaux (Gironde, France). L’échantillon est constitué de 152 enfants âgés de 3 ou 4 ans.

Catalogue_variable

Analyse Bivariée

Boxplots des variables quantitatives sans tenir compte des variables catégorielles

La variable poids a un médiane centrée sur 16 kg, un intervale interquartile de 2.5 kg, une boîte à moustache centrée et 4 valeurs aberrantes.
La variable taille a un médiane centrée sur 101 cm, un intervale interquartile de 5.6 cm, une boîte à moustache centrée et une seule valeur aberrante.
La variable imc a un médiane centrée sur 16 kg/m-2, un intervale interquartile de 1.6 kg/m-2, une boîte à moustache centrée et 6 valeurs aberrantes.

Boxplots des variables quantitatives en tenant compte des variables catégorielles

Tous les boxplots ne semblent pas montrer de différences entres les groupes sauf pour la taille en fonction de l’âge, ce qui semble cohérent, un individu plus vieux aura tendance à être plus grand qu’un individu plus jeune.

Matrice de corrélation linéaire pour les variables pour lesquelles cela est possible

Ce graphique nous montre : * Les histogrammes des variables poids, moids, taille et imc * Les nuages de points au point de croisement entre deux variables * Le coefficient de corrélation avec leur seuil de significativité * p-values(0, 0.001, 0.01, 0.05, 0.1, 1) <=> symboles(***,**,*, ., " “)

Nuage de point du poids en fonction de la taille

## `geom_smooth()` using formula 'y ~ x'

On remarque une tendance linéaire du poids en fonction de la taille, construisons ce modèle :

Le test d’évaluation de la significativité du lien linéaire entre les deux variables est valide, si les résidus :

  • sont indépendants
  • sont distribués selon une loi Normale de moyenne 0
  • sont distribués de façon homogènes, c’est à dire, avec une variance constante.
  1. Etude de l’indépendance des résidus Les hypothèses testées sont les suivantes :
  • H0 : Les résidus sont indépendants
  • H1 : les résidus sont corrélés
##  lag Autocorrelation D-W Statistic p-value
##    1      0.04776015      1.904352   0.532
##  Alternative hypothesis: rho != 0

Le test de Durbin Watson sur l’indépendance des réusidus a une p-value égale à 0.564, elle est supérieure à 5%, on accepte l’hypothèse nulle au risque de première espèce de 5%.

  1. Evaluation de l’hypothèse de normalité des résidus

L’évaluation de la normalité peut se faire par le tracé du Q-Q plot. Si les résidus sont bien distribués le long de la droite figurant sur le plot, alors l’hypothèse de normalité est acceptée. A l’inverse, s’ils s’en écartent, alors l’hypothèse de normalité est rejetée.

Le Q-Q plot montre des résidus distribués le long de la droite présente sur le graphique. Néanmoins des points s’en écartent (dont ceux avec l’index 100, 59 et 101). Ceci sera prit en compte dans la suite de l’étude.

  1. Evaluation de l’hypothèse d’homogénéité des résidus

Il faut réaliser un “residuals vs fitted plot”. Les “fitted” correspondent aux réponses prédites par le modèle, pour les valeurs observées de la variable prédicitive.

Les résidus ont tendance à être répartis de façon homogène tout le long du gradient des valeurs de poids prédites. Et donc que l’hypothèse d’homogénéité des résidus est acceptée.

Il est également possible d’évaluer cette hypothèse en employant le test de Breush-Pagan. L’hypothèse d’homogénéité est rejetée si la p-value est inférieure à 0.05.

## Non-constant Variance Score Test 
## Variance formula: ~ fitted.values 
## Chisquare = 2.826642, Df = 1, p = 0.092712

Ici, le test ne rejette pas non plus l’hypothèse d’homogénéité.

  1. Evaluation à posteriori de l’hypothèse de linéarité

les résidus restent globalement uniformément distribués de part et d’autre de 0. Cela montre, qu’en moyenne, la droite de régression, est bien adaptée aux données, et donc que l’hypothèse de linéarité est acceptable.

  1. Représentation de la régression linéaire
## `geom_smooth()` using formula 'y ~ x'

Test de la moyenne de l’IMC

On cherche à savoir s’il existe une différence entre les IMC.

Filles contre Garçons

On pose les hypothèses du test :
H0 : Les moyennes d’IMC entre les filles et garçons ne sont pas différentes H1 : Les moyennes d’IMC entre les filles et garçons sont différentes

  1. Test de normalité dans les deux groupes

On effectuera un test de Shapiro-Wilk pour évaluer l’hypothèse de normalité. L’hypothèse de normalité est acceptée si la pvalue est > 0.05.
#### Chez les filles

Shapiro-Wilk normality test: filles$imc
Test statistic P value
0.9687 0.07275

L’hypothèse de normalité est acceptée

Chez les garçons

Shapiro-Wilk normality test: garcons$imc
Test statistic P value
0.9753 0.1193

L’hypothèse de normalité est acceptée

  1. Supression des outliers
outFilles = boxplot.stats(filles$imc)$out
outGarcons = boxplot.stats(garcons$imc)$out
filles = filles[!(filles$imc %in% outFilles),]
garcons = garcons[!(garcons$imc %in% outGarcons),]
  1. Egalité des variances

Le test employé pour comparer les variances est le test F. Son hypothèse nulle est l’égalité des variances. Aussi, pour accepter cette hypothèse la p-value du test doit être > 0.05.

F test to compare two variances: filles$imc and garcons$imc (continued below)
Test statistic num df denom df P value Alternative hypothesis
1.77 68 76 0.0159 * two.sided
ratio of variances
1.77

Ici l’hypothèse d’égalité des variance est rejetée.

  1. Test de Student

Test de Student pour échantillons indépendants et variances inégales (Test de Welch)

Welch Two Sample t-test: filles$imc and garcons$imc On peut conclure qu’il n’y a pas de différences statistiquement significatives d’IMC entre les sexes.
Test statistic df P value Alternative hypothesis mean of x mean of y
0.1368 125.5 0.8914 two.sided 15.88 15.86

Zep contre non-Zep

On pose les hypothèses du test :
H0 : Les moyennes d’IMC entre les enfants issus de zep et enfants non issus de zep ne sont pas différentes H1 : Les moyennes d’IMC entre les enfants issus de zep et enfants non issus de zep sont différentes

  1. Supression des outliers

Cette étape est nécessaire pour évaluer l’hypothèse de normalité tout d’abord.

zep <- data %>%
filter(zep=="1")

nonZep <- data %>%
filter(zep=="2")

outzep = boxplot.stats(zep$imc)$out
outnonZep = boxplot.stats(nonZep$imc)$out
zep = zep[!(zep$imc %in% outzep),]
nonZep = nonZep[!(nonZep$imc %in% outnonZep),]
  1. Test de normalité dans les deux groupes

On effectuera un test de Shapiro-Wilk pour évaluer l’hypothèse de normalité. L’hypothèse de normalité est acceptée si la pvalue est > 0.05.
#### Chez les filles

Shapiro-Wilk normality test: zep$imc
Test statistic P value
0.9841 0.2331

L’hypothèse de normalité est acceptée

Chez les garçons

Shapiro-Wilk normality test: nonZep$imc
Test statistic P value
0.9797 0.6797

L’hypothèse de normalité est acceptée

  1. Egalité des variances

Le test employé pour comparer les variances est le test F. Son hypothèse nulle est l’égalité des variances. Aussi, pour accepter cette hypothèse la p-value du test doit être > 0.05.

F test to compare two variances: zep$imc and nonZep$imc (continued below)
Test statistic num df denom df P value Alternative hypothesis
1.621 106 39 0.08826 two.sided
ratio of variances
1.621

Ici l’hypothèse d’égalité des variance est rejetée. Les varainces sont donc inégales

  1. Test de Student

Test de Student pour échantillons indépendants et variances inégales (Test de Welch)

Welch Two Sample t-test: zep$imc and nonZep$imc On peut conclure qu’il n’y a pas de différences statistiquement significatives d’IMC entre les écoliers issus des Zones d’éducation prioritaire et les autres.
Test statistic df P value Alternative hypothesis mean of x mean of y
0.7404 88.61 0.461 two.sided 15.97 15.83

Analyse de la normalité de l’IMC

Histogramme de l’IMC

## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

Moyenne, écart-type, min, max, médiane et quartiles de la variable imc

## data$imc was converted to a data frame

Data Frame Summary

data

Dimensions: 152 x 1
Duplicates: 43
No Variable Stats / Values Freqs (% of Valid) Graph Valid Missing
1 imc [numeric] Mean (sd) : 16 (1.3) min < med < max: 13.3 < 16 < 20.3 IQR (CV) : 1.6 (0.1) 109 distinct values 152 (100.0%) 0 (0.0%)

Generated by summarytools 0.9.8 (R version 4.0.4)
2021-02-18

Test de normalité de la variable IMC

  1. Sur les données brutes

Nous posons les hypothèses pour le test de normalité de la variable IMC :
* H0 : La variable IMC suit une distribution selon une loi normale
* H1 : La variable IMC ne suit pas une distribution selon une loi normale

Shapiro-Wilk normality test: data$imc
Test statistic P value
0.9749 0.006926 * *

On peut en conclure que les données brutes d’imc (sans suppression des données aberrantes) ne suivent pas une loi normale (p-value < 0.01).

  1. Sur les données après suppression des données aberrantes

Nous posons les hypothèses pour le test de normalité de la variable IMC :
* H0 : La variable IMC suit une distribution selon une loi normale
* H1 : La variable IMC ne suit pas une distribution selon une loi normale

## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

Shapiro-Wilk normality test: dataIMC$imc
Test statistic P value
0.9929 0.6815

On peut en conclure que les données d’IMC après suppression des données aberrantes, suivent une loi normale (p-value < 0.01).

Analyse multivariée

Modèle d’analyse de l’IMC par rapport aux variables sexe, zep et âge (ANOVA à 3 facteurs)

Réalisation du modèle

On réalise notre modèle d’ANOVA après avoir supprimé les données abérrantes d’imc :

Analysis of Variance Model
  Df Sum Sq Mean Sq F value Pr(>F)
an 1 4.3 4.3 3.507 0.06323
sexe 1 0.0779 0.0779 0.06353 0.8014
zep 1 0.6992 0.6992 0.5702 0.4515
an:sexe 1 0.1416 0.1416 0.1155 0.7345
an:zep 1 1.633 1.633 1.332 0.2505
sexe:zep 1 1.147 1.147 0.9356 0.3351
an:sexe:zep 1 0.3337 0.3337 0.2721 0.6028
Residuals 138 169.2 1.226 NA NA

Vérification des hypothèses de validité

  1. Indépendance des résidus

On utilise le test de Dubin-Watson.
* H0 : un coefficient d’autocorrélation = 0
* H1 : un coefficient d’autocorrélation différent de 0

On conclut donc à l’absence d’autocorrélation lorsque la pvalue du test est supérieure à 0.05.

##  lag Autocorrelation D-W Statistic p-value
##    1     -0.01009966      2.019454    0.95
##  Alternative hypothesis: rho != 0

Ici la p-value est > 0.05, l’hypothèse H0 n’est donc pas rejetée, et on conclut à l’absence d’auto-corrélation.

  1. Normalité des résidus

On trace le Q-Q plot du modèle :

Les points sont bien répartis le long de la ligne, cela signifie que les résidus sont distribués selon une loi normale. Le fait que les points soient centrés sur 0 (sur l’axe des y), montre que leur moyenne est égale à 0.

Pour confirmer ceci nous avons effectué un test de Shapiro-Wilk :
* H0 : Les résidus suivent une loi normale * H1 : Les résidus suivent une autre distribution quelconque

## 
##  Shapiro-Wilk normality test
## 
## data:  residuals(res.aov)
## W = 0.99278, p-value = 0.673

La p-value est > 0.5, nous acceptons l’hypothèse de normalité des résidus au seuil de 5%.

  1. Homogénéité des variances

On utilise le test de Levene.
* H0 : Les variances des différents groupes sont globalement identiques
* H1 : Au moins 2 variances (les variances de 2 modalités) sont différentes.

## Levene's Test for Homogeneity of Variance (center = median)
##        Df F value Pr(>F)
## group   3  0.7727 0.5111
##       142

Ici, la p-value est largement supérieure à 0.05, l’hypothèse d’homogénéité des résidus est donc acceptée.

  1. Interprétation des résultats du modèle

Ici aucune interaction n’est significative, on va donc ajuster notre modèle avant de conclure.

Ajustement du modèle sans le terme d’interaction

Analysis of Variance Model
  Df Sum Sq Mean Sq F value Pr(>F)
an 1 4.3 4.3 3.54 0.06194
zep 1 0.6832 0.6832 0.5625 0.4545
sexe 1 0.09389 0.09389 0.07731 0.7814
Residuals 142 172.5 1.215 NA NA

Le modèle montre un IMC qui est statistiquement influencé ni par la classe d’âge, ni le sexe et ni la zone d’éducation.