On souhaite mettre en évidence une corrélation entre l’âge (X qui représente les lignes) et la tension artérielle (Y qui représente les colonnes) de différente personnes. Les données recueillis auprès d’un groupe de personnes de 40 à 60 ans sont les suivants :
data <- matrix(c(17, 15, 6, 2, 12, 14, 15, 20, 8, 10, 12, 15), ncol = 3)
colnames(data) <- c('[11,13]', ']13,15]', ']15,17]')
rownames(data) <- c('[40,45]', ']45,50]', ']50,55]', ']55,60]')
En lisant cet énoncé, nous pouvons déjà récupérer les informations et les données utiles à notre inférence statistique.
Informations
Population : Individus ayant entre 40 et 60 ans.
Variables :
Données
print(data)
## [11,13] ]13,15] ]15,17]
## [40,45] 17 12 8
## ]45,50] 15 14 10
## ]50,55] 6 15 12
## ]55,60] 2 20 15
a <- 0.10
Nous rajoutons le seuil alpha 0.10 à notre environnement de données, en assignant 0.10 à l’objet a.
Hypothèses
H0 <- "on peut conclure qu'il y a une indépendance stochastique entre la tension artérielle et l'âge chez les personnes de 40 et 60 ans."
H1 <- "on peut conclure qu'il y a une dépendance stochastique entre la tension artérielle et l'âge chez les personnes de 40 et 60 ans."
Pour tout test d’indépendance (ou d’absence de relation) entre deux variables (Khi-deux d’indépendance, corrélation monotone ou linéaire), l’indépendance sera toujours notifié en H0. Cette règle vaut également pour les tests d’adéquations entre une variable et une loi (Khi-deux d’adéquation).
Test d’indépendance stochastique
Nous choisissons le test d’indépendance stochastique, car nous cherchons à vérifier l’existence d’une relation entre deux variables, certes numériques, mais qui sont regroupées sous forme de tableau à double entrée ou tri croisé.
result <- chisq.test(data, p = 1 - a)
p.value <- result[['p.value']]
Le test d’indépendance stochastique est possible grâce à la fonction chisq.test(), cette fonction prend comme arguments un ensemble de données (data) et un seuil de confiance (p = 1 - a ou 1 - 0.10. Donc 90 % de confiance envers notre résultat).
Resultats
print(result)
##
## Pearson's Chi-squared test
##
## data: data
## X-squared = 19.3, df = 6, p-value = 0.003687
if(p.value < a){
answer <- paste('Il y a rejet de H0, car', p.value, 'est inférieur à', a, '. Donc,', H1)
} else {
answer <- paste('Il y a non rejet de H0, car', p.value, 'est supérieur à', a, '. Donc,', H0)
}
Étant donné que la p.value est inférieure à notre seuil alpha, nous décidons de rejeter H0 en faveur de H1.
Réponse : Il y a rejet de H0, car 0.00368653307732334 est inférieur à 0.1 . Donc, on peut conclure qu’il y a une dépendance stochastique entre la tension artérielle et l’âge chez les personnes de 40 et 60 ans.