Une étude a été menée parallèlement dans deux vallées voisines de l’Himalaya, ces deux vallées étant séparées par des montagnes rendant tout échange entre leur population quasi impossible. Des prélèvements sanguins effectués sur plusieurs habitants dans chacune des deux vallées ont permis d’obtenir les résultats suivants :

data_1 <- data.frame( positif = c(55, 42, 30, 5), negatif = c(37, 34, 20, 7), row.names = c('O', 'A', 'B', 'AB') )
data_2 <- data.frame( positif = c(30, 35, 38, 12), negatif = c(42, 33, 32, 18), row.names = c('O', 'A', 'B', 'AB') )
print(data_1)
##    positif negatif
## O       55      37
## A       42      34
## B       30      20
## AB       5       7
print(data_2)
##    positif negatif
## O       30      42
## A       35      33
## B       38      32
## AB      12      18



1 - Peut-on conclure que dans la première vallée, le rhésus positif est plus fréquent que le négatif ?



Avant d’entamer notre étude, faisant un bref récapitulatif des informations que nous devrons utiliser.


Informations

Population : Groupes sanguins des habitants de la première vallée.

Variables :

Type : Variables dépendantes.


Données :

print(data_1)
##    positif negatif
## O       55      37
## A       42      34
## B       30      20
## AB       5       7
print(data_2)
##    positif negatif
## O       30      42
## A       35      33
## B       38      32
## AB      12      18
x.s1 <- with(data_1, sum(positif)) ; n.s1 <- sum(data_1) ; pi.s1 <- x.s1/n.s1

pi.0 <- 1/ncol(data_1) # Correspond à la constante à laqualle nous comparons notre proportion (0.5 qui correspond à la probabilité d'être soit positif ou soit négatif)

a <- 0.05

x.s1 contient la totalité des rhésus positifs issus de la première vallée. n.s1 contient la totalité des individu de ce groupe expérimental. pi.s1 est la proportion de rhésus positif. Le seuil alpha n’a pas été précisé donc nous le mettons à 0.05


Hypothèses

Sous forme mathématique :

Nous formulons les hypothèses sous forme mathématique afin de savoir laquelle sera en hypothèse nulle (H0). L’hypothèse nulle est toujours celle qui implique une égalité. Exemple : ‘==’ qui signifie égal, ou ‘>=’ qui signifie supérieur ou égal, ou ‘<=’ qui signifie inférieur ou égal.


Sous forme littéraire :

H0 <- "on ne peut pas conclure qu'au sein de la première vallée, que les groupes positifs sont plus fréquents que les groupes négatifs."
H1 <- "on peut conclure qu'au sein de la première vallée, que les groupes positifs sont plus fréquents que les groupes négatifs."


Test de comparaison d’une proportion

if(n.s1 * pi.0 >= 10 & n.s1 * (1 - pi.0) >= 10){
        result <- with(data_1, prop.test(x = x.s1, n = n.s1, p = pi.0, alternative = 'greater', correct = TRUE))
        p.value <- result[['p.value']]
}

Nous pouvons comparer une proportion grâce à la fonction prop.test(). Cette fonction prend comme argument le nombre de fois où l’événement est observé, le nombre total d’essai (ici le nombre total de participants), la probabilité que l’événement se produise, le sens de l’hypothèse alternative et éventuellement la nécessité d’une correction de YATES

La condition représentée dans la fonction if(), vérifie la nécessité de faire ou non appel à une correction de YATES


Resultats

print(result)
## 
##  1-sample proportions test with continuity correction
## 
## data:  x.s1 out of n.s1, null probability pi.0
## X-squared = 4.7348, df = 1, p-value = 0.01478
## alternative hypothesis: true p is greater than 0.5
## 95 percent confidence interval:
##  0.5175433 1.0000000
## sample estimates:
##        p 
## 0.573913
if(p.value < a){
        answer <- paste('Il y a rejet de H0 en faveur de H1, car', p.value, 'est inférieur à', a, '. Donc,', H1)
} else {
        answer <- paste('Il y a non rejet de H0, car', p.value, 'est supérieur à', a, '. Donc,', H0)
}

Avec la fonction if(), nous pouvons demander à R d’afficher l’une des deux hypothèses précédemment citées, selon si oui ou non notre p-value est inférieure au seuil alpha.


Réponse : Il y a rejet de H0 en faveur de H1, car 0.0147792917647009 est inférieur à 0.05 . Donc, on peut conclure qu’au sein de la première vallée, que les groupes positifs sont plus fréquents que les groupes négatifs.



2 - Peut-on conclure que le groupe O (Rhésus + et - confondus) est plus fréquent dans la première vallée que dans la seconde ?



Faisons une observation globale des informations nécessaires à cette nouvelle étude.


Informations

Population : Habitants ayant le groupe sanguin O

Variables :

Type : Variables indépendantes.


Données :

print(data_1)
##    positif negatif
## O       55      37
## A       42      34
## B       30      20
## AB       5       7
print(data_2)
##    positif negatif
## O       30      42
## A       35      33
## B       38      32
## AB      12      18
x.s1 <- sum(data_1['O','positif'], data_1['O','negatif']) ; n.s1 <- sum(data_1) ; pi.s1 <- x.s1/n.s1

x.s2 <- sum(data_2['O','positif'], data_2['O','negatif']) ; n.s2 <- sum(data_2) ; pi.s2 <- x.s2/n.s2

a <- 0.05

Le seuil alpha n’a pas été précisé donc nous le mettons à 0.05


Hypothèses

Sous forme mathématique :

Nous formulons les hypothèses sous forme mathématique afin de savoir laquelle sera en hypothèse nulle (H0). L’hypothèse nulle est toujours celle qui implique une égalité. Exemple : ‘==’ qui signifie égal, ou ‘>=’ qui signifie supérieur ou égal, ou ‘<=’ qui signifie inférieur ou égal.


Sous forme littéraire :

H0 <- "on ne peut pas conclure qu'il est plus fréquent de retrouver des habitants ayant le groupe sanguin O, au sein de la première que dans la seconde vallée."
H1 <- "on peut conclure qu'il est plus fréquent de retrouver des habitants ayant le groupe sanguin O, au sein de la première que dans la seconde vallée."


Test de comparaison de deux proportions

if(n.s1 * pi.s1 >= 10 & n.s1 * (1-pi.s1) >= 10 & n.s2 * pi.s2 >= 10 & n.s2 * (1-pi.s2) >= 10){
        result <- prop.test(x = c(x.s1, x.s2), n = c(n.s1, n.s2), alternative = 'greater')
        p.value <- result[['p.value']]
}

Nous pouvons comparer une proportion grâce à la fonction prop.test(). Cette fonction prend comme argument le nombre de fois où l’événement est observé pour chaque échantillon, le nombre total de participants, le sens de l’hypothèse alternative.

La condition représentée dans la fonction if(), vérifie la validité de notre test.


Resultats

print(result)
## 
##  2-sample test for equality of proportions with continuity
##  correction
## 
## data:  c(x.s1, x.s2) out of c(n.s1, n.s2)
## X-squared = 4.739, df = 1, p-value = 0.01474
## alternative hypothesis: greater
## 95 percent confidence interval:
##  0.02369745 1.00000000
## sample estimates:
## prop 1 prop 2 
##    0.4    0.3
if(p.value < a){
        answer <- paste('Il y a rejet de H0 en faveur de H1, car', p.value, 'est inférieur à', a, '. Donc,', H1)
} else {
        answer <- paste('Il y a non rejet de H0, car', p.value, 'est supérieur à', a, '. Donc,', H0)
}

Avec la fonction if(), nous pouvons demander à R d’afficher l’une des deux hypothèses précédemment citées, selon si oui ou non notre p-value est inférieure au seuil alpha.


Réponse : Il y a rejet de H0 en faveur de H1, car 0.0147434040312816 est inférieur à 0.05 . Donc, on peut conclure qu’il est plus fréquent de retrouver des habitants ayant le groupe sanguin O, au sein de la première que dans la seconde vallée.