18 décembre 2017
Statistique descriptive : observation d’une variation conjointe de deux variables
Question de recherche : existe-t-il un lien significatif entre deux variables ?
« En dehors du cadre scolaire ou professionnel, au cours des 12 derniers mois, avez-vous pratiqué alors que vous n’y étiez pas obligé(e) […] la cuisine ? ».
Non | Oui | Sum | |
---|---|---|---|
Homme | 629 | 270 | 899 |
Femme | 490 | 611 | 1101 |
Sum | 1119 | 881 | 2000 |
\[p \approx 0\]
Si le genre et la cuisine étaient des variables indépendantes, alors la probabilité d’obtenir une répartition comme celle que nous observons serait presque nulle.
\(p < 0.05\), il est raisonnable de penser que cette répartition genrée des loisirs n’est due ni au hasard et ni à des biais d’échantillonnage.
Jusqu’ici, nous avons donné une définition temporaire et incomplète de la valeur \(p\).
Pour comprendre exactement ce à quoi elle correspond, il est nécessaire de :
La question à laquelle permet de répondre un test d’hypothèse : « Que se passerait-il si les variables étudiées étaient indépendantes ? »
L’idée sous-jacente du calcul de la p-value est la suivante :
La valeur \(p\) résume cette comparaison en donnant la probabilité d’obtenir nos données observées dans cet univers.
Si les variables sont indépendantes, elles se répartissent donc complètement au hasard d’une enquête à l’autre. À chaque fois que nous simulons une enquête, il suffit donc de mélanger aléatoirement les valeurs d’une des deux variables.
Imaginons que notre enquête sur la cuisine porte uniquement sur 4 individus, deux hommes et deux femmes :
Oui | Non | |
---|---|---|
Femmes | 2 | 0 |
Hommes | 0 | 2 |
À chaque nouvelle simulation, on mélange (permutation) les valeurs de la variable “Pratique de la cuisine comme loisir” :
Enquête | Femme 1 | Femme 2 | Homme 1 | Homme 2 |
---|---|---|---|---|
#1 | Oui | Oui | Non | Non |
#2 | Oui | Non | Oui | Non |
#3 | Non | Non | Oui | Oui |
… | … | … | … | … |
#100000 | Oui | Non | Non | Oui |
Pour simplifier, nous résumons la taille de l’effet obtenu pour chaque simulation. Dans notre cas (deux variables avec deux modalités), nous pouvons nous contenter de compter l’une des quatre combinaisons possibles.
Enquête | Nombre de femmes ayant répondu “Non” |
---|---|
#1 | 0 |
#2 | 1 |
#3 | 2 |
… | … |
#100000 | 1 |
Nombre de simulations (sur 100000) | |
---|---|
0 femmes ont répondu “Non” | 16655 |
1 femme a répondu “Non” | 66693 |
2 femmes ont répondu “Non” | 16652 |
La valeur la plus probable s’appelle l’effectif théorique (1 dans cet exemple).
Notre effectif observé est 0 (voir diapositive 8), d’où la valeur \(p\) :
\[p = \frac{\text{Fréquence de l'effectif observé}}{\text{Nombre total de simulations}} = \frac{16655}{100000} \approx 0.17\]
Résultats des 100000 simulations :
Résultats des 100000 simulations :
L’effectif théorique est de 616 : si les deux variables étaient indépendantes, alors la valeur la plus probable serait 616 (probabilité de \(\frac{3656}{100000} \approx 0.04\)).
Dans notre véritable enquête (données observées), nous avons observé que 490 femmes répondent “Non” à la question posée.
Dans le monde où les deux variables sont indépendantes, ce cas de figure s’est présenté 0 fois sur 100000 simulations, d’où
\[p = \frac{0}{100000} = 0\]
Jusqu’alors, nous avons estimé l’effet observé en prenant la valeur d’une des quatre cases du tableau croisé. En effet, en connaissant une des ces valeurs et la valeur des marges, nous pouvons reconstituer les autres valeurs.
Non | Oui | Ensemble | |
---|---|---|---|
Homme | ?? | ?? | 899 |
Femme | 490 | ?? | 1101 |
Ensemble | 1119 | 881 | 2000 |
On dit que le degré de liberté du tableau est de 1.
En pratique, la mesure de l’effet obtenu et de sa probabilité est plus compliquée que dans les exemples précédents. Il faut en effet tenir compte :
On notera :
Le principe du calcul de \(p\) reste le même :
Cependant, pour des raisons mathématiques de calcul des probabilités, il devient impossible de mesurer la fréquence exacte de \(E^*\) quand :
Pour y remédier, on mesure la probabilité d’obtenir un effet au moins aussi grand que \(E^*\).
Sur la représentation graphique d’une loi de probabilité (appelée courbe de densité), les probabilités correspondent aux aires sous la courbe.
L’aire rouge correspond ici à la probabilité de valeur 1, car la probabilité d’obtenir un effet, qu’elle que soit sa valeur, est de 1. C’est un événement certain.
\(p\) est la probabilité d’obtenir, si \((H0)\) est vraie, des données qui manifestent un effet au moins aussi extrême que les données observées.
\(p\) est la probabilité d’obtenir, si \((H0)\) est vraie, des résultats similaires ou plus extrêmes que les résultats observés.
Le principe du test d’hypothèse et du calcul de la \(p\)-value reste toujours le même.
En pratique, le calcul de la \(p\)-value dépend :
D’où la déclinaison du test d’hypothèse en plusieurs versions, selon ces paramètres. Bien souvent, un test spécifique prend le nom de la loi de répartition.
C’est notamment le cas du test du \(\chi^2\) (khi-deux).
Le test du \(\chi^2\) permet de savoir si un lien entre deux variables qualitatives est significatif ou non.
Données observées (notées \(O\)) :
Non | Oui | Sum | |
---|---|---|---|
Homme | 629 | 270 | 899 |
Femme | 490 | 611 | 1101 |
Sum | 1119 | 881 | 2000 |
Nous avons déjà détaillé l’ensemble du test d’hypothèse pour cet exemple lors de la séance précédente. Ici, nous allons nous concentrer sur les étapes 2 (calcul du \(\chi^2*\) observé) et 3 (calcul de la \(p\)-value).
Calcul des effectifs théoriques (notés \(T = \frac{\text{Produit des marges}}{\text{Total}}\)) :
Non | Oui | Sum | |
---|---|---|---|
Homme | \(\frac{899\times1119}{2000} = 503\) | \(\frac{899\times881}{2000} = 396\) | 899 |
Femme | \(\frac{1101\times1119}{2000} = 616\) | \(\frac{1101\times881}{2000} = 485\) | 1101 |
Sum | 1119 | 881 | 2000 |
Rappel : les effectifs théoriques sont les plus probables dans un monde où \((H0)\) est vraie (diapositives 11 et 14).
Calcul du \(\chi^2\) de chaque case \(\frac{(O - T)^2}{T}\) :
Non | Oui | Sum | |
---|---|---|---|
Homme | \(\frac{(629 - 503)^2}{503}= 31.56\) | \(\frac{(270 - 396)^2}{396}= 40.09\) | 899 |
Femme | \(\frac{(490 - 616)^2}{616}= 25.77\) | \(\frac{(611 - 485)^2}{485}= 32.73\) | 1101 |
Sum | 1119 | 881 | 2000 |
Calcul du \(\chi^2*\) (khi-deux observé) en faisant la somme de chaque case :
Non | Oui | Sum | |
---|---|---|---|
Homme | \(\frac{(629 - 503)^2}{503}= 31.56\) | \(\frac{(270 - 396)^2}{396}= 40.09\) | 899 |
Femme | \(\frac{(490 - 616)^2}{616}= 25.77\) | \(\frac{(611 - 485)^2}{485}= 32.73\) | 1101 |
Sum | 1119 | 881 | 2000 |
\[\chi^2* = 31.56 + 40.09 + 25.77 + 32.73 \approx 130.15 \]
Pour calculer la \(p\)-value, nous avons besoin de la loi de répartition du \(\chi^2\). Or cette dernière change selon le degré de liberté (\(ddl\)) du problème étudié :
Calcul du degré de liberté du tableau :
Non | Oui | |
---|---|---|
Homme | 629 | 270 |
Femme | 490 | 611 |
Sans compter les marges :
\[ddl = (\text{Nombre de lignes} - 1) \times (\text{Nombre de colonnes} - 1)\]
D’où :
\[ddl = 1\]
Sur le graphique précédent, nous pouvons lire que la valeur critique du \(\chi^2\) (au seuil de significativité \(\alpha = 0.05\)) est d’environ \(3.8\).
Or \(\chi^2* \approx 130,15 > 3.841\).
Deux manières de conclure :
Nous reprenons les mêmes exemples que dans la séance précédente (séance 12) : reportez-vous au corrigé de la séance précédente pour avoir toutes les étapes du test d’hypothèse et sa conclusion.
Ici, nous détaillons simplement le calcul du \(\chi^2\) et de la valeur \(p\) pour chaque exercice.
« […] Dans votre travail actuel, qu’est-ce qui l’emporte ? »
Insatisfaction | Equilibre | Satisfaction | |
---|---|---|---|
Non cadre | 98 | 350 | 334 |
Cadre | 12 | 59 | 99 |
Effectuez le test du \(\chi^2\) en détaillant le calcul de la valeur \(p\).
Insatisfaction | Equilibre | Satisfaction | Sum | |
---|---|---|---|---|
Non cadre | 98 | 350 | 334 | 782 |
Cadre | 12 | 59 | 99 | 170 |
Sum | 110 | 409 | 433 | 952 |
Insatisfaction | Equilibre | Satisfaction | Sum | |
---|---|---|---|---|
Non cadre | 90 | 336 | 356 | 782 |
Cadre | 20 | 73 | 77 | 170 |
Sum | 110 | 409 | 433 | 952 |
Insatisfaction | Equilibre | Satisfaction | Sum | |
---|---|---|---|---|
Non cadre | 0.71 | 0.58 | 1.36 | 782 |
Cadre | 3.20 | 2.68 | 6.29 | 170 |
Sum | 110.00 | 409.00 | 433.00 | 952 |
Insatisfaction | Equilibre | Satisfaction | Sum | |
---|---|---|---|---|
Non cadre | 0.71 | 0.58 | 1.36 | 782 |
Cadre | 3.20 | 2.68 | 6.29 | 170 |
Sum | 110.00 | 409.00 | 433.00 | 952 |
\[\chi^2* \approx 14.82\]
Insatisfaction | Equilibre | Satisfaction | Sum | |
---|---|---|---|---|
Non cadre | 98 | 350 | 334 | 782 |
Cadre | 12 | 59 | 99 | 170 |
Sum | 110 | 409 | 433 | 952 |
\[ddl = (2 - 1) \times (3 - 1) = 1 \times 2 = 2\]
« En dehors du cadre scolaire ou professionnel, au cours des 12 derniers mois, avez-vous pratiqué alors que vous n’y étiez pas obligé(e) […] aller au cinéma? ».
Non | Oui | |
---|---|---|
Homme | 542 | 357 |
Femme | 632 | 469 |
Effectuez le test du \(\chi^2\) en détaillant le calcul de la valeur \(p\).
Non | Oui | Sum | |
---|---|---|---|
Homme | 542 | 357 | 899 |
Femme | 632 | 469 | 1101 |
Sum | 1174 | 826 | 2000 |
Non | Oui | Sum | |
---|---|---|---|
Homme | 528 | 371 | 899 |
Femme | 646 | 455 | 1101 |
Sum | 1174 | 826 | 2000 |
Non | Oui | Sum | |
---|---|---|---|
Homme | 0.37 | 0.53 | 899 |
Femme | 0.30 | 0.43 | 1101 |
Sum | 1174.00 | 826.00 | 2000 |
Non | Oui | Sum | |
---|---|---|---|
Homme | 0.37 | 0.53 | 899 |
Femme | 0.30 | 0.43 | 1101 |
Sum | 1174.00 | 826.00 | 2000 |
\[\chi^2* \approx 1.63\]
Non | Oui | Sum | |
---|---|---|---|
Homme | 542 | 357 | 899 |
Femme | 632 | 469 | 1101 |
Sum | 1174 | 826 | 2000 |
\[ddl = (2 - 1) \times (2 - 1) = 1 \times 1 = 1\]