11 décembre 2017

Problème : les limites de la statistique descriptive

Commençons par un exemple…

Dans l’enquête Histoire de Vie (INSEE, 2003), on pose aux enquêté·e·s la question suivante :

« En dehors du cadre scolaire ou professionnel, au cours des 12 derniers mois, avez-vous pratiqué alors que vous n’y étiez pas obligé(e) […] la cuisine ? ».

En croisant cette variable avec le genre, on obtient le tableau suivant.

Non Oui Sum
Homme 629 270 899
Femme 490 611 1101
Sum 1119 881 2000



Quelles conclusions peut-on en tirer ?

Résultats de la statistique descriptive

Voici le même tableau, cette fois-ci en pourcentages en ligne :

Non Oui Total
Homme 69.97 30.03 100
Femme 44.50 55.50 100
Ensemble 55.95 44.05 100


Parmi les femmes, 44,5% déclarent ne pas avoir pratiqué la cuisine comme un loisir, soit 11 points de moins par rapport à l’ensemble (56%) et 26 points de moins par rapport aux hommes (70%).

Parmi les hommes, 30% déclarent avoir pratiqué la cuisine comme un loisir, soit 14 points de moins par rapport à l’ensemble (44%) et 25 points de moins par rapport aux femmes (55%).

Nous pouvons donc en conclure que, dans notre échantillon, les femmes déclarent nettement plus souvent pratiquer la cuisine comme loisir que les hommes.

Limites de la statistique descriptive

En revanche, ce tableau ne nous permet pas d’affirmer :

  • qu’il existe dans notre échantillon un lien entre le genre et la pratique de la cuisine comme loisir, voire que le genre a un effet direct sur la pratique de la cuisine comme loisir
  • qu’il existe en général un lien entre le genre et la pratique de la cuisine comme loisir

En effet, il y a une différence importante entre :

  • décrire des distributions de variable (statistique descriptive)
  • expliquer pourquoi ces variables se distribuent ainsi, ce qui sort du rôle de la statistique descriptive

Limite 1 : l’échantillonnage

Imaginons la situation suivante :

Échantillon (n = 2000)
Non Oui Sum
Homme 629 270 899
Femme 490 611 1101
Sum 1119 881 2000
Population (n = 2514)
Non Oui Sum
Homme 629 784 1413
Femme 490 611 1101
Sum 1119 881 2514



Que s’est-il passé dans le processus d’échantillonnage ?

Limite 1 : l’échantillonnage

Lors de l’échantillonnage précédent, nous avons malheureusement ignoré 514 hommes… qui auraient tous déclaré pratiquer la cuisine comme loisir. Si nous avions eu accès à la population dans son ensemble, nous aurions constaté que les hommes et les femmes ont déclaré pratiquer la cuisine comme loisir en proportions semblables.

Si notre échantillonnage est parfaitement aléatoire, ce cas de figure est peu probable mais pas impossible. En pratique, l’échantillonnage est rarement parfaitement aléatoire et comporte certainement des biais, peut-être certes moins prononcés que dans notre exemple.

La statistique descriptive ne permet donc pas de comprendre la répartition à l’échelle de la population, mais seulement à celle de l’échantillon.

Limite 2 : départager effet réel et aléatoire

Si le tableau croisé était effectué auprès d’une population exhaustive, pourrions-nous alors affirmer qu’il existe un lien entre les deux variables ?

S’il n’y avait pas de lien entre le genre et le loisir de cuisiner, il serait certes étonnant et rare d’observer un tel tableau, mais pas impossible − de la même manière qu’il serait étonnant mais pas improbable qu’une pièce non truquée produise 90 faces et seulement 10 piles au bout de 100 lancers.

La statistique descriptive ne permet donc pas d’affirmer un quelconque lien dans la population observée.

Ce que peut et ne peut pas la statistique descriptive

La statistique descriptive ne permet donc pas :

  • de généraliser des descriptions observées dans l’échantillon à la population
  • de déduire l’existence d’un lien à partir d’une variation concomitante entre deux variables

Cela ne signifie pas que la description est inutile, bien au contraire :

  • Elle permet de formuler des hypothèses (mais pas de les vérifier)
  • Même s’il s’avère qu’il n’y a pas de lien entre deux variables, leur répartition observée reste bien réelle. Par exemple, si le genre et la cuisine n’étaient en fait pas liés, cela ne changerait rien au fait que les femmes pratiquent effectivement plus la cuisine comme un loisir que les hommes

Vers la statistique inférentielle

La statistique inférentielle a pour rôle d’aider les chercheur·e·s à prendre des décisions vis-à-vis de leurs hypothèses. Pour le dire simplement, la statistique descriptive essaie de décrire là où la statistique inférentielle essaie d’expliquer.

En particulier, la statistique inférentielle nous aide à décider de la probabilité d’obtenir nos données :

  • sachant que l’échantillonnage est généré de manière aléatoire (limite 1)
  • s’il n’y a aucun lien entre les variables observées (limite 2)

En revanche, la statistique inférentielle ne donne pas :

  • la réponse à nos questions, mais seulement des éléments de réponse qu’il faut interpréter pour prendre une décision
  • des éléments absolus, mais toujours des éléments probabilistes

Le test d’hypothèse : principe général

Le test d’hypothèse : principe et déclinaisons

Le test d’hypothèse est une des méthodes de la statistique inférentielle qui permet de sortir de cette impasse.

Il suit toujours le même principe, mais se décline en différentes versions selon les hypothèses à tester et les variables considérées (principalement pour des raisons de calcul).

Dans le cadre du cours, nous verrons :

  • le principe du test d’hypothèse en général (séance actuelle)
  • sa déclinaison pour déterminer l’existence d’un lien entre deux variables qualitative, le test du \(\chi^2\) (séance suivante)

Principe général du test d’hypothèse

  1. Nous commençons toujours par faire une hypothèse, que nous appellerons hypothèse nulle (\(H0\)) ou hypothèse d’indépendance. Cette hypothèse postule toujours l’indépendance entre les variables étudiées, l’absence d’effet.
  2. Nous appliquons ensuite le test d’hypothèse sur nos données observées, qui nous donne la probabilité d’obtenir ces données si \((H0)\) est vraie. Cette probabilité s’appelle la p-value, notée \(p\).
  3. Nous interprétons la p-value pour prendre une décision :
    • Si elle est suffisamment petite, alors nous pouvons rejeter l’hypothèse d’indépendance et postuler qu’il existe bien un effet.
    • Sinon, nous ne pouvons pas rejeter l’hypothèse d’indépendance et le test d’hypothèse ne nous permet pas de conclure.

L’hypothèse nulle

Reprenons notre exemple :

Non Oui Sum
Homme 629 270 899
Femme 490 611 1101
Sum 1119 881 2000


Pour savoir si genre et pratique de la cuisine comme loisir sont liés, nous allons tester l’hypothèse nulle suivante :

\((H0)\) : Les variables genre et cuisine sont indépendantes (pas de lien entre elles)

Le calcul de la p-value

À partir de cette hypothèse nulle et de nos données, nous appliquons le test d’hypothèse qui donne la p-value.

C’est notamment par le calcul de cette valeur p que les tests d’hypothèses diffèrent entre eux. Nous verrons plus tard comment calculer cette valeur.

Pour l’instant, nous obtenons la p-value suivante pour le genre et la cuisine :

\[p \approx 0\]

Le test d’hypothèse à proprement parler est terminé. Il nous faut maintenant interpréter cette probabilité de 0 pour prendre une décision concernant notre hypothèse nulle.

Comment interpréter la p-value ?

Pour prendre une décision par rapport à une hypothèse, il est tentant d’interpréter \(p\) comme la probabilité que l’hypothèse soit vraie étant données nos observations. Dans notre exemple, cela signifierait que la probabilité que le genre et la cuisine soient indépendants est quasi nulle.

Attention ! Ce n’est pas ce résultat que fournit le test d’hypothèse. En effet, la valeur p donne la probabilité d’obtenir les données observées si l’hypothèse est vraie (nous donnerons une définition plus précise par la suite).

Dans notre exemple, \(p \approx 0\). Cela signifie donc que s’il n’y avait pas de lien entre le genre et le loisir de cuisiner, la probabilité d’observer une telle répartition genrée serait de 0. Autrement dit, s’il y avait indépendance entre genre et cuisine, il serait presque impossible de récolter ces données.

Comment prendre une décision ?

Nous avons maintenant une décision à prendre : rejeter \((H0)\) ou non en fonction de \(p\).

Le raisonnement est le suivant : si la probabilité \(p\) d’obtenir nos données en sachant \((H0)\) vraie est suffisamment petite, alors il serait très rare d’observer les données qui sont les nôtres.

  • Si ce cas de figure est suffisamment rare, voire presque impossible, il est alors raisonnable de penser que nous ne vivons pas dans un monde où \((H0)\) est vraie. Nous pouvons donc raisonnablement rejeter \((H0)\).
  • Sinon, cela signifie que nous pourrions très bien être dans un univers où \((H0)\) est vraie (puisque ce cas de figure n’y serait pas improbable) ou fausse (car nous n’avons aucune idée de la probabilité d’obtenir nos données si \((H0)\) est fausse). Nous ne pouvons donc pas rejeter \((H0)\) ni conclure.

“Suffisamment rare” : le concept de significativité

Comment décider si \(p\) est suffisamment petite, c’est-à-dire si obtenir nos données si \((H0)\) est vraie s’avère être un événement suffisamment rare qu’il nous permet de rejeter \((H0)\) ?

Nous nous référons alors à un seuil de significativité (noté \(\alpha\)).

  • Si \(p < \alpha\), alors \(p\) est suffisamment petite et l’événement est suffisamment rare pour rejeter \((H0)\)
  • Si \(p \geqslant \alpha\), alors \(p\) n’est pas suffisamment petit et l’événement n’est pas suffisamment rare pour rejeter \((H0)\)

Ce seuil de significativité est fixé à \(0,05\) (c’est une norme scientifique et historique). Si \(p < \alpha\), alors l’effet constaté est significatif au sens statistique.

Genre et pratique de la cuisine comme loisir

Revenons à notre exemple. Nous avions vu que \(p \approx 0\). Il ne nous reste plus qu’à terminer notre raisonnement :

  1. Si le genre et la cuisine étaient des variables indépendantes, alors la probabilité d’obtenir une répartition comme celle que nous observons serait presque nulle.
  2. Comme \(p\) est inférieure au seuil de significativité \(\alpha\) de \(0.05\), nous pouvons en conclure que cet événement est suffisamment rare pour rejeter \((H0)\).
  3. Conclusion : il existe bien un lien significatif entre genre et cuisine.

Autrement dit, il est raisonnable de penser que cette répartition genrée des loisirs n’est due ni au hasard et ni à des biais d’échantillonnage.

Récapitulatif : les étapes du test d’hypothèse

Statistique descriptive : observation d’une variation conjointe de deux variables

Question de recherche : existe-t-il un lien significatif entre deux variables ?

  1. Formulation de l’hypothèse nulle \((H0)\) : les deux variables sont indépendantes
  2. Test d’hypothèse et calcul d’une p-value \(p\) : probabilité d’obtenir les données observées si \((H0)\) est vraie
  3. Prise de décision grâce au seuil de significativité \(\alpha\) :
    1. \(p < \alpha\) : le lien est significatif, on peut rejeter \((H0)\) et conclure qu’il est raisonnable de postuler l’existence d’un lien.
    2. \(p \geqslant \alpha\) : le lien n’est pas significatif, on ne peut donc pas rejeter \((H0)\) et il est impossible de conclure.

Exercices

Consignes

Les deux exemples suivants sont également tirés de l’enquête Histoire De Vie (INSEE, 2003).

Pour chacun d’entre eux, on donne un tableau croisé et la valeur \(p\) issue du test d’hypothèse.

Reproduire toutes les étapes du raisonnement statistique, en partant du commentaire du tableau croisé et la formulation d’une question de recherche jusqu’au test d’hypothèse, son interprétation et sa conclusion.

« En dehors du cadre scolaire ou professionnel, au cours des 12 derniers mois, avez-vous pratiqué alors que vous n’y étiez pas obligé(e) […] aller au cinéma? ».

Genre et cinéma (n = 2000)
Non Oui Total
Homme 60.29 39.71 100
Femme 57.40 42.60 100
Ensemble 58.70 41.30 100

\[p \approx 0.208144\]

« […] Dans votre travail actuel, qu’est-ce qui l’emporte ? »

Qualification et satisfaction au travail (n = 952)
Insatisfaction Equilibre Satisfaction Total
Ouvrier 16.74 46.03 37.24 100
Technicien ou autre 11.11 41.41 47.47 100
Profession intermediaire 10.28 40.19 49.53 100
Employe 10.68 46.29 43.03 100
Cadre 7.06 34.71 58.24 100
Ensemble 11.55 42.96 45.48 100

\[p \approx 0.0024554\]

Éléments d’interprétation et de contextualisation

Les différents types d’erreur

Pour rappel, le test d’hypothèse ne donne pas la probabilité que \((H0)\) est vraie. Soit les variables sont indépendantes, soit elles ne le sont pas.

En conséquence, lorsque l’on décide de rejeter \((H0)\) ou non, nous pouvons avoir tort ou raison dans les deux cas. On distingue alors deux types d’erreur :

\((H0)\) est vraie \((H0)\) est fausse
Rejet de \((H0)\) Erreur de Type I (faux négatif) Conclusion correcte
Non rejet de \((H0)\) Conclusion correcte Erreur de Type II (faux positif)


Évidemment, nous ne savons pas si \((H0)\) est vraie ou non au moment du test d’hypothèse, mais il faut savoir quel type d’erreur nous sommes susceptibles de commettre en fonction de notre conclusion.

Significativité statistique et pertinence scientifique

Après avoir interprété le résultat du test d’hypothèse et avoir décidé de rejeter ou non l’hypothèse nulle, nous avons déterminé la significativité statistique d’un effet ou d’un lien entre deux variables.

Cette significativité statistique ne doit pas être confondue avec sa pertinence scientifique. D’une part, la décision prise peut être valide ou non (erreurs de type I ou II). D’autre part, ce n’est pas parce qu’un lien est significatif qu’il est pertinent pour notre réflexion.

Il convient donc de replacer le test d’hypothèse et sa conclusion dans un contexte plus large : existe-t-il d’autres travaux pour les confirmer ou les infirmer ? A-t-on d’autres éléments dans notre enquête qualitative ou quantitative qui pourraient contredire ou renforcer nos résultats ?

Les limites du test d’hypothèse

Le test d’hypothèse permet de déterminer si un effet ou un lien entre deux variables est significatif ou non.

En revanche, la significativité d’un effet ne nous renseigne pas sur son ampleur. Un lien significatif entre deux variables pourrait bien n’avoir qu’une amplitude faible.

D’où une autre limite du test d’hypothèse : nous ne pouvons pas comparer plusieurs tests d’hypothèses entre eux. Par exemple, il n’est pas possible de dire que le lien “genre/cuisine” est plus significatif que le lien “qualification/satisfaction au travail”. Soit un lien est significatif, soit il ne l’est pas.