Séance 4 Statistique bivariée

Charles-Éric Adam, Gabriel Alcaras, Samuel Coavoux
19 - 23 octobre 2015

Techniques quantitatives en sciences sociales

Responsable de la séance : gabriel.alcaras@ens.fr

Vous avez dit "bivarié" ?

  • On considère conjointement deux variables X et Y pour

    • analyser les valeurs prises par chacune des deux variables
    • étudier le lien éventuel entre les deux variables (corrélation)
  • Exemples : genre et réussite au baccalauréat ; fréquentation des cinémas et niveau d'études.

  • Dans cette séance, nous allons principalement nous concentrer sur un outil essentiel de la statistique bivariée : le tableau de contingence.

Le tableau de contigence

Aussi appelé “tableau croisé” ou “tableau à double entrée”.

Si les statisticiens préfèrent, en toute rigueur, parler de « table de contingence », les sociologues utilisent plus facilement l’expression de « tableau croisé », plus imagée, pour désigner cet outil qui à lui seul incarne, en même temps qu’il la symbolise, toute une façon de faire de la sociologie.

Pierre Mercklé - Les 100 mots de la sociologie

Problème de départ

Nous voulons étudier la relation entre la fréquentation annuelle des cinémas et le niveau d'études, que ce soit pour avoir une idée plus précise des publics des salles ou parce que l'on veut vérifier s'il existe une corrélation entre ces deux variables.

Pour ce faire, nous utiliserons les données de l'enquête sur les conditions de vie de l'INSEE (mai 2003).

Jusqu'ici, nous disposons uniquement de tris à plat qui ne nous permettent pas de répondre à cette question.

Limites du tri à plat

Fréquentation annuelle des cinémas (n = 2766 hors non-réponses)

Effectifs Fréquence
0-2 948 34
3-4 249 9
5-11 631 23
12+ 938 34

Pourquoi ne peut-on pas savoir combien de personnes ayant fait des études supérieures vont au cinéma plus de 12 fois par an ?

Niveau d'études (n = 5168 hors non-réponses)

Effectifs Fréquence
Aucun 84 1.6
Primaire 1292 25.0
1er cycle 603 11.7
2e cycle 608 11.8
Ens. technique ou prof. 1339 25.9
Enseignement supérieur 1242 24.0

La solution : la table de contingence

  • Les lignes correspondent aux valeurs (discrètes, classes ou modalités) de la variable X, les colonnes à celles de Y.
  • Chaque case contient l'effectif des individus pour lesquels les deux variables prennent les valeurs correspondant à celles de la ligne et de la colonne.

    Modalité 1 de X Modalité 2 de X Modalité 3 de X
    Classe 1 de Y
    Classe 2 de Y
    Classe 3 de Y Effectif quand X = modalité 2
    et Y = classe 3

NB : on choisit pour l'instant d'ignorer les individus qui n'ont pas répondu aux deux questions.

Construisez le tableau croisé correspondant aux données suivantes

  • Odile est une fille et a obtenu son bac
  • Dominique est une fille et a obtenu son bac
  • Camille est un garçon et n'a pas obtenu son bac
  • Dominique est une fille et n'a pas obtenu son bac
  • Salima est une fille et a obtenu son bac
  • Paul est un garçon et n'a pas obtenu son bac
  • Rodolphe est un garçon et a obtenu son bac
  • Léa est une fille et a obtenu son bac
  • Pierre est un garçon et a obtenu son bac

Solution

  • 9 individus au total (\( 4 + 2 + 1 + 2 \))
  • 2 variables :
    • Sexe (2 modalités : fille et garçon)
    • Réussite au bac (2 modalités : réussite et échec)
Sexe /
Réussite au bac
Fille Garçon
Réussite 4 2
Échec 1 2

Notations du cas général

  • Variables \( X \) (\( k \) modalités : \( \{x_1,...,x_k\} \)), \( Y \) (\( l \) modalités : \( \{y_1,...,y_l\} \)) : « tableau à \( l \) lignes et \( k \) colonnes »
  • \( n_{i,j} \) : « nombre d'individus pour lesquels \( X = x_j \) ET \( Y = y_i \) » ou « case de la \( i \)-ième ligne et \( j \)-ième colonne »
/ \( X = x_1 \) \( X = x_2 \) \( X = x_j \) \( X = x_k \)
\( Y = y_1 \) \( n_{1,1} \) \( n_{1,2} \) \( n_{1,j} \) \( n_{1,k} \)
\( Y = y_2 \) \( n_{2,1} \) \( n_{2,2} \) \( n_{2,j} \) \( n_{2,k} \)
\( Y = y_i \) \( n_{i,1} \) \( n_{i,2} \) \( n_{i,j} \) \( n_{i,k} \)
\( Y = y_l \) \( n_{l,1} \) \( n_{l,2} \) \( n_{l,j} \) \( n_{l,k} \)

Exercice de lecture

On s'intéresse aux séries des 331994 personnes ayant passé le baccalauréat général en 2013 (chiffres de l'inscription, et non de réussit). On présente les résultats sous forme d'un tableau croisé.

Fille Garçon
L 43735 11589
S 77460 92409
SES 64721 42080
  • Que sont \( X \) et \( Y \) ?
  • Trouver \( k \) et \( l \)
  • Identifier \( x_1 \), \( x_2 \), et \( y_2 \)
  • Quelle est la valeur de \( n_{1,1} \) ? De \( n_{3,2} \) ? De \( n_{2,1} \) ?

Solution

Fille Garçon
L 43735 11589
S 77460 92409
SES 64721 42080

Rappel :

\( X \) /
\( Y \)
\( x_1 \) \( x_2 \)
\( y_1 \) \( n_{1,1} \) \( n_{1,2} \)
\( y_2 \) \( n_{2,1} \) \( n_{2,2} \)
\( y_3 \) \( n_{3,1} \) \( n_{3,2} \)
  • Variables : \( X \) = « Sexe » et \( Y \) = « Série »
  • X a 2 modalités (\( k = 2 \)) et Y a 3 modalités (\( l = 3 \))
  • La modalité \( x_1 \) est « fille », \( x_2 \) est « garçon » et \( y_2 \) est « S »
  • \( n_{1,1} = 43735 \), \( n_{3,2} = 42080 \), \( n_{2,1} = 11589 \)

Effectif total

La somme des effectifs dans chaque case doit être égale au nombre total d'individus \( n \) (effectif total).

Fille Garçon
L 43735 11589
S 77460 92409
SES 64721 42080

Si on fait la somme de toutes les cases :

sum(tableauCroise)
[1] 331994

Cas général :

\[ \sum_{i = 1}^{l}\sum_{j = 1}^{k} n_{i,j} = n \]

Marges : motivation et exercice

À partir du tableau suivant, on voudrait connaître dans notre échantillon :

Fille Garçon
L 43735 11589
S 77460 92409
SES 64721 42080
  • le nombre total de filles
  • le nombre total de garçons
  • le nombre total de personnes ayant passé un bac SES

Solution

Rappel du tableau :

Fille Garçon
L 43735 11589
S 77460 92409
SES 64721 42080
  • nombre total de filles :
[1] 185916
  • nombre total de garçons :
[1] 146078
  • nombre total de personnes ayant passé un bac SES
[1] 106801

Représentation des marges

Par convention, les effectifs lignes sont ajoutés au tableau dans une colonne supplémentaire, et les effectifs colonnes dans une ligne supplémentaire.

Fille Garçon Ensemble
L 43735 11589 55324
S 77460 92409 169869
SES 64721 42080 106801
Ensemble 185916 146078 331994

Notation du cas général

/ \( X = x_1 \) \( X = x_j \) \( X = x_k \) Ensemble
\( Y = y_1 \) \( n_{1,1} \) \( n_{1,j} \) \( n_{1,k} \) \( n_{1·} \)
\( Y = y_i \) \( n_{i,1} \) \( n_{i,j} \) \( n_{i,k} \) \( n_{i·} \)
\( Y = y_l \) \( n_{l,1} \) \( n_{l,j} \) \( n_{l,k} \) \( n_{l·} \)
Ensemble \( n_{·1} \) \( n_{·j} \) \( n_{·k} \) \( n \)

Total de la \( i \)-ième ligne : \( n_{i·} = \sum_{j = 1}^{k} n_{i,j} \)

Total de la \( j \)-ième colonne : \( n_{·j} = \sum_{i = 1}^{l} n_{i,j} \)

Propriété des marges : exercice

Rappel du tableau :

Fille Garçon Ensemble
L 43735 11589 55324
S 77460 92409 169869
SES 64721 42080 106801
Ensemble 185916 146078 ??
  • Qu'obtient-on si on fait le total des effectifs lignes ?
  • Et le total des effectifs colonnes ?
  • Que remarque-t-on ?

Propriété des marges : solution

Rappel du tableau :

Fille Garçon Ensemble
L 43735 11589 55324
S 77460 92409 169869
SES 64721 42080 106801
Ensemble 185916 146078 ??

Le total des effectifs lignes et colonnes est égal à l'effectif total.

Ici, la somme des ensembles est égale à 331994.

Pourcentage total : motivation et exercice

Fille Garçon Ensemble
L 43735 11589 55324
S 77460 92409 169869
SES 64721 42080 106801
Ensemble 185916 146078 331994

Par rapport à l'échantillon :

  • Quelle est la proportion de filles passant un bac L ?
  • Quelle est la proportion de garçons passant un bac S ?
  • Quelle est la proportion de garçons ?
  • Quelle est la proportion de personnes passant un bac SES ?

Solution

Fille Garçon Ensemble
L 43735 11589 55324
S 77460 92409 169869
SES 64721 42080 106801
Ensemble 185916 146078 331994
  • Proportion de filles passant un bac L : \( 43735 / 331994 \approx 13\% \)
  • Proportion de garçons passant un bac S : \( 92409 / 331994 \approx 28\% \)
  • Proportion de garçons : \( 146078 / 331994 \approx 44\% \)
  • Proportion de personnes passant un bac SES : \( 106801 / 331994 \approx 32\% \)

Pourcentage total : cas général

  • À partir des effectifs

\[ \frac{n_{i,j}}{n} \]

  • À partir des effectifs lignes

\[ \frac{n_{i·}}{n} = \frac{1}{n} \sum_{j = 1}^{k} n_{i,j} \]

  • À partir des effectifs colonnes

\[ \frac{n_{·j}}{n} = \frac{1}{n} \sum_{i = 1}^{l} n_{i,j} \]

Tableau en pourcentage de l'effectif total

Le tableau final :

Fille Garçon Ensemble
L 0.13 0.03 0.17
S 0.23 0.28 0.51
SES 0.19 0.13 0.32
Ensemble 0.56 0.44 1.00

Que remarque-t-on :

  • En additionnant les pourcentages ?
  • En additionnant les pourcentages marginaux ?

Pourcentage total : propriété

  • La somme des pourcentages vaut 100%

\[ \sum_{i = 1}^{l} \sum_{j = 1}^{k} \frac{n_{i,j}}{n} = \frac{n}{n} = 1 \]

  • La somme des pourcentages marginaux vaut 100%

Exemple pour les effectifs lignes :

\[ \sum_{i = 1}^{l} \frac{1}{n} n_{i·} = \sum_{i = 1}^{l} \frac{1}{n} \sum_{j = 1}^{k} n_{i,j} = \sum_{i = 1}^{l} \sum_{j = 1}^{k} \frac{n_{i,j}}{n} = \frac{n}{n} = 1 \]

Pourcentages marginaux : motivation

On voudrait répondre aux questions suivantes :

Fille Garçon Ensemble
L 43735 11589 55324
S 77460 92409 169869
SES 64721 42080 106801
Ensemble 185916 146078 331994
  • Parmi les personnes qui ont passé le bac L, quelle proportion représentent les filles ?
  • Parmi les personnes qui ont passé un bac S, quelle proportion représentent les garçons ?
  • Parmi les garçons, quelle proportion passe un bac SES ?
  • Parmi les filles, quelle proportion passe un bac S ?

Solution

Fille Garçon Ensemble
L 43735 11589 55324
S 77460 92409 169869
SES 64721 42080 106801
Ensemble 185916 146078 331994
  • Parmi les personnes qui ont passé le bac L, proportion de filles : \( 43735 / 55324 \approx 0.79 \)
  • Parmi les personnes qui ont passé un bac S, proportion de garçons : \( 92409 / 169869 \approx 0.54 \)
  • Parmi les garçons, proportion passant un bac SES : \( 42080 / 146078 \approx 0.28 \)
  • Parmi les filles, proportion passant un bac S : \( 77460 / 185916 \approx 0.41 \)

Pourcentages en ligne et en colonne

Il est souvent utile d'utiliser des pourcentages par rapport aux modalités des variables utilisées, et non par rapport à l'échantillon total.

Dans un tableau de contingence, il est possible de donner les résultats en pourcentages lignes (resp. en pourcentages colonnes). Par convention, on ajoute une colonne (resp. une ligne) pour y afficher le total de chaque ligne (resp. colonne), qui doit être égal à 100%.

Attention ! Lors de la lecture d'un tableau croisé, il ne faut pas confondre pourcentages en ligne et en colonne, au risque de commettre de grandes erreurs d'interprétation.

Pourcentages marginaux : exemples

Pourcentages en ligne

Fille Garçon Ensemble
L 0.79 0.21 1
S 0.46 0.54 1
SES 0.61 0.39 1
Ensemble 0.56 0.44 1

Pourcentages en colonne

Fille Garçon Ensemble
L 0.24 0.08 0.17
S 0.42 0.63 0.51
SES 0.35 0.29 0.32
Ensemble 1.00 1.00 1.00

Pourcentages marginaux : cas général

Dans le cas des pourcentages en ligne :

\[ \frac{\text{Effectif de la case}}{\text{Effectif ligne}} = \frac{n_{i,j}}{n_{i·}} \]

Dans le cas des pourcentages en colonne :

\[ \frac{\text{Effectif de la case}}{\text{Effectif colonne}} = \frac{n_{i,j}}{n_{·j}} \]

Vérification du total des pourcentages en ligne :

\[ \sum_{j = 1}^{k} \frac{n_{i,j}}{n_{i·}} = \frac{n_{i·}}{n_{i·}} = 1 \]

Caveat : lire plusieurs tableaux croisés

Problème de départ

Prenons un collège (fictif) avec deux classes de troisième et leurs résultats au brevet en fonction du genre :

Alt text

Les deux tableaux croisés indiquent que dans chaque classe, les garçons réussissent mieux que les filles.

Peut-on conclure que dans ce collège, les garçons réussissent mieux que les filles ?

Solution

Pour répondre à cette question, il suffit de recalculer les pourcentages de reçus au brevet à partir des effectifs de chaque classe :

Alt text

Réussite des garçons (collège) : \( (8 + 6) / (20 + 8) = 0.5 \)

Réussite des filles (collège) : \( (1 + 17) / (5 + 25) = 0.6 \)

Explication : l'effet de structure

Ce phénomène est appelé « effet de structure » : alors que dans chaque classe, les garçons semblent mieux réussir, au niveau du collège, les filles réussissent mieux.

Lorsqu'une population est répartie en sous-populations, il peut arriver qu'une grandeur évolue dans un sens sur chaque sous-population et dans le sens contraire sur l'ensemble de la population. Ce paradoxe s'explique parce que les effectifs de certaines sous-populations augmentent alors que d'autres régressent : c'est l'effet de structure. (Définition de l'INSEE)

Pour éviter ces erreurs d'interprétation, on pourrait créer un nouveau tableau croisé (au niveau du collège) ou encore utiliser des moyennes pondérées.

Aperçu des tables de mobilité sociale

Une table de contingence particulière

Les tables de mobilité sociale se construisent comme un tableau croisé classique avec les CSP de deux générations (ici père/fils).

Alt text

Quelques éléments de vocabulaire

Les ensembles reflètent la structure professionnelle propre à chaque génération, et la diagonale montre l'inertie ou la reproduction sociale.

Alt text

  • Si l'on prend les pourcentages en ligne, ce tableau s'appelle la « table de recrutement ».

  • Si l'on prend les pourcentages en colonne, ce tableau s'appelle la « table de destinée ».

Exemple suivi : cinéma et niveau d'études

À partir des données de l'enquête sur les conditions de vie de l'INSEE (mai 2003), nous voulons étudier les relations entre la fréquentation annuelle des cinémas et le niveau d'études.

Effectifs bruts

Reconnaître les variables, leurs modalités, les marges et l'effectif total. S'entraîner à lire les différentes cases du tableau.

0-2 3-4 5-11 12+ Ensemble
Aucun 2 1 0 2 5
Primaire 74 12 35 38 159
1er cycle 114 21 52 56 243
2e cycle 123 34 96 108 361
Ens. technique ou prof. 297 77 117 145 636
Enseignement supérieur 256 76 237 382 951
Ensemble 866 221 537 731 2355

Séances annuelles de cinéma en fonction du niveau d'études (hors nr)

Pourcentages... (1/2)

De quel type de pourcentages s'agit-il ? Comment lire les différentes cases ? Dans la ligne “Ens. technique”, peut-on comparer 34% et 35% en termes d'effectifs ? Quelles hypothèses peut-on formuler ?

0-2 3-4 5-11 12+ Ens. (%)
Aucun 0.00 0.00 0.00 0.00 0.00
Primaire 0.09 0.05 0.07 0.05 0.07
1er cycle 0.13 0.10 0.10 0.08 0.10
2e cycle 0.14 0.15 0.18 0.15 0.15
Ens. technique ou prof. 0.34 0.35 0.22 0.20 0.27
Enseignement supérieur 0.30 0.34 0.44 0.52 0.40
Ens. (%) 1.00 1.00 1.00 1.00 1.00

Pourcentages... (2/2)

De quel type de pourcentages s'agit-il ? Comment lire les différentes cases ? Pourquoi avoir précisé les effectifs ? Certains recodages sont-ils souhaitables ? Quelles hypothèses peut-on formuler ?

0-2 3-4 5-11 12+ Ens. (%) Effectifs
Aucun 0.40 0.20 0.00 0.40 1 5
Primaire 0.47 0.08 0.22 0.24 1 159
1er cycle 0.47 0.09 0.21 0.23 1 243
2e cycle 0.34 0.09 0.27 0.30 1 361
Ens. technique ou prof. 0.47 0.12 0.18 0.23 1 636
Enseignement supérieur 0.27 0.08 0.25 0.40 1 951
Ens. (%) 0.37 0.09 0.23 0.31 1 2355

Le cas des non-réponses

Combien y a-t-il de non-réponses (NR) aux deux questions posées ? Peut-on formuler de nouvelles hypothèses tenant compte des non-réponses ?

0-2 3-4 5-11 12+ NR Ens. (%) Effectifs
Aucun 0.02 0.01 0.00 0.02 0.94 1 84
Primaire 0.06 0.01 0.03 0.03 0.88 1 1292
1er cycle 0.19 0.03 0.09 0.09 0.60 1 603
2e cycle 0.20 0.06 0.16 0.18 0.41 1 608
Ens. technique ou prof. 0.22 0.06 0.09 0.11 0.53 1 1339
Enseignement supérieur 0.21 0.06 0.19 0.31 0.23 1 1242
NR 0.18 0.06 0.21 0.45 0.10 1 458
Ens. (%) 0.17 0.04 0.11 0.17 0.51 1 5626

Un point de vue graphique

Même s'il est moins précis, un histogramme peut donner une idée rapide du “message général” d'un tableau de contingence.

plot of chunk unnamed-chunk-29

Analyse bivariée quali / quanti

Au lieu d'effectuer un recodage de la variable quantitative “Fréquentation annuelle” en une variable qualitative à 3 modalités, on pourrait également présenter le tableau suivant et comparer les moyennes :

Niveau d'étude Moyenne Écart-type Effectif
Aucun 8.5 10.0 5.0
Primaire 9.1 14.3 159.0
1er cycle 8.2 13.8 243.0
2e cycle 11.0 15.8 361.0
Ens. technique ou prof. 7.9 11.3 636.0
Enseignement supérieur 13.6 20.9 951.0
All 10.8 17.0 2355.0

Vers le test d'hypothèse...

Ou premières notions de statistiques inférentielles

Alt text

Les limites du tableau de contingence

Reprenons notre étude de la fréquentation annuelle des cinémas.

La table de contingence nous a permis jusqu'ici :

  • de décrire avec précision des sous-populations au croisement de deux variables (fréquentation et niveau d'étude)
  • de formuler des hypothèses intéressantes sur le lien entre ces deux variables

Mais pour l'instant, rien n'est encore prouvé ! C'est pour aller plus loin que nous voulons tester nos hypothèses rigoureusement… ce qu'on verra dans la prochaine séance.