Charles-Éric Adam, Gabriel Alcaras, Samuel Coavoux
19 - 23 octobre 2015
Techniques quantitatives en sciences sociales
Responsable de la séance : gabriel.alcaras@ens.fr
On considère conjointement deux variables X et Y pour
Exemples : genre et réussite au baccalauréat ; fréquentation des cinémas et niveau d'études.
Dans cette séance, nous allons principalement nous concentrer sur un outil essentiel de la statistique bivariée : le tableau de contingence.
Aussi appelé “tableau croisé” ou “tableau à double entrée”.
Si les statisticiens préfèrent, en toute rigueur, parler de « table de contingence », les sociologues utilisent plus facilement l’expression de « tableau croisé », plus imagée, pour désigner cet outil qui à lui seul incarne, en même temps qu’il la symbolise, toute une façon de faire de la sociologie.
Pierre Mercklé - Les 100 mots de la sociologie
Nous voulons étudier la relation entre la fréquentation annuelle des cinémas et le niveau d'études, que ce soit pour avoir une idée plus précise des publics des salles ou parce que l'on veut vérifier s'il existe une corrélation entre ces deux variables.
Pour ce faire, nous utiliserons les données de l'enquête sur les conditions de vie de l'INSEE (mai 2003).
Jusqu'ici, nous disposons uniquement de tris à plat qui ne nous permettent pas de répondre à cette question.
Fréquentation annuelle des cinémas (n = 2766 hors non-réponses)
| Effectifs | Fréquence | |
|---|---|---|
| 0-2 | 948 | 34 |
| 3-4 | 249 | 9 |
| 5-11 | 631 | 23 |
| 12+ | 938 | 34 |
Pourquoi ne peut-on pas savoir combien de personnes ayant fait des études supérieures vont au cinéma plus de 12 fois par an ?
Niveau d'études (n = 5168 hors non-réponses)
| Effectifs | Fréquence | |
|---|---|---|
| Aucun | 84 | 1.6 |
| Primaire | 1292 | 25.0 |
| 1er cycle | 603 | 11.7 |
| 2e cycle | 608 | 11.8 |
| Ens. technique ou prof. | 1339 | 25.9 |
| Enseignement supérieur | 1242 | 24.0 |
Chaque case contient l'effectif des individus pour lesquels les deux variables prennent les valeurs correspondant à celles de la ligne et de la colonne.
| Modalité 1 de X | Modalité 2 de X | Modalité 3 de X | |
|---|---|---|---|
| Classe 1 de Y | |||
| Classe 2 de Y | |||
| Classe 3 de Y | Effectif quand X = modalité 2 et Y = classe 3 |
NB : on choisit pour l'instant d'ignorer les individus qui n'ont pas répondu aux deux questions.
| Sexe / Réussite au bac |
Fille | Garçon |
|---|---|---|
| Réussite | 4 | 2 |
| Échec | 1 | 2 |
| / | \( X = x_1 \) | \( X = x_2 \) | … | \( X = x_j \) | … | \( X = x_k \) |
|---|---|---|---|---|---|---|
| \( Y = y_1 \) | \( n_{1,1} \) | \( n_{1,2} \) | … | \( n_{1,j} \) | … | \( n_{1,k} \) |
| \( Y = y_2 \) | \( n_{2,1} \) | \( n_{2,2} \) | … | \( n_{2,j} \) | … | \( n_{2,k} \) |
| … | … | … | … | … | … | |
| \( Y = y_i \) | \( n_{i,1} \) | \( n_{i,2} \) | … | \( n_{i,j} \) | … | \( n_{i,k} \) |
| … | … | … | … | … | … | |
| \( Y = y_l \) | \( n_{l,1} \) | \( n_{l,2} \) | … | \( n_{l,j} \) | … | \( n_{l,k} \) |
On s'intéresse aux séries des 331994 personnes ayant passé le baccalauréat général en 2013 (chiffres de l'inscription, et non de réussit). On présente les résultats sous forme d'un tableau croisé.
| Fille | Garçon | |
|---|---|---|
| L | 43735 | 11589 |
| S | 77460 | 92409 |
| SES | 64721 | 42080 |
| Fille | Garçon | |
|---|---|---|
| L | 43735 | 11589 |
| S | 77460 | 92409 |
| SES | 64721 | 42080 |
Rappel :
| \( X \) / \( Y \) |
\( x_1 \) | \( x_2 \) |
|---|---|---|
| \( y_1 \) | \( n_{1,1} \) | \( n_{1,2} \) |
| \( y_2 \) | \( n_{2,1} \) | \( n_{2,2} \) |
| \( y_3 \) | \( n_{3,1} \) | \( n_{3,2} \) |
La somme des effectifs dans chaque case doit être égale au nombre total d'individus \( n \) (effectif total).
| Fille | Garçon | |
|---|---|---|
| L | 43735 | 11589 |
| S | 77460 | 92409 |
| SES | 64721 | 42080 |
Si on fait la somme de toutes les cases :
sum(tableauCroise)
[1] 331994
Cas général :
\[ \sum_{i = 1}^{l}\sum_{j = 1}^{k} n_{i,j} = n \]
À partir du tableau suivant, on voudrait connaître dans notre échantillon :
| Fille | Garçon | |
|---|---|---|
| L | 43735 | 11589 |
| S | 77460 | 92409 |
| SES | 64721 | 42080 |
Rappel du tableau :
| Fille | Garçon | |
|---|---|---|
| L | 43735 | 11589 |
| S | 77460 | 92409 |
| SES | 64721 | 42080 |
[1] 185916
[1] 146078
[1] 106801
Par convention, les effectifs lignes sont ajoutés au tableau dans une colonne supplémentaire, et les effectifs colonnes dans une ligne supplémentaire.
| Fille | Garçon | Ensemble | |
|---|---|---|---|
| L | 43735 | 11589 | 55324 |
| S | 77460 | 92409 | 169869 |
| SES | 64721 | 42080 | 106801 |
| Ensemble | 185916 | 146078 | 331994 |
| / | \( X = x_1 \) | … | \( X = x_j \) | … | \( X = x_k \) | Ensemble |
|---|---|---|---|---|---|---|
| \( Y = y_1 \) | \( n_{1,1} \) | … | \( n_{1,j} \) | … | \( n_{1,k} \) | \( n_{1·} \) |
| … | … | … | … | … | … | |
| \( Y = y_i \) | \( n_{i,1} \) | … | \( n_{i,j} \) | … | \( n_{i,k} \) | \( n_{i·} \) |
| … | … | … | … | … | ||
| \( Y = y_l \) | \( n_{l,1} \) | … | \( n_{l,j} \) | … | \( n_{l,k} \) | \( n_{l·} \) |
| Ensemble | \( n_{·1} \) | … | \( n_{·j} \) | … | \( n_{·k} \) | \( n \) |
Total de la \( i \)-ième ligne : \( n_{i·} = \sum_{j = 1}^{k} n_{i,j} \)
Total de la \( j \)-ième colonne : \( n_{·j} = \sum_{i = 1}^{l} n_{i,j} \)
Rappel du tableau :
| Fille | Garçon | Ensemble | |
|---|---|---|---|
| L | 43735 | 11589 | 55324 |
| S | 77460 | 92409 | 169869 |
| SES | 64721 | 42080 | 106801 |
| Ensemble | 185916 | 146078 | ?? |
Rappel du tableau :
| Fille | Garçon | Ensemble | |
|---|---|---|---|
| L | 43735 | 11589 | 55324 |
| S | 77460 | 92409 | 169869 |
| SES | 64721 | 42080 | 106801 |
| Ensemble | 185916 | 146078 | ?? |
Le total des effectifs lignes et colonnes est égal à l'effectif total.
Ici, la somme des ensembles est égale à 331994.
| Fille | Garçon | Ensemble | |
|---|---|---|---|
| L | 43735 | 11589 | 55324 |
| S | 77460 | 92409 | 169869 |
| SES | 64721 | 42080 | 106801 |
| Ensemble | 185916 | 146078 | 331994 |
Par rapport à l'échantillon :
| Fille | Garçon | Ensemble | |
|---|---|---|---|
| L | 43735 | 11589 | 55324 |
| S | 77460 | 92409 | 169869 |
| SES | 64721 | 42080 | 106801 |
| Ensemble | 185916 | 146078 | 331994 |
\[ \frac{n_{i,j}}{n} \]
\[ \frac{n_{i·}}{n} = \frac{1}{n} \sum_{j = 1}^{k} n_{i,j} \]
\[ \frac{n_{·j}}{n} = \frac{1}{n} \sum_{i = 1}^{l} n_{i,j} \]
Le tableau final :
| Fille | Garçon | Ensemble | |
|---|---|---|---|
| L | 0.13 | 0.03 | 0.17 |
| S | 0.23 | 0.28 | 0.51 |
| SES | 0.19 | 0.13 | 0.32 |
| Ensemble | 0.56 | 0.44 | 1.00 |
Que remarque-t-on :
\[ \sum_{i = 1}^{l} \sum_{j = 1}^{k} \frac{n_{i,j}}{n} = \frac{n}{n} = 1 \]
Exemple pour les effectifs lignes :
\[ \sum_{i = 1}^{l} \frac{1}{n} n_{i·} = \sum_{i = 1}^{l} \frac{1}{n} \sum_{j = 1}^{k} n_{i,j} = \sum_{i = 1}^{l} \sum_{j = 1}^{k} \frac{n_{i,j}}{n} = \frac{n}{n} = 1 \]
On voudrait répondre aux questions suivantes :
| Fille | Garçon | Ensemble | |
|---|---|---|---|
| L | 43735 | 11589 | 55324 |
| S | 77460 | 92409 | 169869 |
| SES | 64721 | 42080 | 106801 |
| Ensemble | 185916 | 146078 | 331994 |
| Fille | Garçon | Ensemble | |
|---|---|---|---|
| L | 43735 | 11589 | 55324 |
| S | 77460 | 92409 | 169869 |
| SES | 64721 | 42080 | 106801 |
| Ensemble | 185916 | 146078 | 331994 |
Il est souvent utile d'utiliser des pourcentages par rapport aux modalités des variables utilisées, et non par rapport à l'échantillon total.
Dans un tableau de contingence, il est possible de donner les résultats en pourcentages lignes (resp. en pourcentages colonnes). Par convention, on ajoute une colonne (resp. une ligne) pour y afficher le total de chaque ligne (resp. colonne), qui doit être égal à 100%.
Attention ! Lors de la lecture d'un tableau croisé, il ne faut pas confondre pourcentages en ligne et en colonne, au risque de commettre de grandes erreurs d'interprétation.
Pourcentages en ligne
| Fille | Garçon | Ensemble | |
|---|---|---|---|
| L | 0.79 | 0.21 | 1 |
| S | 0.46 | 0.54 | 1 |
| SES | 0.61 | 0.39 | 1 |
| Ensemble | 0.56 | 0.44 | 1 |
Pourcentages en colonne
| Fille | Garçon | Ensemble | |
|---|---|---|---|
| L | 0.24 | 0.08 | 0.17 |
| S | 0.42 | 0.63 | 0.51 |
| SES | 0.35 | 0.29 | 0.32 |
| Ensemble | 1.00 | 1.00 | 1.00 |
Dans le cas des pourcentages en ligne :
\[ \frac{\text{Effectif de la case}}{\text{Effectif ligne}} = \frac{n_{i,j}}{n_{i·}} \]
Dans le cas des pourcentages en colonne :
\[ \frac{\text{Effectif de la case}}{\text{Effectif colonne}} = \frac{n_{i,j}}{n_{·j}} \]
Vérification du total des pourcentages en ligne :
\[ \sum_{j = 1}^{k} \frac{n_{i,j}}{n_{i·}} = \frac{n_{i·}}{n_{i·}} = 1 \]
Prenons un collège (fictif) avec deux classes de troisième et leurs résultats au brevet en fonction du genre :
Les deux tableaux croisés indiquent que dans chaque classe, les garçons réussissent mieux que les filles.
Peut-on conclure que dans ce collège, les garçons réussissent mieux que les filles ?
Pour répondre à cette question, il suffit de recalculer les pourcentages de reçus au brevet à partir des effectifs de chaque classe :
Réussite des garçons (collège) : \( (8 + 6) / (20 + 8) = 0.5 \)
Réussite des filles (collège) : \( (1 + 17) / (5 + 25) = 0.6 \)
Ce phénomène est appelé « effet de structure » : alors que dans chaque classe, les garçons semblent mieux réussir, au niveau du collège, les filles réussissent mieux.
Lorsqu'une population est répartie en sous-populations, il peut arriver qu'une grandeur évolue dans un sens sur chaque sous-population et dans le sens contraire sur l'ensemble de la population. Ce paradoxe s'explique parce que les effectifs de certaines sous-populations augmentent alors que d'autres régressent : c'est l'effet de structure. (Définition de l'INSEE)
Pour éviter ces erreurs d'interprétation, on pourrait créer un nouveau tableau croisé (au niveau du collège) ou encore utiliser des moyennes pondérées.
Les tables de mobilité sociale se construisent comme un tableau croisé classique avec les CSP de deux générations (ici père/fils).
Les ensembles reflètent la structure professionnelle propre à chaque génération, et la diagonale montre l'inertie ou la reproduction sociale.
Si l'on prend les pourcentages en ligne, ce tableau s'appelle la « table de recrutement ».
Si l'on prend les pourcentages en colonne, ce tableau s'appelle la « table de destinée ».
À partir des données de l'enquête sur les conditions de vie de l'INSEE (mai 2003), nous voulons étudier les relations entre la fréquentation annuelle des cinémas et le niveau d'études.
Reconnaître les variables, leurs modalités, les marges et l'effectif total. S'entraîner à lire les différentes cases du tableau.
| 0-2 | 3-4 | 5-11 | 12+ | Ensemble | |
|---|---|---|---|---|---|
| Aucun | 2 | 1 | 0 | 2 | 5 |
| Primaire | 74 | 12 | 35 | 38 | 159 |
| 1er cycle | 114 | 21 | 52 | 56 | 243 |
| 2e cycle | 123 | 34 | 96 | 108 | 361 |
| Ens. technique ou prof. | 297 | 77 | 117 | 145 | 636 |
| Enseignement supérieur | 256 | 76 | 237 | 382 | 951 |
| Ensemble | 866 | 221 | 537 | 731 | 2355 |
Séances annuelles de cinéma en fonction du niveau d'études (hors nr)
De quel type de pourcentages s'agit-il ? Comment lire les différentes cases ? Dans la ligne “Ens. technique”, peut-on comparer 34% et 35% en termes d'effectifs ? Quelles hypothèses peut-on formuler ?
| 0-2 | 3-4 | 5-11 | 12+ | Ens. (%) | |
|---|---|---|---|---|---|
| Aucun | 0.00 | 0.00 | 0.00 | 0.00 | 0.00 |
| Primaire | 0.09 | 0.05 | 0.07 | 0.05 | 0.07 |
| 1er cycle | 0.13 | 0.10 | 0.10 | 0.08 | 0.10 |
| 2e cycle | 0.14 | 0.15 | 0.18 | 0.15 | 0.15 |
| Ens. technique ou prof. | 0.34 | 0.35 | 0.22 | 0.20 | 0.27 |
| Enseignement supérieur | 0.30 | 0.34 | 0.44 | 0.52 | 0.40 |
| Ens. (%) | 1.00 | 1.00 | 1.00 | 1.00 | 1.00 |
De quel type de pourcentages s'agit-il ? Comment lire les différentes cases ? Pourquoi avoir précisé les effectifs ? Certains recodages sont-ils souhaitables ? Quelles hypothèses peut-on formuler ?
| 0-2 | 3-4 | 5-11 | 12+ | Ens. (%) | Effectifs | |
|---|---|---|---|---|---|---|
| Aucun | 0.40 | 0.20 | 0.00 | 0.40 | 1 | 5 |
| Primaire | 0.47 | 0.08 | 0.22 | 0.24 | 1 | 159 |
| 1er cycle | 0.47 | 0.09 | 0.21 | 0.23 | 1 | 243 |
| 2e cycle | 0.34 | 0.09 | 0.27 | 0.30 | 1 | 361 |
| Ens. technique ou prof. | 0.47 | 0.12 | 0.18 | 0.23 | 1 | 636 |
| Enseignement supérieur | 0.27 | 0.08 | 0.25 | 0.40 | 1 | 951 |
| Ens. (%) | 0.37 | 0.09 | 0.23 | 0.31 | 1 | 2355 |
Combien y a-t-il de non-réponses (NR) aux deux questions posées ? Peut-on formuler de nouvelles hypothèses tenant compte des non-réponses ?
| 0-2 | 3-4 | 5-11 | 12+ | NR | Ens. (%) | Effectifs | |
|---|---|---|---|---|---|---|---|
| Aucun | 0.02 | 0.01 | 0.00 | 0.02 | 0.94 | 1 | 84 |
| Primaire | 0.06 | 0.01 | 0.03 | 0.03 | 0.88 | 1 | 1292 |
| 1er cycle | 0.19 | 0.03 | 0.09 | 0.09 | 0.60 | 1 | 603 |
| 2e cycle | 0.20 | 0.06 | 0.16 | 0.18 | 0.41 | 1 | 608 |
| Ens. technique ou prof. | 0.22 | 0.06 | 0.09 | 0.11 | 0.53 | 1 | 1339 |
| Enseignement supérieur | 0.21 | 0.06 | 0.19 | 0.31 | 0.23 | 1 | 1242 |
| NR | 0.18 | 0.06 | 0.21 | 0.45 | 0.10 | 1 | 458 |
| Ens. (%) | 0.17 | 0.04 | 0.11 | 0.17 | 0.51 | 1 | 5626 |
Même s'il est moins précis, un histogramme peut donner une idée rapide du “message général” d'un tableau de contingence.
Au lieu d'effectuer un recodage de la variable quantitative “Fréquentation annuelle” en une variable qualitative à 3 modalités, on pourrait également présenter le tableau suivant et comparer les moyennes :
| Niveau d'étude | Moyenne | Écart-type | Effectif |
|---|---|---|---|
| Aucun | 8.5 | 10.0 | 5.0 |
| Primaire | 9.1 | 14.3 | 159.0 |
| 1er cycle | 8.2 | 13.8 | 243.0 |
| 2e cycle | 11.0 | 15.8 | 361.0 |
| Ens. technique ou prof. | 7.9 | 11.3 | 636.0 |
| Enseignement supérieur | 13.6 | 20.9 | 951.0 |
| All | 10.8 | 17.0 | 2355.0 |
Ou premières notions de statistiques inférentielles
Reprenons notre étude de la fréquentation annuelle des cinémas.
La table de contingence nous a permis jusqu'ici :
Mais pour l'instant, rien n'est encore prouvé ! C'est pour aller plus loin que nous voulons tester nos hypothèses rigoureusement… ce qu'on verra dans la prochaine séance.