Méthodes quantitatives

Gabriel Alcaras
18 septembre 2017

Séance 2 - La statistique comme outil d'objectivation

  1. La statistique comme outil de rupture épistémologique
  2. Statistiques et production de données en sciences
  3. Concepts : causalité et corrélation
  4. Autour de B. Lahire

Rappels

Définitions : statistique, mesure, quantification ?

  • Statistique :
    • un outil de pouvoir, de gouvernement (État, entreprises, individus)
    • une discipline théorique et pratique au service de la science, adossée à la théorie des probabilités
  • Mesurer : dénombrer à partir de conventions préétablies, en pensant accéder à quelque chose « d'objectif »
  • Quantifier :
    • attirer l'attention sur la production et les effets de ces mesures
    • une démarche réflexive (pratique et réflexion critique sur la pratique)

La statistique comme outil de rupture épistémologique

Rompre avec les prénotions par la statistique

Prénotions (Durkheim, Les règles de la méthode sociologique) :

  • Utiles pour la vie en société, formées « par la pratique et pour elle »
  • Dangereuses pour la science, car risque d'une « analyse idéologique » au détriment d'une « science des réalités »

Utilité de la statistique : opposer au « bon sens » et à ses vérités indiscutées des faits (discutables ou non).

Exemple récent : Quality of evidence revealing subtle gender biases in science is in the eye of the beholder, 2015.

Statistique et évidence (1/2)

Les statistiques ne font-elles que montrer l'évidence ?

Paul Lazarsfeld, The American Soldier in Bourdieu, Chamboredon et Passeron, Le métier de sociologue :

  1. Les individus mieux instruits sont plus facilement en proie aux pathologies mentales
  2. Les ruraux ont un meilleur moral que les citadins pendant le service militaire
  3. Les soldats du Sud supportent mieux le climat chaud des îles pacifiques que ceux du Nord
  4. Les soldats blancs sont plus ambitieux que les soldats noirs

Statistique et évidence (2/2)

… Ces propositions sont toutes invalidées par son enquête.

Pour Lazarsfeld, le « bon sens » ou le sentiment d'évidence sont des rationalisations a posteriori, qui se seraient également produites s'il avait présenté les vrais résultats d'emblée.

Comme tous les comportements humains sont concevables, il est important de savoir ce qui se passe réellement.

La place de la statistique dans le raisonnement scientifique

Des sciences expérimentales aux sciences humaines

La production des données

Le traitement statistique est indissociable de la production des données. Chaque type de traitement ou d'hypothèse requiert certains types de collecte des données, et inversement. Il n'existe donc pas de données ou de traitements « par défaut », ou miraculeux.

Pour simplifier, deux paradigmes se détachent :

  • L'un lié à l'expérimentation, c'est-à-dire la reproduction de phénomènes dans des conditions artificielles et contrôlées (idéal du laboratoire)
  • L'autre lié à l'enquête, c'est-à-dire aux observations « directes » des phénomènes (idéal du monde « réel »)

Le premier est souvent considéré comme la référence de la méthode scientifique. Nous verrons ici que chacun a ses forces et ses faiblesses.

Le paradigme de l'expérience

  • C'est le standard en médecine et en pharmacologie, mais aussi en biologie, en psychologie, en neurosciences, etc.
  • Les chercheurs créent une situation artificielle, manipulable, dont le seul paramètre variant sera l'absence ou la présence du phénomène.
  • Idée directrice : réduction du bruit (causé par d'autres phénomènes) pour isoler le signal du phénomène.
  • Exemple type : ventilation aléatoire entre groupe témoin ou contrôle et groupe traitement (médicament)
  • Utilisation d'aveugles : simple (placebo), double, triple aveugle

Avantages et inconvénients de l'expérience aléatoire

Dans le cas d'une expérience aléatoire parfaitement réalisée :

Avantages Inconvénients
Simplicité du traitement statistique Complexité du dispositif expérimental
Isolation d'un effet « pur » L'effet est artificiellement mis en avant (pas d'effets d'interactions complexes, comme dans le monde réel)
Validité interne (le phénomène est recréé dans l'expérience) Généralisation à une population plus large parfois difficile
Puissance démonstrative Potentiels problèmes éthiques

Sans parler des expériences imparfaites.

Le paradigme de l'enquête

  • C'est le procédé de facto en sciences humaines et sociales, en épidémiologie, etc.
  • Les données d'enquête qu'on a valent mieux que les données expérimentales qu'on n'a pas.
  • Les chercheurs sélectionnent un échantillon qui sera une sorte de microcosme de la population étudiée, sur laquelle ils n'ont pas d'influence, pour « observer » le phénomène.
  • Idées directrices :
    • Faciliter la généralisation des conclusions à l'ensemble de la population (inférence)
    • Étudier le phénomène dans son environnement (effets d'interaction)
  • Attention ! Le terme « observer » ne se réfère pas ici à la seule observation directe, mais aussi au questionnaire, au travail sur archives, etc.

Avantages et inconvénients des enquêtes

Dans le cas d'un échantillon aléatoire parfaitement réalisé :

Avantages Inconvénients
Faisabilité de l'échantillonnage Techniques statistiques plus complexes
Étude d'un phénomène en interaction avec d'autres Trop de complexité pour distinguer le bruit du signal
Validité externe (les phénomènes observés sont généralisables à la population) Risque de ne pas pouvoir départager corrélation et causalité

Sans parler des échantillons biaisés… c'est-à-dire tous.

Faut-il choisir son camp ?

  • Faire une enquête plutôt qu'une expérience présente certains bénéfices d'analyse. Autrement dit, une enquête n'est pas nécessairement moins « scientifique » qu'une expérience aléatoire contrôlée.
  • Inversement, le paradigme expérimental n'est pas toujours interdit aux sciences humaines. Exemple du questionnaire expérimental de Guyon et Huillery. Un groupe de contrôle, et quatre groupes testés :
    • Nombre limité d’options en tête : on détaille des possibilités d’orientation
    • Conformité aux pairs : on informe sur le choix le plus fréquent des camarades
    • Peur des sanctions des pairs : on dit que le choix d’orientation va être révélé devant la classe
    • Poids des stéréotypes : question sur les origines sociales et l’estime de soi en premier

Corrélation, causalité

Le concept de causalité

Le dispositif expérimental cherche, en général, à isoler un phénomène causal.

La causalité se référe à la nécessité d'une loi (logique, physique, éventuellement sociale, économique, etc.).

Causalité
Représentation classique de la causalité

Définir cause et effet n'est pas dans les ambitions de ce cours. Notons simplement que les définitions sont multiples.

En particulier, une cause peut être déterministe (A cause toujours B) ou probabiliste (A augmente la probabilité de B).

Le concept de corrélation

En utilisant des données d'enquête, nous ne pouvons qu'observer des corrélations.

Une corrélation est une variation concomittante de deux phénomènes selon une relation statistique, le plus souvent linéaire.

Ce sont les méthodes statistiques qui peuvent éventuellement appuyer des explications causales.

Corrélation n'implique pas causalité (1/2)

Corrélation n'implique pas causalité (2/2)

Corrélation n'est pas causalité
Variable cachée ou exogène

Une corrélation peut être dûe :

  • à des phénomènes extérieurs à notre enquête (variable exogène)
  • à d'autres phénomènes présents dans notre échantillon (variable cachée)
  • à des variations liées au hasard, aux conditions de l'enquête
  • à une causalité entre les deux phénomènes

Absence de corrélation n'implique pas absence de causalité

Un principe moins intuitif :

  • Un effet causal ne se décrit pas toujours selon un modèle simple et linéaire.
  • Les données peuvent contenir un biais de sélection, et donc ne pas présenter suffisamment de variations pour observer une corrélation. Exemple : étudier le cancer du poumon uniquement chez des gros fumeurs.

Conclusion

XKCD
Xkcd 552

Objectivation, quantification et sciences sociales

À partir du texte de Bernard Lahire

Lahire Bernard, « Formes de la lecture etudiante et categories scolaires de l'entendement lectoral », Sociétés contemporaines 4/2002 (no 48) , p. 87-107. URL : www.cairn.info/revue-societes-contemporaines-2002-4-page-87.htm.

Vers la question des variables

Les concepts de corrélation et de causalité donnent des règles pour articuler une réflexion logique autour des liens entre phénomènes.

Or ces derniers ne sont jamais directement données, mais sont étudiés par l'intermédiaire de variables.

L'argumentation logique ne fait donc pas tout : il faut également comprendre les variables dont elle est composée.

Usages de la quantification

Quelles sont les usages de la quantification dans le texte de Bernard Lahire ?

Outil pour prouver une thèse sociologique :

La haute légitimité scolaire de la culture scientifique ne « protège » en rien des produits culturels les plus « populaires » dans un monde social encore largement dominé par les définitions littéraire et artistique de la culture.

Une réflexion sur la catégorie de « lecture » :

La situation des étudiants de formations scientifiques et techniques force à s’interroger sur les conditions de déclarabilité des pratiques de lecture et sur les catégories dominantes de l’entendement lectoral.

Variables utilisées

Quels sont les différentes variables utilisées par Lahire ? Que quantifient-elles ? Peut-on les regrouper ?

Variables utilisées

Quels sont les différentes variables utilisées par Lahire ? Que quantifient-elles ? Peut-on les regrouper ?

Variables Quantifie… Type
Type d'études Culture scientifique Variable établie
PCS des parents Milieu d'origine Variable établie
Nombre et genre de livres lus Pratiques de lecture Variable spécifique
Achat d'ouvrages Investissements financiers Variable spécifique
Emprunt en bibliothèque Habitude scolaire Variable spécifique

Variables établies, variables spécifiques

Variables établies : crées une institution (juridique comme l'état civil, statistique comme l'INSEE, etc.). Exemple : le cas emblématique des nomenclatures professionnelles, les PCS.

Variables spécifiques : plus ou moins originales, elles sont crées par le statisticien ou le chercheur pour élucider une problématique précise.

L'entendement lectoral

Selon Lahire, quelles sont les limites de ses variables spécifiques ?

  • Certaines lectures sont culturellement moins légitimes, et sont donc sous-déclarées
  • Différents styles de lectures prédisposent certains individus à moins se souvenir de leurs lectures
  • La catégorie « lecture » ne recouvre pas tout ce qui est lu, car elle est d'abord entendue comme « lecture légitime »

Diagramme Lahire

Des degrés d'objectivations

  • Ces variables spécifiques ne sont pas à jeter : elles permettent d'objectiver les manifestations de la culture légitime chez les étudiants. Les formes déjà objectivées de la lecture sont le point de départ de la quantification.
  • Certaines pratiques individuelles se trouvent objectivées alors que d'autres relèvent de l'impensé. De même, la conception des variables spécifiques est influencée par ces catégories de pensée.
  • Il n'y a donc pas de dualisme entre le « subjectif » (l'individu, qu'il soit enquêté ou chercheur) et l'« objectif » (le phénomène social, comme la culture légitime).
  • En revanche, on pourrait distinguer différents types d'objectivation (sociale, scientifique, historique) qui chacune se manifeste à différents degrés.