Parcours Causalité et Expérimentation

Été 2022

Présentation

Professeure associée à l’Université Western Ontario
Doctorat en science politique à l’Université de Pennsylvanie
Data Scientist au City Lab Berlin (2019-2022)
- Prototypes & analyse de données
- Programmation: R, Python, JavaScript

City Lab Berlin - Projets “Open Source”

Plan

Fondements de l’inférence causale
1. Logique causale
2. Processus générateur de données
3. P-valeurs
Devis expérimental
1. Bases théoriques
2. Test t et ANOVA
3. Expériences naturelles
4. Matching

Lectures

Fondements de l’inférence causale
- King, Keohane et Verba (1994), Designing Social Inquiry, Chapitre 3 (Causality and Causal Inference)
Expériences naturelles
- Dunning (2012), Natural Experiments in the Social Sciences, Chapitre 1 (Introduction).
Facultatif
- Imai (2017), Quantitative Social Science: An Introduction, Chapitre 1 (Introduction) et Chapitre 2 (Causality)

1. Fondements de l’inférence causale

1.1 Logique causale

Inférence

Définition: Conclusion obtenue à partir d’observations
L’inférence requiert nécessairement l’interprétation

Causalité

Définition: relation de cause à effet (X -> Y)
La cause précède temporellement l’effet, mais peut être modérée ou médiée

Inférence causale

Conclure à l’existence d’une relation causale à l’aide d’observations

1.1 Logique causale

Variable

Un nombre, une quantité ou une caractéristique qui varie (i.e. qui peut avoir une valeur différente sous différentes conditions ou à différents moments)

Variable dépendante (Y)

La variable dont on tente d’expliquer la variance à l’aide d’une ou de plusieurs variables explicatrices (i.e. variable(s) indépendante(s))

Variable indépendante (X)

La variable par laquelle on tente d’expliquer une variable dépendante

1.1 Logique causale

Recherche menée au département de science politique de l’UL

Auteur(e)	VI	VD
Bodet et al. (2013)	Parti au pouvoir à Ottawa	Dépenses gouvernementales
Campana (2014)	Manque de coordination politique	Incidents terroristes au Caucase du Nord
Duchesne et al. (2007)	Normes démocratiques	Intervention étrangère en cas de sécession
Dufresne et al. (2019)	Age et cohorte générationnelle	Appui à l’indépendance du Québec
Paquin et al. (2014)	Attaques du 11 septembre 2001	Normes de défense en Amérique du Nord

1.1 Logique causale

On utilise souvent la corrélation entre deux variables pour démontrer un effet
- Concrètement: à quel point deux variables évoluent ensemble (positivement ou négativement)
Exemple: temps d’étude et note obtenue à un examen (relation positive)

# Créer un vecteur (une variable) avec le nombre de minutes d'étude
min_etude <- c(90,120,60,125,100,60,95,80)

# Créer un vecteur (une variable) avec les notes obtenues à l'examen
notes <- c(80,95,75,99,82,60,92,80)

# Corrélation entre les deux variables
cor(min_etude,notes)

## [1] 0.9011517

1.1 Logique causale

# Visualiser la relation entre minutes d'étude et la note obtenue
plot(min_etude,notes,pch=16,col="steelblue",xlab="Minutes d'étude",ylab="Note obtenue")

1.1 Logique causale

plot(min_etude,notes,pch=16,col="steelblue",xlab="Minutes d'étude",ylab="Note obtenue")
abline(lm(notes ~ min_etude), col = "red", lwd = 2, lty=2) # visualiser la corrélation

1.1 Logique causale

Coefficient de corrélation (r)

1.1 Logique causale

Corrélation ≠ causalité

Corrélation ≠ causalité

1.1 Logique causale

Variable modératrice

Modère la force et la direction de la relation entre deux variables (important: ne doit par dépendre causalement de la VI)
- Exemple : Accident physique -> Age -> État de santé
- Exemple : Talent -> Effort -> Succès

1.1 Logique causale

Variable médiatrice

Explique le processus qui unit deux variables (important: doit être causée par la VI et doit être causalement antécédante à la VD)
- Exemple : Heures travaillés -> Fatigue musculaire -> Accident physique
- Exemple : Éducation -> Emploi bien rémunéré -> Haut revenu

1.1 Logique causale

Variable confusionnelle

Une troisième variable qui explique une apparente relation de causalité entre deux autres variables (i.e. n’explique pas le processus entre ces deux autres variables)
Vous entendrez parfois le terme “biais de variable omise” (mais notez qu’une variable omise peut aussi être modératrice ou médiatrice)

Exercice - Introduction à R

1.1 Logique causale

Population

Ensemble factuel ou théorique des observations pertinentes
- Données de vote: ensemble des électeurs canadiens
- Données biologiques: ensemble des êtres humains contemporains, vivants ou non
- Données de pile ou face: tous les piles ou faces théoriquement possibles
Paramètre = ce qu’on veut estimer dans cette population (moyenne, écart type (mesure de dispersion), coefficient de corrélation, …)

1.1 Logique causale

Échantillon

Sous-groupe de la population
- Données de vote: 1,000 électeurs à travers le pays
- Données biologiques: 50,000 Américains
- Données de pile ou face: 100,000 pile ou face
Enjeu de la représentativité des observations
- Ex.: sondage par téléphone ou par Internet
Estimateur = ce qu’on mesure dans cet échantillon (moyenne, écart type (mesure de dispersion), coefficient de corrélation, …) pour approximer le paramètre de la population

1.1 Logique causale

1.1 Logique causale

1.1 Logique causale

1.1 Logique causale

Étapes de l’inférence causale:

Nous souhaitons estimer un paramètre (la moyenne de température corporelle de tous les gens ayant reçu un vaccin, 24 heures après la vaccination, n=85,000)
Nous utilisons un estimateur pour estimer ce paramètre (la moyenne de température corporelle des vaccinés au sein d’un échantillon, n=1,000 Québécois)
Nous connaissons les propriétés de cet estimateur (la distribution de température corporelle des gens vaccinés dans notre échantillon)
Nous utilisons les propriétés de cet estimateur pour tester une hypothèse sur la valeur réelle du paramètre dans la population ($H_{1}$ = le vaccin augmente la température corporelle dans les 24 heures suivant la vaccination)
Nous effectuons une inférence causale concernant ce paramètre, autrement dit, sur le phénomène (i.e. processus générateur de données) dans la population.

1.1 Logique causale

# vac_pop <- read.csv(".../vac_data.csv") # importer le jeu de données

dim(vac_pop) # dimensions du data frame

## [1] 8485000       2

colnames(vac_pop) # nom des variables

## [1] "temperature" "vaccin_24h"

table(vac_pop$vaccin_24h) # montrer combien ont reçu un vaccin dans la population

## 
##       0       1 
## 8400000   85000

1.1 Logique causale

hist(vac_pop$temperature, breaks=100, col="steelblue",
     main="Température corporelle des Québécois (3 janvier 2022)",
     xlab="Température corporelle", ylab="Nombre de personnes")

1.1 Logique causale

mean(vac_pop$temperature) # moyenne de température corporelle dans la population

## [1] 36.50994

library(dplyr) # pour utiliser "sample_n"

vac_echant <- sample_n(vac_pop,size=1000) # sélectioner 1000 observations aléatoirement

table(vac_echant$vaccin_24h) # montrer combien ont reçu un vaccin dans l'échantillon

## 
##   0   1 
## 983  17

1.1 Logique causale

hist(vac_echant$temperature, breaks=100, col="steelblue",
     main="Température corporelle dans l'échantillon (3 janvier 2022)",
     xlab="Température corporelle", ylab="Nombre de personnes")

1.1 Logique causale

vac_echant_ontRecuVac <- vac_echant[vac_echant$vaccin_24h==1,] # créer un subset
hist(vac_echant_ontRecuVac$temperature, breaks=5, col="steelblue",
     main="Température corporelle dans le sous-échantillon (3 janvier 2022)",
     xlab=" ", ylab="Nombre de personnes")

1.1 Logique causale

# t-test pour connaître la différence moyenne de température
# corporelle entre les récemment vaccinés et le reste de l'échantillon
t.test(vac_echant$temperature[vac_echant$vaccin_24h==0], # non-vaccinés (==0)
       vac_echant$temperature[vac_echant$vaccin_24h==1]) # vaccinés (==1)

## 
##  Welch Two Sample t-test
## 
## data:  vac_echant$temperature[vac_echant$vaccin_24h == 0] and vac_echant$temperature[vac_echant$vaccin_24h == 1]
## t = -12.166, df = 17.631, p-value = 5.223e-10
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -1.258571 -0.887426
## sample estimates:
## mean of x mean of y 
##  36.47908  37.55207

1.1 Logique causale

37.55207-36.47908 # différence moyenne de température corporelle

## [1] 1.07299

# Autrement dit: l'effet du vaccin sur la température corporelle

37.55207 # estimateur du paramètre dans la population (vaccinés)

## [1] 37.55207

36.47908 # estimateur du paramètre dans la population (non-vaccinés)

## [1] 36.47908

1.1 Logique causale

Inférence descriptive

Inférence descriptive ≠ description
- Ex.: étudier seulement le niveau possible de fluctuation de la température corporelle
Comprendre un phénomène non-observable à l’aide de données observables, sans logique causale (KKV, 1994)
- Ex.: Ce qu’on observe est-il dû à un phénomène systématique ou non-systématique?
- Ex.: Dans quelles conditions est-ce que X cause Y?
  - Souvent des analyses historiques (ex.: sanctions pendant la Guerre froide)

1.2 Processus générateur de données

Définition

Les chercheurs en science politique souhaitent en apprendre sur les phénomènes politiques: qui obtient quoi, comment et pourquoi
Ces processus sociaux que nous ne pouvons pas observer directement génèrent ce qu’on observe dans le monde réel = processus générateur de données
Objectif des chercheurs: observer le monde réel pour comprendre les processus sociaux qui lui sont sous-jacents
- Un sondage mené sur les étudiants du Parcours Causalité et Expérimentation révèle quelque chose sur les processus sociaux (i.e. des phonèmes de probabilité) dans la société entière
  - Ex.: genre -> temps de parole en classe
  - Ex.: revenu -> choix de vote

1.2 Processus générateur de données

Exemple 1

Bodet et al. (2014): “Come hell or high water: An investigation of the effects of a natural disaster on a local election”
- PGD: Catastrophe naturelle -> comportement électoral (vote, participation)
- Données: Données électorales et données d’innondation de la ville de Calgary

Exemple 2

Daoust et al. (2021): “How to Survey Citizens’ Compliance with COVID-19 Public Health Measures: Evidence from Three Survey Experiments”
- PGD: Type de questions -> honnêteté des réponses en cas de non-conformité avec les mesures gouvernementales
- Données: Données de sondage de Vox Pop Labs et de Léger Marketing

1.2 Processus générateur de données

Deux manières de penser au PGD:

En fonction d’un processus connu de génération de données, quelle distribution dois-je observer?
- Ex.: si ma pièce de monnaie n’est pas truquée, quel pourcentage de pile devrais-je observer à pile-ou-face?
- Ex.: si l’effet des catastrophes naturelles sur le taux de participation est nul, qu’est-ce que je devrais observer dans mes données?

1.2 Processus générateur de données

Deux manières de penser au PGD:

En fonction des données que j’observe, quel est le processus générateur de données?
- Ex.: compte tenu du nombre de pile que j’obtiens à pile-ou-face, est-ce que ma pièce est truquée?
- Ex.: en fonction du taux de participation que j’observe, quel est l’effet des catastrophes naturelles sur le taux de participation?

Question

Qu’est-ce qui est généralement le plus difficile, selon vous?

1.2 Processus générateur de données

La causalité en sciences sociales, le plus souvent:

En fonction des données que j’observe, quel est l’effet de X sur Y?
Plus complexe pour de nombreuses raisons, notamment en raison de problèmes de mesure (technique) et de problèmes d’identification (logique)
- Identification strategy: s’assurer de mesurer ce qu’on souhaite réellement mesurer (isoler l’impact d’une variable)
  - Ex.: Distinguer l’effet de l’éducation sur l’espérance de vie de l’effet du revenu sur l’espérance de vie
  - Ex.: Migration et développement économique en Italie (Dipoppa, 2020)
- Diverses stratégies présentées dans le reste du parcours, notamment demain…

1.2 Processus générateur de données

Assomptions sur le processus générateur de données

En fonction des données que j’observe, quel est l’effet de X sur Y?
- Quel type de données est-ce que j’observe?

1.2 Processus générateur de données

Types de distribution

En fonction des données que j’observe, quel est l’effet de X sur Y?
- Truc: des DGP déjà connus et classifiés (i.e. familles de distribution) - on ne part donc pas de rien, heureusement!
- Avertissement: on étudie souvent des effets conditionnels (i.e. joint distributions qui sont plus difficiles à représenter visuellement)

1.2 Processus générateur de données

Distribution Bernoulli

Jacob Bernoulli (1654-1705): un génie!
Deux valeurs possibles seulement: un pays est en guerre, ou pas… un parti politique est élu, ou pas… un électeur vote, ou pas…

1.2 Processus générateur de données

Distribution binomiale

Fréquence du nombre de succès d’observations Bernoulli: l’ensemble des gens ayant voté à Québec (une série de 0s et de 1s…)
Si chaque observation Bernouilli est indépendante et identiquement distribuée -> converge vers la loi normale (théorème central limite)

“Piles” obtenus en lançant 10 fois une pièce non-truquée

1.2 Processus générateur de données

Distribution Poisson

Jusqu’à présent, on a vu:
- Distribution qui produit l’un de deux résultats
- Distribution qui produit l’un de deux résultats plusieurs fois de suite
En sciences sociales, on veut souvent compter des événements:
- Le nombre de fois qu’un président américain insulte des gens sur Twitter
- Le nombre de guerres se produisant sur Terre
- Le nombre de fois que les pompiers sont appelés à Québec
On pourrait dire que chaque jour est une distribution binomiale ou l’événement se produit ou pas… mais parfois les événements se produisent plusieurs fois par jour!
On pourrait plus dire que chaque microseconde est une observation Bernoulli…

1.2 Processus générateur de données

Distribution Poisson

Siméon Denis Poisson (1781 - 1840): un mathématicien français ayant aussi travaillé sur l’électricité et le magnétisme
Le nombre d’événements se produisant: nombre de buts comptés par le CH pendant un match… nombre de fois que quelqu’un publie sur les réseaux sociaux par semaine
Lambda (λ) = fréquence de x occurences pendant une période délimitée

1.2 Processus générateur de données

1.2 Processus générateur de données

1.2 Processus générateur de données

1.2 Processus générateur de données

Distribution normale

La distribution binomiale et la distribution Poisson peuvent être approximées par la distribution normale (la plus célèbre des distributions)
Moyenne = médiane = mode
Mais qu’est-ce qui peut bien être distribué de manière normale?
- Énormément de choses!
  - Taille des pieds
  - Circonférence des oranges
  - La moyenne de piles obtenus à 10 pile ou face, pour 10,000 personnes

1.2 Processus générateur de données

Distribution normale

1.2 Processus générateur de données

Théorème central limite

Théorème central limite = la moyenne d’une variable aléatoire est normalement distribuée
- Plus le nombre d’observations (unités = moyennes) augmente, plus la distribution devient normale
- Ex.: Chaque étudiant lance un dé 3 fois. La distribution de votre score moyen à chacun(e) est normale.
- Alexis a lancé 6,1,3 = $3.\overline{3}$, qui compte comme une seule observation.

Distribution normale

1.2 Processus générateur de données

Simulation de données (≠ échantillon)

On connaît la distribution de données pour l’entièreté de la population (souvent théorique, mais pas toujours)
- La taille de tous les Québécois adultes
Utiliser les paramètres de la population (ex.: moyenne, déviation standard)
- Ex.: moyenne 168 cm, déviation standard 6 cm
Simuler des observations provenant de cette distribution originale
- Ex.: pour 1,000 observations simulées, moyenne 168.0968 cm, déviation standard 5.95017 cm (= légèrement différent dû au caractère aléatoire du processus)
  - Loi des grands nombres: plus le nombre d’observations augmente, plus l’estimateur se rapproche du paramètre

1.2 Processus générateur de données

Simulation de données (≠ échantillon)

sim_data <- rnorm(1000,168,6) # générer 1000 observations provenant d'une distribution
# normale avec paramètres 168 comme moyenne et 6 comme d.s.

sim_data[1:5] # cinq premières observations

## [1] 164.6371 166.6189 177.3522 168.4231 168.7757

mean(sim_data) # moyenne de sim_data

## [1] 168.0968

sd(sim_data) # déviation standard de sim_data

## [1] 5.95017

1.2 Processus générateur de données

Exemple: LaCour et Green (Science, 2014, rétracté)

1.2 Processus générateur de données

Objectif: Déterminer l’effet du porte-à-porte sur l’appui au mariage gai aux États-Unis
Méthode:
- 22 bénévoles homosexuels et 19 bénévoles hétérosexuels
- Assignés de manière aléatoire pour cogner à la porte de 972 individus
- Deux scripts: pro-mariage gai (mention de l’orientation sexuelle) et pro-recyclage
- En moyenne 22 minutes de discussion
Résultats:
- Large effet initial du porte-à-porte sur appui au mariage gai
- Effet persistant seulement lorsque le/la bénévole est homosexuel(le) (3 semaines, 6 semaines, 9 mois)
- Effet chez les gens vivant avec les personnes qui ont répondu à la porte (ex.: partenaire, enfants, etc.)

1.2 Processus générateur de données

Exemple: LaCour et Green (Science, 2014, rétracté)

1.2 Processus générateur de données

Exemple: LaCour et Green (Science, 2014, rétracté)

1.2 Processus générateur de données

Exemple: LaCour et Green (Science, 2014, rétracté)

Exercice - Bootstrapping

1.3 P-valeurs

Qu’est-ce qu’une p-valeur?

La p-valeur représente la probabilité d’obtenir des résultats similaires aux vôtres (ou plus extrêmes) si l’hypothèse nulle est vraie.
Ces concepts sont au coeur de la méthode scientifique:
- Hypothèse nulle ($H_{0}$): égalité entre les paramètres statistiques de deux échantillons
- Hypothèse alternative ($H_{1}$): différence significative entre les paramètres statistiques de deux échantillons

1.3 P-valeurs

Qu’est-ce qu’une p-valeur?

La p-valeur représente la probabilité d’obtenir des résultats similaires aux vôtres (ou plus extrêmes) si l’hypothèse nulle est vraie.

1.3 P-valeurs

Qu’est-ce qu’une p-valeur?

La p-valeur représente la probabilité d’obtenir des résultats similaires aux vôtres (ou plus extrêmes) par seulement l’effet de la chance.
Exemple 1:
- Quelle est la probilité de tirer un “pile” à pile ou face? 0.5
- Si je tire en moyenne 35 fois pile sur 60, est-ce dû à la chance?
- … et si je tire en moyenne 5 fois pile sur 60?
- … et si je tire en moyenne 55 fois pile sur 60?

1.3 P-valeurs

Qu’est-ce qu’une p-valeur?

La p-valeur représente la probabilité d’obtenir des résultats similaires aux vôtres (ou plus extrêmes) par seulement l’effet de la chance.
Exemple 2:
- Admettons que les chances d’avoir le coronavirus dans la population sont de 100 sur 100,000.
- Si 10 personnes sur 100,000 ont le coronavirus dans un sous-groupe donné ayant reçu un vaccin, est-ce dû à la chance?
- … et 1000 personnes sur 100,000?

1.3 P-valeurs

Seuils auxquels on rejette l’hypothèse nulle (p < ?)

0.1 ou 10% (acceptable)
0.05 ou 5% (standard)
0.01 ou 1%
0.001 ou 0.1%
L’on considère que les résultats observés ne sont pas dûs à la chance puisqu’ils ne se produiraient que 10%, 5%, 1% 0.1% des fois dans la distribution typique des résultats
Important: cela dépend du processus générateur de données (!)

1.3 P-valeurs (conséquences néfastes)

Stargazing : p < 0.05 = mesure de succès

1.3 P-valeurs (conséquences néfastes)

P-hacking : p < 0.05 à tout prix

1.3 P-valeurs (One Tail Test)

On veut seulement savoir si un médicament réduit le risque d’attraper le coronavirus, sans s’intéresser à savoir s’il l’augmente (p < 0.05).

1.3 P-valeurs (Two Tails Test)

On veut savoir si un médicament réduit ou augmente le risque d’attraper le coronavirus (p < 0.05).

1.3 P-valeurs

Exemples

Effet d’une campagne publicitaire pour encourager les gens à voter:
- Campagne efficace si la différence de participation entre les gens n’ayant pas vu la publicité et les gens exposés à la publicité est statistiqument significative (p < 0.05).
Effet du genre sur le soutien au Parti Libéral du Québec:
- Si les femmes votent moins pour le parti PLQ que les hommes de manière statistiqument significative (p < 0.05), l’on peut conclure à l’existence d’un effet de genre sur le vote.
Est-ce que la distribution des données démontre une différence assez importante et systématique pour être statistiquement significative?

Cartes Zener

Exercice - P-valeurs

Exercice - Régression linéaire

Récapitulatif

Jusqu’à présent

On souhaite comprendre un processus générateur de données (phénomène de probabilité) lié à une relation causale
- Ex.: Effet du sexe attribué à la naissance (variable indépendante) sur le revenu (variable dépendante)
On utilise un estimateur (la moyenne de revenu pour les femmes et pour les hommes calculée dans un échantillon)…
… pour estimer le paramètre de population (la réelle moyenne de revenu pour les femmes et pour les hommes pour l’ensemble des Canadiens)
On utilise la distribution de la variable dépendante (le revenu pour les hommes et les femmes) dans notre échantillon afin de tester…
… l’hypothèse selon laquelle le fait d’être une femme a un effet négatif sur le revenu

Jusqu’à présent

On mesure la p-valeur de la relation observée entre le sexe et le revenu
- Autrement dit, quelle était la probabilité d’observer une telle relation (ou plus extrême) entre le sexe et le revenu seulement par un effet de chance?
- Le revenu moyen entre les femmes et les hommes sera nécessairement différent dans chaque échantillon (ne serait-ce que par 1$). Mais quand une différence systématique existe, la p-valeur diminue: il s’agit d’un effet significatif. Le standard qui témoigne d’une relation statistiquement significative est 0.05.
Note: On sait que la relation entre la VI sur VD peut être modérée, médiée ou carrément complètement expliquée par une tierce variable
- Ici, on peut imaginer différentes variables médiatrices qui expliquent le lien entre le sexe et le revenu (ex.: socialisation à certains types d’emploi, maternité, …)
- Complexe de trouver des variables modératrices non-liées à la variable indépendante quand on étudie le sexe… (la variable modératrice ne devant pas dépendre causalement de la VI)

Jusqu’à présent

On peut donc faire une inférence causale basée sur les observations de notre échantillon et proposer que de manière générale, le fait d’être une femme a un effet négatif statistiquement significatif sur le revenu (pas seulement dans notre échantillon)
En plus de penser aux variables tierces (variable médiatrices, modératrices, confusionnelles) qui peuvent jouer un rôle, on s’intéresse aux enjeux d’identification
- Que mesure-t-on réellement quand on utilise le sexe comme variable indépendante?
- Mesure-t-on l’effet biologique d’être une femme ou plutôt l’effet des expériences de vie associées au fait d’être une femme?
- La même réflexion se pose quand on étudie d’autres sous-groupes de la société (ex.: groupes ethniques, groupes d’âge car effets générationnels, etc.)
En somme, pas d’inférence causale sans interprétation, à toutes les étapes du processus

2. Le devis expérimental

2.1 Bases théoriques

Qu’est-ce qu’une expérience?

Assignation aléatoire de variations de la variable indépendante afin d’observer l’effet sur une variable dépendante
On attribue aléatoirement un traitement (VI)
Le groupe non-traîté est le groupe contrôle
Ces deux groupes étant similaires en raison du caractère aléatoire de l’assignation, on teste l’effet d’un traitement sur la VD “toutes choses étant égales par ailleurs” (ceteris paribus)
- Le traitement ne fois pas être corrélé à d’autres variables (ex.: âge, sexe, …)

Pas ce genre d’expérience…

Eratosthène (mesure de la circonférence de la Terre)

Ce genre d’expérience

Expérience pharmaceutique (traitement vs. placebo)

2.1 Bases théoriques

Expériences de laboratoire
- Les participants se présentent au laboratoire, souvent en échange d’une rétribution (mais pas toujours)
- Ex.: Mesure des effets physiologiques (ex.: sudation, dilatation des pupilles, …) suite au visionnement d’un vidéo de campagne électorale
Population-based survey experiment
- Exposition à un sondage (vignette/questions/format sont variables)
- Les participants représentent la diversité de la population, souvent à l’extérieur d’un laboratoire (voir Mutz, 2011)
- Ex.: Exit poll aux élections provinciales avec un sondage français et un sondage bilingue (Brie et Ouellet. 2020)

2.1 Bases théoriques

Expériences de terrain
- Expérience menée sur le terrain pour observer les effets sur un sous-groupe de la population
- Ex.: Distribuer des droits territoriaux en Mongolie via une loterie pour estimer l’effet d’obtenir un terrain sur la confiance
- Teele (2014): Essays on the Uses and Abuses of Experimentation in the Social Sciences

2.1 Bases théoriques

Avantages
- Standard empirique causal par excellence
- Mécanisme causal clarifié
  - X -> Y (rappelez-vous de l’exemple des cigognes et des bébés)
Désavantages
- Coûte beaucoup d’argent
- Souvent hit or miss (pré-tests importants)
  - Pré-enregistrements comme solution potentielle
- Potentiellement attrition ou non-conformité
- Enjeux éthiques très importants
  - Expériences de terrain souvent conduites dans des pays défavorisés, avec peu de retombées pour les populations locales

Exemple: Bonica, Rodden et Dropp (non-publié)

Exemple: Bonica, Rodden et Dropp (non-publié)

Objectif: Déterminer l’effet d’informer les électeurs sur le positionnement idéologique des juges sur le taux de participation
Méthode:
- 100,000 flyers informationnels envoyés à des électeurs au Montana pendant une élection incluant une question sur les juges de la Cour Suprême du Montana
- Envoyés de manière aléatoire à certains électeurs (groupe traitement) mais pas à d’autres (groupe contrôle)
- Le flyer comparait les candidats à l’élection à des politiciens comme Barack Obama et Mitt Romney (score basé sur leurs donateurs respectifs)

Exemple: Bonica, Rodden et Dropp (non-publié)

Exemple: Bonica, Rodden et Dropp (non-publié)

Résultats:
- Non publiés
Conséquences:
- Outrage des autorités locales (tentative d’influence sur le vote)
- “State Seal” = utilisé à tort comme appui implicite
- Effet potentiellement décisif sur les résultats de l’élection
  - Envoyés à près de 15% des électeurs totaux

Exemple: Bonica, Rodden et Dropp (non-publié)

Exemple: Bonica, Rodden et Dropp (non-publié)

2.1 Bases théoriques

Validité interne

L’expérience mesure de manière crédible la relation de cause à effet entre deux variables
- Est-ce que l’effet observé est dû au traitement?
- Certains outils utilisés sciences sociales:
  - Vérificateurs d’attention (le participant lit-il les questions adéquatement?)
  - Vérificateurs de traitement (le participant a-t-il “compris” le traitement?)

Validité externe

L’expérience peut être généralisée au reste de la population d’intérêt
- Mon échantillon est-il représentatif de la population pour laquelle je souhaite faire une inférence causale?

2.1 Bases théoriques

Contrôle du caractère aléatoire du traitement

Démontrer la distribution des caractéristiques socio-économiques
- Plus le nombre de sujets augmente, plus le caractère aléatoire du traitement est probable
Si imbalance dans l’attribution du traitement (ex.: plus de femmes que d’hommes ont reçu le traitement), on peut contrôler pour les variables dans le modèle statistique
- Effet des variables observables (genre, âge, etc.) vs non-observables (certains traits de personnalité, etc.)
  - Un design expérimental contrôle théoriquement pour les variables observables ET non-observables si le nombre de participants est assez élevé

Exemple (Brie et Ouellet, 2020)

Objectif: Déterminer l’effet de l’exposition à l’anglais sur l’appui à l’indépendance du Québec dans la population
Méthode:
- 98 répondants sélectionnés aléatoirement à la sortie des urnes lors des élections provinciales de 2018
- Deux sondages: bilingue (anglais-français) et unilingue francophone
Résultats:
- Effet d’interaction entre l’exposition à l’anglais au quotidien et le traitement expérimental
- Les gens qui entendent souvent l’anglais parlé au quotidien soutiennent davantage l’indépendance du Québec lorsqu’exposés au questionnaire bilingue

Exemple (Brie et Ouellet, 2020)

Traitement

Exemple (Brie et Ouellet, 2020)

Contrôle

Exemple (Brie et Ouellet, 2020)

Validité externe

Exemple (Brie et Ouellet, 2020)

Validité interne

Exemple (Brie et Ouellet, 2020)

Validité interne

Exemple (Brie et Ouellet, 2020)

Résultats

2.2 Test t et ANOVA

Comment tester les effets expérimentaux?

Effet de gagner à la loterie sur le bonheur (1-10)

	Pas gagné	Gagné
Score de bonheur moyen	5.3	5.6

Effet d’un vaccin donné aléatoirement sur la température corporelle

	Vaccin A	Vaccin B	Vaccin C
Température corporelle moyenne	36.3	36.6	37.1

2.2 Test t et ANOVA

Comment tester les effets expérimentaux?

Il est nécessaire de connaître la distribution des observations pour déterminer le caractère statistiquement significatif des résultats
Tel que vu précédemment: certains résultats peuvent être dûs à la chance (p-valeur)
Deux méthodes:
- Test t: si deux conditions expérimentales
- ANOVA: si plus de deux conditions expériementales

2.2 Test t

William Sealy Gosset (1876 – 1937)

Employé de la brasserie Guinness
- Intéressé par l’emploi d’orge dans le production de bière
Publie ses résultats sous le nom de plume “Student”
- Loi de Student (loi de probabilité)
- Test de Student, ou test t

2.2 Test t

La statistique du test t suit une loi de Student (approximativement une loi normale) lorsque l’hypothèse nulle est vraie

2.2 Test t

# Si le vaccin est attribué de manière aléatoire...
# t-test pour connaître la différence moyenne de température
# corporelle entre les récemment vaccinés et le reste de l'échantillon
t.test(vac_echant$temperature[vac_echant$vaccin_24h==0], # non-vaccinés (==0)
       vac_echant$temperature[vac_echant$vaccin_24h==1]) # vaccinés (==1)

## 
##  Welch Two Sample t-test
## 
## data:  vac_echant$temperature[vac_echant$vaccin_24h == 0] and vac_echant$temperature[vac_echant$vaccin_24h == 1]
## t = -12.166, df = 17.631, p-value = 5.223e-10
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -1.258571 -0.887426
## sample estimates:
## mean of x mean of y 
##  36.47908  37.55207

2.2 Test t

2.2 ANOVA

Analyse de la variance (ANalysis Of VAriance)

Test de Fisher
Existe-t-il une différence entre les différents groupes traitement d’une expérience? (variables catégoriques)
Exemple:
- On divise 11 étudiants aléatoirement en trois groupes
  - Le groupe A prend ses notes de cours à l’ordinateur
  - Le groupe B prend ses notes de cours à la main
  - Le groupe C ne prend aucune note de cours
- Quel est l’effet du groupe assigné sur les scores à l’examen?

2.2 ANOVA

# Créer notre data frame
experience <- data.frame(note = c(10, 4, 5, 3, 3, 7, 2, 6, 2, 8, 5),
                 groupe = factor(c("c", "a", "b", "a",
                                   "b", "b", "a", "b",
                                   "a", "c", "c"))) 

fit <- aov(note ~ groupe, experience) # Analyse de variance

summary(fit) # Montrer les résultats

##             Df Sum Sq Mean Sq F value Pr(>F)  
## groupe       2  41.83  20.917   6.924  0.018 *
## Residuals    8  24.17   3.021                 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

# Il y a une différence significative (p < 0.05), mais on ne sait pas laquelle

2.2 ANOVA

TukeyHSD(fit)

##   Tukey multiple comparisons of means
##     95% family-wise confidence level
## 
## Fit: aov(formula = note ~ groupe, data = experience)
## 
## $groupe
##         diff       lwr      upr     p adj
## b-a 2.500000 -1.011771 6.011771 0.1660413
## c-a 4.916667  1.123521 8.709813 0.0147588
## c-b 2.416667 -1.376479 6.209813 0.2236276

# Il y a une différence significative (p < 0.05) entre le groupe A et le groupe C

2.2 ANOVA

One way vs. two-way ANOVA

Exercice - Expériences

2.3 Expériences naturelles

Définition

La meilleure alternative aux expériences classiques
- Pour des raisons éthiques, monétaires, techniques
- Le design réduit la dépendance au modèle
Un traiment est assigné “naturellement” de manière aléatoire (i.e. sans intervention du chercheur), ce qui permet de répliquer la structure d’une expérience classique
Extrêmement rare dans la réalité
- Bénéfice de zoomer à petite échelle
  - Ex.: Être né le 30 septembre ou le 1 octobre (année scolaire)
  - Ex.: Avoir 49% ou 50% à l’examen (passer ou couler)
- Étirement conceptuel fréquent
Plusieurs expériences naturelles sont des “RDD” (régressions sur la discontinuité), dont vous parlerez avec Prof. Turgeon

Éclosion de choléra à Londres

Contexte

Épidémie de choléra à Londres dans les années 1830-1850
Dr. John Snow (1813-1858): physicien résidant à Londres
Théorie dominante: choléra transmis par l’air (miasmes)
Snow suggère plutôt que l’eau de certaines compagnies approvisionnant en eau les maison de Londres est contaminée

Éclosion de choléra à Londres

Éclosion de choléra à Londres

La compagnie associée à une rue en particulier est aléatoire

Éclosion de choléra à Londres

Éclosion de choléra à Londres

Autres exemples

Une famille avec deux enfants filles versus un enfant garçon et un enfant fille
- Effet sur la probabilité d’avoir un autre enfant (Angrist and Evans, 1998)
Gagner à la loterie versus acheter un billet perdant
- Effet sur la satisfaction
Être sélectionnné pour aller à la guerre au Vietnam (conscription) versus ne pas être sélectionné
- Effet sur le revenu (Angrist, 1990)

Ex.: Effet de l’influenza sur les handicaps physiques

Ex.: Effet de l’influenza sur les handicaps physiques

Contre-exemples

Beaucoup de “traitements” ne sont pas aussi aléatoires qu’on le croit, c’est le problème des variables omises
- Prénom
- Plusieurs caractéristiques physiques comme la taille
- La plupart des frontières physiques existantes
- Le lieu de résidence (large échelle, pas à petite échelle)
- Type d’emploi occupé
- Type de programme universitaire suivi
- Parcours sélectionné à l’EIOM
- …
- Quelle est la variable omise selon vous?

Contre-exemples

Contre-exemples

Contre-exemples

2.4 Matching

Définition

Une des nombreuses alternatives aux expériences classiques
- Pour des raisons éthiques, monétaires, techniques (encore!)
- Le design réduit la dépendance au modèle
Le matching est une manière de réduire le nombre d’observations de manière systématique pour recréer les conditions d’une expérience classique
- On définit notre traitement (ex.: déménager) et on assigne à chaque personne traitée une personne contrôle identique (ex.: même âge, même genre, même revenu…) qui n’a pas déménagée
- On contrôle souvent tout de même pour les variables socio-économiques pertinentes dans le modèle statistique (sauf si le match est parfait)

Concept

Exemple (source: Gary King)

Ex.: mauvaise randomisation expérimentale

	Traitement	Contrôle
10 ans	1	0
10 ans	1	0
20 ans	1	0
20 ans	1	0
30 ans	0	1
30 ans	0	1
40 ans	0	1
40 ans	0	1

Ex.: matching (sur une seule variable)

	Traitement	Contrôle
10 ans	1	0
10 ans	0	1
20 ans	1	0
20 ans	0	1
30 ans	1	0
30 ans	0	1
40 ans	1	0
40 ans	0	1

Exemple (Brie, en révision)

Variable dépendante: confiance sociale

General Social Survey (2003, 2008) (n = 28,646)

Exemple (Brie, en révision)

Variable dépendante: confiance sociale (l’un des items)

Exemple (Brie, en révision)

Variable indépendante: né au Québec*statut de déménagement

Exemple (Brie, en révision)

Biais d’auto-sélection peut être une menace à l’inférence causale lors de l’utilisation d’un choix comme le déménagement comme variable indépendante
- Nous nous attendons à ce que les personnes qui ont déménagé aient des caractéristiques socioéconomiques uniques

Exemple (Brie, en révision)

Matching (n = 2,520) pour réduire le déséquilibre pour les variables indépendantes, réduisant ainsi la dépendance au modèle:
- Sélection de tous les répondants qui ont déménagé dans l’autre groupe linguistique
- Pour chacun de ces répondants, le répondant le plus similaire pour toutes les variables socio-économiquees a été inclus dans l’ensemble de données
  - C’est-à-dire que chaque individu traité se voit attribuer un individu contrôle
- Si aucune bonne correspondance n’est trouvée, le répondant est exclu du jeu de données
- 1,410 ont déménagé, 150 exclus
- 1,260 * 2 = 2,520 répondants “matchés”

Exemple (Brie, en révision)

Effet d’interaction entre lieu de naissance et statut de déménagement (n = 2,520)

Modèle de régression complet

Exemple (Brie, en révision)

Effet d’interaction entre lieu de naissance et statut de déménagement (n = 2,520)

Modèle de régression complet

Exemple (Brie, en révision)

Pouvez-vous penser à un problème avec ce design?

Exemple (Brie, en révision)

Pouvez-vous penser à un problème avec ce design?

Quel âge ont les répondants quand ils déménagent?
- Ils sont peut-être trop jeunes au moment du déménagement pour avoir un bagage culturel québécois
Est-ce l’effet de déménager ou l’effet de déménager au Québec?
- Les résidants du reste du Canada ont-ils le même effet en déménagant ailleurs au pays?