Diff in Diff

Sergio Béjar

División de Estudios Políticos, CIDE

Plan para la sesión

Cuasi-experimentos
Interacciones y regresión
Supuestos de Diff en Diff

Cuasi-experimentos

Los experimentos alesatorios son muy buenos, pero es impráctico hacerlos todo el tiempo
También es muy complicado hacer asignaciones aleatorias todo el tiempo
Entonces podemos dejar que alguien más (i.e. gobierno, natureza o algo más) lo hagan por nosotros

Un cuasi-experimento es una situación en donde nosotros no asignamos aleatoriamente a la gente a grupos de tratamiento/control.

Cuasi-experimentos

Mejores (en relación a experimentos controlados) en términos de validez externa, pero no tan buenos en términos de selección
La asignación al tratamiento es como “si fuera” aleatoria
En un experimento controlado nosotros “isolamos” a los confounders. En un cuasi-experimento elcontexto lo hace

Análisis de cuasi-experimentos

Existen varios métodos para hacer el análisis de los cuasi-experimentos:

Diff in Diff

DiD; DD; diff-in-diff

Regresión Discontinua

RD, RDD

Variables instrumentales

Análisis de cuasi-experimentos

\[ \widehat{\text{Happiness}} = \beta_0 + \beta_1 \text{Life expectancy} + \beta_2 \text{Latin America} + \varepsilon \]

# A tibble: 3 × 5
  term                       estimate std.error statistic  p.value
  <chr>                         <dbl>     <dbl>     <dbl>    <dbl>
1 (Intercept)                  -2.08    0.537       -3.87 1.61e- 4
2 life_expectancy               0.102   0.00745     13.7  1.95e-28
3 latin_americaLatin America    0.623   0.173        3.61 4.17e- 4

Análisis de cuasi-experientos

Esperanza de vida es una variable continua

Por cada incremento de un año en la esperanza de vida hay un incremento en felicidad de β₁

Latinoamérica es una variable dicotómica

Estar en Latinoamérica se asocia con un incremento β₂ en felicidad

Indicadores e interacciones

Pendiente de Mundo = 0.102

Indicadores e interacciones

Intercepto de Latinoamérica se movió hacia arriba 0.62; la línea tiene la misma pendiente de Mundo (0.102)

Indicadores e interacciones

\[ \begin{aligned} \widehat{\text{Happiness}} = &\beta_0 + \beta_1 \text{Life expectancy} + \beta_2 \text{Latin America} + \\ &\beta_3 (\text{Life expectancy} \times \text{Latin America}) + \varepsilon \end{aligned} \]

# A tibble: 4 × 5
  term                                     estimate std.error statistic  p.value
  <chr>                                       <dbl>     <dbl>     <dbl>    <dbl>
1 (Intercept)                               -2.02     0.545      -3.70  2.98e- 4
2 life_expectancy                            0.102    0.00757    13.4   1.65e-27
3 latin_americaLatin America                -1.52     3.36       -0.450 6.53e- 1
4 life_expectancy:latin_americaLatin Amer…   0.0288   0.0453      0.637 5.25e- 1

Indicadores e interacciones

La pendiente de Latinoamérica es 0.029 + 0.102 = 0.13; diferente de la pendiente de Mundo.

Interacciones

Qué pasaría si estimaramos el siguiente modelo?

# A tibble: 4 × 5
  term                                     estimate std.error statistic  p.value
  <chr>                                       <dbl>     <dbl>     <dbl>    <dbl>
1 (Intercept)                               -2.02     0.545      -3.70  2.98e- 4
2 life_expectancy                            0.102    0.00757    13.4   1.65e-27
3 latin_americaLatin America                -1.52     3.36       -0.450 6.53e- 1
4 life_expectancy:latin_americaLatin Amer…   0.0288   0.0453      0.637 5.25e- 1

Interacciones

# A tibble: 14 × 5
   term                                     estimate std.error statistic p.value
   <chr>                                       <dbl>     <dbl>     <dbl>   <dbl>
 1 (Intercept)                               -2.81      2.05     -1.37   1.73e-1
 2 life_expectancy                            0.112     0.0271    4.12   6.33e-5
 3 regionEurope & Central Asia               -2.78      2.76     -1.01   3.16e-1
 4 regionLatin America & Caribbean           -0.724     3.72     -0.195  8.46e-1
 5 regionMiddle East & North Africa          -3.13      3.14     -0.997  3.21e-1
 6 regionNorth America                        2.88     23.2       0.124  9.01e-1
 7 regionSouth Asia                           4.98      5.54      0.898  3.71e-1
 8 regionSub-Saharan Africa                   6.33      2.48      2.55   1.18e-2
 9 life_expectancy:regionEurope & Central …   0.0367    0.0361    1.02   3.11e-1
10 life_expectancy:regionLatin America & C…   0.0187    0.0497    0.376  7.07e-1
11 life_expectancy:regionMiddle East & Nor…   0.0410    0.0419    0.978  3.30e-1
12 life_expectancy:regionNorth America       -0.0221    0.288    -0.0767 9.39e-1
13 life_expectancy:regionSouth Asia          -0.0768    0.0790   -0.972  3.33e-1
14 life_expectancy:regionSub-Saharan Africa  -0.101     0.0354   -2.84   5.12e-3

Cambios en pendientes e interceptos para cada región

La idea general de las interacciones

Es el cambio adicional que sucede cuando combinamos dos variables explicativas

Efecto de esperanza de vida
Efecto de Latinoamérica

El efecto adicional de esperanza de vida en Latinoamérica

Incremento en el salario mínimo

Qué pasa si subimos el salario mínimo?

La teoría económica nos dice que habría menos trabajo

En Nueva Jersey, por ejemplo el salario mínimo se incrementó en 1992

$4.25 → $5.05

Antes vs. Después

Número promedio de trabajos en restaurantes de comida rápida

Nueva Jersey_{Antes del cambio} = 20.44

Nueva Jersey_{Después del cambio} = 21.03

∆ = 0.59

Es 0.590 el efecto causal?

Tratamiento vs. Control

Número promedio de trabajos por restaurante de comida rápida

Pennsylvania_{Antes del cambio} = 21.17

Pennsylvana_{Después del cambio} = 21.03

∆ = −0.14

Es este el efecto causal?

Problemas potenciales

Estamos comparando únicamente antes y después

Estamos viendo solo al grupo de tratamiento

Imposible saber si el cambio paso por el tratamiento o fue algo natural

Comparando tratamiento/control

Estamos mirando solo a valores post-tratamiento

Imposible saber si el cambio pasó por crecimiento natural

	Pre mean	Post mean	∆ (post − pre)
Control	A (never treated)	B (never treated)	B − A
Treatment	C (not yet treated)	D (treated)	D − C
∆ (treatment − control)	A − C	B − D	(B − A) − (D − C) or (B − D) − (A − C)

∆ (post − pre) = crecimiento entre-unidades

	Pre mean	Post mean	∆ (post − pre)
Control	A (never treated)	B (never treated)	B − A
Treatment	C (not yet treated)	D (treated)	D − C
∆ (treatment − control)	C − A	D − B	(B − A) − (D − C) or (B − D) − (A − C)

∆ (treatment − control) = crecimiento entre grupos

	Pre mean	Post mean	∆ (post − pre)
Control	A (never treated)	B (never treated)	B − A
Treatment	C (not yet treated)	D (treated)	D − C
∆ (treatment − control)	C − A	D − B	(D − C) − (B − A) or (D − B) − (C − A)

∆_{within units} − ∆_{within groups} =
Difference-in-differences =
causal effect!]

El efecto causal es

\[\begin{aligned} \text{DD}\ =\ &(\bar{x}_\text{treatment, post} - \bar{x}_\text{treatment, pre}) \\ &- (\bar{x}_\text{control, post} - \bar{x}_\text{control, pre}) \end{aligned}\]

	Pre mean	Post mean	∆ (post − pre)
Pennsylvania	23.33 A	21.17 B	-2.16 B − A
New Jersey	20.44 C	21.03 D	0.59 D − C
∆ (NJ − PA)	-2.89 C − A	-0.14 D − B	(0.59) − (−2.16) = 2.76

Hay una forma más fácil para hacer esta estimación?

Econtrar las medias de todos los grupos es tedioso
Y si hay otras variables que pueden influenciar el resultado?
Podemos hacer una regresión!

\[\begin{aligned} \color{#2ECC40}{Y_{it}}\ =\ &\alpha + \beta\ \color{#0074D9}{\text{Group}_i} + \gamma\ \color{#39CCCC}{\text{Time}_t} + \\ &\delta\ \color{#FF4136}{(\text{Group}_i \times \text{Time}_t)} + \varepsilon_{it} \end{aligned}\]

α = Mean of control, pre-treatment

β = Increase in outcome across groups

γ = Increase in outcome over time within units

δ = Difference in differences!

Supuestos de Diff-en-Diff

Tendencias paralelas

Tratamiento y control pueden tener valores diferentes al principio, pero asumimos que el grupo de tratamiento hubiese cambiado igual que el control en la ausencia del tratamiento

Supuestos

Tendencias paralelas

Checamos pretendiendo que el tratamiento pasó antes, si hay un efecto, entonces es muy posible que haya una tendencia subyacente

Más supuestos

Las unidades generalmente reciben el tratamiento en tiempos distintos, eso puede alterar los resultados