Diff in Diff

Sergio Béjar

División de Estudios Políticos, CIDE

Plan para la sesión

  • Cuasi-experimentos

  • Interacciones y regresión

  • Supuestos de Diff en Diff

Cuasi-experimentos

  • Los experimentos alesatorios son muy buenos, pero es impráctico hacerlos todo el tiempo

  • También es muy complicado hacer asignaciones aleatorias todo el tiempo

  • Entonces podemos dejar que alguien más (i.e. gobierno, natureza o algo más) lo hagan por nosotros


Un cuasi-experimento es una situación en donde nosotros no asignamos aleatoriamente a la gente a grupos de tratamiento/control.

Cuasi-experimentos

  • Mejores (en relación a experimentos controlados) en términos de validez externa, pero no tan buenos en términos de selección

  • La asignación al tratamiento es como “si fuera” aleatoria

  • En un experimento controlado nosotros “isolamos” a los confounders. En un cuasi-experimento elcontexto lo hace

Análisis de cuasi-experimentos

Existen varios métodos para hacer el análisis de los cuasi-experimentos:

  • Diff in Diff

DiD; DD; diff-in-diff

  • Regresión Discontinua

RD, RDD

  • Variables instrumentales

IV

Análisis de cuasi-experimentos

\[ \widehat{\text{Happiness}} = \beta_0 + \beta_1 \text{Life expectancy} + \beta_2 \text{Latin America} + \varepsilon \]

# A tibble: 3 × 5
  term                       estimate std.error statistic  p.value
  <chr>                         <dbl>     <dbl>     <dbl>    <dbl>
1 (Intercept)                  -2.08    0.537       -3.87 1.61e- 4
2 life_expectancy               0.102   0.00745     13.7  1.95e-28
3 latin_americaLatin America    0.623   0.173        3.61 4.17e- 4

Análisis de cuasi-experientos

  • Esperanza de vida es una variable continua

Por cada incremento de un año en la esperanza de vida hay un incremento en felicidad de β1

  • Latinoamérica es una variable dicotómica

Estar en Latinoamérica se asocia con un incremento β2 en felicidad

Indicadores e interacciones

Indicadores e interacciones

Pendiente de Mundo = 0.102

Indicadores e interacciones

Intercepto de Latinoamérica se movió hacia arriba 0.62; la línea tiene la misma pendiente de Mundo (0.102)

A lovely chart

Indicadores e interacciones

\[ \begin{aligned} \widehat{\text{Happiness}} = &\beta_0 + \beta_1 \text{Life expectancy} + \beta_2 \text{Latin America} + \\ &\beta_3 (\text{Life expectancy} \times \text{Latin America}) + \varepsilon \end{aligned} \]

# A tibble: 4 × 5
  term                                     estimate std.error statistic  p.value
  <chr>                                       <dbl>     <dbl>     <dbl>    <dbl>
1 (Intercept)                               -2.02     0.545      -3.70  2.98e- 4
2 life_expectancy                            0.102    0.00757    13.4   1.65e-27
3 latin_americaLatin America                -1.52     3.36       -0.450 6.53e- 1
4 life_expectancy:latin_americaLatin Amer…   0.0288   0.0453      0.637 5.25e- 1

Indicadores e interacciones

La pendiente de Latinoamérica es 0.029 + 0.102 = 0.13; diferente de la pendiente de Mundo.

Interacciones

Qué pasaría si estimaramos el siguiente modelo?

# A tibble: 4 × 5
  term                                     estimate std.error statistic  p.value
  <chr>                                       <dbl>     <dbl>     <dbl>    <dbl>
1 (Intercept)                               -2.02     0.545      -3.70  2.98e- 4
2 life_expectancy                            0.102    0.00757    13.4   1.65e-27
3 latin_americaLatin America                -1.52     3.36       -0.450 6.53e- 1
4 life_expectancy:latin_americaLatin Amer…   0.0288   0.0453      0.637 5.25e- 1

Interacciones

# A tibble: 14 × 5
   term                                     estimate std.error statistic p.value
   <chr>                                       <dbl>     <dbl>     <dbl>   <dbl>
 1 (Intercept)                               -2.81      2.05     -1.37   1.73e-1
 2 life_expectancy                            0.112     0.0271    4.12   6.33e-5
 3 regionEurope & Central Asia               -2.78      2.76     -1.01   3.16e-1
 4 regionLatin America & Caribbean           -0.724     3.72     -0.195  8.46e-1
 5 regionMiddle East & North Africa          -3.13      3.14     -0.997  3.21e-1
 6 regionNorth America                        2.88     23.2       0.124  9.01e-1
 7 regionSouth Asia                           4.98      5.54      0.898  3.71e-1
 8 regionSub-Saharan Africa                   6.33      2.48      2.55   1.18e-2
 9 life_expectancy:regionEurope & Central …   0.0367    0.0361    1.02   3.11e-1
10 life_expectancy:regionLatin America & C…   0.0187    0.0497    0.376  7.07e-1
11 life_expectancy:regionMiddle East & Nor…   0.0410    0.0419    0.978  3.30e-1
12 life_expectancy:regionNorth America       -0.0221    0.288    -0.0767 9.39e-1
13 life_expectancy:regionSouth Asia          -0.0768    0.0790   -0.972  3.33e-1
14 life_expectancy:regionSub-Saharan Africa  -0.101     0.0354   -2.84   5.12e-3

Cambios en pendientes e interceptos para cada región

La idea general de las interacciones

Es el cambio adicional que sucede cuando combinamos dos variables explicativas

  • Efecto de esperanza de vida

  • Efecto de Latinoamérica

El efecto adicional de esperanza de vida en Latinoamérica

Incremento en el salario mínimo

Qué pasa si subimos el salario mínimo?

  • La teoría económica nos dice que habría menos trabajo

En Nueva Jersey, por ejemplo el salario mínimo se incrementó en 1992

$4.25 → $5.05

Antes vs. Después

Número promedio de trabajos en restaurantes de comida rápida

Nueva JerseyAntes del cambio = 20.44

Nueva JerseyDespués del cambio = 21.03

∆ = 0.59

Es 0.590 el efecto causal?

Tratamiento vs. Control

Número promedio de trabajos por restaurante de comida rápida

PennsylvaniaAntes del cambio = 21.17

PennsylvanaDespués del cambio = 21.03

∆ = −0.14

Es este el efecto causal?

Problemas potenciales

  • Estamos comparando únicamente antes y después

Estamos viendo solo al grupo de tratamiento

Imposible saber si el cambio paso por el tratamiento o fue algo natural

  • Comparando tratamiento/control

Estamos mirando solo a valores post-tratamiento

Imposible saber si el cambio pasó por crecimiento natural

Pre mean Post mean (post − pre)
Control A
(never treated)
B
(never treated)
B − A
Treatment C
(not yet treated)
D
(treated)
D − C

(treatment − control)
A − C B − D (B − A) − (D − C) or
(B − D) − (A − C)

∆ (post − pre) = crecimiento entre-unidades

Pre mean Post mean (post − pre)
Control A
(never treated)
B
(never treated)
B − A
Treatment C
(not yet treated)
D
(treated)
D − C

(treatment − control)
C − A D − B (B − A) − (D − C) or
(B − D) − (A − C)

∆ (treatment − control) = crecimiento entre grupos

Pre mean Post mean (post − pre)
Control A
(never treated)
B
(never treated)
B − A
Treatment C
(not yet treated)
D
(treated)
D − C

(treatment − control)
C − A D − B (D − C) − (B − A) or
(D − B) − (C − A)

within units − ∆within groups =
Difference-in-differences =
causal effect!]

El efecto causal es

\[\begin{aligned} \text{DD}\ =\ &(\bar{x}_\text{treatment, post} - \bar{x}_\text{treatment, pre}) \\ &- (\bar{x}_\text{control, post} - \bar{x}_\text{control, pre}) \end{aligned}\]

Pre mean Post mean (post − pre)
Pennsylvania 23.33
A
21.17
B
-2.16
B − A
New Jersey 20.44
C
21.03
D
0.59
D − C

(NJ − PA)
-2.89
C − A
-0.14
D − B
(0.59) − (−2.16) =
2.76

Hay una forma más fácil para hacer esta estimación?

  • Econtrar las medias de todos los grupos es tedioso

  • Y si hay otras variables que pueden influenciar el resultado?

  • Podemos hacer una regresión!

\[\begin{aligned} \color{#2ECC40}{Y_{it}}\ =\ &\alpha + \beta\ \color{#0074D9}{\text{Group}_i} + \gamma\ \color{#39CCCC}{\text{Time}_t} + \\ &\delta\ \color{#FF4136}{(\text{Group}_i \times \text{Time}_t)} + \varepsilon_{it} \end{aligned}\]

α = Mean of control, pre-treatment

β = Increase in outcome across groups

γ = Increase in outcome over time within units

δ = Difference in differences!

Supuestos de Diff-en-Diff

  • Tendencias paralelas

Tratamiento y control pueden tener valores diferentes al principio, pero asumimos que el grupo de tratamiento hubiese cambiado igual que el control en la ausencia del tratamiento

Supuestos

  • Tendencias paralelas

Checamos pretendiendo que el tratamiento pasó antes, si hay un efecto, entonces es muy posible que haya una tendencia subyacente

Más supuestos

Las unidades generalmente reciben el tratamiento en tiempos distintos, eso puede alterar los resultados