Variables Instrumentales (IV)

Sergio Béjar

División de Estudios Políticos, CIDE

En esta clase

  • Exogeneidad y endogeneidad

  • Instrumentos

  • Uso de instrumentos

Exogeneidad y endogeneidad

La educación genera más ingresos?

\[\color{#FF851B}{\text{Earnings}_i} = \beta_0 + \beta_1 \color{#0074D9}{\text{Education}_i} + \varepsilon_i\]

Exogeneidad y endogeneidad

Si corrieramos una regresión estaríamos econtrando el efecto causal?

NO!

Las razones:

  • Puede haber sesgo por omitir variables

  • No estamos cerrando puertas traseras

  • Endogeneidad

Exogeneidad y endogeneidad

Que una variable sea exógena significa:

  • Que su balor no está determinado por nada más en el modelo

  • Si miramos al gráfico acíclico dirigido (DAG), el nodo no tiene flechas viniendo hacía él

Exogeneidad y endogeneidad

Aquí asumimos que la variable educación es exógena:

Exogeneidad y endogeneidad

Variable endógena

  • Su valor está determinado por algo más en nuestro modelo

  • En un DAG, habría flechas viviendo hacía su nodo

Exogeneidad y Endogeneidad

La educación es endógena: Habilidad -> Educación

Exogeneidad

Cómo se vería una variación exógena en Educación?

Opciones para obtener más educación que son escencialmente aleatorias

(o al menos no correlacionadas con variables omitidas)

Nos gustaría que la educación fuera exógena, pero no lo es!

Una parte es exógena pero ptra parte es causada por la habilidad (ver DAG)

Arreglando la endogeneidad con el DAG

Hay que cerrar las “puertas traseras” y ajustar por habilidad

El ajuste filtra la parte endógena y nos deja solo con lo exógeno

\[\text{Ingresos}_i = \beta_0 + \beta_1 \text{Educación}_i + \beta_2 \text{Habilidad}_i + \varepsilon_i\]

No podemos medir Habilidad!

\[\color{#FF851B}{\text{Earnings}_i} = \beta_0 + \beta_1 \color{#0074D9}{\text{Education}_i} + \beta_2 \color{#FF4136}{\text{Ability}_i} + \varepsilon_i\]

El nodo de Habilidad no medible está en el término del error (ε)

\[\color{#FF851B}{\text{Earnings}_i} = \beta_0 + \beta_1 \color{#0074D9}{\text{Education}_i} + \color{#FF4136}{\varepsilon_i}\]

Separar exogeneidad y endogeneidad

\[ \begin{aligned} \color{#FF851B}{\text{Earnings}_i} =& \beta_0 + \beta_1 \color{#B10DC9}{\text{Education}_i} + \varepsilon_i \\ & \beta_0 + \beta_1 (\color{#0074D9}{\text{Education}_i^\text{exog.}} + \color{#FF4136}{\text{Education}_i^\text{endog.}}) + \varepsilon_i \\ & \beta_0 + \beta_1 \color{#0074D9}{\text{Education}_i^\text{exog.}} + \underbrace{\beta_1 \color{#FF4136}{\text{Education}_i^{\text{endog.}}} + \varepsilon_i}_{\color{#AAAAAA}{\omega_i}} \\ & \beta_0 + \beta_1 \color{#0074D9}{\text{Education}_i^\text{exog.}} + \color{#AAAAAA}{\omega_i} \end{aligned} \]

Hay que encontrar la exogenidad de alguna forma

\[ \color{#FF851B}{\text{Earnings}_i} = \beta_0 + \beta_1 \color{#0074D9}{\text{Education}_i^\text{exog.}} + \color{#AAAAAA}{\omega_i} \]

Cómo lo hacemos?

  • Con un instrumento!

Instrumentos

Qué es un instrumento?

  • Algo correlacionado con la variable de políca (pertinencia)

  • Algo que no causa directamente al resultado (exclusión)

  • Algo que no está correlacionado con las variables omitidas (exogeneidad)

Pertinencia: Correlacionada con la política

Z → X   Cor(Z, X) ≠ 0

Excluibilidad: Correlacionada con el resultado solo a través de la política

Z → X → Y   Z ↛ Y   Cor(Z, Y | X) = 0

Exogeneidad: No está correlacionada con la variable omitida

U ↛ Z   Cor(Z, U) = 0

Pertinencia: Analizable con estadísticas

Excluibilidad: comprobable con estadísticas + historia

Exogeneidad: requiere historia, no estadísticas

Pertinencia

  • CURP: Probalemente no sea relevante (no hay correlación con educación)

  • Calificación de las pruebas de tercer año: Potencialmente relevantes (los primeros grados generan mas educación)

  • Educación del padre: Relevante (los padres educados generan más educación)

Excluibilidad

El instrumento produce resultados solo a través de la poltica

  • CURP: Exclusivo (La CURP no esta relacionadad con el salario)

  • Calificación de las pruebas de tercer año: Potencialmente excluyentes (las calificaciones de los primeros grados pueden no generar salarios)

  • Educación del padre: Exclusivo (la educación de los padres no determina el salario)

Exogeneidad

Instrumento no correlacionado con variables omitidas

  • CURP: Exógeno (No relacionado con educación)

  • Calificación de las pruebas de tercer año: No exógeno (Hay relación entre variables)

  • Educación del padre: Exógena (el nacimiento de los padres es aleatorio)

Es difícil encontrar instrumentos

Lo más complicado de demostrar es la restricción de exclusión.

Es decir, que el instrumento causa el resultado a través de la política

Y la mayoría de los instrumentos no sonsiguen hacer esto

Uso de instrumentos

\[ \begin{aligned} \color{#FF851B}{\text{Earnings}_i} =& \beta_0 + \beta_1 \color{#B10DC9}{\text{Education}_i} + \varepsilon_i \\ & \beta_0 + \beta_1 (\color{#0074D9}{\text{Education}_i^\text{exog.}} + \color{#FF4136}{\text{Education}_i^\text{endog.}}) + \varepsilon_i \\ & \beta_0 + \beta_1 \color{#0074D9}{\text{Education}_i^\text{exog.}} + \underbrace{\beta_1 \color{#FF4136}{\text{Education}_i^{\text{endog.}}} + \varepsilon_i}_{\color{#AAAAAA}{\omega_i}} \\ & \beta_0 + \beta_1 \color{#0074D9}{\text{Education}_i^\text{exog.}} + \color{#AAAAAA}{\omega_i} \end{aligned} \]

Relevancia

Programa ~ instrumento

Claro efecto significativo ==> relevante

Relevancia

Programa ~ instrumento


Call:
lm(formula = educ ~ fathereduc, data = father_education)

Residuals:
     Min       1Q   Median       3Q      Max 
-2.67253 -0.46801  0.02587  0.45854  2.11451 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  2.25099    0.17219   13.07   <2e-16 ***
fathereduc   0.91620    0.01085   84.47   <2e-16 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 0.703 on 998 degrees of freedom
Multiple R-squared:  0.8773,    Adjusted R-squared:  0.8772 
F-statistic:  7136 on 1 and 998 DF,  p-value: < 2.2e-16

Exclusión

Cumple el supuesto de exclusión?

La educación de padre genera un efecto en el ingreso solo a través de tu educación?

Existe algún otro vínculo plausible entre la educación del padre y los ingresos?

Exogeneidad

La asignación a tus padres es aleatoria?

Mínimos cuadrados en dos etapas (2SLS)

Encontramos la parte exógena de la variable de política en función del instrumento y la usamos para predecir el resultado

Mínimos cuadrados en dos etapas (2SLS)

Primera etapa

\[ \begin{aligned} &\widehat{\text{Education}}_i = \\ &\quad \gamma_0 + \gamma_1 \text{Father's education}_i + \upsilon_i \end{aligned} \]

Segunda etapa

\[ \begin{aligned} &\text{Earnings}_i = \\ &\quad \beta_0 + \beta_1 \widehat{\text{Education}}_i + \varepsilon_i \end{aligned} \]

Etapa 1: Política ~ Instrumento

# A tibble: 2 × 5
  term        estimate std.error statistic  p.value
  <chr>          <dbl>     <dbl>     <dbl>    <dbl>
1 (Intercept)    2.25     0.172       13.1 3.67e-36
2 fathereduc     0.916    0.0108      84.5 0       

Etapa 1: Checar el poder (fuerza) del instrumento

# A tibble: 1 × 5
  r.squared adj.r.squared sigma statistic p.value
      <dbl>         <dbl> <dbl>     <dbl>   <dbl>
1     0.877         0.877 0.703     7136.       0

La F del modelo debe ser >104 (aunque la mayoría de los libros dicen que debe ser >10)

Etapa 1: Utilizar la primera etapa para predecir Educación

\[ \widehat{\text{Education}}_i = 2.251 + (0.916 \times \text{Father's education}_i) + \upsilon_i \]

# A tibble: 6 × 5
   wage  educ ability fathereduc educ_hat
  <dbl> <dbl>   <dbl>      <dbl>    <dbl>
1  180.  18.5    408.       17.2     18.0
2  100.  16.2    310.       15.5     16.4
3  125.  18.2    303.       17.7     18.4
4  178.  16.6    342.       15.6     16.5
5  265.  17.3    534.       14.7     15.8
6  187.  17.5    409.       16.0     16.9

Etapa 2: Resultado ~ Política prevista

# A tibble: 2 × 5
  term        estimate std.error statistic  p.value
  <chr>          <dbl>     <dbl>     <dbl>    <dbl>
1 (Intercept)    28.8     12.7        2.27 2.32e- 2
2 educ_hat        7.83     0.755     10.4  5.10e-24

Un año de educación hace que el salario aumente en $7.83

Forma más rápida para estimar modelos de VI: estimatr

library(estimatr)
model_iv_robust <- iv_robust(wage ~ educ | fathereduc,
                             data = father_education)
tidy(model_iv_robust)
         term  estimate  std.error statistic      p.value conf.low conf.high
1 (Intercept) 28.818695 11.1645893  2.581259 9.985789e-03 6.909932 50.727459
2        educ  7.834935  0.6635423 11.807739 3.281862e-30 6.532837  9.137033
   df outcome
1 998    wage
2 998    wage