Variables Instrumentales (IV)
Sergio Béjar
División de Estudios Políticos, CIDE
Exogeneidad y endogeneidad
La educación genera más ingresos?
![]()
\[\color{#FF851B}{\text{Earnings}_i} = \beta_0 + \beta_1 \color{#0074D9}{\text{Education}_i} + \varepsilon_i\]
Exogeneidad y endogeneidad
Si corrieramos una regresión estaríamos econtrando el efecto causal?
NO!
Las razones:
Exogeneidad y endogeneidad
Que una variable sea exógena significa:
Que su balor no está determinado por nada más en el modelo
Si miramos al gráfico acíclico dirigido (DAG), el nodo no tiene flechas viniendo hacía él
Exogeneidad y endogeneidad
Aquí asumimos que la variable educación es exógena:
Exogeneidad y endogeneidad
Variable endógena
Su valor está determinado por algo más en nuestro modelo
En un DAG, habría flechas viviendo hacía su nodo
Exogeneidad y Endogeneidad
La educación es endógena: Habilidad -> Educación
Exogeneidad
Cómo se vería una variación exógena en Educación?
Opciones para obtener más educación que son escencialmente aleatorias
(o al menos no correlacionadas con variables omitidas)
Nos gustaría que la educación fuera exógena, pero no lo es!
![]()
Una parte es exógena pero ptra parte es causada por la habilidad (ver DAG)
Arreglando la endogeneidad con el DAG
![]()
Hay que cerrar las “puertas traseras” y ajustar por habilidad
El ajuste filtra la parte endógena y nos deja solo con lo exógeno
\[\text{Ingresos}_i = \beta_0 + \beta_1 \text{Educación}_i + \beta_2 \text{Habilidad}_i + \varepsilon_i\]
No podemos medir Habilidad!
![]()
\[\color{#FF851B}{\text{Earnings}_i} = \beta_0 + \beta_1 \color{#0074D9}{\text{Education}_i} + \beta_2 \color{#FF4136}{\text{Ability}_i} + \varepsilon_i\]
El nodo de Habilidad no medible está en el término del error (ε)
\[\color{#FF851B}{\text{Earnings}_i} = \beta_0 + \beta_1 \color{#0074D9}{\text{Education}_i} + \color{#FF4136}{\varepsilon_i}\]
Separar exogeneidad y endogeneidad
\[
\begin{aligned}
\color{#FF851B}{\text{Earnings}_i} =& \beta_0 + \beta_1 \color{#B10DC9}{\text{Education}_i} + \varepsilon_i \\
& \beta_0 + \beta_1 (\color{#0074D9}{\text{Education}_i^\text{exog.}} + \color{#FF4136}{\text{Education}_i^\text{endog.}}) + \varepsilon_i \\
& \beta_0 + \beta_1 \color{#0074D9}{\text{Education}_i^\text{exog.}} + \underbrace{\beta_1 \color{#FF4136}{\text{Education}_i^{\text{endog.}}} + \varepsilon_i}_{\color{#AAAAAA}{\omega_i}} \\
& \beta_0 + \beta_1 \color{#0074D9}{\text{Education}_i^\text{exog.}} + \color{#AAAAAA}{\omega_i}
\end{aligned}
\]
Hay que encontrar la exogenidad de alguna forma
\[
\color{#FF851B}{\text{Earnings}_i} = \beta_0 + \beta_1 \color{#0074D9}{\text{Education}_i^\text{exog.}} + \color{#AAAAAA}{\omega_i}
\]
Cómo lo hacemos?
Instrumentos
Qué es un instrumento?
Algo correlacionado con la variable de políca (pertinencia)
Algo que no causa directamente al resultado (exclusión)
Algo que no está correlacionado con las variables omitidas (exogeneidad)
Pertinencia: Correlacionada con la política
Z → X Cor(Z, X) ≠ 0
Excluibilidad: Correlacionada con el resultado solo a través de la política
Z → X → Y Z ↛ Y Cor(Z, Y | X) = 0
Exogeneidad: No está correlacionada con la variable omitida
U ↛ Z Cor(Z, U) = 0
Pertinencia: Analizable con estadísticas
Excluibilidad: comprobable con estadísticas + historia
Exogeneidad: requiere historia, no estadísticas
Pertinencia
CURP: Probalemente no sea relevante (no hay correlación con educación)
Calificación de las pruebas de tercer año: Potencialmente relevantes (los primeros grados generan mas educación)
Educación del padre: Relevante (los padres educados generan más educación)
Excluibilidad
El instrumento produce resultados solo a través de la poltica
CURP: Exclusivo (La CURP no esta relacionadad con el salario)
Calificación de las pruebas de tercer año: Potencialmente excluyentes (las calificaciones de los primeros grados pueden no generar salarios)
Educación del padre: Exclusivo (la educación de los padres no determina el salario)
Exogeneidad
Instrumento no correlacionado con variables omitidas
CURP: Exógeno (No relacionado con educación)
Calificación de las pruebas de tercer año: No exógeno (Hay relación entre variables)
Educación del padre: Exógena (el nacimiento de los padres es aleatorio)
Es difícil encontrar instrumentos
Lo más complicado de demostrar es la restricción de exclusión.
Es decir, que el instrumento causa el resultado a través de la política
Y la mayoría de los instrumentos no sonsiguen hacer esto
\[
\begin{aligned}
\color{#FF851B}{\text{Earnings}_i} =& \beta_0 + \beta_1 \color{#B10DC9}{\text{Education}_i} + \varepsilon_i \\
& \beta_0 + \beta_1 (\color{#0074D9}{\text{Education}_i^\text{exog.}} + \color{#FF4136}{\text{Education}_i^\text{endog.}}) + \varepsilon_i \\
& \beta_0 + \beta_1 \color{#0074D9}{\text{Education}_i^\text{exog.}} + \underbrace{\beta_1 \color{#FF4136}{\text{Education}_i^{\text{endog.}}} + \varepsilon_i}_{\color{#AAAAAA}{\omega_i}} \\
& \beta_0 + \beta_1 \color{#0074D9}{\text{Education}_i^\text{exog.}} + \color{#AAAAAA}{\omega_i}
\end{aligned}
\]
Relevancia
Programa ~ instrumento
![]()
Claro efecto significativo ==> relevante
Relevancia
Programa ~ instrumento
Call:
lm(formula = educ ~ fathereduc, data = father_education)
Residuals:
Min 1Q Median 3Q Max
-2.67253 -0.46801 0.02587 0.45854 2.11451
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 2.25099 0.17219 13.07 <2e-16 ***
fathereduc 0.91620 0.01085 84.47 <2e-16 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 0.703 on 998 degrees of freedom
Multiple R-squared: 0.8773, Adjusted R-squared: 0.8772
F-statistic: 7136 on 1 and 998 DF, p-value: < 2.2e-16
Exclusión
Cumple el supuesto de exclusión?
La educación de padre genera un efecto en el ingreso solo a través de tu educación?
Existe algún otro vínculo plausible entre la educación del padre y los ingresos?
Exogeneidad
La asignación a tus padres es aleatoria?
Sí
Mínimos cuadrados en dos etapas (2SLS)
Encontramos la parte exógena de la variable de política en función del instrumento y la usamos para predecir el resultado
Mínimos cuadrados en dos etapas (2SLS)
Primera etapa
\[
\begin{aligned}
&\widehat{\text{Education}}_i = \\
&\quad \gamma_0 + \gamma_1 \text{Father's education}_i + \upsilon_i
\end{aligned}
\]
Segunda etapa
\[
\begin{aligned}
&\text{Earnings}_i = \\
&\quad \beta_0 + \beta_1 \widehat{\text{Education}}_i + \varepsilon_i
\end{aligned}
\]
Etapa 1: Política ~ Instrumento
# A tibble: 2 × 5
term estimate std.error statistic p.value
<chr> <dbl> <dbl> <dbl> <dbl>
1 (Intercept) 2.25 0.172 13.1 3.67e-36
2 fathereduc 0.916 0.0108 84.5 0
Etapa 1: Checar el poder (fuerza) del instrumento
# A tibble: 1 × 5
r.squared adj.r.squared sigma statistic p.value
<dbl> <dbl> <dbl> <dbl> <dbl>
1 0.877 0.877 0.703 7136. 0
La F del modelo debe ser >104 (aunque la mayoría de los libros dicen que debe ser >10)
Etapa 1: Utilizar la primera etapa para predecir Educación
\[
\widehat{\text{Education}}_i = 2.251 + (0.916 \times \text{Father's education}_i) + \upsilon_i
\]
# A tibble: 6 × 5
wage educ ability fathereduc educ_hat
<dbl> <dbl> <dbl> <dbl> <dbl>
1 180. 18.5 408. 17.2 18.0
2 100. 16.2 310. 15.5 16.4
3 125. 18.2 303. 17.7 18.4
4 178. 16.6 342. 15.6 16.5
5 265. 17.3 534. 14.7 15.8
6 187. 17.5 409. 16.0 16.9
Etapa 2: Resultado ~ Política prevista
# A tibble: 2 × 5
term estimate std.error statistic p.value
<chr> <dbl> <dbl> <dbl> <dbl>
1 (Intercept) 28.8 12.7 2.27 2.32e- 2
2 educ_hat 7.83 0.755 10.4 5.10e-24
Un año de educación hace que el salario aumente en $7.83