Clase 2 Econometria II

Construcción del Contrafáctico en Evaluación de Impacto

Introducción al Contrafáctico

El concepto de contrafáctico es crucial en la evaluación de impacto. Se refiere a la situación hipotética que nos permite estimar lo que habría sucedido a los beneficiarios de un programa si no hubieran recibido el tratamiento. La principal dificultad es que nunca podemos observar ambos estados (tratamiento y control) para el mismo individuo al mismo tiempo.

Selección de Grupos

Para construir un contrafáctico adecuado, necesitamos seleccionar un grupo de control que sea similar en todas las características observables al grupo de tratamiento, excepto por la recepción del tratamiento. Esta similitud se busca para asegurar que cualquier diferencia en los resultados pueda atribuirse al tratamiento y no a otras características preexistentes.

Ejemplo de Selección de Grupos

Supongamos que estamos evaluando un programa de capacitación laboral. Nuestro grupo de tratamiento son los individuos que recibieron la capacitación, mientras que nuestro grupo de control debe estar compuesto por individuos que no recibieron la capacitación pero tienen características similares como edad, nivel educativo, y experiencia laboral.

Métodos para la Construcción del Contrafáctico

Existen varios métodos econométricos para construir contrafácticos. A continuación, se describen algunos de los métodos más utilizados:

1. Pareamiento por Puntuación de Propensión (Propensity Score Matching)

Este método implica calcular la probabilidad de recibir el tratamiento dado un conjunto de características observables. Luego, cada individuo del grupo de tratamiento se empareja con uno o más individuos del grupo de control con puntajes de propensión similares.

Fórmula:

\[ \hat{p}(X) = P(T = 1 | X) \]

Donde \(\hat{p}(X)\) es el puntaje de propensión estimado y \(X\) representa el vector de covariables.

2. Diferencias en Diferencias (Differences in Differences)

Este método compara la evolución de los resultados en el grupo de tratamiento antes y después del tratamiento con la evolución en el grupo de control en el mismo período.

Fórmula:

\[ \Delta Y = (Y_{T, post} - Y_{T, pre}) - (Y_{C, post} - Y_{C, pre}) \]

Donde \(Y_{T, post}\) y \(Y_{T, pre}\) son los resultados del grupo de tratamiento antes y después del tratamiento, respectivamente, y \(Y_{C, post}\) y \(Y_{C, pre}\) son los resultados del grupo de control antes y después del tratamiento, respectivamente.

3. Variables Instrumentales (Instrumental Variables)

Cuando la asignación al tratamiento no es aleatoria y está correlacionada con el error, podemos utilizar variables instrumentales que afectan la probabilidad de recibir el tratamiento pero no afectan directamente el resultado.

Modelo de Regresión:

\[ Y = \alpha + \beta T + \gamma Z + \epsilon \]

Donde \(Z\) es la variable instrumental, \(T\) es el tratamiento, \(Y\) es el resultado, y \(\epsilon\) es el término de error.

Importancia de la Mitigación del Sesgo

El sesgo es una preocupación constante en la evaluación de impacto. La diferencia observada en los resultados entre los grupos de tratamiento y control puede deberse no solo al efecto del tratamiento, sino también a diferencias preexistentes entre los grupos. Por ejemplo, los individuos en el grupo de tratamiento podrían tener habilidades innatas o motivaciones que difieren del grupo de control, lo que introduce un sesgo en la estimación del efecto del tratamiento.

Ejemplo de Sesgo

Supongamos que en nuestro programa de capacitación laboral, los individuos que optaron por participar ya estaban más motivados y tenían mejores habilidades iniciales que aquellos que no participaron. Esto podría hacer que la diferencia en resultados no sea completamente atribuible a la capacitación.

Métodos para Mitigar el Sesgo

Incluir Variables de Control: Incorporar tantas variables relevantes como sea posible en el modelo para controlar las diferencias preexistentes.
Uso de Proxies: Utilizar variables proxies para características inobservables. Por ejemplo, el resultado de una prueba de IQ podría servir como proxy para habilidades cognitivas.
Modelos de Ecuaciones Simultáneas: Para abordar la simultaneidad y la autoselección, se pueden utilizar modelos de ecuaciones simultáneas donde se modelan conjuntamente el tratamiento y el resultado.

Fórmula de Ecuaciones Simultáneas:

\[ Y_1 = \alpha_1 + \beta_1 Y_2 + \gamma_1 X + \epsilon_1 \] \[ Y_2 = \alpha_2 + \beta_2 Y_1 + \gamma_2 Z + \epsilon_2 \]

Donde \(Y_1\) y \(Y_2\) son las variables endógenas, \(X\) y \(Z\) son conjuntos de variables exógenas, y \(\epsilon_1\) y \(\epsilon_2\) son términos de error.

Evaluación de Impacto y Omisión de Variables

La omisión de variables relevantes es una fuente importante de sesgo. Especialmente en estudios no experimentales, es común que algunas variables inobservables afecten tanto la asignación al tratamiento como el resultado. Por ejemplo, en la evaluación de impacto de programas de capacitación laboral, habilidades individuales y motivaciones son variables inobservables cruciales.

Ejemplo de Omisión de Variables: Si omitimos una variable como la motivación, que influye tanto en la decisión de participar en el programa como en los resultados laborales, nuestras estimaciones del impacto del programa estarán sesgadas.

Importancia de la Evaluación Empírica

La evaluación empírica de las proposiciones teóricas económicas es otro objetivo clave en econometría. A través de métodos econométricos, podemos testear la validez de teorías económicas y sus predicciones. Esto no solo es relevante para validar teorías, sino también para informar la formulación de políticas económicas.

Ejemplo de Evaluación Empírica: Evaluar la proposición de que un aumento en el ingreso lleva a un incremento en el consumo puede hacerse estimando la propensión marginal a consumir (\(\beta_1\)) en el modelo:

\[ C = \alpha + \beta_1 Y + \epsilon \]

Donde \(C\) es el consumo, \(Y\) es el ingreso, y \(\epsilon\) es el término de error.

Predicción Macroeconómica

Aunque no es el foco principal, la predicción macroeconómica es una aplicación importante de los modelos econométricos. Predecir la evolución de agregados macroeconómicos como la inflación o el PIB es crucial para la planificación económica y la toma de decisiones de política.

Fórmula de Predicción Macroeconómica:

\[ \hat{Y}_{t+h} = \alpha + \beta X_t + \gamma Z_t + \epsilon_t \]

Donde \(\hat{Y}_{t+h}\) es el valor predicho de la variable macroeconómica \(h\) períodos en el futuro, \(X_t\) y \(Z_t\) son vectores de variables explicativas observadas en el tiempo \(t\), y \(\epsilon_t\) es el término de error.

Conclusión

La construcción del contrafáctico y la mitigación del sesgo son fundamentales en la evaluación de impacto. A través de métodos econométricos avanzados, podemos estimar con mayor precisión los efectos de programas de política y formular recomendaciones basadas en evidencia empírica robusta. La evaluación empírica y la predicción macroeconómica complementan este análisis, proporcionando una comprensión integral del impacto económico y la efectividad de las políticas implementadas.

Análisis de la Propensión Marginal a Consumir y Variables de Control

Para identificar correctamente la propensión marginal a consumir (PMC), es esencial incorporar un conjunto de variables de control que permitan medir con precisión la relación causal entre el ingreso y el consumo. La investigación se centra en entender cómo cambia el consumo cuando cambia el ingreso, manteniendo constantes otros factores (ceteris paribus).

Marco Teórico y Modelo Econométrico

Definimos un marco teórico donde tenemos una variable endógena (consumo \(Y\)) y un conjunto de variables exógenas (\(X_1, X_2, \ldots, X_k\)). En este contexto, las variables exógenas son aquellas que determinan sistemáticamente el comportamiento de la variable endógena según la teoría económica.

Modelo Estructural

El modelo econométrico estructural se puede representar como:

\[ Y_i = \beta_0 + \beta_1 X_{1i} + \beta_2 X_{2i} + \gamma Z_i + \epsilon_i \]

donde: - \(Y_i\) es el consumo del individuo \(i\). - \(X_{1i}\) es el ingreso del individuo \(i\). - \(X_{2i}\) es otra variable exógena, como la edad del jefe de hogar. - \(Z_i\) es una variable exógena adicional relevante, como el tamaño del hogar. - \(\epsilon_i\) es el término de error estructural, que comprende características inobservables que afectan al consumo de manera no sistemática.

En este modelo, los coeficientes \(\beta_1\), \(\beta_2\) y \(\gamma\) tienen una interpretación causal, dado que el error \(\epsilon_i\) es ortogonal a las variables explicativas \(X_{1i}\), \(X_{2i}\) y \(Z_i\).

Inferencia y Derivada Parcial

El análisis de la PMC implica calcular la derivada parcial del consumo respecto al ingreso, manteniendo constantes las demás variables:

\[ \frac{\partial \mathbb{E}[Y_i|X_{1i}, X_{2i}, Z_i]}{\partial X_{1i}} = \beta_1 \]

Esta derivada parcial nos permite interpretar \(\beta_1\) como el cambio en el consumo de equilibrio debido a un cambio unitario en el ingreso, manteniendo constantes \(X_{2i}\) y \(Z_i\).

Problema de la Autoselección y Soluciones

En muchos casos, la participación en un programa de política depende de la variable endógena del problema, generando simultaneidad y sesgo de autoselección. Para abordar este sesgo, se pueden emplear métodos como:

Ecuaciones Simultáneas: Modelar la variable endógena y la ecuación de selección conjuntamente:

\[ Y_i = \beta_0 + \beta_1 X_{1i} + \beta_2 X_{2i} + \gamma Z_i + \epsilon_i \] \[ D_i = \alpha_0 + \alpha_1 X_{1i} + \alpha_2 W_i + \eta_i \]

donde \(D_i\) es una variable indicadora de participación en el programa, \(W_i\) es una variable exógena adicional, y \(\eta_i\) es el término de error de la ecuación de selección.
Variables Instrumentales (VI): Utilizar instrumentos que estén correlacionados con la variable endógena pero no con el término de error. Por ejemplo, si \(Z_i\) no está disponible, podríamos usar una variable instrumental \(W_i\) que cumpla con:

\[ \mathbb{E}[W_i \cdot \epsilon_i] = 0 \] \[ Cov(W_i, X_{1i}) \neq 0 \]

Forma Reducida del Modelo Econométrico

En la práctica, las variables exógenas \(Z_i\) pueden ser inobservables, lo que lleva a estimar la forma reducida del modelo en lugar de la forma estructural. La forma reducida se puede expresar como:

\[ Y_i = \beta_0 + \beta_1 X_{1i} + \beta_2 X_{2i} + u_i \]

donde \(u_i\) es el nuevo término de error que captura la heterogeneidad inobservable \(Z_i\) y otras variabilidades no sistemáticas. Este modelo es estimable y permite realizar inferencias sobre la propensión marginal a consumir.

Ejemplo Práctico: Elasticidad del Consumo y Variabilidad Exógena

Supongamos que nos interesa conocer cómo cambia el consumo de equilibrio frente a un cambio en el ingreso:

\[ \frac{\partial \mathbb{E}[Y_i|X_{1i}, X_{2i}, Z_i]}{\partial X_{1i}} = \beta_1 \]

Aquí, \(X_{1i}\) podría representar el ingreso, \(X_{2i}\) la edad del jefe de hogar, y \(Z_i\) el tamaño del hogar. La derivada parcial \(\beta_1\) nos indica la propensión marginal a consumir, es decir, cuánto cambia el consumo de una familia por cada unidad adicional de ingreso, manteniendo constantes las demás variables.

Implicancias de la Especificación del Modelo

La correcta especificación del modelo econométrico es crucial para garantizar la validez de las inferencias causales. Un modelo correctamente especificado asegura que el término de error \(\epsilon_i\) sea ruido puro, ortogonal a las variables explicativas. Esto permite atribuir cambios en la variable de resultado a variaciones exógenas en las variables explicativas, evitando la contaminación por simultaneidad o autoselección.

Inferencia Causal y Métodos de Estimación

En econometría, la inferencia causal se basa en identificar efectos específicos de las variables explicativas sobre la variable endógena, manteniendo constante el efecto de otras variables relevantes. Los métodos de estimación incluyen:

Método de Mínimos Cuadrados Ordinarios (MCO): Se usa cuando las variables explicativas son exógenas.

\[ \hat{\beta} = (X'X)^{-1}X'Y \]
Método de Mínimos Cuadrados en Dos Etapas (MC2E): Se usa cuando hay variables endógenas y se dispone de instrumentos válidos.

Primera etapa: \[ X_{1i} = \pi_0 + \pi_1 W_i + v_i \]

Segunda etapa: \[ Y_i = \beta_0 + \beta_1 \hat{X}_{1i} + \beta_2 X_{2i} + u_i \]

Conclusión

La identificación y cuantificación precisa de la propensión marginal a consumir dependen de la correcta especificación del modelo econométrico y la inclusión de variables de control adecuadas. Esto garantiza que las inferencias causales sean válidas y robustas, permitiendo una mejor comprensión de las relaciones económicas subyacentes. Además, el uso de métodos avanzados como ecuaciones simultáneas y variables instrumentales puede abordar problemas de autoselección y simultaneidad, mejorando la estimación de los efectos causales.

Inobservabilidad y Métodos de Evaluación de Impacto

1. Problemas de Identificación y Inobservabilidad

El problema de identificación en econometría radica en la imposibilidad de observar simultáneamente los resultados de una unidad bajo tratamiento y control. Esto lleva a la necesidad de encontrar métodos que permitan inferir efectos causales a partir de datos observacionales.

2. Forma Reducida y Forma Estructural

Forma Estructural:

\[ Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \gamma Z + u \]

Forma Reducida:

\[ Y = \alpha_0 + \alpha_1 X_1 + \alpha_2 X_2 + v \]

Donde \(v = \gamma Z + u\).

3. Ley de Esperanzas Iteradas

Para conectar la forma reducida con la forma estructural, usamos la ley de esperanzas iteradas:

\[ E[Y|X_1, X_2] = E[E[Y|X_1, X_2, Z] | X_1, X_2] \]

Sustituyendo la forma estructural en esta ecuación, obtenemos:

\[ E[Y|X_1, X_2] = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \gamma E[Z|X_1, X_2] \]

4. Problemas de Endogeneidad

La endogeneidad surge cuando \(E[Z|X_1, X_2] \neq 0\), lo que significa que las variables inobservables están correlacionadas con las variables observables. Esto distorsiona la estimación de los coeficientes estructurales.

Caso Trivial:

Si \(E[Z|X_1, X_2] = 0\), entonces los coeficientes de la forma reducida coinciden con los coeficientes estructurales.

Caso Real:

Si \(E[Z|X_1, X_2] \neq 0\):

\[ E[Y|X_1, X_2] = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \gamma (\delta_0 + \delta_1 X_1 + \delta_2 X_2) \]

Donde \(\delta_0\), \(\delta_1\) y \(\delta_2\) son los coeficientes de la proyección lineal de \(Z\) sobre \(X_1\) y \(X_2\).

5. Métodos de Evaluación de Impacto

a. Variables Instrumentales (VI)

Las variables instrumentales se utilizan para tratar la endogeneidad. Un instrumento \(Z\) debe cumplir dos condiciones: ser correlacionado con la variable endógena \(X\) y no estar correlacionado con el término de error \(u\).

Modelo con VI: \[ Y = \beta_0 + \beta_1 X + \epsilon \] \[ X = \pi_0 + \pi_1 Z + v \]

La estimación se realiza en dos etapas (2SLS): 1. Regress \(X\) on \(Z\) to get \(\hat{X}\). 2. Regress \(Y\) on \(\hat{X}\).

b. Variables Proxy

Un proxy es una variable que está correlacionada con la variable inobservable \(Z\) y se utiliza para desactivar la endogeneidad.

Modelo con Proxy: \[ E[Z|X_1, X_2, Proxy] = \theta_0 + \theta_1 Proxy + \theta_2 X_1 + \theta_3 X_2 \]

c. Métodos de Diferencias en Diferencias (DiD)

El método DiD se usa cuando hay datos antes y después de un tratamiento en un grupo tratado y un grupo de control:

\[ \Delta Y = (\bar{Y}_{T,post} - \bar{Y}_{T,pre}) - (\bar{Y}_{C,post} - \bar{Y}_{C,pre}) \]

d. Emparejamiento por Puntaje de Propensión (Propensity Score Matching, PSM)

PSM es una técnica para emparejar unidades tratadas y no tratadas que tienen características similares.

Modelo PSM: 1. Estimar el puntaje de propensión \(P(T=1|X)\) usando una regresión logística. 2. Emparejar unidades tratadas y no tratadas con puntajes de propensión similares. 3. Comparar los resultados entre los grupos emparejados.

6. Conclusión

La identificación y la inobservabilidad son desafíos centrales en la econometría. Utilizando técnicas avanzadas como variables instrumentales, métodos de diferencias en diferencias y emparejamiento por puntaje de propensión, los econometristas pueden abordar estos problemas y obtener estimaciones causales más precisas.

Inobservabilidad en Ecuaciones Salariales y Retornos a la Escolaridad

En el contexto de análisis econométrico, uno de los desafíos comunes es la inobservabilidad de ciertas variables clave. Por ejemplo, en ecuaciones salariales, en lugar de contar con datos directos sobre los años de experiencia en el mercado laboral, frecuentemente se utiliza la edad del individuo como una variable proxy.

Uso de la Edad como Proxy para la Experiencia Laboral

En encuestas como la Encuesta Permanente de Hogares, es común no tener información directa sobre los años de experiencia laboral del sujeto. Sin embargo, se puede disponer de datos sobre la antigüedad en el empleo actual y la edad. La edad, a su vez, puede capturar ciertos aspectos de los años de experiencia, ya que los individuos con mayor experiencia en el mercado laboral suelen ser, en promedio, mayores. La relación entre los años de experiencia y la edad tiene un componente determinista, ya que los años de experiencia generalmente aumentan con la edad. Por lo tanto, la edad puede servir como una variable proxy de los años de experiencia.

Este enfoque es habitual en muchas ecuaciones salariales donde, en lugar de los años de experiencia, se utiliza la edad y su cuadrado para reflejar la relación de concavidad existente entre el salario y los años de experiencia.

Retornos a la Escolaridad y Variables de Control

La pregunta de investigación en una ecuación salarial a menudo se centra en el retorno a la escolaridad, es decir, el retorno anual a la escolaridad. Para medir este retorno, es crucial controlar por los años de experiencia debido a la relación inversa entre la escolaridad formal y la experiencia laboral. Los efectos directos de la escolaridad formal sobre el salario, conocido como el retorno anual a la escolaridad, necesitan ser aislados controlando adecuadamente otras variables relevantes.

Estrategias de Identificación y Métodos Avanzados

Para abordar la identificación en econometría, se pueden utilizar varias estrategias, entre ellas:

Variables Instrumentales (VI): Estas se utilizan para tratar la endogeneidad. Un instrumento debe estar correlacionado con la variable endógena y no con el término de error.
Variables Proxy: Son variables correlacionadas con las variables inobservables y se usan para mitigar la endogeneidad. Un buen proxy capta los aspectos más relevantes de la heterogeneidad inobservable.
Métodos de Diferencias en Diferencias (DiD): Utilizados cuando hay datos antes y después de un tratamiento en un grupo tratado y un grupo de control.
Emparejamiento por Puntaje de Propensión (PSM): Técnica para emparejar unidades tratadas y no tratadas con características similares.
Efectos Fijos Individuales: Utilizan datos de panel para controlar por variables inobservables que no cambian a lo largo del tiempo.

Datos y Evaluación de Impacto

En encuestas como la Encuesta Permanente de Hogares, se puede seguir sistemáticamente el mismo hogar durante un período limitado (hasta cuatro trimestres). Esta limitación implica que, aunque se puedan observar efectos a corto plazo, no siempre es posible medir adecuadamente los efectos a largo plazo de políticas o intervenciones.

Modelos para Variables Cualitativas y Cuantitativas

En el análisis econométrico, las variables pueden ser cualitativas (binarias, nominales, ordenadas) o cuantitativas (continuas, de recuento, de duración). Cada tipo de variable requiere un enfoque específico:

Modelos de Decisión o Elección Discreta: Para variables cualitativas como la decisión de trabajar o la elección de medio de transporte.
Modelos de Recuento: Para variables que indican la cantidad de eventos ocurridos.
Modelos de Duración: Para variables que miden el tiempo transcurrido hasta la ocurrencia de un evento.

Conclusión

La identificación y la inobservabilidad son desafíos centrales en econometría. Utilizando técnicas avanzadas como variables instrumentales, métodos de diferencias en diferencias y emparejamiento por puntaje de propensión, los econometristas pueden abordar estos problemas y obtener estimaciones causales más precisas.

Cada una de estas estrategias de identificación y estimación tiene sus ventajas y limitaciones, y su aplicación dependerá de la disponibilidad y la calidad de los datos. La correcta implementación de estas técnicas es crucial para obtener resultados robustos y confiables en el análisis econométrico.

Clase 2 Econometria II

Felix Garcia

2024-06-27

Construcción del Contrafáctico en Evaluación de Impacto

Introducción al Contrafáctico

Selección de Grupos

Ejemplo de Selección de Grupos

Métodos para la Construcción del Contrafáctico

1. Pareamiento por Puntuación de Propensión (Propensity Score Matching)

2. Diferencias en Diferencias (Differences in Differences)

3. Variables Instrumentales (Instrumental Variables)

Importancia de la Mitigación del Sesgo

Ejemplo de Sesgo

Métodos para Mitigar el Sesgo

Evaluación de Impacto y Omisión de Variables

Importancia de la Evaluación Empírica

Predicción Macroeconómica

Conclusión

Análisis de la Propensión Marginal a Consumir y Variables de Control

Marco Teórico y Modelo Econométrico

Modelo Estructural

Inferencia y Derivada Parcial

Problema de la Autoselección y Soluciones

Forma Reducida del Modelo Econométrico

Ejemplo Práctico: Elasticidad del Consumo y Variabilidad Exógena

Implicancias de la Especificación del Modelo

Inferencia Causal y Métodos de Estimación

Conclusión

Inobservabilidad y Métodos de Evaluación de Impacto

1. Problemas de Identificación y Inobservabilidad

2. Forma Reducida y Forma Estructural

Forma Estructural:

Forma Reducida:

3. Ley de Esperanzas Iteradas

4. Problemas de Endogeneidad

Caso Trivial:

Caso Real:

5. Métodos de Evaluación de Impacto

a. Variables Instrumentales (VI)

b. Variables Proxy

c. Métodos de Diferencias en Diferencias (DiD)

d. Emparejamiento por Puntaje de Propensión (Propensity Score Matching, PSM)

6. Conclusión

Inobservabilidad en Ecuaciones Salariales y Retornos a la Escolaridad

Uso de la Edad como Proxy para la Experiencia Laboral

Retornos a la Escolaridad y Variables de Control

Estrategias de Identificación y Métodos Avanzados

Datos y Evaluación de Impacto

Modelos para Variables Cualitativas y Cuantitativas

Conclusión