El concepto de contrafáctico es crucial en la evaluación de impacto. Se refiere a la situación hipotética que nos permite estimar lo que habría sucedido a los beneficiarios de un programa si no hubieran recibido el tratamiento. La principal dificultad es que nunca podemos observar ambos estados (tratamiento y control) para el mismo individuo al mismo tiempo.
Para construir un contrafáctico adecuado, necesitamos seleccionar un grupo de control que sea similar en todas las características observables al grupo de tratamiento, excepto por la recepción del tratamiento. Esta similitud se busca para asegurar que cualquier diferencia en los resultados pueda atribuirse al tratamiento y no a otras características preexistentes.
Supongamos que estamos evaluando un programa de capacitación laboral. Nuestro grupo de tratamiento son los individuos que recibieron la capacitación, mientras que nuestro grupo de control debe estar compuesto por individuos que no recibieron la capacitación pero tienen características similares como edad, nivel educativo, y experiencia laboral.
Existen varios métodos econométricos para construir contrafácticos. A continuación, se describen algunos de los métodos más utilizados:
Este método implica calcular la probabilidad de recibir el tratamiento dado un conjunto de características observables. Luego, cada individuo del grupo de tratamiento se empareja con uno o más individuos del grupo de control con puntajes de propensión similares.
Fórmula:
\[ \hat{p}(X) = P(T = 1 | X) \]
Donde \(\hat{p}(X)\) es el puntaje de propensión estimado y \(X\) representa el vector de covariables.
Este método compara la evolución de los resultados en el grupo de tratamiento antes y después del tratamiento con la evolución en el grupo de control en el mismo período.
Fórmula:
\[ \Delta Y = (Y_{T, post} - Y_{T, pre}) - (Y_{C, post} - Y_{C, pre}) \]
Donde \(Y_{T, post}\) y \(Y_{T, pre}\) son los resultados del grupo de tratamiento antes y después del tratamiento, respectivamente, y \(Y_{C, post}\) y \(Y_{C, pre}\) son los resultados del grupo de control antes y después del tratamiento, respectivamente.
Cuando la asignación al tratamiento no es aleatoria y está correlacionada con el error, podemos utilizar variables instrumentales que afectan la probabilidad de recibir el tratamiento pero no afectan directamente el resultado.
Modelo de Regresión:
\[ Y = \alpha + \beta T + \gamma Z + \epsilon \]
Donde \(Z\) es la variable instrumental, \(T\) es el tratamiento, \(Y\) es el resultado, y \(\epsilon\) es el término de error.
El sesgo es una preocupación constante en la evaluación de impacto. La diferencia observada en los resultados entre los grupos de tratamiento y control puede deberse no solo al efecto del tratamiento, sino también a diferencias preexistentes entre los grupos. Por ejemplo, los individuos en el grupo de tratamiento podrían tener habilidades innatas o motivaciones que difieren del grupo de control, lo que introduce un sesgo en la estimación del efecto del tratamiento.
Supongamos que en nuestro programa de capacitación laboral, los individuos que optaron por participar ya estaban más motivados y tenían mejores habilidades iniciales que aquellos que no participaron. Esto podría hacer que la diferencia en resultados no sea completamente atribuible a la capacitación.
Incluir Variables de Control: Incorporar tantas variables relevantes como sea posible en el modelo para controlar las diferencias preexistentes.
Uso de Proxies: Utilizar variables proxies para características inobservables. Por ejemplo, el resultado de una prueba de IQ podría servir como proxy para habilidades cognitivas.
Modelos de Ecuaciones Simultáneas: Para abordar la simultaneidad y la autoselección, se pueden utilizar modelos de ecuaciones simultáneas donde se modelan conjuntamente el tratamiento y el resultado.
Fórmula de Ecuaciones Simultáneas:
\[ Y_1 = \alpha_1 + \beta_1 Y_2 + \gamma_1 X + \epsilon_1 \] \[ Y_2 = \alpha_2 + \beta_2 Y_1 + \gamma_2 Z + \epsilon_2 \]
Donde \(Y_1\) y \(Y_2\) son las variables endógenas, \(X\) y \(Z\) son conjuntos de variables exógenas, y \(\epsilon_1\) y \(\epsilon_2\) son términos de error.
La omisión de variables relevantes es una fuente importante de sesgo. Especialmente en estudios no experimentales, es común que algunas variables inobservables afecten tanto la asignación al tratamiento como el resultado. Por ejemplo, en la evaluación de impacto de programas de capacitación laboral, habilidades individuales y motivaciones son variables inobservables cruciales.
Ejemplo de Omisión de Variables: Si omitimos una variable como la motivación, que influye tanto en la decisión de participar en el programa como en los resultados laborales, nuestras estimaciones del impacto del programa estarán sesgadas.
La evaluación empírica de las proposiciones teóricas económicas es otro objetivo clave en econometría. A través de métodos econométricos, podemos testear la validez de teorías económicas y sus predicciones. Esto no solo es relevante para validar teorías, sino también para informar la formulación de políticas económicas.
Ejemplo de Evaluación Empírica: Evaluar la proposición de que un aumento en el ingreso lleva a un incremento en el consumo puede hacerse estimando la propensión marginal a consumir (\(\beta_1\)) en el modelo:
\[ C = \alpha + \beta_1 Y + \epsilon \]
Donde \(C\) es el consumo, \(Y\) es el ingreso, y \(\epsilon\) es el término de error.
Aunque no es el foco principal, la predicción macroeconómica es una aplicación importante de los modelos econométricos. Predecir la evolución de agregados macroeconómicos como la inflación o el PIB es crucial para la planificación económica y la toma de decisiones de política.
Fórmula de Predicción Macroeconómica:
\[ \hat{Y}_{t+h} = \alpha + \beta X_t + \gamma Z_t + \epsilon_t \]
Donde \(\hat{Y}_{t+h}\) es el valor predicho de la variable macroeconómica \(h\) períodos en el futuro, \(X_t\) y \(Z_t\) son vectores de variables explicativas observadas en el tiempo \(t\), y \(\epsilon_t\) es el término de error.
La construcción del contrafáctico y la mitigación del sesgo son fundamentales en la evaluación de impacto. A través de métodos econométricos avanzados, podemos estimar con mayor precisión los efectos de programas de política y formular recomendaciones basadas en evidencia empírica robusta. La evaluación empírica y la predicción macroeconómica complementan este análisis, proporcionando una comprensión integral del impacto económico y la efectividad de las políticas implementadas.
Para identificar correctamente la propensión marginal a consumir (PMC), es esencial incorporar un conjunto de variables de control que permitan medir con precisión la relación causal entre el ingreso y el consumo. La investigación se centra en entender cómo cambia el consumo cuando cambia el ingreso, manteniendo constantes otros factores (ceteris paribus).
Definimos un marco teórico donde tenemos una variable endógena (consumo \(Y\)) y un conjunto de variables exógenas (\(X_1, X_2, \ldots, X_k\)). En este contexto, las variables exógenas son aquellas que determinan sistemáticamente el comportamiento de la variable endógena según la teoría económica.
El modelo econométrico estructural se puede representar como:
\[ Y_i = \beta_0 + \beta_1 X_{1i} + \beta_2 X_{2i} + \gamma Z_i + \epsilon_i \]
donde: - \(Y_i\) es el consumo del individuo \(i\). - \(X_{1i}\) es el ingreso del individuo \(i\). - \(X_{2i}\) es otra variable exógena, como la edad del jefe de hogar. - \(Z_i\) es una variable exógena adicional relevante, como el tamaño del hogar. - \(\epsilon_i\) es el término de error estructural, que comprende características inobservables que afectan al consumo de manera no sistemática.
En este modelo, los coeficientes \(\beta_1\), \(\beta_2\) y \(\gamma\) tienen una interpretación causal, dado que el error \(\epsilon_i\) es ortogonal a las variables explicativas \(X_{1i}\), \(X_{2i}\) y \(Z_i\).
El análisis de la PMC implica calcular la derivada parcial del consumo respecto al ingreso, manteniendo constantes las demás variables:
\[ \frac{\partial \mathbb{E}[Y_i|X_{1i}, X_{2i}, Z_i]}{\partial X_{1i}} = \beta_1 \]
Esta derivada parcial nos permite interpretar \(\beta_1\) como el cambio en el consumo de equilibrio debido a un cambio unitario en el ingreso, manteniendo constantes \(X_{2i}\) y \(Z_i\).
En muchos casos, la participación en un programa de política depende de la variable endógena del problema, generando simultaneidad y sesgo de autoselección. Para abordar este sesgo, se pueden emplear métodos como:
Ecuaciones Simultáneas: Modelar la variable endógena y la ecuación de selección conjuntamente:
\[ Y_i = \beta_0 + \beta_1 X_{1i} + \beta_2 X_{2i} + \gamma Z_i + \epsilon_i \] \[ D_i = \alpha_0 + \alpha_1 X_{1i} + \alpha_2 W_i + \eta_i \]
donde \(D_i\) es una variable indicadora de participación en el programa, \(W_i\) es una variable exógena adicional, y \(\eta_i\) es el término de error de la ecuación de selección.
Variables Instrumentales (VI): Utilizar instrumentos que estén correlacionados con la variable endógena pero no con el término de error. Por ejemplo, si \(Z_i\) no está disponible, podríamos usar una variable instrumental \(W_i\) que cumpla con:
\[ \mathbb{E}[W_i \cdot \epsilon_i] = 0 \] \[ Cov(W_i, X_{1i}) \neq 0 \]
En la práctica, las variables exógenas \(Z_i\) pueden ser inobservables, lo que lleva a estimar la forma reducida del modelo en lugar de la forma estructural. La forma reducida se puede expresar como:
\[ Y_i = \beta_0 + \beta_1 X_{1i} + \beta_2 X_{2i} + u_i \]
donde \(u_i\) es el nuevo término de error que captura la heterogeneidad inobservable \(Z_i\) y otras variabilidades no sistemáticas. Este modelo es estimable y permite realizar inferencias sobre la propensión marginal a consumir.
Supongamos que nos interesa conocer cómo cambia el consumo de equilibrio frente a un cambio en el ingreso:
\[ \frac{\partial \mathbb{E}[Y_i|X_{1i}, X_{2i}, Z_i]}{\partial X_{1i}} = \beta_1 \]
Aquí, \(X_{1i}\) podría representar el ingreso, \(X_{2i}\) la edad del jefe de hogar, y \(Z_i\) el tamaño del hogar. La derivada parcial \(\beta_1\) nos indica la propensión marginal a consumir, es decir, cuánto cambia el consumo de una familia por cada unidad adicional de ingreso, manteniendo constantes las demás variables.
La correcta especificación del modelo econométrico es crucial para garantizar la validez de las inferencias causales. Un modelo correctamente especificado asegura que el término de error \(\epsilon_i\) sea ruido puro, ortogonal a las variables explicativas. Esto permite atribuir cambios en la variable de resultado a variaciones exógenas en las variables explicativas, evitando la contaminación por simultaneidad o autoselección.
En econometría, la inferencia causal se basa en identificar efectos específicos de las variables explicativas sobre la variable endógena, manteniendo constante el efecto de otras variables relevantes. Los métodos de estimación incluyen:
Método de Mínimos Cuadrados Ordinarios (MCO): Se usa cuando las variables explicativas son exógenas.
\[ \hat{\beta} = (X'X)^{-1}X'Y \]
Método de Mínimos Cuadrados en Dos Etapas (MC2E): Se usa cuando hay variables endógenas y se dispone de instrumentos válidos.
Primera etapa: \[ X_{1i} = \pi_0 + \pi_1 W_i + v_i \]
Segunda etapa: \[ Y_i = \beta_0 + \beta_1 \hat{X}_{1i} + \beta_2 X_{2i} + u_i \]
La identificación y cuantificación precisa de la propensión marginal a consumir dependen de la correcta especificación del modelo econométrico y la inclusión de variables de control adecuadas. Esto garantiza que las inferencias causales sean válidas y robustas, permitiendo una mejor comprensión de las relaciones económicas subyacentes. Además, el uso de métodos avanzados como ecuaciones simultáneas y variables instrumentales puede abordar problemas de autoselección y simultaneidad, mejorando la estimación de los efectos causales.
El problema de identificación en econometría radica en la imposibilidad de observar simultáneamente los resultados de una unidad bajo tratamiento y control. Esto lleva a la necesidad de encontrar métodos que permitan inferir efectos causales a partir de datos observacionales.
\[ Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \gamma Z + u \]
\[ Y = \alpha_0 + \alpha_1 X_1 + \alpha_2 X_2 + v \]
Donde \(v = \gamma Z + u\).
Para conectar la forma reducida con la forma estructural, usamos la ley de esperanzas iteradas:
\[ E[Y|X_1, X_2] = E[E[Y|X_1, X_2, Z] | X_1, X_2] \]
Sustituyendo la forma estructural en esta ecuación, obtenemos:
\[ E[Y|X_1, X_2] = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \gamma E[Z|X_1, X_2] \]
La endogeneidad surge cuando \(E[Z|X_1, X_2] \neq 0\), lo que significa que las variables inobservables están correlacionadas con las variables observables. Esto distorsiona la estimación de los coeficientes estructurales.
Si \(E[Z|X_1, X_2] = 0\), entonces los coeficientes de la forma reducida coinciden con los coeficientes estructurales.
Si \(E[Z|X_1, X_2] \neq 0\):
\[ E[Y|X_1, X_2] = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \gamma (\delta_0 + \delta_1 X_1 + \delta_2 X_2) \]
Donde \(\delta_0\), \(\delta_1\) y \(\delta_2\) son los coeficientes de la proyección lineal de \(Z\) sobre \(X_1\) y \(X_2\).
Las variables instrumentales se utilizan para tratar la endogeneidad. Un instrumento \(Z\) debe cumplir dos condiciones: ser correlacionado con la variable endógena \(X\) y no estar correlacionado con el término de error \(u\).
Modelo con VI: \[ Y = \beta_0 + \beta_1 X + \epsilon \] \[ X = \pi_0 + \pi_1 Z + v \]
La estimación se realiza en dos etapas (2SLS): 1. Regress \(X\) on \(Z\) to get \(\hat{X}\). 2. Regress \(Y\) on \(\hat{X}\).
Un proxy es una variable que está correlacionada con la variable inobservable \(Z\) y se utiliza para desactivar la endogeneidad.
Modelo con Proxy: \[ E[Z|X_1, X_2, Proxy] = \theta_0 + \theta_1 Proxy + \theta_2 X_1 + \theta_3 X_2 \]
El método DiD se usa cuando hay datos antes y después de un tratamiento en un grupo tratado y un grupo de control:
\[ \Delta Y = (\bar{Y}_{T,post} - \bar{Y}_{T,pre}) - (\bar{Y}_{C,post} - \bar{Y}_{C,pre}) \]
PSM es una técnica para emparejar unidades tratadas y no tratadas que tienen características similares.
Modelo PSM: 1. Estimar el puntaje de propensión \(P(T=1|X)\) usando una regresión logística. 2. Emparejar unidades tratadas y no tratadas con puntajes de propensión similares. 3. Comparar los resultados entre los grupos emparejados.
La identificación y la inobservabilidad son desafíos centrales en la econometría. Utilizando técnicas avanzadas como variables instrumentales, métodos de diferencias en diferencias y emparejamiento por puntaje de propensión, los econometristas pueden abordar estos problemas y obtener estimaciones causales más precisas.
En el contexto de análisis econométrico, uno de los desafíos comunes es la inobservabilidad de ciertas variables clave. Por ejemplo, en ecuaciones salariales, en lugar de contar con datos directos sobre los años de experiencia en el mercado laboral, frecuentemente se utiliza la edad del individuo como una variable proxy.
En encuestas como la Encuesta Permanente de Hogares, es común no tener información directa sobre los años de experiencia laboral del sujeto. Sin embargo, se puede disponer de datos sobre la antigüedad en el empleo actual y la edad. La edad, a su vez, puede capturar ciertos aspectos de los años de experiencia, ya que los individuos con mayor experiencia en el mercado laboral suelen ser, en promedio, mayores. La relación entre los años de experiencia y la edad tiene un componente determinista, ya que los años de experiencia generalmente aumentan con la edad. Por lo tanto, la edad puede servir como una variable proxy de los años de experiencia.
Este enfoque es habitual en muchas ecuaciones salariales donde, en lugar de los años de experiencia, se utiliza la edad y su cuadrado para reflejar la relación de concavidad existente entre el salario y los años de experiencia.
La pregunta de investigación en una ecuación salarial a menudo se centra en el retorno a la escolaridad, es decir, el retorno anual a la escolaridad. Para medir este retorno, es crucial controlar por los años de experiencia debido a la relación inversa entre la escolaridad formal y la experiencia laboral. Los efectos directos de la escolaridad formal sobre el salario, conocido como el retorno anual a la escolaridad, necesitan ser aislados controlando adecuadamente otras variables relevantes.
Para abordar la identificación en econometría, se pueden utilizar varias estrategias, entre ellas:
Variables Instrumentales (VI): Estas se utilizan para tratar la endogeneidad. Un instrumento debe estar correlacionado con la variable endógena y no con el término de error.
Variables Proxy: Son variables correlacionadas con las variables inobservables y se usan para mitigar la endogeneidad. Un buen proxy capta los aspectos más relevantes de la heterogeneidad inobservable.
Métodos de Diferencias en Diferencias (DiD): Utilizados cuando hay datos antes y después de un tratamiento en un grupo tratado y un grupo de control.
Emparejamiento por Puntaje de Propensión (PSM): Técnica para emparejar unidades tratadas y no tratadas con características similares.
Efectos Fijos Individuales: Utilizan datos de panel para controlar por variables inobservables que no cambian a lo largo del tiempo.
En encuestas como la Encuesta Permanente de Hogares, se puede seguir sistemáticamente el mismo hogar durante un período limitado (hasta cuatro trimestres). Esta limitación implica que, aunque se puedan observar efectos a corto plazo, no siempre es posible medir adecuadamente los efectos a largo plazo de políticas o intervenciones.
En el análisis econométrico, las variables pueden ser cualitativas (binarias, nominales, ordenadas) o cuantitativas (continuas, de recuento, de duración). Cada tipo de variable requiere un enfoque específico:
La identificación y la inobservabilidad son desafíos centrales en econometría. Utilizando técnicas avanzadas como variables instrumentales, métodos de diferencias en diferencias y emparejamiento por puntaje de propensión, los econometristas pueden abordar estos problemas y obtener estimaciones causales más precisas.
Cada una de estas estrategias de identificación y estimación tiene sus ventajas y limitaciones, y su aplicación dependerá de la disponibilidad y la calidad de los datos. La correcta implementación de estas técnicas es crucial para obtener resultados robustos y confiables en el análisis econométrico.