class: center, middle # Tema 7. Error de medición ### Dr. Francisco J. Cabrera-Hernández #### EconometrÃa #### Licenciatura en EconomÃa Otoño 2025 #####CIDE Santa Fe, Ciudad de México. --- ## Outline Problemas empÃricos habituales. - **.blue[Variables proxy]** - Error de medición - Missing Values --- ## Variables proxy Usadas para variables explicativas importantes no observadas, por ejemplo: `$$log(wage) = \beta_0 + \beta_1 educ + \beta_2 exper + \beta_3 ability + e$$` Enfoque general: `$$Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \beta_3 X_3^* + e$$` Donde `\(X_3^*\)` está omitida. `$$X_3^* = \delta_0 + \delta_3 X_3 + e_3$$` Esta es la relación (no observada) de `\(X_3^*\)` con su proxy. Por lo tanto, `\(\delta_0 +\delta_3X_3\)` es lo que incluimos en nuestras estimaciones. --- ## Variables proxy Para que esto funcione, **la proxy no pertenece a la regresión poblacional:** `\(E[X_3e]=0\)` Otras variables adicionales (en la regresión poblacional) **no explican la omitida**: `$$E[X_3^*|X_1, X_2, X_3] = E[X_3^*| X_3] = \delta_0 + \delta_3 X_3$$` Bajo estos supuestos: `$$Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \beta_3 X_3^* + e$$` `$$X_3^* = \delta_0 + \delta_3 X_3 + e_3$$` `$$Y = (\beta_0 + \beta_3\delta_0) + \beta_1 X_1 + \beta_2 X_2 + (\beta_3\delta_3)X_3 + (u+\beta_3e_3)$$` **El coeficiente de la variable proxy es un múltiplo del coeficiente de la variable omitida.** --- ## Variables proxy ¿Qué pasa si queremos usar **IQ** como proxy de **"habilidad"** en una ecuación de Mincer? `$$wage = \hat\beta_0 + \hat\beta_1 education + \hat\beta_2 experience + \hat\beta_3 IQ +\mu$$` **Supuesto 1:** *deberÃa cumplirse* si el puntaje de IQ no es un determinante directo del salario. - *Lo que importa es cuán capaz es la persona para convertirlo en un salario más alto en el trabajo.* **Supuesto 2:** la mayor variación en la habilidad deberÃa explicarse por variación en IQ; - *Dejando poca variación a la educación y la experiencia* (pero probablemente no es asÃ). El IQ absorbe imperfectamente la variación de la habilidad, ayuda (poco) a reducir sesgo. --- ## Variables proxy <div class="figure" style="text-align: center"> <img src="data:image/png;base64,#iqbias.png" alt=" " width="75%" /> <p class="caption"> </p> </div> --- ## Variables proxy (lagged dependent) Uso de variables dependientes rezagadas como variables proxy: Ejemplo de tasas de crimen a nivel ciudad: `$$Crime = \beta_0 + \beta_1 unemployment + \beta_2 expenditure + \beta_3 crime_{t-1} + e$$` - Incluir el crimen pasado controla por factores omitidos que determinan la tasa de crimen cada año. - Compara ciudades con la misma tasa de crimen del año pasado. **No es la mejor práctica, ya que podrÃa haber reversión a la media** --- ## Variables proxy (lagged dependent) <div class="figure" style="text-align: center"> <img src="data:image/png;base64,#crimebias.png" alt=" " width="75%" /> <p class="caption"> </p> </div> --- ## Outline Problemas empÃricos habituales. - Variables proxy - **.blue[Error de medición]** - Missing Values --- ## Error de medición en Y **En la variable dependiente `\(Y^*\)` (verdadera no observable) ** Cumpliendo los supuestos de Gauss–Markov: `$$Y^*= \beta_0 + \beta_1X_1 + ... \beta_k X_k + \mu$$` Definimos el error de medición **en la población** como: `$$e_0 = Y - Y^*$$` `$$Y^* = Y - e_0$$` `$$Y = \beta_0 + \beta_1 X_1 + ... + \beta_k X_k + \mu + e_0$$` --- ## Error de medición en Y `$$Y = \beta_0 + \beta_1 + ... + \beta_k X_k + \mu + e_0$$` El error compuesto deberÃa tener media cero **si es independiente de cada `\(X_k\)`**. Si error independiente de cada `\(X_k\)`, OLS es insesgado y consistente. Solo cambia el intercepto (del cual no nos preocupamos la mayorÃa de las veces). `$$Var(\mu+e_0) = \sigma^2 + \sigma^2_0 > \sigma^2$$` Por lo tanto, mayor varianza del error. Menor eficiencia. --- ## Error de medición en Y <div class="figure" style="text-align: center"> <img src="data:image/png;base64,#ME_inc.png" alt=" " width="90%" /> <p class="caption"> </p> </div> --- ## Error de medición en `\(X_j\)` Error de medición en una variable explicativa: `$$Y = \beta_0 + \beta_1X_1^* + \mu \quad (1)$$` `$$X_1^* = X_1-e_1 \quad (2)$$` `$$X_1 = X_1^*+e_1 \quad (3)$$` Valor observado = Valor verdadero + Error de medición (positivo, negativo o cero) - Si: `$$E[Y|X_1,X_1^*] = E[Y|X_1^*]$$` * i.e. `\(X_1\)` no afecta luego de controlar por `\(X_1^*\)` --- ## Error de medición en `\(X_j\)` - Si reemplazamos `\(X_1^*\)` con `\(X_1\)` **Posibilidad 1:** `$$Cov(X_1,e_1)=0$$` - Sustituyendo (2) en (1): `\(Y = \beta_0 + \beta_1X_1 + (\mu - \beta_1e_1)\)` - Por lo tanto: `$$Var(\mu - \beta_1e_1) = \sigma_\mu^2 + \beta_1^2 \sigma_{e_1}^2$$` Como `\(Cov(X_1,e_1)=0\)`, **OLS es insesgado y sólo menos eficiente.** --- ## Error de medición en `\(X_j\)` (CEV) **Posibilidad 2:** El famoso: *Classic Error in Variables (CEV)*: `\(E(X_1^*e_1)=0\)`. - *i.e., El error proveniente de la medición no está correlacionado con el valor verdadero.* Sin embargo, de **ecuación (3)**, `\(X_1\)` y `\(e_1\)` deben estar correlacionados: `$$\color{green}{Cov(X_1, e_1)} = E(X_1e_1) + E(e_1^2) = 0 + \color{green}{\sigma_{e_1}^2}$$` Esto es distinto de cero y es la varianza del error de medición. --- ## Error de medición en `\(X_j\)` (CEV) Por lo tanto, hay covarianza entre error compuesto y `\(X_1\)`: `$$Y = \beta_0 + \beta_1 X_1 + (\mu - \beta_1e_1)$$` `$$Cov(x_1, \mu-\beta_1e_1) = -\beta_1\color{green}{Cov(X_1,e_1)}= -\beta_1\color{green}{\sigma^2_{e_1}}$$` **Bajo CEV, la OLS de `\(Y\)` sobre `\(X_1\)` es sesgada e inconsistente.** --- ## Error de medición (CEV) **Asintóticamente:** `$$plim(\hat\beta_1) = \beta_1 + {Cov(X_1, \mu -\beta_1 e_1) \over Var(X_1)} = \beta_1 - { \color{green}{\beta_1\sigma^2_{e_1}} \over \sigma^{2*}_{x_1} + \sigma^{2}_{e_1}}$$` `$$= \beta_1 \big( 1 - { \sigma^2_{e_1} \over \sigma^{2*}_{x_1} + \sigma^{2}_{e_1}} \big)$$` `$$= \beta_1 \Big( \frac{\sigma^{2*}_{x_1} + \sigma^{2}_{e_1}}{\sigma^{2*}_{x_1} + \sigma^{2}_{e_1}} - \frac{\sigma^2_{e_1}}{\sigma^{2*}_{x_1} + \sigma^{2}_{e_1}} \Big)$$` `$$= \beta_1 \big( { \sigma^{2*}_{x_1} \over \sigma^{2*}_{x_1} + \sigma^{2}_{e_1}} \big)$$` Este es el **sesgo por atenuación.** que será menor si `\(\sigma^{2*}_{x_1}\)` es grande *respecto a* `\(\sigma^{2}_{e_1}\)` (no observables) --- ## Error de medición (CEV) Cuando agregamos más variables explicativas: `$$Y = \beta_0 + \beta_1X_1^* + \beta_2X_2 + \beta_3X_3 + \mu$$` Asumimos que `\(e_1\)` no está correlacionado con `\(X_2\)` y `\(X_3\)`: `\(Cov(X_k,e_1)=0\)` `$$Y = \beta_0 + \beta_1X_1^* + \beta_2X_2 + \beta_3X_3 + \mu - \beta_1e_1$$` Si `\(Cov(X_k, e_1) \ne 0\)` `$$X_1 = \alpha_0 + \alpha_1X_2 + \alpha_2 X_3 + r_1^*$$` `$$plim (\hat\beta_1)= \beta_1 \big( { \sigma^{2*}_{r_1} \over \sigma^{2*}_{r_1} + \sigma^{2}_{e_1}} \big)$$` El error de medición en una sola variable causa inconsistencia en todos los estimadores si hay colinealidad entre `\(X_1, X_2, X_3\)`. --- ## Outline Problemas empÃricos habituales. - Variables proxy - Error de medición - **.blue[Missing Values]** --- ## Missing Values - Este es un caso de **selección muestral**. - La selección muestral no es un problema si es al azar (no correlacionada con el error) - Los datos faltantes son un caso de selección muestral. - Si la selección muestral se basa en las variables incluidas en la regresión, no es un problema ya que condicionamos en ellas. - La selección muestral es un problema si se correlaciona con las covariables y/o la variable dependiente **(es decir, selección muestral endógena)** --- ## Missing Values **Missing at random (MAR):** `$$savings = \beta_0 + \beta_1 income + \beta_2 age + \beta_3hhsize + \mu$$` - Si la muestra fue no aleatoria porque ciertos grupos de **edad** o **ingreso** estuvieron sobre o submuestreados. - Esto no es un problema porque la regresión examina ahorro para subgrupos definidos por edad e ingreso. - **MCAR:** Missings completamente no relacionados con `\(X_k\)` y `\(e\)`. --- ## Missing Values **Selección muestral endógena:** `$$wealth = \beta_0 + \beta_1 educ + \beta_2 experience + \beta_3age + \mu$$` - Si muestra es no aleatoria porque los individuos se rehúsan a responder si su riqueza es particularmente alta o baja. - Esto sesga los resultados de la regresión porque estos individuos pueden ser sistemáticamente diferentes. - Esto se relaciona con **sesgo por no observables.** --- ## Outliers (leverage) Si forman parte del "DGP" (Proceso Generador de datos) y asintóticamente no pierden importancia, no podemos ignorarlos. Una solución es la estimación por **MÃnimos DesvÃos Absolutos (LAD)** Minimiza la suma de los desvÃos absolutos. Estos no se elevan al cuadrado. `$$min \sum_{i=1}^n |y_i - b_0 - b_1 x_{i1} - ... - b_k x_{ik}|$$` No estima la **media** condicional, sino la **mediana** condicional. Este es un caso especial de **regresión cuantÃlica**. **Se estima con máxima verosimilitud** --- <style> .centered-word { position: absolute; top: 50%; left: 50%; transform: translate(-50%, -50%); } </style> <div class="centered-word"> <h2>The End</h2> </div>