El análisis de regresión se relaciona en gran medida con la estimación o predicción de la media (de la población) o valor promedio de la variable depen- diente, con base en los valores conocidos o fi jos de las variables explicativas.
Revisitando los datos de Galton. Sabemos que la altura de los hijos tiende a regresar a la media poblacinal pero que padres más altos tienden a tener hijos más altos y lo opuesto. Es decir que la estatura esperada de los hijos variará condicionadamente a la de los padres y que mediante regresion podemos modelar el valor esperado de la altura de los hijos condicionado a la altura de los padres.
Esto se representa en la siguiente gráfica mediante los cuadrados azules, que son las estaturas promedio de los hijos condicionadas por las de los padres (se calcula pa estatura promedio para cada “columna”).
Si quisieramos pronosticar la estatura esperada de un hijo es claro que usaríamos la media incondicional, pero si queremos calcular la altura esperada de una persona cuyos padres miden 64 pulgadas emplearemos su media condicional.
Así, desde el punto de vista geométrico, una curva de regresión poblacional es tan sólo el lugar geométrico de las medias condicionales de la variable dependiente para los valores fijos de la(s) variable(s) explicativa(s).
Al igual que haciamos la diferenciación entre parámetro (valor que toma la variable de interés al calcularlo en la población ) y estadístico/estimado (como el valor que toma la variable de interés en una muestra). Vimos que es estadístico cambia entre las multiples muestras posibles y que, en consecuencia tiene una distribución.
EN la realidad solo podemos acceder a una muestra de la población, por lo cual es importante que dicha muestra tenga las mejores propiedades posibles.
En los modelos de regresión sucede algo similar, los parámetros estimados dependeran de la muestra, por lo cual cada uno tendra su distribución sobre la cual recaerá la inferencia.
\[Yi = E(Y | X_i ) + ui\]
Si suponemos que \(E(Y | Xi)\) es lineal en \(X_i\)
\[Yi = E(Y | Xi ) + u_i\]
\[Y_i = β_1 + β_2X_i + u_i\]
Ahora, si tomamos el valor esperado de en ambos lados, obtenemos
\[E(Yi | Xi ) = E[E(Y | Xi )] + E(ui | Xi ) \] \[E(Yi | Xi ) =E(Y | Xi ) + E(ui | Xi )\]
Como \(E(Y_i | X_i)\) es lo mismo que \(E(Y | Xi)\), la ecuación anterior implica que \(E(ui | Xi ) = 0\)
El supuesto de que la línea de regresión pasa a través de las medias condicionales de Y implica que los valores de la media condicional de \(u_i\) (condicionados al valor dado de X) son cero.
el término de perturbación \(u_i\) es un sustituto de todas las variables que se omiten en el modelo, pero que, en conjunto, afectan a Y. La pregunta obvia es: ¿por qué no se introducen explícitamente estas variables en el modelo?Las razones son muchas.
Vaguedad de la teoría: De existir una teoría que determine el comportamiento de Y, podría estar incompleta, y con frecuencia lo está.
Falta de disponibilidad de datos: Aunque se conozcan algunas variables excluidas y se considerara por tanto una regresión múltiple en lugar de una simple, tal vez no se cuente con información cuantitativa sobre esas variables. Es común en el análisis empírico que no se disponga de los datos que idealmente se desearía tener.
Aleatoriedad intrínseca en el comportamiento humano.
Variables representantes (proxy) inadecuadas.
Principio de parsimonia: De acuerdo con el principio de la navaja de Ockam, conviene mantener el modelo de regresión lo más sencillo posible. Si se explica “sustancialmente” el comportamiento de Y con dos o tres variables explicativas, y si la teoría no es bastante fuerte para indicar otras variables que pueden incluirse, ¿para qué introducir más variables? Que \(u_i\) represente todas las demás variables.
Forma funcional incorrecta: Aunque se cuente con variables teóricamente correctas para explicar un fenómeno y se obtengan datos sobre ellas, con frecuencia no se conoce la forma de la relación funcional entre la variable regresada y las regresoras.
Un estimador, conocido también como estadístico (muestral), no es más que una regla, fórmula o método para estimar el parámetro poblacional a partir de la información suministrada por la muestra. Un valor numérico particular obtenido por el estimador en un análisis se conoce como estimación.
Cabe señalar que un estimador es aleatorio, pero una estimación no. (¿Por qué?)
El objetivo principal del análisis de regresión es estimar la FRP con base en la FRM
\[Yi = β1 + β2X_i + ui\]
\[Y_i = \hatβ_1 + \hatβx_i + \hat u_i\]
El primer significado, y tal vez el más “natural”, de linealidad es aquel en que la esperanza condicional de \(Y\) es una función lineal de \(X_i\), como en la ecuación \(E(Y | X_i ) = β_1 + β_2X\). Geométricamente, la curva de regresión en este caso es una recta. En esta interpretación, una función de regresión como \(E(Y | X_i ) = β_1 + β_2X^2\) no es una función lineal porque la variable \(X\) aparece elevada a una potencia de 2.
La segunda interpretación de linealidad se presenta cuando la esperanza condicional de Y, acuerdo con esta interpretación, \(E(Y|X_i)\), es una función lineal de los parámetros, los \(\beta\); puede ser o no lineal en la variable \(X\).
Se dice que una función es lineal en el parámetro, digamos \(\beta\), si \(\beta\) aparece elevado a una potencia de 1 solamente y no está multiplicado ni dividido por ningún otro parámetro (por ejemplo, \(\beta_1\beta_2\), \(\beta_1/\beta_2\), …).
De acuerdo con esta interpretación \(E(Y|X_i) = β_1 + β_2X^2\) es un modelo de regresión lineal (en el parámetro). Para ver lo anterior, supongamos que \(X\) tiene un valor de 3. Por tanto, \(E(Y | X = 3) = β_1 + 9β_2\), ecuación a todas luces lineal en \(β_1\) y \(β_2\)
Así, \(E(Y|X_i) = β_1 + β_2^2X^2\) no será lineal en los parámetros.
En adelante nos ocuparemos de modelos lineales en los parámetros!
El método de minimos cuadrados permite obtener estimaciones de \(\beta_1\) y \(\beta_2\), pero el objetivo de la regresión es inferir que tancerca estàn \(\hat\beta_1\) y \(\hat\beta_2\) de sus verdados valores.
Para esto no solo es necesario saber la forma funcional de \(Y_i = \hatβ_1 + \hatβx_i + \hat u_i\) sino hacer algunos supuestos de como se genera. De la ecuación anterior sabemos que \(Y_i\) depende de \(x_i\) y \(u_i\), por lo cual, mientras no se especifique la forma en la que se generan \(x_i\) y \(u_i\) no podremos concluir sobre \(y_i\) ni sobre \(\beta_1\) y \(\beta_2\)
los supuestos sobre la(s) variable(s) \(X_i\) y el término de error son relevantes para lograr una interpretación válida de los valores estimados de la regresión
Modelo de regresión lineal: El modelo de regresión es lineal en los parámetros, aunque puede o no ser lineal en las variables. Es decir, el modelo de regresión como se muestra en la ecuación.
\[cov(X_i, u_i) = 0\] La información contenida en las \(X_i\) no esta contenida en el término de error.
Dado el valor de \(X_i\), la media o el valor esperado del término de perturbación aleatoria \(u_i\) es cero. Simbólicamente,
\[E(u_i|X_i) = 0\]
implica que no hay sesgo de especificación o error de especificación en el modelo del análisis empírico. En otras palabras, el modelo de regresión está especificado correctamente.
La varianza del término de error, o de perturbación, es la misma sin importar el valor de X. \[var (ui) = E[ui − E(ui|Xi)]^2 \]
\[= E(u^2_i |X_i)\], por el supuesto 3
\[= E(u^2_i)\] \[= σ^2\]
Dados dos valores cualesquiera de \(X\), \(X_i\) y \(X_j\) (\(i\ne j\) ), la correlación entre dos \(u_i\) y \(u_j\) cualesquiera es cero. En pocas palabras, estas observaciones se muestrean de manera independiente.
\(cov(u_i, u_j) = 0\) donde \(i\) y \(j\) son dos observaciones diferentes y cov signifi ca covarianza.
Así mismo, el número de observaciones n debe ser mayor que el número de variables explicativas
No todos los valores X en una muestra determinada deben ser iguales. Técnicamente, var(X) debe ser un número mayor que cero. Además, no puede haber valores atípicos de la variable X, es decir, valores muy grandes en relación con el resto de las observaciones.
Las estimaciones de mínimos cuadrados son función de los datos muestrales. Es decir cambiarán entre una muestra y otra. En consecuencia, se requiere alguna medida de “confiabilidad” o precisión de los estimadores \(\hat\beta_1\) y \(\hat\beta_2\)
\(var(\hat\beta_2)=\frac{\sigma^2}{\sum x_i^2}\)
\(var(\hat\beta_1)=\frac{\sum X_i^2}{n \sum x_i^2}\sigma^2\)
Propiedad del mejor estimador lineal insesgado
Dados los supuestos del modelo clásico de regresión lineal, los estimadores de mínimos cuadrados, dentro de la clase de estimadores lineales insesgados, tienen varianza mínima, es decir, son MELI.
Gujarati, D. N., & Porter, D. C. (2011). Econometria Básica-5. Amgh Editora.