Uno de los aspectos fundamentales en el análisis econométrico es la regresión lineal, la cual permite establecer una relación entre una variable dependiente y una o varias variables independientes.
La utilización de R resulta especialmente valiosa en este ámbito, ya que proporciona un amplio conjunto de herramientas que facilitan este tipo de análisis.
En la siguiente sesión, se profundizará en la teoría relacionada con el análisis de regresión lineal, utilizando R como la herramienta principal.
La regresión es una técnica estadística cuyo objetivo es encontrar una relación numérica entre dos variables. Este método busca identificar los parámetros que explican dicha relación de manera cuantitativa.
En el caso de la regresión lineal simple, se utiliza únicamente una variable independiente, lo que implica que el modelo a estimar cuenta con dos parámetros. La fórmula general es:
\[ y = \beta_0 + \beta_1 x + \epsilon_i \]
Donde:
- \(y\) representa la variable
dependiente.
- \(\beta_0\) es el
intercepto o término constante.
- \(\beta_1\) es el coeficiente
de pendiente, que indica el cambio en \(y\) por una unidad de cambio en \(x\).
- \(\epsilon_i\) es el término
de error o residuo, que capta las diferencias no explicadas por
el modelo.
Nota: La regresión lineal simple es la base para modelos más complejos, donde se incorporan múltiples variables independientes.
Dado el modelo de regresión lineal simple presentado anteriormente, la esperanza del valor de \(y\) se expresa de la siguiente manera:
\[ E(y) = \hat{y} = E(\beta_0) + E(\beta_1 x) + E(\epsilon_i) \]
Donde:
- \(E(y)\) representa la
esperanza matemática de la variable dependiente \(y\).
- \(\hat{y}\) es el valor
estimado de \(y\).
- \(E(\beta_0)\) es la esperanza del
intercepto o término constante.
- \(E(\beta_1 x)\) corresponde a la
esperanza del producto entre el coeficiente de
pendiente y la variable independiente \(x\).
- \(E(\epsilon_i)\) es la esperanza del
término de error, que en modelos lineales se asume
igual a cero.
Nota: La esperanza del término de error \(E(\epsilon_i)\) es cero bajo el supuesto de que los errores tienen media cero y son independientes del valor de \(x\).
## ✍️ Demostración de los Coeficientes de la Regresión Lineal Simple
La ecuación general de la regresión lineal simple es:
\[ y_i = \beta_0 + \beta_1 x_i + \epsilon_i \]
Donde:
- \(y_i\) es el valor
observado de la variable dependiente.
- \(x_i\) es el valor
observado de la variable independiente.
- \(\beta_0\) es el
intercepto o término constante.
- \(\beta_1\) es la
pendiente de la línea de regresión.
- \(\epsilon_i\) es el término
de error.
Nuestro objetivo es encontrar los estimadores \(\hat{\beta_0}\) y \(\hat{\beta_1}\) mediante el método de mínimos cuadrados, que minimiza la suma de los errores cuadrados:
\[ S = \sum_{i=1}^{n} (y_i - \hat{\beta_0} - \hat{\beta_1} x_i)^2 \]
\[ \frac{\partial S}{\partial \hat{\beta_0}} = -2 \sum_{i=1}^{n}(y_i - \hat{\beta_0} - \hat{\beta_1}x_i) = 0 \]
\[ \sum_{i=1}^{n} y_i = n \hat{\beta_0} + \hat{\beta_1} \sum_{i=1}^{n} x_i \quad \rightarrow (1) \]
\[ \frac{\partial S}{\partial \hat{\beta_1}} = -2 \sum_{i=1}^{n} x_i (y_i - \hat{\beta_0} - \hat{\beta_1}x_i) = 0 \]
\[ \sum_{i=1}^{n} x_i y_i = \hat{\beta_0} \sum_{i=1}^{n} x_i + \hat{\beta_1} \sum_{i=1}^{n} x_i^2 \quad \rightarrow (2) \]
\[ \sum y_i = n \hat{\beta_0} + \hat{\beta_1} \sum x_i \]
\[ \sum x_i y_i = \hat{\beta_0} \sum x_i + \hat{\beta_1} \sum x_i^2 \]
Dividimos entre \(n\) para trabajar con promedios:
\[ \bar{y} = \hat{\beta_0} + \hat{\beta_1} \bar{x} \]
\[ \hat{\beta_0} = \bar{y} - \hat{\beta_1} \bar{x} \]
\[ \hat{\beta_1} = \frac{\sum (x_i - \bar{x})(y_i - \bar{y})}{\sum (x_i - \bar{x})^2} \]
\[ \boxed{\hat{\beta_1} = \frac{\sum (x_i - \bar{x})(y_i - \bar{y})}{\sum (x_i - \bar{x})^2}} \]
\[ \boxed{\hat{\beta_0} = \bar{y} - \hat{\beta_1} \bar{x}} \]