Regresión lineal múltiple
Universidad Tecnológica de Bolivar
6/8/23
La regresión lineal mútiple es la gran técnica estadística para comprobar hipótesis y relaciones explicativas. Ante de empezar, una serie de condiciones que se deben cumplir para poder aplicar la regresión lineal múltiple:
Este término hace referencia a que el mejor modelo es aquel capaz de explicar con mayor precisión la variabilidad observada en la variable respuesta empleando el menor número de predictores, por lo tanto, con menos asunciones.
Dado un conjunto de datos \(\displaystyle \{y_i,x_{i1},\ldots ,x_{ip}\}_{i=1}^{n}\)
la relación entre la variable dependiente \(y_i\) y el vector \(\boldsymbol{x}_i\) de \(p\) regresores es lineal.
Esta relación se debe modelar la variable de error: \(\varepsilon_i \stackrel{i.i.d}{\sim} N(0, \sigma^2)\)
(Nota: i.i.d. significa independiente e identicamente distribuidos),
La ecuaci??n \(\boldsymbol{y} = \boldsymbol{X}\boldsymbol{\beta} + \boldsymbol{\varepsilon}\), toma la forma expandida:
\[ \boldsymbol{y} \underbrace{\begin{bmatrix} y_1 \\ y_2 \\ \vdots \\ y_n \end{bmatrix}}_{\boldsymbol{y}} = \underbrace{\begin{bmatrix}1&x_{11}&\cdots &x_{1p}\\1&x_{21}&\cdots &x_{2p}\\\vdots &\vdots &\ddots &\vdots \\1&x_{n1}&\cdots &x_{np}\end{bmatrix}}_{\boldsymbol{X}} \underbrace{ \begin{bmatrix}\beta_{0}\\\beta_{1}\\\beta_{2}\\\vdots \\\beta_{p}\end{bmatrix}}_{\boldsymbol{\beta}} + \underbrace{\begin{bmatrix} \varepsilon_1 \\ \varepsilon_2 \\ \vdots \\ \varepsilon_n \end{bmatrix}}_{\boldsymbol{\varepsilon}} = \boldsymbol{X}\boldsymbol{\beta} + \boldsymbol{\varepsilon} \]
De forma análoga al modelo de regresión lineal simple; no obstante, ahora tendremos \(p\) coeficientes que son:
\[\beta_0, \beta_1, \beta_2, \dots , \beta_p\] Correspondientes al intercepto y a cada variable \(X_i\) respectivamente.
El estimador MC (LS “least squares”) para (), tiene las siguientes propiedades:
\(\hat{\boldsymbol{\beta}}\) es insesgado, o sea \(E(\hat{\boldsymbol{\beta}}) = \boldsymbol{\beta}\).
\(Var(\hat{\boldsymbol{\beta}})=\sigma^2(\boldsymbol{X}'\boldsymbol{X})^{-1}\).
Si , entonces el estimador de mínimos cuadrados MC, \(\hat{\boldsymbol{\beta}}\) es el mejor estimador dentro de los estimadores lineales insesgados de \(\boldsymbol{\beta}\).
Si , entonces \(\hat{\boldsymbol{\beta}}\) es el mejor estimador entre todos los estimadores insesgados de \(\boldsymbol{\beta}\).
Recordemos que cuando tenemos solo una variable predictora, entonces el estimador de la varianza de los errores es:
\[S^2_R=\frac{\sum_{i=1}^{n}e^2_i}{n-1-1}=\frac{\sum_{i=1}^{n}(y_i-\hat{y}_i)^2}{n-2}\]
Pero ahora tenemos \(p\) variables predictoras, por lo tanto, el estimador enn forma matricial es:
\[ s^2 = \displaystyle \frac{SSE}{n-p-1} = \frac{\sum_{i=1}^n e^2_i}{n-p-1}= \frac{\boldsymbol{e}'\boldsymbol{e}}{n-p-1}= \frac{(\boldsymbol{y} - \boldsymbol{X} \boldsymbol{\beta})' (\boldsymbol{y} - \boldsymbol{X}\beta) }{n-p-1} \]
\[R_a^{2}=1-(1-R^2)\left[\frac{n-1}{n-k-1}\right]\]
Donde \(R^2\) es el coeficiente de determinación y \(k\) es el número de variables independientes.
Recordemos que el modelo matricial de regresión múltiple \(\boldsymbol{y} = \boldsymbol{X}\boldsymbol{\beta} + \boldsymbol{\varepsilon}\), podemos escribirlo para cada \(y_i\), así,
\[ y_i=\beta_{0}+\beta_{1}x_{i1}+\cdots +\beta_{ip}x_{ip}+\varepsilon_i \]
El estimado del coeficiente de regresión lineal \(\beta_j\), para \(j=1,2,\dots, p\), se representará por \(\hat{\beta}_j\).
\(\hat{\beta}_j\) indica el cambio promedio en la variable de respuesta \(Y\) cuando la variable predictora \(X_j\) cambia en una unidad adicional asumiendo que las otras variables predictoras permanecen constantes.
Sean las variables predictoras altura(cm) y edad(años) vs. la variable respuesta peso (kg). Interprete el siguiente modelo. \[ \widehat{peso}=-0.7 + 1.3 \times altura + 0.4 \times edad \]
Dentro de los métodos de inferencia, se encuentran:
Pruebas de hipótesis eintervalos de confianza acerca de los coeficientes del modelo de regresión poblacional.
Intervalos de confianza de las predicciones que se hacen con el modelo.
Suponemos que \(\varepsilon_i \stackrel{i.i.d}{\sim} N(0,\sigma^2 \boldsymbol{I}_n)\)
Prueba de hipótesis donde cada coeficiente individual es cero.
\[\begin{align*} H_0:&\beta_j =0 \\ H_1:&\beta_j \neq 0 \end{align*}\]La prueba estadística es la \(t-student\), se obtiene con summary del modelo.
La prueba estadística es la \(F\) de Fisher, se obtiene con summary del modelo.
Prueba de hipótesis de que todos los coeficientes son ceros
\[\begin{align*} H_0: &\beta_0 = \beta_1= \dots= \beta_p =0 \\ H_1:& \beta_j \neq 0, \hspace{.5cm} \text{para alguna } \beta_j \end{align*}\]La prueba estadística es la \(F\), que se obtiene de la tabla anova del modelo.
\[ {\displaystyle F_0=\frac{\frac{SSR}{p}}{\frac{SSE}{n-p-1}}= \frac{MSR}{MSE} \sim F_{(gl_{num}=p,\ gl_{den} = n-p-1)}} \]
| Fuentes de Variación | Grados de Libertad | Suma de Cuadrados | Cuadrados Medios | F |
|---|---|---|---|---|
| Debido a la regresión | \(p\) | \(SSR\) | \(MSR=\frac{SSR}{p}\) | \(\frac{MSR}{MSE}\) |
| Debido al Error | \(n-p-1\) | \(SSE\) | \(MSE=\frac{SSE}{n-p-1}\) | |
| Total | \(n-1\) | \(SST\) |
La decisión de aceptar o rechazar \(H_0\) se va a tomar en base al estadístico \(F\), que se obtiene a partir de este análisis de la varianza:
\[ \frac{MSR}{MSE}=\frac{\frac{SSR}{p}}{\frac{SSE}{n-p-1}} \]
Este estadístico tiene una distribución \(F_{(p,n-p-1)}\) (bajo \(H_0\)) y por lo tanto, la regla de decisión es de la siguiente forma: Rechazamos \(H_0\), al nivel de significación \(\alpha\), cuando
\[ F=\frac{\frac{SSR}{p}}{\frac{SSE}{n-p-1}}>F_{(\alpha, gl_{num}=p, gl_{den}=n-p-1)} \]
De forma similar a la regresión lineal simple, se desea predecir el valor medio de la variable de respuesta \(Y\) para una combinación predeterminada de las variables predictoras \(\boldsymbol{X}_1, \boldsymbol{X}_2, \dots, \boldsymbol{X}_p\).
Consideremos el vector de valores observados \(\boldsymbol{x}'_0 = (1, x_{01}, x_{02}, \cdots, x_{0p})\)
El valor predicho para el valor medio de la variable de respuesta \(Y\), será
\[\hat{y}_0 = \boldsymbol{x}'_0\hat{\boldsymbol{\beta}} =\hat{\beta}_0 + \hat{\beta}_1 x_{01}+ \hat{\beta}_1 x_{02} + \cdots + \hat{\beta}_p x_{0p}\]
y la varianza de \(\hat{y}_0\)
\[Var(\hat{y}_0)= \boldsymbol{x}'_0 Var(\hat{\boldsymbol{\beta}})\boldsymbol{x}_0 =\sigma^2\boldsymbol{x}'_0(\boldsymbol{X}'\boldsymbol{X})^{-1}\boldsymbol{x}_0\]
por lo tanto, la varianza estimada de \(\hat{y}_0\), será
\[\widehat{Var}(\hat{y}_0)= \boldsymbol{x}'_0 \widehat{Var}(\hat{\boldsymbol{\beta}})\boldsymbol{x}_0 =s^2\boldsymbol{x}'_0(\boldsymbol{X}'\boldsymbol{X})^{-1}\boldsymbol{x}_0\]
Un intervalo de confianza del \(100(1-\alpha)\%\) para el valor medio de las \(Y\), dado \(\boldsymbol{x}=\boldsymbol{x}'_0\). Es decir, para \[E[y|\boldsymbol{x}'_0=(x_{01}, x_{02}, \cdots, x_{0p})]\] es de la forma \[\hat{y}_0 \pm t_{(\frac{\alpha}{2},n-p-1)} s\sqrt{\boldsymbol{x}'_0(\boldsymbol{X}'\boldsymbol{X})^{-1}\boldsymbol{x}_0}\]
Un intervalo de confianza (intervalo de predicción) del \(100(1-\alpha)\%\) para el valor individual de las \(Y\), dado \(\boldsymbol{x}=\boldsymbol{x}'_0\).
Es decir, para
\[y_i|\boldsymbol{x}'_0=(x_{01}, x_{02}, \cdots, x_{0p})\]
es de la forma
\[\hat{y}_0 \pm t_{(\frac{\alpha}{2},n-p-1)} s\sqrt{1 + \boldsymbol{x}'_0(\boldsymbol{X}'\boldsymbol{X})^{-1}\boldsymbol{x}_0}\]
El procedimiento comienza construyendo el modelo con todas las predictoras y en cada paso se elimina una variable. La secuencia del procedimiento es la siguiente. Se define un nivel de significación fijo \(\alpha\).
Si hay una alta multicolinealidad en el conjunto de los \(p\) predictores, este procedimiento no es muy recomendable.
Es una modificación del procedimiento forward que elimina una variable en el modelo si ésta pierde significación cuando se agregan otras variables.
La aproximación es la misma que la selección forward excepto que a cada paso, después de incorporar una variable, el procedimiento elimina del modelo las variables que ya no tienen contribución parcial significativa.
Una variable que entró en el modelo en una etapa, puede eventualmente, ser eliminada en un paso posterior.
En este caso será necesario definir un punto de corte para que ingrese una variable \(\alpha_I\) y otro para eliminarla del modelo \(\alpha_E\).
Uno puede desear ser menos exigente (mayor \(p-valor\)) en el punto de corte para que una variable salga del modelo una vez que ingresó, o usar el mismo valor para ambos.
Un estudio quiere generar un modelo que permita predecir la esperanza de vida media de los habitantes de una ciudad en función de diferentes variables. Se dispone de información sobre: habitantes, analfabetismo, ingresos, esperanza de vida, asesinatos, universitarios, heladas, área y densidad poblacional.
| hab. | ingre. | analf. | esp_vida | ases. | univers. | heladas | area | dens_pobl |
|---|---|---|---|---|---|---|---|---|
| 3615 | 3624 | 2.1 | 69.05 | 15.1 | 41.3 | 20 | 50708 | 71.29 |
| 365 | 6315 | 1.5 | 69.31 | 11.3 | 66.7 | 152 | 566432 | 0.64 |
| 2212 | 4530 | 1.8 | 70.55 | 7.8 | 58.1 | 15 | 113417 | 19.50 |
| 2110 | 3378 | 1.9 | 70.66 | 10.1 | 39.9 | 65 | 51945 | 40.61 |
| 21198 | 5114 | 1.1 | 71.71 | 10.3 | 62.6 | 20 | 156361 | 135.57 |
| 2541 | 4884 | 0.7 | 72.06 | 6.8 | 63.9 | 166 | 103766 | 24.48 |