Inteligencia Analítica de Datos con R

Regresión lineal múltiple

Msc. Roberto Trespalacios

Universidad Tecnológica de Bolivar

6/8/23

Regresión lineal mútiple

La regresión lineal mútiple es la gran técnica estadística para comprobar hipótesis y relaciones explicativas. Ante de empezar, una serie de condiciones que se deben cumplir para poder aplicar la regresión lineal múltiple:

  • La variable dependiente (resultado) debe ser escalar (numérica) o bien ordinal de más de 5 categorís, es decir, las categorías de la variable dependiente deben tener un orden interno o jerarquía, por ejemplo, nivel de ingresos, peso, número de hijos, justificación del aborto en una escala de 1-nunca a 10-siempre.
  • Las variables independientes (explicaciones) deben ser escalares (numérica), ordinales (también se recomienda con más de 5 categorías, p.ej. nivel de ingresos) o dummy (variables de dos categorías donde una indica existencia o otra no-existencia, p.ej. 1-ser soltero, 0-no ser soltero).
  • Hay otras condiciones como: las variables independientes no puede estar altamente correlacionadas entre sí, las relaciones entre las variable independientes y la variable dependiente deben ser lineales, todas variables (o mejor dicho sus residuales) deben seguir la distribución normal y deben tener varianzas iguales. Estas condiciones son importantes pero hay maneras de tratar los datos si se incumple alguna de ellas. Sobre ello volveremos en futuras entradas.

Objetivos

  • Ajustar modelos de regresión lineal simple y múltiple estimando los valores de sus parámetros
  • Obtener información adicional sobre los modelos de regresión (contrastes de significacia de los parámetros, test de bondad de ajuste,…)
  • Contrastar las hipótesis del modelo de regresión lineal
  • Ajustar un modelo de regresión cuadrático
  • Estudiar la correlación entre variables.

Modelo parsimonioso

Este término hace referencia a que el mejor modelo es aquel capaz de explicar con mayor precisión la variabilidad observada en la variable respuesta empleando el menor número de predictores, por lo tanto, con menos asunciones.

Relación lineal entre los predictores numéricos y la variable respuesta

  • Cada predictor numérico tiene que estar linealmente relacionado con la variable respuesta Y mientras los demás predictores se mantienen constantes, de lo contrario no se puede introducir en el modelo.
  • La forma más recomendable de comprobarlo es representando los residuos del modelo frente a cada uno de los predictores. Si la relación es lineal, los residuos se distribuyen de forma aleatoria entorno a cero.
  • Estos análisis son solo aproximados, ya que no hay forma de saber si realmente la relación es lineal cuando el resto de predictores se mantienen constantes.

Supuestos

Distribución normal de los residuos

  • Los residuos se deben distribuir de forma normal con media cero.
  • Para comprobarlo se recurre a histogramas, a los cuantiles normales o a test de hipótesis de normalidad.

Variabilidad constante de los residuos (homocedasticidad)

  • La varianza de los residuos debe de ser constante en todo el rango de observaciones. Para comprobarlo se representan los residuos.
  • Si la varianza es constante, se distribuyen de forma aleatoria manteniendo una misma dispersión y sin ningún patrón específico.
  • También se puede recurrir a contrastes de homocedasticidad como el test de Breusch-Pagan.

No autocorrelación (Independencia)

  • Los valores de cada observación son independientes de los otros, esto es especialmente importante de comprobar cuando se trabaja con mediciones temporales.
  • Se recomienda representar los residuos ordenados acorde al tiempo de registro de las observaciones, si existe un cierto patrón hay indicios de autocorrelación.
  • También se puede emplear el test de hipótesis de Durbin-Watson.

Valores atípicos, con alto leverage o influyentes

  • Es importante identificar observaciones que sean atípicas o que puedan estar influenciando al modelo.
  • La forma más fácil de detectarlas es a través de los residuos.

Modelo lineal clásico y regresión lineal múltiple

Aspectos teóricos

  • Dado un conjunto de datos \(\displaystyle \{y_i,x_{i1},\ldots ,x_{ip}\}_{i=1}^{n}\)

  • la relación entre la variable dependiente \(y_i\) y el vector \(\boldsymbol{x}_i\) de \(p\) regresores es lineal.

  • Esta relación se debe modelar la variable de error: \(\varepsilon_i \stackrel{i.i.d}{\sim} N(0, \sigma^2)\)

(Nota: i.i.d. significa independiente e identicamente distribuidos),

Regresión lineal múltiple - aspectos teóricos

\[\begin{align*} y_i&=\beta_{0}1+\beta_1 x_{i1}+\cdots +\beta_p x_{ip}+\varepsilon_i\\ &= \boldsymbol{x}_i'{\boldsymbol{\beta} }+\varepsilon_i,\qquad i=1,\ldots ,n, \end{align*}\]

La ecuaci??n \(\boldsymbol{y} = \boldsymbol{X}\boldsymbol{\beta} + \boldsymbol{\varepsilon}\), toma la forma expandida:

\[ \boldsymbol{y} \underbrace{\begin{bmatrix} y_1 \\ y_2 \\ \vdots \\ y_n \end{bmatrix}}_{\boldsymbol{y}} = \underbrace{\begin{bmatrix}1&x_{11}&\cdots &x_{1p}\\1&x_{21}&\cdots &x_{2p}\\\vdots &\vdots &\ddots &\vdots \\1&x_{n1}&\cdots &x_{np}\end{bmatrix}}_{\boldsymbol{X}} \underbrace{ \begin{bmatrix}\beta_{0}\\\beta_{1}\\\beta_{2}\\\vdots \\\beta_{p}\end{bmatrix}}_{\boldsymbol{\beta}} + \underbrace{\begin{bmatrix} \varepsilon_1 \\ \varepsilon_2 \\ \vdots \\ \varepsilon_n \end{bmatrix}}_{\boldsymbol{\varepsilon}} = \boldsymbol{X}\boldsymbol{\beta} + \boldsymbol{\varepsilon} \]

  • \(E(y_i|\boldsymbol{x}_i)=\boldsymbol{x}_i'\boldsymbol{\beta}\) (media cero)
  • \(Var(y_i|\boldsymbol{x}_i)=\sigma^2\) (vatianza constante)
  • \(y_i|\boldsymbol{x}_i \stackrel{ind}{\sim} N(\boldsymbol{x}'_i\boldsymbol{\beta}, \sigma^2)\) (independencia de los errores)

Modelo de regresión múltiple - Estimación de los coeficientes

De forma análoga al modelo de regresión lineal simple; no obstante, ahora tendremos \(p\) coeficientes que son:

\[\beta_0, \beta_1, \beta_2, \dots , \beta_p\] Correspondientes al intercepto y a cada variable \(X_i\) respectivamente.

Propiedades del estimador de mC-nimos cuadrados

El estimador MC (LS “least squares”) para (), tiene las siguientes propiedades:

  • \(\hat{\boldsymbol{\beta}}\) es insesgado, o sea \(E(\hat{\boldsymbol{\beta}}) = \boldsymbol{\beta}\).

  • \(Var(\hat{\boldsymbol{\beta}})=\sigma^2(\boldsymbol{X}'\boldsymbol{X})^{-1}\).

  • Si , entonces el estimador de mínimos cuadrados MC, \(\hat{\boldsymbol{\beta}}\) es el mejor estimador dentro de los estimadores lineales insesgados de \(\boldsymbol{\beta}\).

  • Si , entonces \(\hat{\boldsymbol{\beta}}\) es el mejor estimador entre todos los estimadores insesgados de \(\boldsymbol{\beta}\).

Estimación de la varianza de los errores

Recordemos que cuando tenemos solo una variable predictora, entonces el estimador de la varianza de los errores es:

\[S^2_R=\frac{\sum_{i=1}^{n}e^2_i}{n-1-1}=\frac{\sum_{i=1}^{n}(y_i-\hat{y}_i)^2}{n-2}\]

Pero ahora tenemos \(p\) variables predictoras, por lo tanto, el estimador enn forma matricial es:

\[ s^2 = \displaystyle \frac{SSE}{n-p-1} = \frac{\sum_{i=1}^n e^2_i}{n-p-1}= \frac{\boldsymbol{e}'\boldsymbol{e}}{n-p-1}= \frac{(\boldsymbol{y} - \boldsymbol{X} \boldsymbol{\beta})' (\boldsymbol{y} - \boldsymbol{X}\beta) }{n-p-1} \]

Regresión lineal múltiple - Estimación del \(R\) cuadrado ajustado (\(R_a^{2}\))

  • El coeficiente de determinación ajustado o \(R_a^{2}\), es la medida que soluciona los problemas que presenta el coeficiente de determinación.
  • Este coeficiente es la medida que define el porcentaje explicado por la varianza de la regresión de acuerdo con la varianza experimentada por las variables aplicadas.

\[R_a^{2}=1-(1-R^2)\left[\frac{n-1}{n-k-1}\right]\]

Donde \(R^2\) es el coeficiente de determinación y \(k\) es el número de variables independientes.

Observaciones

  • El uso de este coeficiente se justifica en que a medida que añadimos variables a una regresión, el coeficiente de determinación sin ajustar tiende a aumentar.
  • Incluso cuando la contribución marginal de cada una de las nuevas variables añadidas no tiene relevancia estadística.
  • Al añadir variables al modelo, el coeficiente de determinación podrá aumentar y podríamos pensar, de manera errónea, que el conjunto de variables elegido es capaz de explicar una mayor parte de la variación de la variable independiente.
  • A este problema se le conoce comúnmente como “sobreestimación del modelo”.

Interpretación del coeficiente de regresión estimado \(\beta_j\)

Recordemos que el modelo matricial de regresión múltiple \(\boldsymbol{y} = \boldsymbol{X}\boldsymbol{\beta} + \boldsymbol{\varepsilon}\), podemos escribirlo para cada \(y_i\), así,

\[ y_i=\beta_{0}+\beta_{1}x_{i1}+\cdots +\beta_{ip}x_{ip}+\varepsilon_i \]

Observaciones

  • El estimado del coeficiente de regresión lineal \(\beta_j\), para \(j=1,2,\dots, p\), se representará por \(\hat{\beta}_j\).

  • \(\hat{\beta}_j\) indica el cambio promedio en la variable de respuesta \(Y\) cuando la variable predictora \(X_j\) cambia en una unidad adicional asumiendo que las otras variables predictoras permanecen constantes.

Ejemplo 1

Sean las variables predictoras altura(cm) y edad(años) vs. la variable respuesta peso (kg). Interprete el siguiente modelo. \[ \widehat{peso}=-0.7 + 1.3 \times altura + 0.4 \times edad \]

Inferencia en regresión lineal múltiple

Dentro de los métodos de inferencia, se encuentran:

  • Pruebas de hipótesis eintervalos de confianza acerca de los coeficientes del modelo de regresión poblacional.

  • Intervalos de confianza de las predicciones que se hacen con el modelo.

Observaciones

Suponemos que \(\varepsilon_i \stackrel{i.i.d}{\sim} N(0,\sigma^2 \boldsymbol{I}_n)\)

Inferencia sobre los \(\beta_i\) en regresión lineal múltiple

Prueba \(t-student\)

Prueba de hipótesis donde cada coeficiente individual es cero.

\[\begin{align*} H_0:&\beta_j =0 \\ H_1:&\beta_j \neq 0 \end{align*}\]

La prueba estadística es la \(t-student\), se obtiene con summary del modelo.

\[\begin{equation} t_0= \frac{\hat{\beta}_j}{se(\hat{\beta}_j)} \sim t(gl = n - p -1) \end{equation}\]
  • Si \(|t_0| > t(\frac{\alpha}{2}, n - p -1)\); la variable es importante para el modelo.
  • El predictor \(X_j\) es importante para el modelo.

Prueba \(F\) de Fisher

La prueba estadística es la \(F\) de Fisher, se obtiene con summary del modelo.

Prueba de hipótesis de que todos los coeficientes son ceros

\[\begin{align*} H_0: &\beta_0 = \beta_1= \dots= \beta_p =0 \\ H_1:& \beta_j \neq 0, \hspace{.5cm} \text{para alguna } \beta_j \end{align*}\]

La prueba estadística es la \(F\), que se obtiene de la tabla anova del modelo.

\[ {\displaystyle F_0=\frac{\frac{SSR}{p}}{\frac{SSE}{n-p-1}}= \frac{MSR}{MSE} \sim F_{(gl_{num}=p,\ gl_{den} = n-p-1)}} \]

  • Si \(F_0 > F_{(\alpha,p,\ n-p-1)}\) entonces la regresión “funciona bien”.
  • Al menos un predictor es relevante para el modelo.

Análisis de varianza (anova) del modelo

Fuentes de Variación Grados de Libertad Suma de Cuadrados Cuadrados Medios F
Debido a la regresión \(p\) \(SSR\) \(MSR=\frac{SSR}{p}\) \(\frac{MSR}{MSE}\)
Debido al Error \(n-p-1\) \(SSE\) \(MSE=\frac{SSE}{n-p-1}\)
Total \(n-1\) \(SST\)

La decisión de aceptar o rechazar \(H_0\) se va a tomar en base al estadístico \(F\), que se obtiene a partir de este análisis de la varianza:

\[ \frac{MSR}{MSE}=\frac{\frac{SSR}{p}}{\frac{SSE}{n-p-1}} \]

Este estadístico tiene una distribución \(F_{(p,n-p-1)}\) (bajo \(H_0\)) y por lo tanto, la regla de decisión es de la siguiente forma: Rechazamos \(H_0\), al nivel de significación \(\alpha\), cuando

\[ F=\frac{\frac{SSR}{p}}{\frac{SSE}{n-p-1}}>F_{(\alpha, gl_{num}=p, gl_{den}=n-p-1)} \]

Valor predicho y varianza del valor predicho de Y

  • De forma similar a la regresión lineal simple, se desea predecir el valor medio de la variable de respuesta \(Y\) para una combinación predeterminada de las variables predictoras \(\boldsymbol{X}_1, \boldsymbol{X}_2, \dots, \boldsymbol{X}_p\).

  • Consideremos el vector de valores observados \(\boldsymbol{x}'_0 = (1, x_{01}, x_{02}, \cdots, x_{0p})\)

  • El valor predicho para el valor medio de la variable de respuesta \(Y\), será

\[\hat{y}_0 = \boldsymbol{x}'_0\hat{\boldsymbol{\beta}} =\hat{\beta}_0 + \hat{\beta}_1 x_{01}+ \hat{\beta}_1 x_{02} + \cdots + \hat{\beta}_p x_{0p}\]

y la varianza de \(\hat{y}_0\)

\[Var(\hat{y}_0)= \boldsymbol{x}'_0 Var(\hat{\boldsymbol{\beta}})\boldsymbol{x}_0 =\sigma^2\boldsymbol{x}'_0(\boldsymbol{X}'\boldsymbol{X})^{-1}\boldsymbol{x}_0\]

por lo tanto, la varianza estimada de \(\hat{y}_0\), será

\[\widehat{Var}(\hat{y}_0)= \boldsymbol{x}'_0 \widehat{Var}(\hat{\boldsymbol{\beta}})\boldsymbol{x}_0 =s^2\boldsymbol{x}'_0(\boldsymbol{X}'\boldsymbol{X})^{-1}\boldsymbol{x}_0\]

Intervalos de confianza para el promedio de las Y´s y las Y´s

Intervalo de confianza para el promedio de las \(Y\)

Un intervalo de confianza del \(100(1-\alpha)\%\) para el valor medio de las \(Y\), dado \(\boldsymbol{x}=\boldsymbol{x}'_0\). Es decir, para \[E[y|\boldsymbol{x}'_0=(x_{01}, x_{02}, \cdots, x_{0p})]\] es de la forma \[\hat{y}_0 \pm t_{(\frac{\alpha}{2},n-p-1)} s\sqrt{\boldsymbol{x}'_0(\boldsymbol{X}'\boldsymbol{X})^{-1}\boldsymbol{x}_0}\]

Intervalo de predicción para las \(Y\)

Un intervalo de confianza (intervalo de predicción) del \(100(1-\alpha)\%\) para el valor individual de las \(Y\), dado \(\boldsymbol{x}=\boldsymbol{x}'_0\).

Es decir, para

\[y_i|\boldsymbol{x}'_0=(x_{01}, x_{02}, \cdots, x_{0p})\]

es de la forma

\[\hat{y}_0 \pm t_{(\frac{\alpha}{2},n-p-1)} s\sqrt{1 + \boldsymbol{x}'_0(\boldsymbol{X}'\boldsymbol{X})^{-1}\boldsymbol{x}_0}\]

Eliminación “backward” o hacia atrás

El procedimiento comienza construyendo el modelo con todas las predictoras y en cada paso se elimina una variable. La secuencia del procedimiento es la siguiente. Se define un nivel de significación fijo \(\alpha\).

  • El modelo inicial contiene todos los potenciales predictores (que denominado \(p\)).
  • Si todas las variables producen una contribución parcial significativa (es decir, un estadístico \(t\) con \(p-valor < \alpha\)) entonces el modelo completo es el modelo final.
  • De otro modo, se elimina la variable que tenga la menor contribución parcial (es decir, mayor \(p-valor\) del estadístico \(t\)) cuando las demás están en el modelo.
  • Se ajusta el nuevo modelo con (\(p-1\)) predictores y se repiten los pasos 2 y hasta que todas las variables en el modelo tengan un coeficiente estimado cuyo \(p-valor\) asociado al estadístico t sea menor a \(\alpha\)

Observación

Si hay una alta multicolinealidad en el conjunto de los \(p\) predictores, este procedimiento no es muy recomendable.

Selección “Forward” o incorporando variables

  • Aquí en el modelo inicial se considera una regresión lineal simple que incluye a la variable predictora que da la correlación más alta con la variable de respuesta.
  • Se incluye una segunda variable en el modelo, que es aquella variable dentro de las no incluidas aún, que da el \(p-value\) más bajo para la prueba \(t\) o el valor de la prueba de \(t\) más grande en valor absoluto.
  • Se siguen incluyendo variables, notando que una vez que ésta es incluida ya no puede ser sacada del modelo.
  • El proceso termina cuando los \(p-values\) para la prueba \(t\) de todas las variables que aún no han sido incluidas son mayores que 0.05 ó la prueba de \(t\) es menor que 2 para dichas variables. Si se usa la prueba de \(F\), entonces el proceso termina cuando todas las \(F\) son menores que 4.

Observación

  • Si se usa un punto de corte pequeño (digamos \(\alpha < 0.01\)) se pueden perder covariables importantes.
  • Si se usa un punto de corte grande (\(\alpha < 0.20\)) probablemente, el modelo contendrá más variables.
    • Una vez que el procedimiento finaliza, no todas las variables en el modelo necesariamente tendrán coeficientes parciales significativos.

Selección “Stepwise” o paso a paso

Es una modificación del procedimiento forward que elimina una variable en el modelo si ésta pierde significación cuando se agregan otras variables.

  • La aproximación es la misma que la selección forward excepto que a cada paso, después de incorporar una variable, el procedimiento elimina del modelo las variables que ya no tienen contribución parcial significativa.

  • Una variable que entró en el modelo en una etapa, puede eventualmente, ser eliminada en un paso posterior.

  • En este caso será necesario definir un punto de corte para que ingrese una variable \(\alpha_I\) y otro para eliminarla del modelo \(\alpha_E\).

  • Uno puede desear ser menos exigente (mayor \(p-valor\)) en el punto de corte para que una variable salga del modelo una vez que ingresó, o usar el mismo valor para ambos.

    • Este procedimiento, en general produce modelos con menos variables que la selección forward.

Ejemplo 2: Selección del mejor modelo (datos: Esperanza de vida media)

Un estudio quiere generar un modelo que permita predecir la esperanza de vida media de los habitantes de una ciudad en función de diferentes variables. Se dispone de información sobre: habitantes, analfabetismo, ingresos, esperanza de vida, asesinatos, universitarios, heladas, área y densidad poblacional.

hab. ingre. analf. esp_vida ases. univers. heladas area dens_pobl
3615 3624 2.1 69.05 15.1 41.3 20 50708 71.29
365 6315 1.5 69.31 11.3 66.7 152 566432 0.64
2212 4530 1.8 70.55 7.8 58.1 15 113417 19.50
2110 3378 1.9 70.66 10.1 39.9 65 51945 40.61
21198 5114 1.1 71.71 10.3 62.6 20 156361 135.57
2541 4884 0.7 72.06 6.8 63.9 166 103766 24.48