Parte 4: Regresiones lineales múltiples con interacciones

Introducción

En la parte 3 de este documento se plantearon regresiones múltiples en función de 12, 10 y 2 variables independientes, en los modelos no se incluyeron, como componentes de la ecuación, el producto entre al menos dos variables y la estimación respectiva del coeficiente. En este capítulo se presentarán algunos modelos con ésta interacción, la decisión de las variables a incluir se tomará conforme a los resultados de los coeficientes de correlación expuestos en la parte 1 del documento.

4.1. Regresión lineal múltiple con interacción de dos variables independientes

El primer modelo propuesto involucra las dos variables de “mayor relevancia” en cuanto a la influencia sobre la variable independiente: rm y lstat.

## 
## Call:
## lm(formula = medv ~ lstat * rm, data = Train)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -22.7865  -2.6995  -0.6321   2.1523  30.8843 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -26.82720    3.75685  -7.141 4.39e-12 ***
## lstat         2.15385    0.22032   9.776  < 2e-16 ***
## rm            9.41133    0.56072  16.784  < 2e-16 ***
## lstat:rm     -0.48468    0.03727 -13.004  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 4.831 on 401 degrees of freedom
## Multiple R-squared:  0.7378, Adjusted R-squared:  0.7359 
## F-statistic: 376.2 on 3 and 401 DF,  p-value: < 2.2e-16

El modelo concluye con un porcentaje de 73% en el nivel de explicación del comportamiento de la variable medv, un valor similar a los modelos de regresión lineal múltiple de 10 y 12 variables. En cuanto al error estándar residual se observa en 4.83 miles de dólares. Es de anotar que los resultados iniciales del presente modelo lo hacen más atractivos que los dos primeros expuestos en la parte 3 de este documento, en razón a que es un modelo más sencillo dada la cantidad de variables independientes involucradas. Todos los parámetros estimados se consideran significativos (no se concluye que alguno sea cero), así, el modelo se podría escribir así:

\[ medv = 2.15385*lstat + 9.41133*rm - 0.48468*lstat*rm - 26.82720 \]

Los resultados de las predicciones para el subconjuto de datos Test frente a los datos reales se observan en la siguiente gráfica

Los resultados de este modelo de regresión presentan un ajuste mejorado para los valores extremos (valores altos y bajos que toma medv), los cuales son los que han aumentado el valor del error de los modelos hasta el momento vistos. Pese a que se siguen observando puntos de medv real alejados de su par en la predicción, la distancia observada visualmente parece menores en comparación con otros modelos ya estudiados.

4.2. Regresión lineal múltiple con interacción de tres variables independientes

Para el modelo con 3 variables se agrega, a las dos anteriores, ptratio, la cual es la tercera con valor más alto en el coeficiente de correlación con la variable medv.

## 
## Call:
## lm(formula = medv ~ lstat * rm * ptratio, data = Train)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -12.3040  -2.4651  -0.4732   1.8147  27.1390 
## 
## Coefficients:
##                    Estimate Std. Error t value Pr(>|t|)    
## (Intercept)      -244.26594   28.50851  -8.568 2.36e-16 ***
## lstat               8.72447    2.03350   4.290 2.24e-05 ***
## rm                 41.84550    4.15793  10.064  < 2e-16 ***
## ptratio            12.28417    1.55258   7.912 2.55e-14 ***
## lstat:rm           -1.25939    0.35363  -3.561 0.000414 ***
## lstat:ptratio      -0.38473    0.10578  -3.637 0.000312 ***
## rm:ptratio         -1.85583    0.22963  -8.082 7.77e-15 ***
## lstat:rm:ptratio    0.04804    0.01837   2.615 0.009253 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 4.31 on 397 degrees of freedom
## Multiple R-squared:  0.7934, Adjusted R-squared:  0.7898 
## F-statistic: 217.8 on 7 and 397 DF,  p-value: < 2.2e-16

Los resultados para este modelo muestran un aumento de 6 puntos porcentuales en el valor del R² ajustado en relación al modelo expuesto en el numeral 4.1, esto es, se alcanza un valor de alrededor del 79% de explicación del comportamiento de la variable medv, sumado a lo anterior el error estándar residual se encuentra en 4.31 lo cual representa una reducción de 500 dólares con respecto al modelo anterior. La ecuación del modelo de regresión lineal múltiple con interacción de 3 variables queda de la siguiente manera:

\[ medv = 8.72447*lstat + 41.84550*rm + 12.28417*ptratio - 1.25939*lstat*rm - 0.38473*lstat*ptratio \]

\[ - 1.85583*rm*ptratio + 0.04804*lstat*rm*ptratio \]

Los parámetros del estimados del modelo se consideran significativos, es decir, de acuerdo a los resultados del p-valor ninguno se considera igual a cero.

Usando la anterior ecuación, se calculan las predicciones de medv y se comparan con los valores reales de la misma variable, esto resultados se presentan en la siguiente gráfica

Los resultados del error estándar residual ya mencionados se reflejan en el gráfico anterior. La predicción se ajusta de mejor manera a los datos extremos (máximos y mínimos). Si bien existen predicciones bastante alejadas de algunos datos reales, esta es la primera regresión que presenta predicciones con valores por encima de los valores más altos de la variable de respuesta (50 mil dólares), a diferencia de los otros modelos de regresión anteriores que presentaban resultados por debajo de los valores reales en el rango de 37 a 50 mil dólares, aproximadamente.

4.3. Regresión lineal múltiple con interacción de cuatro variables independientes

## 
## Call:
## lm(formula = medv ~ lstat * rm * ptratio * chas, data = Train)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -11.6817  -2.2280  -0.3519   1.7957  27.4787 
## 
## Coefficients:
##                          Estimate Std. Error t value Pr(>|t|)    
## (Intercept)            -4.384e+02  8.352e+01  -5.249 2.52e-07 ***
## lstat                   7.597e+00  9.582e+00   0.793  0.42836    
## rm                      6.336e+01  1.163e+01   5.449 9.01e-08 ***
## ptratio                 2.544e+01  4.874e+00   5.220 2.92e-07 ***
## chas0                   2.046e+02  8.883e+01   2.304  0.02178 *  
## lstat:rm               -5.959e-01  1.636e+00  -0.364  0.71585    
## lstat:ptratio          -2.637e-01  5.604e-01  -0.471  0.63825    
## rm:ptratio             -3.305e+00  6.857e-01  -4.820 2.06e-06 ***
## lstat:chas0             5.700e-01  9.811e+00   0.058  0.95370    
## rm:chas0               -2.309e+01  1.246e+01  -1.853  0.06471 .  
## ptratio:chas0          -1.390e+01  5.144e+00  -2.702  0.00719 ** 
## lstat:rm:ptratio       -6.166e-03  9.548e-02  -0.065  0.94854    
## lstat:rm:chas0         -5.692e-01  1.677e+00  -0.340  0.73441    
## lstat:ptratio:chas0    -8.841e-02  5.711e-01  -0.155  0.87704    
## rm:ptratio:chas0        1.558e+00  7.289e-01   2.137  0.03319 *  
## lstat:rm:ptratio:chas0  4.900e-02  9.736e-02   0.503  0.61507    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 4.074 on 389 degrees of freedom
## Multiple R-squared:  0.8191, Adjusted R-squared:  0.8121 
## F-statistic: 117.4 on 15 and 389 DF,  p-value: < 2.2e-16

En este modelo se incluye una de las variables categóricas: chas. De los modelos presentados es el que entrega el mayor valor de R cuadrado ajustado: 0.81, esto es, el modelo explica en un 81% el comportamiento de la variable medv. Adicionalmente, el error estándar residual es de 4.07 el dato más bajo observado hasta el momento. En cuanto al modelo definitivo, los coeficientes estimados no presentan significancia para todas las variables o interacción entre ellas. Si se plantea un nivel de confianza del 95%, 11 de los 15 coeficientes del modelo podrían considerarse igual a cero: lstat * chas, rm * chas, lstat * rm * chas, lstat * ptratio * chas, lstat * rm * ptratio * chas, esto es, se excluyen del modelo.

Con base en lo anterior se plantea nuevamente el modelo excluyendo las interacciones mencionadas (cabe resaltar que en este caso el modelo deja de ser de 4 variables y se convierte en un modelo de 3 variables)

## 
## Call:
## lm(formula = medv ~ lstat + rm + ptratio + chas + rm * ptratio + 
##     ptratio * chas + rm * ptratio * chas, data = Train)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -11.3887  -2.5076  -0.6591   1.6591  28.1558 
## 
## Coefficients:
##                    Estimate Std. Error t value Pr(>|t|)    
## (Intercept)      -241.41476   45.36893  -5.321 1.73e-07 ***
## lstat              -0.58408    0.04301 -13.579  < 2e-16 ***
## rm                 42.09667    6.68210   6.300 7.93e-10 ***
## ptratio            14.27583    2.62045   5.448 8.97e-08 ***
## chas0             114.15114   48.82000   2.338   0.0199 *  
## rm:ptratio         -2.18033    0.38827  -5.615 3.70e-08 ***
## ptratio:chas0      -6.96661    2.80057  -2.488   0.0133 *  
## rm:chas0          -14.68072    7.23344  -2.030   0.0431 *  
## rm:ptratio:chas0    0.87908    0.41733   2.106   0.0358 *  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 4.773 on 396 degrees of freedom
## Multiple R-squared:  0.7472, Adjusted R-squared:  0.7421 
## F-statistic: 146.3 on 8 and 396 DF,  p-value: < 2.2e-16

La comparación de las predicciones frente a los valores reales de la variable independiente medv se presentan en la siguiente gráfica

Los resultados observados son muy similares a los del modelo con 3 variables, es posible que los resultados de la predicción estén ligeramente más cerca a los valores reales, sin embargo, esta afirmación solo se puede validar con el cálculo del RMSE

4.4 Comparación de regresiones lineales múltiples con interacciones

En la siguiente gráfica se comparan los resultados de predicción de los 3 modelos con los valores reales de la variable medv.

Los modelos presentan una tendencia similar, siendo el de dos variables el que parece alejarse más de los valores reales mientras que el de 4 variables presenta rangos en los que las predicciones se ubican más cercanas a los valores reales. No obstante, los tres modelos tienden a mejorar la situación con los valores reales extremos, en especial para los valores de medv real por encima de 37; las predicciones se ubican mucho más cerca en comparación de los modelos planteados en las secciones anteriores de este documento.

4.4.1 Cálculo del RMSE

Se calculan tres nuevos valores de RMSE, esta vez para los modelos de regresión múltiple con interacción expuestos en esta sección, igual, se comparán con los resultados RMSE de los modelos ya estudiados.

El RMSE del modelo con interacción de 2 variables se calcula en 4.18, el del modelo con interacción de 3 variables se observa en 3.99 mientras que el de 4 variables alcanza un valor de 3.89.

A medida que en los modelos se aumenta el número de variables, el RMSE calculado con el conjunto de datos Test disminuye. Al comparar estos nuevos resultados con los modelos planteados en las secciones anteriores se observa ya una reducción singificativa en el error (ya alcanza los 2300 dólares). Un menor valor de RMSE implica un modelo más complejo.