Parte 6: Regresiones Polinómicas

Introducción

Hasta el momento, todos los modelos planteados son lineales, es decir, se ha intentado explicar el comportamiento de la variable de respuesta con una línea recta. Con base en los detalles observados gráficamente en los modelos de regresión lineal simple y regresión lineal múltiple, además de los resultados comparativos del RMSE, se podría plantear que la variabilidad de medv obedece a un modelo no lineal cuadrático. En esta parte del documento se plantean varios modelos cuadráticos: dos con una única variable, uno con interacción de dos variables, uno con interacción de tres variables y el último con interacción de cuatro variables. Esto con el fin de validar si efectivamente la variable de respuesta se ajusta de mejor manera a una regresión polinómica grado 2.

6.1. Regresiones polinómicas cuadráticas con una variable

Las dos variables con mayor nivel de correlación (observadas en la primera parte del documento) son lstat y rm para estas dos variables se plantearán dos modelos cuadráticos.

6.1.1 Regresión cuadrática con lstat como variable independiente

El modelo cuadrático a evaluar tiene la siguiente forma

\[ medv = \beta_0 +\beta_1*lstat + \beta_2*(lstat)² \]

Los coeficientes de la regresión se observan así:

## 
## Call:
## lm(formula = medv ~ lstat + I(lstat^2), data = Train)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -15.4191  -3.6772  -0.5406   2.3496  25.3521 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 43.476251   0.957068   45.43   <2e-16 ***
## lstat       -2.407168   0.133810  -17.99   <2e-16 ***
## I(lstat^2)   0.045275   0.003994   11.34   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 5.512 on 402 degrees of freedom
## Multiple R-squared:  0.6578, Adjusted R-squared:  0.6561 
## F-statistic: 386.3 on 2 and 402 DF,  p-value: < 2.2e-16

El modelo presenta un error estándar residual de 5.51 el cual es menor que el valor del mismo error para la regresión lineal simple, así mismo el valor de R cuadrado ajustado es mayor en este caso. Es posible concluirque el modelo cuadrático con lstat explica de mejor manera la variabilidad de medv en comparación con el modelo de regresión lineal simple con la misma variable independiente.

\[ medv = 43.48 - 2.41 * lstat + 0.04 *(lstat)² \]

Usando la ecuación descrita, los resultados de la predicción de la variable dependiente se observan así:

Al igual que los modelos estudiados hasta el momento, el modelo cuadrático con la variable independiente lstat presenta deficiencias para la predicción de los resultados del valor medio de las casas cuando estos, en su valor real, están por encima de 37.5 (aproximadamente), en este caso el modelo predice como valor más alto 36.4 mientras que los valores reales presentan como valor máximo 50.

6.1.2 Regresión cuadrática con rm como variable independiente

El modelo cuadrático con la variable independiente rm tiene la siguiente forma

\[ medv = \beta_0 +\beta_1*rm + \beta_2*(rm)² \]

Una vez calculados los coeficientes, el resultado es el siguiente:

## 
## Call:
## lm(formula = medv ~ rm + I(rm^2), data = Train)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -36.565  -2.819   0.707   3.024  35.495 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  70.6302    13.1689   5.363 1.38e-07 ***
## rm          -24.2167     4.1205  -5.877 8.77e-09 ***
## I(rm^2)       2.6004     0.3217   8.084 7.45e-15 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 6.367 on 402 degrees of freedom
## Multiple R-squared:  0.5434, Adjusted R-squared:  0.5411 
## F-statistic: 239.2 on 2 and 402 DF,  p-value: < 2.2e-16

En este caso el error estándar residual es de 6.36, que es un poco menor que el observado en la regresión lineal simple, en el caso del R cuadrado ajustado también tiene una leve mejoría, de esto se concluye inicialmente que el modelo cuadrático con rm es relativamente mejor que el lineal. Cabe resaltar que al comparar los resultados de este modelo con el cuadrático para la variable lstat ,los resultados no se observan mejores pues el error cuadrático medio es mayor y el valor de R cuadrado ajustado es menor.

\[ medv = 70.63 - 24.21 * rm + 2.60 *(rm)² \]

Con esta ecuación, las predicciones se observan así:

Gráficamente se puede observar que los resultados de la predicción tienden a estar “centrados” respecto a la dispersión de los datos reales, adicionalmente en esta dispersión existen puntos considerablemente distantes de la concentración, situación que aumenta el error del modelo, por ejemplo para el valor de rm de 6.68 el valor medv es de 50 y la predicción es un valor cercano a 25.

6.2. Regresiones polinómicas cuadráticas con múltiples variables

En esta sección se plantean tres modelos grado 2 con más de una variable. El primero con dos variables: rm y lstat, el segundo con tres variables: rm, lstat y ptratio, y el último con las variables rm, lstat, ptratio y chas0.

6.2.1 Regresión cuadrática con lstat y rm como variables independientes

El modelo grado 2 de dos variables obedece al siguiente planteamiento

\[ medv = \beta_0 +\beta_1*lstat+\beta_2*rm+\beta_3*(lstat*rm)+\beta_4*(lstat)^2+\beta_5*(rm)² \]

Así, los coeficientes calculados serían:

## 
## Call:
## lm(formula = medv ~ lstat + rm + I(lstat * rm) + I(lstat^2) + 
##     I(rm^2), data = Train)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -28.4975  -2.5082  -0.4395   2.1523  27.4777 
## 
## Coefficients:
##                 Estimate Std. Error t value Pr(>|t|)    
## (Intercept)    62.941311  16.793914   3.748 0.000205 ***
## lstat           0.109345   0.576648   0.190 0.849702    
## rm            -15.315548   4.582649  -3.342 0.000910 ***
## I(lstat * rm)  -0.209520   0.071533  -2.929 0.003596 ** 
## I(lstat^2)      0.012510   0.005758   2.173 0.030405 *  
## I(rm^2)         1.695840   0.320018   5.299 1.93e-07 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 4.67 on 399 degrees of freedom
## Multiple R-squared:  0.7562, Adjusted R-squared:  0.7531 
## F-statistic: 247.5 on 5 and 399 DF,  p-value: < 2.2e-16

El cálculo de coeficientes presenta como resultado inicial un p-valor superior a 0.05 para la variable lstat, resultado con el que se puede presentar el valor de \(\beta_1\) como cero en el modelo de ecuación anteriormente planteada. Con este resultado se hace un replanteamiento del modelo de regresión excluyendo la variable en mención, es decir:

\[ medv = \beta_0 +\beta_1*rm+\beta_2*(lstat*rm)+\beta_4*(lstat)^2+\beta_5*(rm)^2 \]

En este orden de ideas, los resultados de los nuevo coeficientes serían:

## 
## Call:
## lm(formula = medv ~ rm + I(lstat * rm) + I(lstat^2) + I(rm^2), 
##     data = Train)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -28.4944  -2.5035  -0.4529   2.1805  27.4535 
## 
## Coefficients:
##                 Estimate Std. Error t value Pr(>|t|)    
## (Intercept)    65.201762  11.814898   5.519 6.15e-08 ***
## rm            -15.823609   3.713287  -4.261 2.54e-05 ***
## I(lstat * rm)  -0.196327   0.016606 -11.822  < 2e-16 ***
## I(lstat^2)      0.013459   0.002847   4.727 3.17e-06 ***
## I(rm^2)         1.723553   0.284353   6.061 3.12e-09 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 4.665 on 400 degrees of freedom
## Multiple R-squared:  0.7562, Adjusted R-squared:  0.7537 
## F-statistic: 310.1 on 4 and 400 DF,  p-value: < 2.2e-16

La exclusión de la variable genera un modelo menos complejo (menos variables), y resultados prácticamente iguales en cuanto al valor del error estándar residual y el coeficiente R cuadrado ajustado.

De los tres modelos evaluados hasta el momento, este es el que presenta el menor error estándar residual y el mayor coeficiente de R cuadrado ajustado. Con los coeficientes calculados, la ecuación de la regresión polinómica con dos variables se establece así:

\[ medv = 65.20 -15.82*rm-0.19*(lstat*rm)+0.01*(lstat)^2+1.72*(rm)² \]

Con esta ecuación, la predicción de datos para medv se observa:

Los datos de la proyección de la variable medv (en naranja) parecen representar la dispersión de los valores reales de medv (en azul) de manera más cercana, en todo caso, la “precisión” en las predicciones puede cuantificarse con el calculo del RMSE que se presentará más adelante.

6.2.2 Regresión cuadrática con lstat, rm y ptratio como variables independientes

La ecuación del modelo de regresión no lineal grado 2 con tres variables independientes: lstat, rm y ptratio, para el ejercicio en desarrollo, se plantea así:

\[ medv = \beta_0 +\beta_1*lstat+\beta_2*rm+\beta_3*ptratio+\beta_4*(lstat*rm*ptratio)+\beta_5*(lstat)^2+\beta_6*(rm)²+\beta_7*(ptratio)² \]

Con esto, los coeficientes obtenidos:

## 
## Call:
## lm(formula = medv ~ lstat + rm + ptratio + I(lstat * rm * ptratio) + 
##     I(lstat^2) + I(rm^2) + I(ptratio^2), data = Train)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -26.6867  -2.5106  -0.5362   2.0385  28.3244 
## 
## Coefficients:
##                           Estimate Std. Error t value Pr(>|t|)    
## (Intercept)              86.321682  20.143430   4.285 2.29e-05 ***
## lstat                    -0.613085   0.363425  -1.687   0.0924 .  
## rm                      -18.806827   3.963779  -4.745 2.92e-06 ***
## ptratio                  -0.682917   1.701849  -0.401   0.6884    
## I(lstat * rm * ptratio)  -0.005359   0.002463  -2.176   0.0302 *  
## I(lstat^2)                0.017093   0.004265   4.008 7.32e-05 ***
## I(rm^2)                   1.869595   0.286649   6.522 2.11e-10 ***
## I(ptratio^2)              0.011891   0.049330   0.241   0.8096    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 4.501 on 397 degrees of freedom
## Multiple R-squared:  0.7747, Adjusted R-squared:  0.7707 
## F-statistic:   195 on 7 and 397 DF,  p-value: < 2.2e-16

El resultado muestra una leve reducción en el error estándar residual así como un aumento en el coeficiente de R cuadrado ajustado con respecto al modelo de dos variables. Al revisar los resultados del p-valor, no todos los coeficientes tendrían un valor diferente a cero, en este caso los coeficientes para las variables lstat, ptratio y de la potencia cuadrada de ptratio (ptratio^2), tienen un resultado en dicho valor superior a 0.05, por esto se plantea excluirlos del modelo y calcular nuevamente los coeficientes. En este orden de ideas, el nuevo modelo planteado sería:

\[ medv = \beta_0 + \beta_1*rm + \beta_2*(lstat*rm*ptratio) + \beta_3*(lstat)^2+\beta_4*(rm)² \]

Calculando los coeficientes:

## 
## Call:
## lm(formula = medv ~ rm + I(lstat * rm * ptratio) + I(lstat^2) + 
##     I(rm^2), data = Train)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -27.5826  -2.4487  -0.6191   1.9182  28.4135 
## 
## Coefficients:
##                           Estimate Std. Error t value Pr(>|t|)    
## (Intercept)              6.596e+01  1.117e+01   5.904 7.60e-09 ***
## rm                      -1.647e+01  3.480e+00  -4.734 3.06e-06 ***
## I(lstat * rm * ptratio) -9.050e-03  6.749e-04 -13.409  < 2e-16 ***
## I(lstat^2)               1.146e-02  2.421e-03   4.733 3.08e-06 ***
## I(rm^2)                  1.768e+00  2.666e-01   6.633 1.07e-10 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 4.501 on 400 degrees of freedom
## Multiple R-squared:  0.773,  Adjusted R-squared:  0.7707 
## F-statistic: 340.5 on 4 and 400 DF,  p-value: < 2.2e-16

Los resultados del error estándar residual y del valor R cuadrado ajustado son los mismo excluyendo las variables ya mencionadas, con esto, el modelo definitivo se podría expresar con la ecuación:

\[ medv = 65.96 -16.47*rm-0.01*(lstat*rm*ptratio)+0.01*(lstat)^2+1.77*(rm)² \]

Las predicciones con esta ecuación y su comparación con los datos reales que toma la variable independiente se observan así:

Los valores de la predicción presentan un resultado que mantiene la tendencia de los valores reales que toma la variable dependiente, pese a esto, algunos de los puntos de la predicción se mantienen distantes de los valores reales. Se observan algunas rachas de puntos que se encuentran por debajo de los valores reales y otros por encima de los mismos (una de estas alcanza un total de 13 puntos: entre la observación 60 y la 72).

6.2.3 Regresión cuadrática con lstat, rm, ptratio y chas0 como variables independientes

El último de los modelos de regresiones polinómicas incluye las variables lstat, rm, ptratio y chas, en este caso el modelo se definiría de la siguiente forma:

\[ medv = \beta_0 +\beta_1*lstat+\beta_2*rm+\beta_3*ptratio+\beta_4*chas+\beta_5*(lstat*rm*ptratio*chas0)+\beta_6*(lstat)^2+\beta_7*(rm)²+\beta_8*(ptratio)²+\beta_9*(chas0)^2 \]

El resultado del cálculo de los 10 coeficientes es:

## 
## Call:
## lm(formula = medv ~ lstat + rm + ptratio + chas0 + I(lstat * 
##     rm * ptratio * chas0) + I(lstat^2) + I(rm^2) + I(ptratio^2) + 
##     I(chas0^2), data = Train_mod)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -27.7386  -2.4933  -0.5066   2.2280  28.2749 
## 
## Coefficients: (1 not defined because of singularities)
##                                   Estimate Std. Error t value Pr(>|t|)    
## (Intercept)                     105.778602  17.870714   5.919 7.02e-09 ***
## lstat                            -1.212721   0.189541  -6.398 4.44e-10 ***
## rm                              -21.632919   3.414990  -6.335 6.47e-10 ***
## ptratio                          -1.032965   1.707834  -0.605    0.546    
## chas0                            -0.733672   1.650587  -0.444    0.657    
## I(lstat * rm * ptratio * chas0)  -0.001374   0.001122  -1.225    0.221    
## I(lstat^2)                        0.021460   0.003833   5.598 4.05e-08 ***
## I(rm^2)                           2.008047   0.262822   7.640 1.65e-13 ***
## I(ptratio^2)                      0.013922   0.049216   0.283    0.777    
## I(chas0^2)                              NA         NA      NA       NA    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 4.48 on 396 degrees of freedom
## Multiple R-squared:  0.7774, Adjusted R-squared:  0.7729 
## F-statistic: 172.8 on 8 and 396 DF,  p-value: < 2.2e-16

Como resultado de este planteamiento -con la inclusión de una de la variable categórica (chas)-, se generan un modelo que “habilita” únicamente dos variables y el modelo obtenido se asemeja al obtenido en el punto 6.2.1 de este documento. Los p-valor orientan el planteamiento de un nuevo modelo, el cual incluiría las variables rm y lstat y sus pares cuadráticos sin incluir la interacción entre las mismas.

\[ medv = \beta_0 +\beta_1*lstat+\beta_2*rm+\beta_3*(lstat)^2+\beta_4*(rm)² \]

El calculo de los coeficientes de este modelo (con solo dos variables independientes) presenta estos resultados:

## 
## Call:
## lm(formula = medv ~ lstat + rm + I(lstat^2) + I(rm^2), data = Train)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -28.8926  -2.7316  -0.5224   2.3644  27.1694 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 100.622572  10.896666   9.234  < 2e-16 ***
## lstat        -1.533397   0.135293 -11.334  < 2e-16 ***
## rm          -24.258476   3.449587  -7.032 8.84e-12 ***
## I(lstat^2)    0.024998   0.003907   6.398 4.39e-10 ***
## I(rm^2)       2.212675   0.269492   8.211 3.07e-15 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 4.714 on 400 degrees of freedom
## Multiple R-squared:  0.7509, Adjusted R-squared:  0.7484 
## F-statistic: 301.5 on 4 and 400 DF,  p-value: < 2.2e-16

Este resultado genera un error estándar residual mayor en 0.3 unidades (aproximadamente) respecto al modelo con 4 variables y un R cuadrado ajustado menor en en 0.03 unidades. Si bien estos resultados parecieran menos favorables, los cambios no son significantes si se considera la reducción en la complejidad del modelo. Así mismo, si se compara con el modelo expuesto en el numeral 6.2.1 existe un aumento de 0.1 unidades en el error estándar residual y una reducción de 0.01 unidades en el coeficiente de R cuadrado ajustado, resultados que evidencian que ambos modelos de dos variables presentan resultados prácticamente iguales.

La ecuación con los coeficientes calculados quedaría así:

\[ medv = 100.62 -1.53*lstat-24.26*rm+0.02*(lstat)^2+2.21*(rm)^2 \]

El resultado de las predicciones se observaría así:

6.3. Comparación de los modelos de regresión cuadráticos

En general, los modelos planteados presentan resultados muy similares en los valores de error cuadrático medio, siendo los valores más bajos aquellos en los que se incluyen al menos dos variables. La comparación de los resultados de la predicción de cada uno de estos se presenta en el siguiente gráfico:

Si bien existen diferencias entre cada modelo para ciertas secciones de observaciones, en general los modelos tienen un comportamiento similar, siendo algo más evidente las diferencias de los modelos cuadráticos de una variable frente a los demás planteados en este capítulo. La cuantificación de estas diferencias se hacen mediante el cálculo del RMSE

6.3.1 Cálculo del RMSE

Se calculas 5 valores de RMSE (para 5 modelos) que presentan resultados entre 4.02 y 5.58, valores que no resultan menores al modelo de regresión lineal múltiple con interacciones de 4 variables. De lo anterior se puede concluir que los modelos de polinómicos grado dos no son más adecuado para generan una explicación de la variabilidad del precio de las casas en Boston, es decir, no presentan un resultado mejor. Es de anotar que algunos de los modelos planteados en el capítulo si presentan mejores resultados a otros modelos lineales. El modelo de regresión cuadrática que incluye tres variables (lstat, rm y ptratio) tienen el RMSE más bajo, siendo este de 4.02.

Al final de este capítulo se han planteado 14 modelos de regresión, los resultados del RMSE de estos 14 se observa así