Partiendo de los resultados de la primera parte del documento, los modelos de regresión lineal simple que se plantean se enfocan en mostrar los modelos de la variable medv en función de las dos variables independientes con mayor coeficiente de correlación, esto es, las variable lstat (R = -0.74) y rm (R = 0.70).
Pare el desarrollo de este ejercicio se divide el conjunto de datos (Boston) y se divide en dos partes “train” y “test”, con el primer conjunto se define el modelo de regresión lineal y con el segundo se evalúa calculando el resultado del RMSE (Root Mean Squared Error), esto es, la raíz del error cuadrado medio. La división de los datos se plantea en 80% para train y 20% para test, es decir, de las 506 observaciones que incluye Boston, 401 se usan para definición del modelo y 101 para la evaluación. (se define set.seed(2023)).
Una vez realizada la division de los datos en los subconjuntos “Train” y “Test” -sobre la variable medv- se observa de la siguiente manera
##
## Call:
## lm(formula = medv ~ lstat, data = Train)
##
## Residuals:
## Min 1Q Median 3Q Max
## -15.250 -3.984 -1.378 1.856 24.419
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 34.64358 0.63765 54.33 <2e-16 ***
## lstat -0.95098 0.04299 -22.12 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 6.325 on 403 degrees of freedom
## Multiple R-squared: 0.5484, Adjusted R-squared: 0.5473
## F-statistic: 489.3 on 1 and 403 DF, p-value: < 2.2e-16
Los resultados muestran que esta regresión explica en un 54% la variación de los datos de la variable de respuesta, en promedio los resultados de medv de la predicción difieren en 6.32 miles de dólares con respecto a los valores reales.
El estimador de la pendiente es estadísticamente válido, es decir, se concluye que el mismo es diferente de cero.
El modelo lineal se escribiría de la siguiente manera
\[ medv = -0.95098*lstat +34.64358 \]
##
## Call:
## lm(formula = medv ~ rm, data = Train)
##
## Residuals:
## Min 1Q Median 3Q Max
## -22.825 -2.852 0.103 3.115 39.199
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -33.4528 2.9774 -11.24 <2e-16 ***
## rm 8.9041 0.4718 18.87 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 6.857 on 403 degrees of freedom
## Multiple R-squared: 0.4692, Adjusted R-squared: 0.4679
## F-statistic: 356.2 on 1 and 403 DF, p-value: < 2.2e-16
En esta segunda regresión se observa un valor 46% en cuanto al nivel de variación que explica el modelo en función de la variable rm, adicionalmente resultados de medv se alejan en 6.86 miles de dólares de los valores reales.
En este caso, el estimador de la pendiente también se observa estadísticamente válido, este es diferente de cero.
El modelo lineal se escribiría de la siguiente manera
\[ medv = 8.9041*rm -33.4528 \]
Con los resultados expuestos en el punto 2.1 y 2.2 se tiene un dato inicial de la “precisión” de los modelos en referencia a la garantía de los datos que pueden predecir, esto es, que tan alejado podría estar el dato predicho frente al dato real. Para cada modelo se presentó gráficamente los datos reales y la línea de regresión. En este punto se pretende cuantificar la diferencia observada en las gráficas mediante el cálculo del RMSE.
La siguiente gráfica presenta los datos reales de la variable medv (organizados de menor a mayor) y los valores de la predicción de cada uno de los dos modelos
Para los valores menores de medv la predicción del modelo en función de rm tiende a predecir valores más altos de los esperados mientras que el modelo en función de lstat tienden a ubicarse mucho más cerca del valor real. Para los valores medios de medv ambos modelos tienden a predecir valores más cercanos de los valores reales, no obstante el modelo en función de lstat presentan resultados que tienden a ubicarse por encima del valor real. Finalmente, para los valores altos de mdev los valores del modelo en función de rm tienden a predecir resultados más cercanos a los reales mientras que el modelo en función de lstat tienden a ser más distantes.
El cálculo del RMSE se realiza conforme a la siguiente ecuación:
Donde a es el valor real mientras que â es el valor de la predicción.
Para el modelo de regresión lineal simple en función de la variable lstat el resultado fue de 5.76, es decir, las predicciones con este modelo difiere en 5.76 miles de dólares, en promedio frente al dato real; en el caso del modelo en función de la variable rm el resultado se observa en 5.56, esto es, la predicciones que se obtienen con dicho modelo pueden ser mayores o menores en 5.56 miles de dólares con respecto al valor real.
Con estos resultados se concluye que para los modelos de regresión lineal estudiados, el modelo de predicción de la variable de respuesta medv en función de la variable rm tiene un nivel de error menor, no obstante, la diferencia de los errores entre los dos modelos es de apenas de 200 dólares en el promedio del error por lo que esta diferencia podría no ser significante.