Seleccione una base de datos que contenga una variable respuesta y varias variables explicativas y con ella:
Explique el contexto de la base de datos y el objetivo que se debería alcanzar a través del análisis de regresión múltiple.
Compare diferentes modelos que se pueden obtener con las variables originales y transformadas, variando el número de parámetros. ¿Cuál de éstos modelos es mejor?.
¿Cuales variables son estadísticamente significativas para el modelo?
¿Qué variables aportan más al ajuste lineal del modelo de regresión?
Valide el cumplimiento de los supuestos estadísticos del modelo de regresión.
Para que una compañía de seguros de salud logre ser rentable, es necesario que genere ingresos superiores a los gastos que tiene asociados con la atención médica brindada a sus asegurados. En consecuencia, las aseguradoras dedican un considerable esfuerzo y recursos financieros en el desarrollo de modelos precisos que permitan anticipar los costos médicos de la población asegurada. La estimación de estos costos resulta compleja debido a que las enfermedades de alto costo son poco comunes y parecen manifestarse de manera aleatoria. No obstante, algunas enfermedades presentan una mayor incidencia en ciertos grupos de la población. Por ejemplo, el cáncer de pulmón es más común entre fumadores que entre no fumadores, y las enfermedades cardíacas pueden ser más probables entre personas con sobrepeso u obesidad. El propósito de este análisis es emplear los datos de pacientes para calcular los costos promedio de atención médica en estos segmentos específicos de la población. Estas estimaciones son útiles para la creación de tablas actuariales que determinan las primas anuales, estableciendo tarifas más altas o más bajas en función de los gastos proyectados para el tratamiento médico.
El conjunto de datos que contiene los gastos médicos hipotéticos de pacientes en los Estados Unidos no es real, pero el autor confirma que se generaron utilizando estadísticas demográficas proporcionadas por la Oficina del Censo de los Estados Unidos, lo que permite que reflejen con aproximación las condiciones del mundo real.
El conjunto de datos fue tomado del libro Machine Learning with R: Expert techniques for predictive modeling, 3rd Edition
El conjunto de datos incluye 1.338 registros de personas aseguradas; las variables incluyen rasgos que indican las características del paciente, así como los gastos médicos totales imputados al plan durante el año. Las variables son:
A continuación se muestran las primeras seis filas de la base de datos a utilizar.
Este es un histograma de los gastos realizados en los pacientes; como era de esperarse, los gastos médicos parecen no tener una distribución normal, lo cual puede acarrear problemas en el cumplimiento de los supuestos de la RLM.
En los Boxplot podemos observar que los pacientes no fumadores tienen gastos médicos promedios más bajos que aquellos que fuman, aunque hay algunos pacientes no fumadores que tienen gastos elevados al nivel de los fumadores; lo anterior podría indicar que los pacientes fumadores son menos saludables y se enferman con mayor frecuencia o probabilidad.
La matriz de correlación de los datos muestra que las variables no tienen una fuerte asociación entre ellas; sin embargo se evidencia una leve correlación positiva entre la edad y los gastos, lo que podría evidenciar que las personas más ancianas generan unos gastos mayores.
El objetivo es proponer un modelo de regresión lineal multivariado para modelar el monto de gastos en función de las variables que incluye el conjunto de datos. A continuación se usará el proceso de selección paso a paso para identificar el mejor modelo:
rlm.stepwise<-step(simple_model, scope = list(lower=simple_model, upper=full_model),
direction ='both')
## Start: AIC=25160.18
## charges ~ 1
##
## Df Sum of Sq RSS AIC
## + smoker 1 1.2152e+11 7.4554e+10 23868
## + age 1 1.7530e+10 1.7854e+11 25037
## + bmi 1 7.7134e+09 1.8836e+11 25109
## + children 1 9.0660e+08 1.9517e+11 25156
## + region 3 1.3008e+09 1.9477e+11 25157
## + sex 1 6.4359e+08 1.9543e+11 25158
## <none> 1.9607e+11 25160
##
## Step: AIC=23868.38
## charges ~ smoker
##
## Df Sum of Sq RSS AIC
## + age 1 1.9928e+10 5.4626e+10 23454
## + bmi 1 7.4856e+09 6.7069e+10 23729
## + children 1 7.5272e+08 7.3802e+10 23857
## <none> 7.4554e+10 23868
## + sex 1 1.4213e+06 7.4553e+10 23870
## + region 3 1.0752e+08 7.4447e+10 23873
## - smoker 1 1.2152e+11 1.9607e+11 25160
##
## Step: AIC=23454.24
## charges ~ smoker + age
##
## Df Sum of Sq RSS AIC
## + bmi 1 5.1129e+09 4.9513e+10 23325
## + children 1 4.5928e+08 5.4167e+10 23445
## <none> 5.4626e+10 23454
## + sex 1 2.2255e+06 5.4624e+10 23456
## + region 3 1.3843e+08 5.4488e+10 23457
## - age 1 1.9928e+10 7.4554e+10 23868
## - smoker 1 1.2392e+11 1.7854e+11 25037
##
## Step: AIC=23324.76
## charges ~ smoker + age + bmi
##
## Df Sum of Sq RSS AIC
## + children 1 4.3477e+08 4.9078e+10 23315
## + region 3 2.3201e+08 4.9281e+10 23325
## <none> 4.9513e+10 23325
## + sex 1 3.9429e+06 4.9509e+10 23327
## - bmi 1 5.1129e+09 5.4626e+10 23454
## - age 1 1.7556e+10 6.7069e+10 23729
## - smoker 1 1.2358e+11 1.7310e+11 24997
##
## Step: AIC=23314.96
## charges ~ smoker + age + bmi + children
##
## Df Sum of Sq RSS AIC
## + region 3 2.3320e+08 4.8845e+10 23315
## <none> 4.9078e+10 23315
## + sex 1 5.4861e+06 4.9073e+10 23317
## - children 1 4.3477e+08 4.9513e+10 23325
## - bmi 1 5.0884e+09 5.4167e+10 23445
## - age 1 1.7297e+10 6.6375e+10 23717
## - smoker 1 1.2345e+11 1.7253e+11 24995
##
## Step: AIC=23314.58
## charges ~ smoker + age + bmi + children + region
##
## Df Sum of Sq RSS AIC
## <none> 4.8845e+10 23315
## - region 3 2.3320e+08 4.9078e+10 23315
## + sex 1 5.7164e+06 4.8840e+10 23316
## - children 1 4.3596e+08 4.9281e+10 23325
## - bmi 1 5.1645e+09 5.4010e+10 23447
## - age 1 1.7151e+10 6.5996e+10 23715
## - smoker 1 1.2301e+11 1.7186e+11 24996
Del proceso de selección anterior se obtiene que el mejor modelo de regresión es el siguiente:
\(charges = \beta_{0}\:+ \beta_{1}\:age +\beta_{2} \:bmi + \beta_{3}\:children +\beta_{4} \:smoker + \beta_{5}\:region +\epsilon\)
La estimación de los coeficientes se encuentran en la columna llamada
Estimated y vemos que para todos ellos (excepto para el coeficiente de
la región regionnorthwest) el valor p correspondiente es menor que \(\alpha=0.05\) por lo que podemos concluir
con una confianza del 95% que son distintos de cero y por ende que las
variables son significativas en la regresión lineal multivariada
propuesta.
El valor p asociado a la regresión es de \(2.2\:e-16\), por lo que con una confianza
del 95% podemos concluir que la regresión lineal es un buen modelo, con
el cual se explica cerca del 75% de la variabilidad de los gastos en
servicios médicos. Los coeficientes positivos de las variables
age, children, bmi nos indican que los gastos médicos
aumentan al aumentar los niveles de estas variables. El coeficiente de
la variable smokeryes es especialmente relevante, ya
que muestra que la diferencia en los gastos médicos entre dos pacientes
que solo se diferencian por ser fumador y no, es de $23,836.30
dólares.
##
## Call:
## lm(formula = charges ~ bmi + children + smoker + age + region,
## data = datos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -11367.2 -2835.4 -979.7 1361.9 29935.5
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -11990.27 978.76 -12.250 < 2e-16 ***
## bmi 338.66 28.56 11.858 < 2e-16 ***
## children 474.57 137.74 3.445 0.000588 ***
## smokeryes 23836.30 411.86 57.875 < 2e-16 ***
## age 256.97 11.89 21.610 < 2e-16 ***
## regionnorthwest -352.18 476.12 -0.740 0.459618
## regionsoutheast -1034.36 478.54 -2.162 0.030834 *
## regionsouthwest -959.37 477.78 -2.008 0.044846 *
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 6060 on 1330 degrees of freedom
## Multiple R-squared: 0.7509, Adjusted R-squared: 0.7496
## F-statistic: 572.7 on 7 and 1330 DF, p-value: < 2.2e-16
Mediante el método LMG vemos que las variables smoker y age son las variables mas relevantes dentro de la regresión; ellas aportan el 83% y el 12% respectivamente a la explicación de la variabilidad. Esto indica que las personas que fuman y son de edad avanzada generan mayores gastos al sistema de salud.
A continuación se validarán los supuestos de normalidad y varianza
constante sobre los residuales del modelo considerado anteriormente. En
los gráficos podemos observar que los residuales del modelo presentan
serias desviaciones a ambos supuestos; el Q-Q plot muestra que los
residuales no se ajustan en gran parte a la linea recta \(y=x\) indicando una violación aparente al
supuesto de normalidad; por su parte el gráfico de residuales versus
valores predichos muestra una gran dispersión de los puntos,
evidenciando una posible violación al supuesto de homocedasticidad de
los residuos.
A continuación se harán las pruebas estadísticas para verificar los supuestos:
Dado que los valores-p de los test de Shapiro-Wilk y Kolmogorov-Smirnov son menores que \(\alpha=0.05\), entonces con una confianza del 95% podemos afirmar que los residuales del modelo no siguen una distribución normal (se rechaza la hipótesis nula)
##
## Shapiro-Wilk normality test
##
## data: Residuos
## W = 0.89909, p-value < 2.2e-16
##
## Lilliefors (Kolmogorov-Smirnov) normality test
##
## data: Residuos
## D = 0.16124, p-value < 2.2e-16
Dado que el valor-p de la prueba Breusch-Pagan es menor que \(\alpha=0.05\) podemos concluir que los residuales del modelo propuesto no cumplen el supuesto de varianza constante.
##
## studentized Breusch-Pagan test
##
## data: Modelo.final
## BP = 120.83, df = 7, p-value < 2.2e-16
Esta prueba Durbin – Watson tiene un valor-p asociado mas grande que \(\alpha=0.05\), por lo que con una confianza del 95% no hay evidencia suficiente para afirmar que hay correlación sistemática entre los residuos del modelo.
##
## Durbin-Watson test
##
## data: Modelo.final
## DW = 2.089, p-value = 0.9483
## alternative hypothesis: true autocorrelation is greater than 0
Dado que los valores VIF para cada variable están muy cerca de 1, podemos afirmar que no hay multicolinealidad entre las variables incluidas en el modelo; lo anterior conclusión coincide con la hecha con base en las correlaciones halladas en la matriz.
## GVIF Df GVIF^(1/(2*Df))
## bmi 1.104197 1 1.050808
## children 1.003714 1 1.001855
## smoker 1.006369 1 1.003179
## age 1.016188 1 1.008061
## region 1.098870 3 1.015838
Debido a la violación de los supuestos de normalidad y varianza
constante, se propone realizar una transformación a los datos con la
intención de que el modelo los cumpla.
Abajo se muestra la función de transformación Box-Cox la función de
verosimilitud y el intervalo de confianza para el parámetro \(\lambda\).
Transformación BOX-COX
Del gráfico vemos que el valor \(\lambda\) de la transformación es cercano a cero (\(\lambda=0.15\)) por lo que en este caso se hará una transformación logarítmica a la variable dependiente charges.
## [1] 0.1515152
Este es el código con el cual se generó el nuevo modelo con la variable charges transformada.
data_trans<-datos
data_trans$logcharges=log(data_trans$charges)
Modelo_trans<- lm(logcharges ~ age + bmi + children + smoker + region, data=data_trans)
Acá vemos que los resultados son similares a los obtenidos con la variable sin transformar. La regresión lineal múltiple es significativa y las variables consideradas siguen siendo estadísticamente significativas con un nivel de confianza del 95% excepto para región northwest.
summary(Modelo_trans)
##
## Call:
## lm(formula = logcharges ~ age + bmi + children + smoker + region,
## data = data_trans)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.10302 -0.19707 -0.05206 0.06564 2.15091
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 7.0008478 0.0719853 97.254 < 2e-16 ***
## age 0.0346490 0.0008746 39.618 < 2e-16 ***
## bmi 0.0130711 0.0021004 6.223 6.52e-10 ***
## children 0.1013204 0.0101304 10.002 < 2e-16 ***
## smokeryes 1.5472965 0.0302910 51.081 < 2e-16 ***
## regionnorthwest -0.0633386 0.0350174 -1.809 0.070712 .
## regionsoutheast -0.1568166 0.0351952 -4.456 9.07e-06 ***
## regionsouthwest -0.1285638 0.0351393 -3.659 0.000263 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.4457 on 1330 degrees of freedom
## Multiple R-squared: 0.7663, Adjusted R-squared: 0.765
## F-statistic: 622.9 on 7 and 1330 DF, p-value: < 2.2e-16
De acuerdo con el gráfico Q-Q y el gráfico de residuales frente a los valores predichos, se puede concluir que el modelo no satisface los supuestos de normalidad y homocedasticidad (varianza constante).
El gráfico Q-Q muestra una divergencia significativa de los puntos de datos con respecto a la línea diagonal esperada para una distribución normal. Esto indica que las observaciones no se ajustan a una distribución normal, lo que infringe el supuesto de normalidad.
Por otro lado, el gráfico de residuales versus valores predichos exhibe un patrón no aleatorio en la dispersión de los residuales alrededor de cero. Esto sugiere que la varianza de los residuales no es constante en toda la gama de valores predichos, lo que va en contra del supuesto de homocedasticidad.
Según los resultados de los test, se ha identificado un incumplimiento significativo del supuesto de normalidad en los datos analizados. El valor del estadístico obtenido en ambas pruebas es considerablemente menor que \(\alpha=0.05\), se rechaza la hipótesis nula indicando que los datos no se ajustan a una distribución normal.
##
## Shapiro-Wilk normality test
##
## data: Res_model_trans
## W = 0.84227, p-value < 2.2e-16
##
## Lilliefors (Kolmogorov-Smirnov) normality test
##
## data: Res_model_trans
## D = 0.214, p-value < 2.2e-16
Según los resultados del test de Breusch-Pagan para la homocedasticidad de los residuales estudentizados, se ha detectado un incumplimiento significativo del supuesto de varianza constante en los datos analizados. El valor del estadístico obtenido a partir de esta prueba es inferior que el nivel de significancia deseado \(\alpha=0.05\), lo que sugiere una variabilidad desigual de los residuales en relación con las variables predictoras del modelo.
##
## studentized Breusch-Pagan test
##
## data: Modelo_trans
## BP = 78.996, df = 7, p-value = 2.207e-14
El valor del estadístico de Durbin-Watson se encuentra dentro de un rango que indica que no hay evidencia significativa de autocorrelación serial en los residuales con un nivel de confianza del 95%.
##
## Durbin-Watson test
##
## data: Modelo_trans
## DW = 2.0494, p-value = 0.8171
## alternative hypothesis: true autocorrelation is greater than 0
Dado que los valores VIF para cada variable están muy cerca de 1, podemos afirmar que no hay multicolinealidad entre las variables incluidas en el modelo; lo anterior conclusión coincide con la hecha con base en las correlaciones halladas en la matriz.
## GVIF Df GVIF^(1/(2*Df))
## age 1.016188 1 1.008061
## bmi 1.104197 1 1.050808
## children 1.003714 1 1.001855
## smoker 1.006369 1 1.003179
## region 1.098870 3 1.015838
A pesar de la transformación realizada, los residuales siguen incumpliendo los supuestos; esto implica que:
Los estimadores de los coeficientes del modelo (pendientes e interceptos) pueden estar sesgados. Esto significa que los valores estimados de los coeficientes pueden no ser los valores óptimos y pueden llevar a inferencias incorrectas sobre las relaciones entre las variables predictoras y la variable dependiente.
La normalidad de los residuos es un supuesto importante para calcular intervalos de confianza y realizar pruebas de hipótesis sobre los coeficientes del modelo. Si los residuos no son normales, es posible que los intervalos de confianza sean demasiado anchos o demasiado estrechos, y las pruebas de hipótesis puedan arrojar resultados erróneos.
Las predicciones del modelo pueden ser sesgadas, lo que significa que las predicciones pueden estar sistemáticamente sobreestimadas o subestimadas.
La interpretación de los coeficientes del modelo puede volverse más complicada. Por ejemplo, los intervalos de confianza para los coeficientes pueden no reflejar adecuadamente la variabilidad en los datos.
Debido a lo anterior es importante considerar otras técnicas de modelado que puedan ser más apropiadas para los datos, como modelos no lineales o modelos robustos que no dependan de la normalidad de los errores. También es importante explorar otras posibles transformaciones de las variables para mejorar la normalidad de los residuos.