TAREA

Seleccione una base de datos que contenga una variable respuesta y varias variables explicativas y con ella:

  • Explique el contexto de la base de datos y el objetivo que se debería alcanzar a través del análisis de regresión múltiple.

  • Compare diferentes modelos que se pueden obtener con las variables originales y transformadas, variando el número de parámetros. ¿Cuál de éstos modelos es mejor?.

  • ¿Cuales variables son estadísticamente significativas para el modelo?

  • ¿Qué variables aportan más al ajuste lineal del modelo de regresión?

  • Valide el cumplimiento de los supuestos estadísticos del modelo de regresión.

DATOS

Para que una compañía de seguros de salud logre ser rentable, es necesario que genere ingresos superiores a los gastos que tiene asociados con la atención médica brindada a sus asegurados. En consecuencia, las aseguradoras dedican un considerable esfuerzo y recursos financieros en el desarrollo de modelos precisos que permitan anticipar los costos médicos de la población asegurada. La estimación de estos costos resulta compleja debido a que las enfermedades de alto costo son poco comunes y parecen manifestarse de manera aleatoria. No obstante, algunas enfermedades presentan una mayor incidencia en ciertos grupos de la población. Por ejemplo, el cáncer de pulmón es más común entre fumadores que entre no fumadores, y las enfermedades cardíacas pueden ser más probables entre personas con sobrepeso u obesidad. El propósito de este análisis es emplear los datos de pacientes para calcular los costos promedio de atención médica en estos segmentos específicos de la población. Estas estimaciones son útiles para la creación de tablas actuariales que determinan las primas anuales, estableciendo tarifas más altas o más bajas en función de los gastos proyectados para el tratamiento médico.

El conjunto de datos que contiene los gastos médicos hipotéticos de pacientes en los Estados Unidos no es real, pero el autor confirma que se generaron utilizando estadísticas demográficas proporcionadas por la Oficina del Censo de los Estados Unidos, lo que permite que reflejen con aproximación las condiciones del mundo real.

El conjunto de datos fue tomado del libro Machine Learning with R: Expert techniques for predictive modeling, 3rd Edition

Variables

El conjunto de datos incluye 1.338 registros de personas aseguradas; las variables incluyen rasgos que indican las características del paciente, así como los gastos médicos totales imputados al plan durante el año. Las variables son:

  • Charges: Gastos médicos del paciente en el año.
  • Age: Edad del beneficiario principal (excluidos los mayores de 64 años, ya que ellos suelen estar cubiertos por el Estado).
  • Sex: El sexo del titular de la póliza, hombre o mujer.
  • BMI: El índice de masa corporal (IMC)
  • Children: Número de hijos dependientes cubiertos por el plan del seguro.
  • Smoker: Variable categórica que indica si el asegurado fuma tabaco con regularidad.
  • Región: Lugar de residencia del beneficiario en EE.UU., dividido en cuatro regiones geográficas: noreste, sureste, suroeste o noroeste.

A continuación se muestran las primeras seis filas de la base de datos a utilizar.

Este es un histograma de los gastos realizados en los pacientes; como era de esperarse, los gastos médicos parecen no tener una distribución normal, lo cual puede acarrear problemas en el cumplimiento de los supuestos de la RLM.

En los Boxplot podemos observar que los pacientes no fumadores tienen gastos médicos promedios más bajos que aquellos que fuman, aunque hay algunos pacientes no fumadores que tienen gastos elevados al nivel de los fumadores; lo anterior podría indicar que los pacientes fumadores son menos saludables y se enferman con mayor frecuencia o probabilidad.

La matriz de correlación de los datos muestra que las variables no tienen una fuerte asociación entre ellas; sin embargo se evidencia una leve correlación positiva entre la edad y los gastos, lo que podría evidenciar que las personas más ancianas generan unos gastos mayores.

MODELAMIENTO

El objetivo es proponer un modelo de regresión lineal multivariado para modelar el monto de gastos en función de las variables que incluye el conjunto de datos. A continuación se usará el proceso de selección paso a paso para identificar el mejor modelo:

rlm.stepwise<-step(simple_model, scope = list(lower=simple_model, upper=full_model),
                   direction ='both')
## Start:  AIC=25160.18
## charges ~ 1
## 
##            Df  Sum of Sq        RSS   AIC
## + smoker    1 1.2152e+11 7.4554e+10 23868
## + age       1 1.7530e+10 1.7854e+11 25037
## + bmi       1 7.7134e+09 1.8836e+11 25109
## + children  1 9.0660e+08 1.9517e+11 25156
## + region    3 1.3008e+09 1.9477e+11 25157
## + sex       1 6.4359e+08 1.9543e+11 25158
## <none>                   1.9607e+11 25160
## 
## Step:  AIC=23868.38
## charges ~ smoker
## 
##            Df  Sum of Sq        RSS   AIC
## + age       1 1.9928e+10 5.4626e+10 23454
## + bmi       1 7.4856e+09 6.7069e+10 23729
## + children  1 7.5272e+08 7.3802e+10 23857
## <none>                   7.4554e+10 23868
## + sex       1 1.4213e+06 7.4553e+10 23870
## + region    3 1.0752e+08 7.4447e+10 23873
## - smoker    1 1.2152e+11 1.9607e+11 25160
## 
## Step:  AIC=23454.24
## charges ~ smoker + age
## 
##            Df  Sum of Sq        RSS   AIC
## + bmi       1 5.1129e+09 4.9513e+10 23325
## + children  1 4.5928e+08 5.4167e+10 23445
## <none>                   5.4626e+10 23454
## + sex       1 2.2255e+06 5.4624e+10 23456
## + region    3 1.3843e+08 5.4488e+10 23457
## - age       1 1.9928e+10 7.4554e+10 23868
## - smoker    1 1.2392e+11 1.7854e+11 25037
## 
## Step:  AIC=23324.76
## charges ~ smoker + age + bmi
## 
##            Df  Sum of Sq        RSS   AIC
## + children  1 4.3477e+08 4.9078e+10 23315
## + region    3 2.3201e+08 4.9281e+10 23325
## <none>                   4.9513e+10 23325
## + sex       1 3.9429e+06 4.9509e+10 23327
## - bmi       1 5.1129e+09 5.4626e+10 23454
## - age       1 1.7556e+10 6.7069e+10 23729
## - smoker    1 1.2358e+11 1.7310e+11 24997
## 
## Step:  AIC=23314.96
## charges ~ smoker + age + bmi + children
## 
##            Df  Sum of Sq        RSS   AIC
## + region    3 2.3320e+08 4.8845e+10 23315
## <none>                   4.9078e+10 23315
## + sex       1 5.4861e+06 4.9073e+10 23317
## - children  1 4.3477e+08 4.9513e+10 23325
## - bmi       1 5.0884e+09 5.4167e+10 23445
## - age       1 1.7297e+10 6.6375e+10 23717
## - smoker    1 1.2345e+11 1.7253e+11 24995
## 
## Step:  AIC=23314.58
## charges ~ smoker + age + bmi + children + region
## 
##            Df  Sum of Sq        RSS   AIC
## <none>                   4.8845e+10 23315
## - region    3 2.3320e+08 4.9078e+10 23315
## + sex       1 5.7164e+06 4.8840e+10 23316
## - children  1 4.3596e+08 4.9281e+10 23325
## - bmi       1 5.1645e+09 5.4010e+10 23447
## - age       1 1.7151e+10 6.5996e+10 23715
## - smoker    1 1.2301e+11 1.7186e+11 24996

Del proceso de selección anterior se obtiene que el mejor modelo de regresión es el siguiente:

\(charges = \beta_{0}\:+ \beta_{1}\:age +\beta_{2} \:bmi + \beta_{3}\:children +\beta_{4} \:smoker + \beta_{5}\:region +\epsilon\)

La estimación de los coeficientes se encuentran en la columna llamada Estimated y vemos que para todos ellos (excepto para el coeficiente de la región regionnorthwest) el valor p correspondiente es menor que \(\alpha=0.05\) por lo que podemos concluir con una confianza del 95% que son distintos de cero y por ende que las variables son significativas en la regresión lineal multivariada propuesta.
El valor p asociado a la regresión es de \(2.2\:e-16\), por lo que con una confianza del 95% podemos concluir que la regresión lineal es un buen modelo, con el cual se explica cerca del 75% de la variabilidad de los gastos en servicios médicos. Los coeficientes positivos de las variables age, children, bmi nos indican que los gastos médicos aumentan al aumentar los niveles de estas variables. El coeficiente de la variable smokeryes es especialmente relevante, ya que muestra que la diferencia en los gastos médicos entre dos pacientes que solo se diferencian por ser fumador y no, es de $23,836.30 dólares.

## 
## Call:
## lm(formula = charges ~ bmi + children + smoker + age + region, 
##     data = datos)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -11367.2  -2835.4   -979.7   1361.9  29935.5 
## 
## Coefficients:
##                  Estimate Std. Error t value Pr(>|t|)    
## (Intercept)     -11990.27     978.76 -12.250  < 2e-16 ***
## bmi                338.66      28.56  11.858  < 2e-16 ***
## children           474.57     137.74   3.445 0.000588 ***
## smokeryes        23836.30     411.86  57.875  < 2e-16 ***
## age                256.97      11.89  21.610  < 2e-16 ***
## regionnorthwest   -352.18     476.12  -0.740 0.459618    
## regionsoutheast  -1034.36     478.54  -2.162 0.030834 *  
## regionsouthwest   -959.37     477.78  -2.008 0.044846 *  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 6060 on 1330 degrees of freedom
## Multiple R-squared:  0.7509, Adjusted R-squared:  0.7496 
## F-statistic: 572.7 on 7 and 1330 DF,  p-value: < 2.2e-16

Relevancia de las variables

Mediante el método LMG vemos que las variables smoker y age son las variables mas relevantes dentro de la regresión; ellas aportan el 83% y el 12% respectivamente a la explicación de la variabilidad. Esto indica que las personas que fuman y son de edad avanzada generan mayores gastos al sistema de salud.

VALIDACIÓN DEL MODELO

A continuación se validarán los supuestos de normalidad y varianza constante sobre los residuales del modelo considerado anteriormente. En los gráficos podemos observar que los residuales del modelo presentan serias desviaciones a ambos supuestos; el Q-Q plot muestra que los residuales no se ajustan en gran parte a la linea recta \(y=x\) indicando una violación aparente al supuesto de normalidad; por su parte el gráfico de residuales versus valores predichos muestra una gran dispersión de los puntos, evidenciando una posible violación al supuesto de homocedasticidad de los residuos.

PRUEBAS ANALÍTICAS

A continuación se harán las pruebas estadísticas para verificar los supuestos:

NORMALIDAD

Dado que los valores-p de los test de Shapiro-Wilk y Kolmogorov-Smirnov son menores que \(\alpha=0.05\), entonces con una confianza del 95% podemos afirmar que los residuales del modelo no siguen una distribución normal (se rechaza la hipótesis nula)

## 
##  Shapiro-Wilk normality test
## 
## data:  Residuos
## W = 0.89909, p-value < 2.2e-16
## 
##  Lilliefors (Kolmogorov-Smirnov) normality test
## 
## data:  Residuos
## D = 0.16124, p-value < 2.2e-16

HOMESDASTICIDAD

Dado que el valor-p de la prueba Breusch-Pagan es menor que \(\alpha=0.05\) podemos concluir que los residuales del modelo propuesto no cumplen el supuesto de varianza constante.

## 
##  studentized Breusch-Pagan test
## 
## data:  Modelo.final
## BP = 120.83, df = 7, p-value < 2.2e-16

INDEPENDENCIA

Esta prueba Durbin – Watson tiene un valor-p asociado mas grande que \(\alpha=0.05\), por lo que con una confianza del 95% no hay evidencia suficiente para afirmar que hay correlación sistemática entre los residuos del modelo.

## 
##  Durbin-Watson test
## 
## data:  Modelo.final
## DW = 2.089, p-value = 0.9483
## alternative hypothesis: true autocorrelation is greater than 0

MULTICOLINEALIDAD

Dado que los valores VIF para cada variable están muy cerca de 1, podemos afirmar que no hay multicolinealidad entre las variables incluidas en el modelo; lo anterior conclusión coincide con la hecha con base en las correlaciones halladas en la matriz.

##              GVIF Df GVIF^(1/(2*Df))
## bmi      1.104197  1        1.050808
## children 1.003714  1        1.001855
## smoker   1.006369  1        1.003179
## age      1.016188  1        1.008061
## region   1.098870  3        1.015838

TRANSFORMACIÓN DE LOS DATOS

Debido a la violación de los supuestos de normalidad y varianza constante, se propone realizar una transformación a los datos con la intención de que el modelo los cumpla.
Abajo se muestra la función de transformación Box-Cox la función de verosimilitud y el intervalo de confianza para el parámetro \(\lambda\).

Transformación BOX-COX

Transformación BOX-COX

Del gráfico vemos que el valor \(\lambda\) de la transformación es cercano a cero (\(\lambda=0.15\)) por lo que en este caso se hará una transformación logarítmica a la variable dependiente charges.

## [1] 0.1515152

MODELO TRANSFORMADO

Este es el código con el cual se generó el nuevo modelo con la variable charges transformada.

data_trans<-datos
data_trans$logcharges=log(data_trans$charges)
Modelo_trans<- lm(logcharges ~ age + bmi + children + smoker + region, data=data_trans)

Acá vemos que los resultados son similares a los obtenidos con la variable sin transformar. La regresión lineal múltiple es significativa y las variables consideradas siguen siendo estadísticamente significativas con un nivel de confianza del 95% excepto para región northwest.

summary(Modelo_trans)
## 
## Call:
## lm(formula = logcharges ~ age + bmi + children + smoker + region, 
##     data = data_trans)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -1.10302 -0.19707 -0.05206  0.06564  2.15091 
## 
## Coefficients:
##                   Estimate Std. Error t value Pr(>|t|)    
## (Intercept)      7.0008478  0.0719853  97.254  < 2e-16 ***
## age              0.0346490  0.0008746  39.618  < 2e-16 ***
## bmi              0.0130711  0.0021004   6.223 6.52e-10 ***
## children         0.1013204  0.0101304  10.002  < 2e-16 ***
## smokeryes        1.5472965  0.0302910  51.081  < 2e-16 ***
## regionnorthwest -0.0633386  0.0350174  -1.809 0.070712 .  
## regionsoutheast -0.1568166  0.0351952  -4.456 9.07e-06 ***
## regionsouthwest -0.1285638  0.0351393  -3.659 0.000263 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.4457 on 1330 degrees of freedom
## Multiple R-squared:  0.7663, Adjusted R-squared:  0.765 
## F-statistic: 622.9 on 7 and 1330 DF,  p-value: < 2.2e-16

VERIFICACIÓN DE SUPUESTOS

GRÁFICAMENTE

De acuerdo con el gráfico Q-Q y el gráfico de residuales frente a los valores predichos, se puede concluir que el modelo no satisface los supuestos de normalidad y homocedasticidad (varianza constante).

El gráfico Q-Q muestra una divergencia significativa de los puntos de datos con respecto a la línea diagonal esperada para una distribución normal. Esto indica que las observaciones no se ajustan a una distribución normal, lo que infringe el supuesto de normalidad.

Por otro lado, el gráfico de residuales versus valores predichos exhibe un patrón no aleatorio en la dispersión de los residuales alrededor de cero. Esto sugiere que la varianza de los residuales no es constante en toda la gama de valores predichos, lo que va en contra del supuesto de homocedasticidad.

ANALÍTICAMENTE

NORMALIDAD

Según los resultados de los test, se ha identificado un incumplimiento significativo del supuesto de normalidad en los datos analizados. El valor del estadístico obtenido en ambas pruebas es considerablemente menor que \(\alpha=0.05\), se rechaza la hipótesis nula indicando que los datos no se ajustan a una distribución normal.

## 
##  Shapiro-Wilk normality test
## 
## data:  Res_model_trans
## W = 0.84227, p-value < 2.2e-16
## 
##  Lilliefors (Kolmogorov-Smirnov) normality test
## 
## data:  Res_model_trans
## D = 0.214, p-value < 2.2e-16
HOMESDASTICIDAD

Según los resultados del test de Breusch-Pagan para la homocedasticidad de los residuales estudentizados, se ha detectado un incumplimiento significativo del supuesto de varianza constante en los datos analizados. El valor del estadístico obtenido a partir de esta prueba es inferior que el nivel de significancia deseado \(\alpha=0.05\), lo que sugiere una variabilidad desigual de los residuales en relación con las variables predictoras del modelo.

## 
##  studentized Breusch-Pagan test
## 
## data:  Modelo_trans
## BP = 78.996, df = 7, p-value = 2.207e-14
INDEPENDENCIA

El valor del estadístico de Durbin-Watson se encuentra dentro de un rango que indica que no hay evidencia significativa de autocorrelación serial en los residuales con un nivel de confianza del 95%.

## 
##  Durbin-Watson test
## 
## data:  Modelo_trans
## DW = 2.0494, p-value = 0.8171
## alternative hypothesis: true autocorrelation is greater than 0
MULTICOLINEALIDAD

Dado que los valores VIF para cada variable están muy cerca de 1, podemos afirmar que no hay multicolinealidad entre las variables incluidas en el modelo; lo anterior conclusión coincide con la hecha con base en las correlaciones halladas en la matriz.

##              GVIF Df GVIF^(1/(2*Df))
## age      1.016188  1        1.008061
## bmi      1.104197  1        1.050808
## children 1.003714  1        1.001855
## smoker   1.006369  1        1.003179
## region   1.098870  3        1.015838

CONCLUSIONES

A pesar de la transformación realizada, los residuales siguen incumpliendo los supuestos; esto implica que:

  • Los estimadores de los coeficientes del modelo (pendientes e interceptos) pueden estar sesgados. Esto significa que los valores estimados de los coeficientes pueden no ser los valores óptimos y pueden llevar a inferencias incorrectas sobre las relaciones entre las variables predictoras y la variable dependiente.

  • La normalidad de los residuos es un supuesto importante para calcular intervalos de confianza y realizar pruebas de hipótesis sobre los coeficientes del modelo. Si los residuos no son normales, es posible que los intervalos de confianza sean demasiado anchos o demasiado estrechos, y las pruebas de hipótesis puedan arrojar resultados erróneos.

  • Las predicciones del modelo pueden ser sesgadas, lo que significa que las predicciones pueden estar sistemáticamente sobreestimadas o subestimadas.

  • La interpretación de los coeficientes del modelo puede volverse más complicada. Por ejemplo, los intervalos de confianza para los coeficientes pueden no reflejar adecuadamente la variabilidad en los datos.

Debido a lo anterior es importante considerar otras técnicas de modelado que puedan ser más apropiadas para los datos, como modelos no lineales o modelos robustos que no dependan de la normalidad de los errores. También es importante explorar otras posibles transformaciones de las variables para mejorar la normalidad de los residuos.