Los sistemas de salud enfrentan costos crecientes debido a factores como el envejecimiento de la población, el aumento en enfermedades crónicas (como diabetes u obesidad) y el encarecimiento de tratamientos y medicamentos. Por lo cual es esencial predecir el costo medico para estimar y gestionar de manera eficiente los gastos de atención médica. Permite a aseguradoras, proveedores de salud y formuladores de políticas anticipar costos, optimizar recursos y diseñar estrategias para contener el crecimiento del gasto sanitario
¿Cuáles son los factores más determinantes para predecir el costo médico de los pacientes?
## [1] "car" "lmtest" "visdat" "corrplot" "MASS" "olsrr"
## [7] "ggplot2" "patchwork" "tidyr" "knitr"
Realizamos la carga de los datos y observamos su estructura
## 'data.frame': 1338 obs. of 7 variables:
## $ age : int 19 18 28 33 32 31 46 37 37 60 ...
## $ sex : chr "female" "male" "male" "male" ...
## $ bmi : num 27.9 33.8 33 22.7 28.9 ...
## $ children: int 0 1 3 0 0 0 1 3 2 0 ...
## $ smoker : chr "yes" "no" "no" "no" ...
## $ region : chr "southwest" "southeast" "southeast" "northwest" ...
## $ charges : num 16885 1726 4449 21984 3867 ...
age | sex | bmi | children | smoker | region | charges |
---|---|---|---|---|---|---|
19 | female | 27.900 | 0 | yes | southwest | 16884.924 |
18 | male | 33.770 | 1 | no | southeast | 1725.552 |
28 | male | 33.000 | 3 | no | southeast | 4449.462 |
33 | male | 22.705 | 0 | no | northwest | 21984.471 |
32 | male | 28.880 | 0 | no | northwest | 3866.855 |
Revisamos que la data se encuentre completa en cada uno de sus campos
De acuerdo a la estructura del dataset , encontramos variables tanto categoricas como numericas , por lo tanto iniciamos el analisis exploratorio de los datos visualizando cada una de estas
La población estudiada presenta una distribución equilibrada en términos de género, con un 49% de mujeres y un 51% de hombres. En cuanto al número de hijos, el 43% de los individuos no tienen hijos, seguidos de un 24% con un hijo y porcentajes menores para aquellos con más hijos, indicando una tendencia hacia familias más pequeñas. En relación con los hábitos de fumar, la mayoría de la población (80%) no fuma, lo que es positivo desde una perspectiva de salud pública. La distribución geográfica es bastante uniforme, con una ligera predominancia en la región sureste (27%).
Los diagramas de caja presentados muestran la distribución de las variables edad, índice de masa corporal (BMI), número de hijos y cargos en la población estudiada. La mediana de la edad se sitúa alrededor de los 40 años, con un rango intercuartílico entre 27 y 50 años. En el caso del BMI, la mediana es de aproximadamente 30, con un rango intercuartílico entre 26 y 34, y varios valores atípicos por encima de 40.Finalmente, para la variable cargos, la mediana se encuentra alrededor de 10,000, con un rango intercuartílico de 5,000 a 17,000, y numerosos valores atípicos por encima de 30,000.
age | bmi | children | charges | |
---|---|---|---|---|
Promedio | 39.20703 | 30.663397 | 1.094918 | 13270.42 |
Desviación | 14.04996 | 6.098187 | 1.205493 | 12110.01 |
La distribución de la edad sugiere una población mayoritariamente adulta, con tendencias hacia el sobrepeso y familias pequeñas. Los costos médicos varían ampliamente, lo que podría indicar desigualdades en la atención médica o necesidades específicas de salud en ciertos casos.
age | sex | bmi | children | smoker | region | charges | |
---|---|---|---|---|---|---|---|
Min. :18.00 | Length:1338 | Min. :15.96 | Min. :0.000 | Length:1338 | Length:1338 | Min. : 1122 | |
1st Qu.:27.00 | Class :character | 1st Qu.:26.30 | 1st Qu.:0.000 | Class :character | Class :character | 1st Qu.: 4740 | |
Median :39.00 | Mode :character | Median :30.40 | Median :1.000 | Mode :character | Mode :character | Median : 9382 | |
Mean :39.21 | NA | Mean :30.66 | Mean :1.095 | NA | NA | Mean :13270 | |
3rd Qu.:51.00 | NA | 3rd Qu.:34.69 | 3rd Qu.:2.000 | NA | NA | 3rd Qu.:16640 | |
Max. :64.00 | NA | Max. :53.13 | Max. :5.000 | NA | NA | Max. :63770 |
La variabilidad en los costos médicos también es notable, con algunos individuos incurriendo en cargos significativamente altos. Estos hallazgos sugieren que tanto la edad como el BMI son factores importantes que influyen en los costos médicos, con una influencia más directa del BMI.
El análisis de la variable charges (cargos) revela una distribución asimétrica con una tendencia significativa hacia la derecha, lo que se observa claramente en el histograma con la curva de densidad superpuesta. La mayoría de los cargos se encuentran en el rango de 0 a 20,000, pero existen valores extremos que alcanzan hasta los 63,770. La curva de densidad indica varios picos menores entre los 30,000 y 50,000, sugiriendo la presencia de subgrupos específicos con cargos elevados
La relación de la variable objetivo charges (cargos) con diferentes variables revela varios patrones importantes. Los hombres tienden a tener cargos ligeramente más altos que las mujeres, mientras que los cargos aumentan con el número de hijos, especialmente para aquellos con 2 o 3 hijos. Los fumadores tienen cargos significativamente más altos y una mayor variabilidad en comparación con los no fumadores. Regionalmente, la región sureste presenta cargos ligeramente más altos. La edad y el BMI también muestran tendencias ascendentes, indicando que los cargos tienden a aumentar con ambos factores. La presencia de numerosos valores atípicos en todas las variables sugiere una alta variabilidad en los costos médicos individuales, lo cual es crucial para diseñar intervenciones y políticas efectivas en el ámbito de la salud.
Ejecutamos el modelo de regresión lineal obteniendo los siguientes resultados
##
## Call:
## lm(formula = charges ~ age + sex + bmi + children + smoker +
## region, data = Data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -11304.9 -2848.1 -982.1 1393.9 29992.8
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -11938.5 987.8 -12.086 < 2e-16 ***
## age 256.9 11.9 21.587 < 2e-16 ***
## sexmale -131.3 332.9 -0.394 0.693348
## bmi 339.2 28.6 11.860 < 2e-16 ***
## children 475.5 137.8 3.451 0.000577 ***
## smokeryes 23848.5 413.1 57.723 < 2e-16 ***
## regionnorthwest -353.0 476.3 -0.741 0.458769
## regionsoutheast -1035.0 478.7 -2.162 0.030782 *
## regionsouthwest -960.0 477.9 -2.009 0.044765 *
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 6062 on 1329 degrees of freedom
## Multiple R-squared: 0.7509, Adjusted R-squared: 0.7494
## F-statistic: 500.8 on 8 and 1329 DF, p-value: < 2.2e-16
Resumen de los Residuales:
La mediana de los residuales es cercana a cero, con un rango de -11304.9 a 29992.8, indicando cierta dispersión alrededor de la línea de regresión.
La desviación estándar residual es de 6062, reflejando la variabilidad de los residuales.
Medidas de Ajuste del Modelo:
R-cuadrado ajustado: 0.7494, sugiriendo que el 75% de la variabilidad en los cargos puede ser explicada por las variables del modelo.
F-statistic: 500.8 (p < 2.2e-16), indicando que el modelo en su conjunto es significativamente mejor que un modelo sin predictores.
Este modelo de regresión lineal demuestra que variables como edad, BMI, número de hijos y ser fumador son determinantes clave de los cargos. El sexo y algunas regiones no presentan un impacto significativo.
El modelo sugiere que los factores personales y de estilo de vida (edad, BMI, estado de fumador) tienen una mayor influencia en los costos médicos en comparación con factores contextuales como la región. Se recomienda profundizar en las variables explicativas principales (como smoker, age y bmi) e investigar factores adicionales que podrían mejorar la capacidad del modelo para explicar la variabilidad residual
El estado de fumador tiene un impacto significativo en los costos médicos: Ser fumador aumenta los costos médicos en un promedio de $23,848.5, lo que lo convierte en el factor más influyente en el modelo. Esto resalta la importancia de diseñar políticas de prevención enfocadas en reducir el tabaquismo para disminuir los costos asociados.
La edad y el índice de masa corporal (BMI) también son determinantes clave: Cada año adicional de edad incrementa los costos médicos en $256.9, y cada unidad adicional en el BMI añade $339.2 a los costos. Esto evidencia la relación directa entre el envejecimiento, el sobrepeso y los gastos médicos, destacando la necesidad de promover hábitos saludables desde una edad temprana.
Además es relevante investigar factores adicionales que podrían mejorar la capacidad del modelo y aumentar el coeficiente de determinación