Introducción

Los sistemas de salud enfrentan costos crecientes debido a factores como el envejecimiento de la población, el aumento en enfermedades crónicas (como diabetes u obesidad) y el encarecimiento de tratamientos y medicamentos. Por lo cual es esencial predecir el costo medico para estimar y gestionar de manera eficiente los gastos de atención médica. Permite a aseguradoras, proveedores de salud y formuladores de políticas anticipar costos, optimizar recursos y diseñar estrategias para contener el crecimiento del gasto sanitario

Pregunta problema

¿Cuáles son los factores más determinantes para predecir el costo médico de los pacientes?

Librerias utilizadas

##  [1] "car"       "lmtest"    "visdat"    "corrplot"  "MASS"      "olsrr"    
##  [7] "ggplot2"   "patchwork" "tidyr"     "knitr"

Cargue de los datos

Realizamos la carga de los datos y observamos su estructura

## 'data.frame':    1338 obs. of  7 variables:
##  $ age     : int  19 18 28 33 32 31 46 37 37 60 ...
##  $ sex     : chr  "female" "male" "male" "male" ...
##  $ bmi     : num  27.9 33.8 33 22.7 28.9 ...
##  $ children: int  0 1 3 0 0 0 1 3 2 0 ...
##  $ smoker  : chr  "yes" "no" "no" "no" ...
##  $ region  : chr  "southwest" "southeast" "southeast" "northwest" ...
##  $ charges : num  16885 1726 4449 21984 3867 ...
Vista del data frame utilizado
age sex bmi children smoker region charges
19 female 27.900 0 yes southwest 16884.924
18 male 33.770 1 no southeast 1725.552
28 male 33.000 3 no southeast 4449.462
33 male 22.705 0 no northwest 21984.471
32 male 28.880 0 no northwest 3866.855

Exploración de la data

Revisamos que la data se encuentre completa en cada uno de sus campos

Revisamos la estructura mediante graficos de cada variable

De acuerdo a la estructura del dataset , encontramos variables tanto categoricas como numericas , por lo tanto iniciamos el analisis exploratorio de los datos visualizando cada una de estas

Variables categoricas

La población estudiada presenta una distribución equilibrada en términos de género, con un 49% de mujeres y un 51% de hombres. En cuanto al número de hijos, el 43% de los individuos no tienen hijos, seguidos de un 24% con un hijo y porcentajes menores para aquellos con más hijos, indicando una tendencia hacia familias más pequeñas. En relación con los hábitos de fumar, la mayoría de la población (80%) no fuma, lo que es positivo desde una perspectiva de salud pública. La distribución geográfica es bastante uniforme, con una ligera predominancia en la región sureste (27%).

Variables numericas

Los diagramas de caja presentados muestran la distribución de las variables edad, índice de masa corporal (BMI), número de hijos y cargos en la población estudiada. La mediana de la edad se sitúa alrededor de los 40 años, con un rango intercuartílico entre 27 y 50 años. En el caso del BMI, la mediana es de aproximadamente 30, con un rango intercuartílico entre 26 y 34, y varios valores atípicos por encima de 40.Finalmente, para la variable cargos, la mediana se encuentra alrededor de 10,000, con un rango intercuartílico de 5,000 a 17,000, y numerosos valores atípicos por encima de 30,000.

age bmi children charges
Promedio 39.20703 30.663397 1.094918 13270.42
Desviación 14.04996 6.098187 1.205493 12110.01

Análisis descriptivo de la población estudiada

La distribución de la edad sugiere una población mayoritariamente adulta, con tendencias hacia el sobrepeso y familias pequeñas. Los costos médicos varían ampliamente, lo que podría indicar desigualdades en la atención médica o necesidades específicas de salud en ciertos casos.

age sex bmi children smoker region charges
Min. :18.00 Length:1338 Min. :15.96 Min. :0.000 Length:1338 Length:1338 Min. : 1122
1st Qu.:27.00 Class :character 1st Qu.:26.30 1st Qu.:0.000 Class :character Class :character 1st Qu.: 4740
Median :39.00 Mode :character Median :30.40 Median :1.000 Mode :character Mode :character Median : 9382
Mean :39.21 NA Mean :30.66 Mean :1.095 NA NA Mean :13270
3rd Qu.:51.00 NA 3rd Qu.:34.69 3rd Qu.:2.000 NA NA 3rd Qu.:16640
Max. :64.00 NA Max. :53.13 Max. :5.000 NA NA Max. :63770

Análisis bivariado de la correlación.

El análisis de la correlación entre edad, índice de masa corporal (BMI) y cargos muestra que mientras que no hay una correlación significativa entre edad y BMI, sí se observa que los cargos médicos tienden a aumentar con la edad y con el BMI, especialmente en individuos con sobrepeso u obesidad.

La variabilidad en los costos médicos también es notable, con algunos individuos incurriendo en cargos significativamente altos. Estos hallazgos sugieren que tanto la edad como el BMI son factores importantes que influyen en los costos médicos, con una influencia más directa del BMI.

Comportamiento de la variable objetivo

El análisis de la variable charges (cargos) revela una distribución asimétrica con una tendencia significativa hacia la derecha, lo que se observa claramente en el histograma con la curva de densidad superpuesta. La mayoría de los cargos se encuentran en el rango de 0 a 20,000, pero existen valores extremos que alcanzan hasta los 63,770. La curva de densidad indica varios picos menores entre los 30,000 y 50,000, sugiriendo la presencia de subgrupos específicos con cargos elevados

Relación bivariada con la variable respuesta

La relación de la variable objetivo charges (cargos) con diferentes variables revela varios patrones importantes. Los hombres tienden a tener cargos ligeramente más altos que las mujeres, mientras que los cargos aumentan con el número de hijos, especialmente para aquellos con 2 o 3 hijos. Los fumadores tienen cargos significativamente más altos y una mayor variabilidad en comparación con los no fumadores. Regionalmente, la región sureste presenta cargos ligeramente más altos. La edad y el BMI también muestran tendencias ascendentes, indicando que los cargos tienden a aumentar con ambos factores. La presencia de numerosos valores atípicos en todas las variables sugiere una alta variabilidad en los costos médicos individuales, lo cual es crucial para diseñar intervenciones y políticas efectivas en el ámbito de la salud.

Modelo de predicción para la variable cargos medicos

Ejecutamos el modelo de regresión lineal obteniendo los siguientes resultados

## 
## Call:
## lm(formula = charges ~ age + sex + bmi + children + smoker + 
##     region, data = Data)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -11304.9  -2848.1   -982.1   1393.9  29992.8 
## 
## Coefficients:
##                 Estimate Std. Error t value Pr(>|t|)    
## (Intercept)     -11938.5      987.8 -12.086  < 2e-16 ***
## age                256.9       11.9  21.587  < 2e-16 ***
## sexmale           -131.3      332.9  -0.394 0.693348    
## bmi                339.2       28.6  11.860  < 2e-16 ***
## children           475.5      137.8   3.451 0.000577 ***
## smokeryes        23848.5      413.1  57.723  < 2e-16 ***
## regionnorthwest   -353.0      476.3  -0.741 0.458769    
## regionsoutheast  -1035.0      478.7  -2.162 0.030782 *  
## regionsouthwest   -960.0      477.9  -2.009 0.044765 *  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 6062 on 1329 degrees of freedom
## Multiple R-squared:  0.7509, Adjusted R-squared:  0.7494 
## F-statistic: 500.8 on 8 and 1329 DF,  p-value: < 2.2e-16

Resumen de los Residuales:

La mediana de los residuales es cercana a cero, con un rango de -11304.9 a 29992.8, indicando cierta dispersión alrededor de la línea de regresión.

La desviación estándar residual es de 6062, reflejando la variabilidad de los residuales.

Medidas de Ajuste del Modelo:

R-cuadrado ajustado: 0.7494, sugiriendo que el 75% de la variabilidad en los cargos puede ser explicada por las variables del modelo.

F-statistic: 500.8 (p < 2.2e-16), indicando que el modelo en su conjunto es significativamente mejor que un modelo sin predictores.

Este modelo de regresión lineal demuestra que variables como edad, BMI, número de hijos y ser fumador son determinantes clave de los cargos. El sexo y algunas regiones no presentan un impacto significativo.

Conclusiones

El modelo sugiere que los factores personales y de estilo de vida (edad, BMI, estado de fumador) tienen una mayor influencia en los costos médicos en comparación con factores contextuales como la región. Se recomienda profundizar en las variables explicativas principales (como smoker, age y bmi) e investigar factores adicionales que podrían mejorar la capacidad del modelo para explicar la variabilidad residual

El estado de fumador tiene un impacto significativo en los costos médicos: Ser fumador aumenta los costos médicos en un promedio de $23,848.5, lo que lo convierte en el factor más influyente en el modelo. Esto resalta la importancia de diseñar políticas de prevención enfocadas en reducir el tabaquismo para disminuir los costos asociados.

La edad y el índice de masa corporal (BMI) también son determinantes clave: Cada año adicional de edad incrementa los costos médicos en $256.9, y cada unidad adicional en el BMI añade $339.2 a los costos. Esto evidencia la relación directa entre el envejecimiento, el sobrepeso y los gastos médicos, destacando la necesidad de promover hábitos saludables desde una edad temprana.

Además es relevante investigar factores adicionales que podrían mejorar la capacidad del modelo y aumentar el coeficiente de determinación