Introducción:

En este trabajo analizaremos el dataset Medical Cost Personal Datasets (obtenido de Kaggle) https://www.kaggle.com/datasets/mirichoi0218/insurance?resource=download. El objetivo es aplicar la metodología de regresión lineal simple para entender cómo la Edad y el BMI influyen en los Costos Médicos.

Que es el MCP?

Los costos médicos individuales (MCP) se refieren al monto total de dinero facturado por proveedores de salud (hospitales, médicos, farmacias) debido a la atención recibida por una sola persona.

El número que se ve en la columna charges es la suma de todos los eventos médicos de esa persona, que suelen incluir:

Consultas: Visitas al médico general o especialistas.

Procedimientos: Cirugías, terapias físicas o tratamientos continuos.

Hospitalización: El costo por día de estar en una habitación de hospital (que suele ser muy alto).

Diagnósticos: Exámenes de laboratorio, Rayos X, resonancias, etc.

Medicamentos: Fármacos recetados, especialmente para enfermedades crónicas (como diabetes o hipertensión).

Variables:

Costos: La variable charges (costos) representa el riesgo financiero que esa persona supone para la compañía de seguros, es decir, el dinero que tuvieron que pagar para cubrir la salud de ese cliente.

Edad: Esta es la edad de las personas, se escogio este dato para poder determinar si existe una correlacion entre el costo del seguro y la edad de las personas.

BMI: El BMI más conocido en español como IMC (indice de masa corporal) es un indicador sencillo y económico que se utiliza para determinar si una persona tiene un peso saludable en relación con su altura, es una herramienta útil para evaluar la distribución de grasa en el cuerpo humano.Lo utilizamos aquí para analizar si este influye en el costo del seguro.

Datos:

datos <- read.csv("insurance.csv")

head(datos)
##   age    sex    bmi children smoker    region   charges
## 1  19 female 27.900        0    yes southwest 16884.924
## 2  18   male 33.770        1     no southeast  1725.552
## 3  28   male 33.000        3     no southeast  4449.462
## 4  33   male 22.705        0     no northwest 21984.471
## 5  32   male 28.880        0     no northwest  3866.855
## 6  31 female 25.740        0     no southeast  3756.622

Siguiendo la metodología, primero analizamos visual y matemáticamente si existe una relación lineal entre la Edad (\(X\)) y el Costo (\(Y\)) Y entre el BMI (\(X\)) y el Costo ($Y).

#Edad vs Costo
plot(datos$age, datos$charges, 
     main = "Dispersión: Edad vs Costos Médicos",
     xlab = "Edad del Paciente", 
     ylab = "Costo del Seguro ($)", 
     col = "steelblue", pch = 19)

correlacion <- cor.test(datos$age, datos$charges)
correlacion
## 
##  Pearson's product-moment correlation
## 
## data:  datos$age and datos$charges
## t = 11.453, df = 1336, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.2494139 0.3470381
## sample estimates:
##       cor 
## 0.2990082
#BMI vs Costo
plot(datos$bmi, datos$charges, 
     main = "Relación: BMI vs Costos Médicos",
     xlab = "Índice de Masa Corporal (BMI)", 
     ylab = "Costo del Seguro ($)", 
     col = "seagreen", pch = 19)

correlacion <- cor.test(datos$bmi, datos$charges)
correlacion
## 
##  Pearson's product-moment correlation
## 
## data:  datos$bmi and datos$charges
## t = 7.3966, df = 1336, p-value = 2.459e-13
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.1463052 0.2492822
## sample estimates:
##      cor 
## 0.198341

Interpretación del valor p

En el análisis de correlación entre edad y gastos médicos (charges), el valor p obtenido es:

p-value < 2.2e–16

Este valor es muchísimo menor que 0.05, lo cual indica que la correlación encontrada es estadísticamente significativa. Esto significa que la relación observada entre la edad del paciente y el costo médico no es producto del azar.

En el de BMI vs gastos medicos, el valor de p obtenido es:

p-value <2.459e-13

Es una correlación positiva, aunque no tan perfecta como la de la edad. Esto sugiere que el BMI influye en los gastos medicos también.

Intervalo de confianza del coeficiente de correlacion:

Hipotesis 1 El intervalo de confianza del 95% reportado en la salida es:

[0.2494139 , 0.3470381]

Esto significa que, con un 95% de confianza, el verdadero valor del coeficiente de correlación entre edad y costos médicos está entre 0.249 y 0.347.

Hipotesis 2 El intervalo de confianza del 95% reportado en la salida es:

[0.1463052 , 0.2492822]

Esto significa que, con un 95% de confianza, el verdadero valor del coeficiente de correlación entre el BMI y costos médicos está entre 0,146 y 0.249.

Como los intervalos no incluyen el 0, se confirma que: • La correlación observada es real y significativa. • Existe una relación positiva consistente: a mayor edad, mayores tienden a ser los gastos médicos y a mayor BMI los gastos medicos también tienden a ser mayores.

Además, los valores del intervalo indican que la relación es positiva pero moderada, es decir, la edad y el bmi influyen en los gastos, pero no son los únicos factores explicativos importantes.

3. Creación del Modelo:

Utilizamos la función lm() para generar el modelo de regresión lineal.

#Hipotesis 1

modelo_seguro <- lm(charges ~ age, data = datos)

summary(modelo_seguro)
## 
## Call:
## lm(formula = charges ~ age, data = datos)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
##  -8059  -6671  -5939   5440  47829 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)   3165.9      937.1   3.378 0.000751 ***
## age            257.7       22.5  11.453  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 11560 on 1336 degrees of freedom
## Multiple R-squared:  0.08941,    Adjusted R-squared:  0.08872 
## F-statistic: 131.2 on 1 and 1336 DF,  p-value: < 2.2e-16
#Hipotesis 2
modelo_bmi <- lm(charges ~ bmi, data = datos)

summary(modelo_bmi)
## 
## Call:
## lm(formula = charges ~ bmi, data = datos)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -20956  -8118  -3757   4722  49442 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  1192.94    1664.80   0.717    0.474    
## bmi           393.87      53.25   7.397 2.46e-13 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 11870 on 1336 degrees of freedom
## Multiple R-squared:  0.03934,    Adjusted R-squared:  0.03862 
## F-statistic: 54.71 on 1 and 1336 DF,  p-value: 2.459e-13

4. Validación del Modelo:

Basándonos en el summary anterior, respondemos las preguntas de validación estadística:

A. ¿El modelo es válido? Hipotesis 1: Observamos el F-statistic y su p-value (al final del resumen). Resultado: El p-value es < 2.2e-16 (menor a 0.05). * Conclusión: Rechazamos la hipótesis nula. El modelo es estadísticamente válido y la relación es coherente.

Hipotesis 2: Miramos el p-value del estadístico F. * Resultado: Es < 2.2e-16. * Conclusión: Sí, el modelo es válido. Rechazamos la hipótesis nula. El indice de mas corporal de una persona sí tiene una relación estadísticamente significativa con lo que paga.

B. ¿Cuánto explica el modelo? Hipotesis 1: Observamos el Adjusted R-squared. Resultado: 0.089 (aprox). Conclusión: La edad explica el 8.9% de la variabilidad en los costos médicos. Aunque parece bajo, es significativo. El resto de la variabilidad se debe a factores que no estamos usando en este modelo simple, como “fumar” o “BMI”.

Hipotesis 2: * Resultado: Aproximadamente 0.039 (3.9%). * Conclusión Importante: El BMI por sí solo explica solo el 4% de la variación de los costos. Aunque la relación es real (es válida), es “débil” para predecir con exactitud solo usando el BMI.

C. ¿La variable Edad aporta al modelo? Hipotesis 1: Observamos los coeficientes de la variable age. Resultado: Tiene 3 asteriscos y un p-value muy bajo. Conclusión: Sí, la edad aporta significativamente a la predicción del costo.

Hipotesis 2: Miramos la fila bmi y su columna Pr(>|t|). * Resultado: Tiene 3 asteriscos (***) y un valor muy bajo. * Conclusión: Sí, aporta significativamente. Aunque explica poco porcentaje total, la variable es necesaria y significativa.

5. Predicción y Ecuación:

Hipotesis 1: Según los coeficientes obtenidos (Intercept y age), nuestra ecuación de la recta es:

\[ Costo = 3165.89 + 257.72 (Edad) \]

Ejemplo de Predicción: Si una persona tiene 50 años, el modelo predice:

\[ Costo = 3165.89 + (257.72 \times 50) = 16,051.89 \]

Comprobación con R:

nuevo_dato <- data.frame(age = 50)
predict(modelo_seguro, nuevo_dato)
##        1 
## 16052.02

Hipotesis 2: Según los coeficientes (Estimate), la ecuación es:

\[ Costo = 1192.9 + 393.9 (BMI) \]

Esto significa que por cada punto que sube tu BMI, el seguro te cobra casi 400 dólares más.

El umbral de obesidad suele ser un BMI de 30. ¿Cuánto pagaría alguien con ese BMI según este modelo?

\[ Costo = 1192.9 + (393.9 \times 30) = 13,009.9 \]

nuevo_dato2 <- data.frame(bmi = 30)
predict(modelo_bmi, nuevo_dato2)
##        1 
## 13009.13

Finalmente, visualizamos la línea de tendencia sobre nuestros datos reales.

#Hipotesis 1

plot(datos$age, datos$charges, 
     main = "Modelo de Regresión: Edad vs Costo",
     xlab = "Edad", ylab = "Costo ($)",
     col = "lightblue", pch = 19)

abline(modelo_seguro, col = "red", lwd = 3)

#Hipotesis 2

plot(datos$bmi, datos$charges, 
     main = "Regresión Lineal: BMI vs Costo",
     xlab = "BMI", ylab = "Costo ($)",
     col = "lightgreen", pch = 19)

abline(modelo_bmi, col = "red", lwd = 3)

Conclusiones Generales y Comparación

Tras realizar dos modelos de regresión lineal simple sobre la base de datos de Seguros Médicos, hemos llegado a las siguientes conclusiones estadísticas y de negocio:

1. Validación de Hipótesis

Ambas hipótesis planteadas fueron validadas estadísticamente: * Hipótesis 1 (Edad): Existe una relación positiva significativa. A mayor edad, el costo del seguro aumenta. * Hipótesis 2 (BMI): Existe una relación positiva significativa. A mayor índice de masa corporal, el costo aumenta.

En ambos casos, el p-value fue extremadamente bajo (\(< 0.05\)), lo que confirma que ninguna de estas relaciones es producto del azar.

2. ¿Qué variable predice mejor? (Comparación de \(R^2\))

Al comparar la bondad de ajuste (\(Adjusted R^2\)) de ambos modelos, observamos una diferencia clara:

  • Modelo Edad: Explica el 8.9% de la variabilidad de los costos.
  • Modelo BMI: Explica el 3.9% de la variabilidad de los costos.

Veredicto: La Edad es un predictor individual más fuerte que el BMI para determinar el costo del seguro en este grupo de datos.

3. Limitaciones

Aunque ambos modelos son estadísticamente válidos, sus porcentajes de explicación (\(R^2\)) son relativamente bajos (ambos por debajo del 10%). Esto indica que el costo de un seguro médico no depende de una sola variable aislada.