1. Problemática de investigación

¿En qué medida la edad, el índice de masa corporal (IMC), el número de hijos, el hábito de fumar, el sexo y la región de residencia explican la variabilidad de los gastos médicos individuales?

La estimación de los gastos médicos individuales constituye un elemento relevante para la gestión de los recursos sanitarios, debido a que permite comprender qué factores se relacionan con el incremento de los costos en salud. En los sistemas de aseguramiento y prestación de servicios, los gastos médicos pueden variar de manera significativa entre individuos, incluso cuando presentan características demográficas o clínicas similares.

Esta variabilidad puede estar asociada con factores como la edad, el índice de masa corporal, el número de hijos, el sexo, la región de residencia y el hábito de fumar. En este contexto, el análisis cuantitativo permite identificar patrones, estimar relaciones y evaluar la capacidad explicativa de un modelo estadístico aplicado a datos de salud.

2. Planteamiento del problema

Aunque existen múltiples factores asociados a los gastos médicos individuales, no se conoce con precisión cuáles variables presentan mayor capacidad para explicar su comportamiento dentro de la base de datos analizada. En consecuencia, surge la necesidad de construir, validar y comparar modelos de regresión que permitan identificar las variables con mayor aporte explicativo y evaluar su desempeño estadístico.

3. Justificación metodológica

Para el desarrollo de esta actividad se seleccionó un modelo de regresión lineal múltiple, debido a que el objetivo consiste en explicar el comportamiento de una variable cuantitativa continua (gastos médicos o charges) a partir de varias variables independientes, tales como la edad, el índice de masa corporal (IMC), el número de hijos, el hábito de fumar, el sexo y la región de residencia.

Este modelo corresponde a un modelo estadístico o estocástico, ya que incorpora un término de error aleatorio que representa la variabilidad propia de los fenómenos de salud que no puede ser explicada únicamente por las variables observadas.

Adicionalmente, con el propósito de evaluar el aporte de las variables categóricas sobre la capacidad predictiva del modelo, se construirá un segundo modelo que incluya las variables sexo y región, permitiendo comparar su desempeño mediante indicadores estadísticos como el coeficiente de determinación (R² ajustado), el error estándar residual y la significancia global del modelo.


4. Carga y descripción de la base de datos

En esta etapa se realiza la importación de la base de datos que será utilizada durante el análisis estadístico. Inicialmente se verifica si el archivo se encuentra disponible en el directorio de trabajo; de no ser así, el usuario puede seleccionarlo manualmente mediante el explorador de archivos. Posteriormente se inspecciona la estructura del conjunto de datos para confirmar el número de observaciones, las variables disponibles y su tipo de dato.

##   age    sex    bmi children smoker    region   charges
## 1  19 female 27.900        0    yes southwest 16884.924
## 2  18   male 33.770        1     no southeast  1725.552
## 3  28   male 33.000        3     no southeast  4449.462
## 4  33   male 22.705        0     no northwest 21984.471
## 5  32   male 28.880        0     no northwest  3866.855
## 6  31 female 25.740        0     no southeast  3756.622
## 'data.frame':    1338 obs. of  7 variables:
##  $ age     : int  19 18 28 33 32 31 46 37 37 60 ...
##  $ sex     : chr  "female" "male" "male" "male" ...
##  $ bmi     : num  27.9 33.8 33 22.7 28.9 ...
##  $ children: int  0 1 3 0 0 0 1 3 2 0 ...
##  $ smoker  : chr  "yes" "no" "no" "no" ...
##  $ region  : chr  "southwest" "southeast" "southeast" "northwest" ...
##  $ charges : num  16885 1726 4449 21984 3867 ...

Se identificaron 1.338 observaciones correspondientes a individuos y siete variables. La variable respuesta corresponde a charges, mientras que las seis restantes representan variables explicativas que serán utilizadas en la construcción de los modelos estadísticos.

5. Exploración y preparación de los datos

Antes de construir los modelos estadísticos, se realiza una exploración inicial de la base de datos con el fin de identificar el tipo de variables disponibles y preparar aquellas que serán utilizadas en el análisis cuantitativo.

Para verificar que las variables numéricas puedan incorporarse conjuntamente en el modelo de regresión, se calcula la matriz de correlación de Pearson. Esta permite identificar posibles problemas de multicolinealidad antes de iniciar el modelamiento.

##             age    bmi children charges
## age      1.0000 0.1093   0.0425  0.2990
## bmi      0.1093 1.0000   0.0128  0.1983
## children 0.0425 0.0128   1.0000  0.0680
## charges  0.2990 0.1983   0.0680  1.0000

Se observa que no existen coeficientes de correlación cercanos a ±1, lo que sugiere ausencia de problemas importantes de multicolinealidad entre las variables explicativas incluidas en el modelo.

6. Visualización de las relaciones entre variables

Con el propósito de complementar el análisis descriptivo, se generan representaciones gráficas que permiten visualizar la distribución de las variables y la relación existente entre ellas. Estas herramientas facilitan la identificación de tendencias, posibles valores atípicos y asociaciones preliminares antes de construir el modelo de regresión.

tabla_correlacion <- insurance %>%
  select(age, bmi, children, charges)

chart.Correlation(tabla_correlacion, histogram = TRUE)

Con el fin de complementar la exploración inicial, también se presentan histogramas individuales de las variables numéricas, permitiendo evaluar su distribución y detectar posibles asimetrías.

multi.hist(
  x = insurance2,
  dcol = c("blue","red"),
  dlty = c("dotted","solid"),
  main = "",
  global = FALSE
)

La matriz gráfica evidencia que la mayor asociación positiva se presenta entre la edad y los gastos médicos, mientras que el índice de masa corporal también muestra una relación positiva, aunque de menor intensidad. Por su parte, el número de hijos presenta una asociación débil con los gastos médicos. Los histogramas permiten observar que la variable charges presenta una distribución asimétrica hacia la derecha, característica frecuente en los costos sanitarios debido a la presencia de pacientes con gastos excepcionalmente elevados.

7. Construcción del Modelo 1

Como primera aproximación, se construye un modelo de regresión lineal múltiple utilizando únicamente variables numéricas (edad, índice de masa corporal y número de hijos), con el propósito de establecer una línea base para posteriormente compararla con un modelo que incorpore variables categóricas.

En esta fase del modelamiento se ajusta un primer modelo de regresión lineal múltiple utilizando únicamente variables cuantitativas. Este modelo sirve como línea base para evaluar posteriormente si la incorporación de variables categóricas mejora la capacidad explicativa.

modelo1 <- lm(charges ~ age + bmi + children,
              data = insurance)

summary(modelo1)
## 
## Call:
## lm(formula = charges ~ age + bmi + children, data = insurance)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -13884  -6994  -5092   7125  48627 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -6916.24    1757.48  -3.935 8.74e-05 ***
## age           239.99      22.29  10.767  < 2e-16 ***
## bmi           332.08      51.31   6.472 1.35e-10 ***
## children      542.86     258.24   2.102   0.0357 *  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 11370 on 1334 degrees of freedom
## Multiple R-squared:  0.1201, Adjusted R-squared:  0.1181 
## F-statistic: 60.69 on 3 and 1334 DF,  p-value: < 2.2e-16

Interpretación del Modelo 1

El modelo inicial evidencia que las variables edad, índice de masa corporal y número de hijos presentan una relación positiva con los gastos médicos individuales. Sin embargo, el coeficiente de determinación (R²) obtenido es relativamente bajo, indicando que estas variables, aunque significativas, explican únicamente una parte de la variabilidad observada en los costos sanitarios. Esto sugiere la existencia de otros factores relevantes que influyen sobre los gastos médicos y que deben ser incorporados al modelo.

8. Validación de los supuestos del Modelo 1

Una vez estimado el modelo inicial, se procede a verificar gráficamente el cumplimiento de los supuestos básicos de la regresión lineal.

Todo modelo de regresión debe verificar los supuestos de linealidad, independencia, homocedasticidad, normalidad de los residuos y ausencia de observaciones altamente influyentes. Para ello se generan los cuatro gráficos diagnósticos tradicionales.

par(mfrow = c(2,2))

plot(modelo1)

par(mfrow = c(1,1))

Interpretación de los supuestos

Los gráficos de diagnóstico permiten evaluar la normalidad de los residuos, la homocedasticidad, la independencia de los errores y la presencia de observaciones influyentes. En este primer modelo se evidencian desviaciones importantes respecto a los supuestos de linealidad y normalidad, indicando que aún existe una cantidad considerable de variabilidad sin explicar.

9. Construcción del Modelo 2

Con el fin de mejorar la capacidad explicativa del modelo, se incorporan variables categóricas que representan características relevantes de la población, como el hábito de fumar, el sexo y la región de residencia. Este segundo modelo permite evaluar si la inclusión de dichas variables incrementa el poder predictivo sobre los gastos médicos.

modelo2 <- lm(charges ~ age + bmi + children + smoker + sex + region,
              data = insurance)

summary(modelo2)
## 
## Call:
## lm(formula = charges ~ age + bmi + children + smoker + sex + 
##     region, data = insurance)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -11304.9  -2848.1   -982.1   1393.9  29992.8 
## 
## Coefficients:
##                 Estimate Std. Error t value Pr(>|t|)    
## (Intercept)     -11938.5      987.8 -12.086  < 2e-16 ***
## age                256.9       11.9  21.587  < 2e-16 ***
## bmi                339.2       28.6  11.860  < 2e-16 ***
## children           475.5      137.8   3.451 0.000577 ***
## smokeryes        23848.5      413.1  57.723  < 2e-16 ***
## sexmale           -131.3      332.9  -0.394 0.693348    
## regionnorthwest   -353.0      476.3  -0.741 0.458769    
## regionsoutheast  -1035.0      478.7  -2.162 0.030782 *  
## regionsouthwest   -960.0      477.9  -2.009 0.044765 *  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 6062 on 1329 degrees of freedom
## Multiple R-squared:  0.7509, Adjusted R-squared:  0.7494 
## F-statistic: 500.8 on 8 and 1329 DF,  p-value: < 2.2e-16

Interpretación del Modelo 2

La incorporación de las variables categóricas mejora sustancialmente el desempeño del modelo. En particular, el hábito de fumar presenta el mayor efecto sobre los gastos médicos, mostrando un incremento considerable en los costos asociados a los pacientes fumadores. La edad y el índice de masa corporal continúan siendo variables estadísticamente significativas, mientras que algunas categorías de sexo y región presentan una menor contribución al modelo.

10. Validación de los supuestos del Modelo 2

Posteriormente se verifican nuevamente los supuestos del modelo utilizando la versión ampliada de la regresión lineal múltiple.

par(mfrow = c(2,2))

plot(modelo2)

par(mfrow = c(1,1))

Interpretación de los supuestos

Los gráficos de diagnóstico muestran una mejora respecto al modelo inicial. Aunque persisten algunas observaciones con residuos elevados, la distribución general de los residuos presenta un comportamiento más adecuado y el modelo logra explicar una mayor proporción de la variabilidad de los gastos médicos.

11. Comparación entre modelos

Con el propósito de determinar cuál de los modelos ofrece un mejor desempeño predictivo, se comparan los principales indicadores estadísticos obtenidos en ambos ajustes.

Finalmente, ambos modelos son comparados mediante ANOVA y los criterios de información AIC y BIC. Estas herramientas permiten determinar si el incremento en la complejidad del Modelo 2 se traduce en una mejora significativa del desempeño estadístico.

## Analysis of Variance Table
## 
## Model 1: charges ~ age + bmi + children
## Model 2: charges ~ age + bmi + children + smoker + sex + region
##   Res.Df        RSS Df  Sum of Sq      F    Pr(>F)    
## 1   1334 1.7253e+11                                   
## 2   1329 4.8840e+10  5 1.2369e+11 673.14 < 2.2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##         df      AIC
## modelo1  5 28794.07
## modelo2 10 27115.51
##         df      BIC
## modelo1  5 28820.07
## modelo2 10 27167.50

Interpretación de la comparación

La comparación entre ambos modelos evidencia que el Modelo 2 presenta un mejor desempeño predictivo. La incorporación de las variables categóricas (hábito de fumar, sexo y región) incrementa de manera importante la capacidad explicativa del modelo, reflejada en un mayor coeficiente de determinación ajustado (R² ajustado) y una reducción del error residual.

Adicionalmente, el análisis de varianza (ANOVA) demuestra que la diferencia entre los modelos es estadísticamente significativa (p < 0,001). De igual forma, los criterios de información AIC y BIC presentan valores inferiores para el Modelo 2, indicando un mejor equilibrio entre capacidad predictiva y complejidad del modelo. En consecuencia, el Modelo 2 se selecciona como el modelo final para explicar el comportamiento de los gastos médicos individuales.

12. Conclusiones

El análisis permitió identificar que la regresión lineal múltiple constituye una herramienta apropiada para modelar el comportamiento de los gastos médicos individuales.

Inicialmente se ajustó un modelo utilizando únicamente variables numéricas. Posteriormente se incorporaron variables categóricas relacionadas con el hábito de fumar, el sexo y la región de residencia, obteniendo una mejora importante en la capacidad explicativa del modelo.

La comparación realizada demostró que el Modelo 2 presenta un mejor desempeño estadístico, evidenciado por un mayor coeficiente de determinación ajustado (R² ajustado), una reducción del error residual y mejores valores de los criterios AIC y BIC.

En consecuencia, el Modelo 2 constituye la alternativa más adecuada para explicar el comportamiento de los gastos médicos individuales y representa una herramienta útil para apoyar la toma de decisiones en gestión sanitaria.

13. Referencias

James, G., Witten, D., Hastie, T., & Tibshirani, R. (2021). An Introduction to Statistical Learning with Applications in R (2nd ed.). Springer.

Kutner, M. H., Nachtsheim, C. J., Neter, J., & Li, W. (2005). Applied Linear Statistical Models (5th ed.). McGraw-Hill.

R Core Team. (2025). R: A Language and Environment for Statistical Computing. R Foundation for Statistical Computing. https://www.r-project.org/

Wickham, H., Çetinkaya-Rundel, M., & Grolemund, G. (2023). R for Data Science (2nd ed.). O’Reilly Media.