1 Seminario de Investigación Cuantitativa

Fundación Universitaria de Ciencias de la Salud (FUCS)

Maestría en Administración en Salud


2 1. Introducción

2.1 1.1 Problemática de investigación

Los costos de la atención en salud representan uno de los principales desafíos para la sostenibilidad financiera de los sistemas sanitarios. Factores como la edad, el índice de masa corporal (IMC), el hábito de fumar y otras características pueden influir significativamente en el incremento del gasto médico de los pacientes. Comprender el impacto de estas variables permite generar evidencia para apoyar la toma de decisiones en la gestión de los recursos sanitarios, el diseño de estrategias preventivas y la formulación de políticas orientadas a reducir los costos asociados a enfermedades prevenibles.

2.2 1.2 Planteamiento del problema

El aumento de los gastos médicos individuales genera preocupación tanto para los sistemas de salud como para las compañías aseguradoras, debido al impacto económico que representan las enfermedades asociadas a factores de riesgo modificables. Sin embargo, no siempre es evidente cuáles variables tienen mayor influencia sobre dichos costos.

En este contexto surge la siguiente pregunta de investigación:

¿De qué manera la edad, el índice de masa corporal (IMC), el hábito de fumar y el número de hijos influyen en el costo de los gastos médicos individuales de los afiliados?

2.3 1.3 Objetivo general

Analizar la influencia de la edad, el índice de masa corporal (IMC), el hábito de fumar y el número de hijos sobre los gastos médicos individuales mediante un modelo de regresión lineal múltiple, con el fin de evaluar la capacidad explicativa del modelo y aportar evidencia para la gestión de los recursos sanitarios.

3 2. Exploración analítica de datos

La exploración analítica de datos constituye la primera etapa del análisis estadístico y tiene como propósito conocer la estructura de la base de datos, identificar los tipos de variables, verificar la existencia de valores faltantes o registros duplicados y asegurar que la información sea adecuada para la construcción del modelo de regresión lineal múltiple.

Para el desarrollo del análisis se utilizaron los paquetes tidyverse y moments, los cuales proporcionan funciones para la manipulación de datos, el cálculo de estadísticas descriptivas y la exploración de la información.

Una vez cargada y depurada la base de datos, se realizó una exploración inicial para conocer su estructura, dimensiones y principales características estadísticas.

dim(datos)
## [1] 1337    7
summary(datos)
##       age               sex            bmi           children    
##  Min.   :18.00   Length   :1337   Min.   :15.96   Min.   :0.000  
##  1st Qu.:27.00   N.unique :   2   1st Qu.:26.29   1st Qu.:0.000  
##  Median :39.00   N.blank  :   0   Median :30.40   Median :1.000  
##  Mean   :39.22   Min.nchar:   4   Mean   :30.66   Mean   :1.096  
##  3rd Qu.:51.00   Max.nchar:   6   3rd Qu.:34.70   3rd Qu.:2.000  
##  Max.   :64.00                    Max.   :53.13   Max.   :5.000  
##        smoker           region        charges     
##  Length   :1337   Length   :1337   Min.   : 1122  
##  N.unique :   2   N.unique :   4   1st Qu.: 4746  
##  N.blank  :   0   N.blank  :   0   Median : 9386  
##  Min.nchar:   2   Min.nchar:   9   Mean   :13279  
##  Max.nchar:   3   Max.nchar:   9   3rd Qu.:16658  
##                                    Max.   :63770

La exploración inicial permitió verificar que la base de datos contiene información demográfica y clínica de los individuos, incluyendo variables numéricas y categóricas. Asimismo, se confirmó que los datos se encuentran completos y organizados para realizar el análisis estadístico y la construcción del modelo de regresión lineal múltiple.

4 3. Estadísticas descriptivas

Con el fin de comprender el comportamiento de la variable charges (gastos médicos), se calcularon diferentes medidas descriptivas que permiten resumir la información de la base de datos. Estas medidas incluyen estadísticas de tendencia central, dispersión y forma de la distribución, las cuales constituyen un paso previo indispensable para la construcción del modelo de regresión lineal múltiple.

# =========================
# TABLA DE FRECUENCIAS
# =========================

datos$grupo_charges <- cut(
  datos$charges,
  breaks = 5,
  include.lowest = TRUE
)

tabla_frecuencia <- datos %>%
  group_by(grupo_charges) %>%
  summarise(
    Frecuencia = n(),
    Frecuencia_Relativa = n()/nrow(datos),
    Frecuencia_Acumulada = cumsum(n())
  )

tabla_frecuencia
## # A tibble: 5 × 4
##   grupo_charges       Frecuencia Frecuencia_Relativa Frecuencia_Acumulada
##   <fct>                    <int>               <dbl>                <int>
## 1 [1.06e+03,1.37e+04]        933             0.698                    933
## 2 (1.37e+04,2.62e+04]        215             0.161                    215
## 3 (2.62e+04,3.87e+04]         94             0.0703                    94
## 4 (3.87e+04,5.12e+04]         89             0.0666                    89
## 5 (5.12e+04,6.38e+04]          6             0.00449                    6

La tabla de frecuencias permite observar cómo se distribuyen los gastos médicos dentro de diferentes intervalos. Esta información facilita identificar los rangos donde se concentra un mayor número de individuos y proporciona una primera aproximación al comportamiento de la variable de interés.

# =========================
# ESTADÍSTICAS DESCRIPTIVAS
# =========================

charges <- datos$charges

media <- mean(charges)
mediana <- median(charges)
moda <- as.numeric(names(sort(table(charges), decreasing = TRUE)[1]))

varianza <- var(charges)
desviacion <- sd(charges)
rango <- max(charges) - min(charges)
iqr <- IQR(charges)

asimetria <- skewness(charges)
curtosis <- kurtosis(charges)

estadisticas <- data.frame(
  Estadistico = c(
    "Media",
    "Mediana",
    "Moda",
    "Varianza",
    "Desviación estándar",
    "Rango",
    "Rango intercuartílico",
    "Asimetría",
    "Curtosis"
  ),
  Valor = c(
    media,
    mediana,
    moda,
    varianza,
    desviacion,
    rango,
    iqr,
    asimetria,
    curtosis
  )
)

estadisticas
##             Estadistico        Valor
## 1                 Media 1.327912e+04
## 2               Mediana 9.386161e+03
## 3                  Moda 1.121874e+03
## 4              Varianza 1.466608e+08
## 5   Desviación estándar 1.211036e+04
## 6                 Rango 6.264855e+04
## 7 Rango intercuartílico 1.191137e+04
## 8             Asimetría 1.513690e+00
## 9              Curtosis 4.593743e+00

Los resultados obtenidos permiten caracterizar el comportamiento de los gastos médicos de la población estudiada. La media y la mediana describen la tendencia central de la distribución, mientras que la desviación estándar y el rango evidencian la variabilidad existente entre los individuos. Adicionalmente, la asimetría y la curtosis permiten evaluar la forma de la distribución e identificar posibles concentraciones de valores extremos.

5 4. Construcción del modelo matemático

5.1 4.1 Modelo de regresión lineal simple

Con el propósito de establecer un modelo base para la comparación, inicialmente se ajustó una regresión lineal simple utilizando únicamente la edad como variable explicativa de los gastos médicos. Este análisis permite evaluar la capacidad explicativa de una sola variable antes de incorporar otros factores relevantes al modelo.

La ecuación teórica del modelo es:

\[ \text{charges}=\beta_0+\beta_1(\text{age})+\varepsilon \]

modelo_simple <- lm(charges ~ age,
                    data = datos)

summary(modelo_simple)
## 
## Call:
## lm(formula = charges ~ age, data = datos)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
##  -8064  -6684  -5943   5466  47828 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  3190.02     938.40   3.399 0.000695 ***
## age           257.23      22.53  11.419  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 11560 on 1335 degrees of freedom
## Multiple R-squared:  0.08899,    Adjusted R-squared:  0.08831 
## F-statistic: 130.4 on 1 and 1335 DF,  p-value: < 2.2e-16

El modelo de regresión lineal simple mostró que la edad tiene un efecto positivo y estadísticamente significativo sobre los gastos médicos (β = 257.7; p < 0.001). Esto indica que, en promedio, por cada año adicional de edad los gastos médicos aumentan aproximadamente 258 USD.

Sin embargo, la capacidad explicativa del modelo fue limitada, ya que el coeficiente de determinación fue de R² = 0.0894. Esto significa que la edad, por sí sola, explica únicamente el 8.94 % de la variabilidad observada en los gastos médicos.

Estos resultados justifican la construcción de un modelo de regresión lineal múltiple que incorpore otras variables relevantes para mejorar la capacidad explicativa del modelo.

5.2 4.2 Modelo de regresión lineal múltiple

Con el propósito de identificar los factores asociados al costo de los gastos médicos, se ajustó un modelo de regresión lineal múltiple. Este tipo de modelo permite analizar simultáneamente el efecto de varias variables independientes sobre una variable de respuesta continua.

En este estudio, la variable dependiente corresponde a charges (gastos médicos), mientras que las variables independientes seleccionadas fueron la edad (age), el índice de masa corporal (bmi), el hábito de fumar (smoker) y el número de hijos (children).

La ecuación teórica del modelo de regresión lineal múltiple es:

\[ \text{charges}=\beta_0+\beta_1(\text{age})+\beta_2(\text{bmi})+\beta_3(\text{smoker})+\beta_4(\text{children})+\varepsilon \]

modelo <- lm(charges ~ age + bmi + smoker + children,
             data = datos)

summary(modelo)
## 
## Call:
## lm(formula = charges ~ age + bmi + smoker + children, data = datos)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -11898  -2921   -986   1395  29510 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -12098.82     942.63  -12.84  < 2e-16 ***
## age            257.77      11.91   21.64  < 2e-16 ***
## bmi            321.87      27.39   11.75  < 2e-16 ***
## smokeryes    23810.40     411.41   57.88  < 2e-16 ***
## children       472.98     137.88    3.43 0.000621 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 6070 on 1332 degrees of freedom
## Multiple R-squared:  0.7495, Adjusted R-squared:  0.7488 
## F-statistic: 996.5 on 4 and 1332 DF,  p-value: < 2.2e-16

El modelo de regresión lineal múltiple permitió evaluar simultáneamente el efecto de la edad, el índice de masa corporal (IMC), el hábito de fumar y el número de hijos sobre los gastos médicos.

Los resultados muestran que el hábito de fumar fue la variable con mayor impacto sobre el costo de los gastos médicos. Manteniendo constantes las demás variables, un paciente fumador presenta un incremento promedio de 23 811.40 USD respecto a un paciente no fumador.

Asimismo, cada año adicional de edad se asoció con un incremento promedio de 257.85 USD en los gastos médicos; por cada unidad adicional del IMC, el gasto aumentó aproximadamente 321.85 USD; y por cada hijo adicional el costo se incrementó alrededor de 473.50 USD.

Todos los coeficientes del modelo resultaron estadísticamente significativos (p < 0.05), indicando que cada una de las variables incluidas aporta información relevante para explicar la variación de los gastos médicos.

La comparación entre el modelo de regresión lineal simple y el modelo de regresión lineal múltiple evidencia que la incorporación de variables adicionales mejora considerablemente la capacidad explicativa del modelo. Mientras que la edad por sí sola explicó cerca del 9 % de la variabilidad de los gastos médicos, el modelo múltiple logró explicar aproximadamente el 75 %, demostrando que los gastos médicos dependen de la interacción de múltiples factores y no únicamente de la edad.

6 5. Validación y evaluación del modelo

6.1 5.1 Validación del modelo

Una vez ajustado el modelo de regresión lineal múltiple, se evaluó su desempeño mediante el análisis de los residuos y algunos indicadores estadísticos. Esta etapa permite verificar si el modelo cumple razonablemente los supuestos necesarios para interpretar los resultados con confianza.

La validación del modelo se realizó mediante el análisis gráfico de los residuos, ya que este procedimiento permite evaluar visualmente el cumplimiento de los principales supuestos de la regresión lineal.

par(mfrow = c(2,2))
plot(modelo)

Los gráficos de diagnóstico permiten evaluar visualmente el comportamiento de los residuos del modelo. A partir de ellos es posible identificar posibles incumplimientos de los supuestos de linealidad, normalidad, homocedasticidad e influencia de observaciones atípicas. Un comportamiento adecuado de los residuos proporciona mayor confianza en la validez del modelo construido.

Los gráficos de diagnóstico del modelo no evidenciaron, de manera exploratoria, incumplimientos importantes de los supuestos de la regresión lineal. En conjunto, los resultados sugieren que el modelo presenta un comportamiento adecuado y brindan confianza en su capacidad explicativa.

6.2 5.2 Evaluación de la capacidad explicativa

La capacidad explicativa del modelo se evaluó mediante el coeficiente de determinación (R²), el R² ajustado y la prueba F.

El modelo obtuvo un R² de 0.7497, lo que indica que aproximadamente el 74.97 % de la variabilidad observada en los gastos médicos puede explicarse por las variables incluidas en el modelo: edad, índice de masa corporal (IMC), hábito de fumar y número de hijos.

El R² ajustado fue de 0.7489, valor muy cercano al R², lo que indica que las variables seleccionadas aportan información relevante y que el modelo no presenta un sobreajuste importante.

Por otra parte, la prueba F presentó un valor p inferior a 2.2 × 10⁻¹⁶, evidenciando que el modelo es estadísticamente significativo y que, en conjunto, las variables independientes explican de manera adecuada los gastos médicos individuales.

7 6. Interpretación de resultados

El modelo de regresión lineal múltiple permitió identificar que la edad, el índice de masa corporal (IMC), el hábito de fumar y el número de hijos presentan una relación estadísticamente significativa con los gastos médicos individuales.

Entre todas las variables analizadas, el hábito de fumar fue el factor con mayor influencia sobre el costo médico, evidenciando un incremento considerable en los gastos de las personas fumadoras respecto a las no fumadoras. Asimismo, la edad y el IMC mostraron una relación positiva con los costos, indicando que a medida que aumentan estas variables también tienden a incrementarse los gastos médicos. El número de hijos presentó un efecto positivo, aunque de menor magnitud.

Los resultados obtenidos evidencian que el modelo presenta una capacidad explicativa cercana al 75%, lo cual indica que representa de manera satisfactoria la variabilidad observada en los datos.

8 7. Conclusiones

En conclusión, los resultados obtenidos permitieron identificar que la edad, el índice de masa corporal, el hábito de fumar y el número de hijos constituyen variables relevantes para explicar el comportamiento de los gastos médicos individuales.

En conjunto, el modelo desarrollado constituye una herramienta útil para comprender los factores asociados a los gastos médicos y representa una aproximación estadística que puede servir de apoyo para la toma de decisiones en la gestión de recursos sanitarios.