1. Problemática e Introducción

En la gestión moderna de sistemas y recursos sanitarios, la sostenibilidad financiera de las aseguradoras (EPS) e instituciones prestadoras (IPS) depende críticamente de la capacidad de modelar y predecir el gasto en salud individual. Los costos médicos imprevistos o catastróficos pueden desestabilizar los presupuestos institucionales. Comprender de qué manera las variables demográficas y los hábitos conductuales mitigan o disparan estos costos permite una asignación eficiente de recursos y el diseño robusto de políticas de prevención del riesgo.

Planteamiento del Problema

Pregunta de investigación: ¿De qué manera y en qué medida variables demográficas y de estilo de vida (como la edad, el índice de masa corporal y el hábito de fumar) determinan el costo de los cargos médicos individuales en el sistema de salud?


2. Exploración Analítica de Datos y Estadísticas Descriptivas

Primero realizamos la carga del dataset institucional y exploramos su estructura general para comprender la naturaleza de las variables bajo estudio.

Estructura General del Dataset:

  • Registros totales: 1,338 observaciones individuales.
  • Variables numéricas: age (edad), bmi (índice de masa corporal), children (hijos), charges (costo médico).
  • Variables categóricas: sex (género), smoker (hábito de fumar), region.

Análisis de la Distribución de Costos

Evaluemos visualmente el comportamiento de nuestra variable dependiente (charges) mediante su histograma de frecuencias poblacionales:

Cargos Médicos Anuales ($ USD) Frecuencia Histograma de Distribución de Cargos

Interpretación: La variable de costos presenta una clara asimetría positiva (sesgada a la derecha), lo cual es un comportamiento típico en economía de la salud: la mayoría de los usuarios genera gastos moderados, mientras que una pequeña porción acumula costos severos o catastróficos.


3. Ajuste del Modelo Matemático (Regresión Lineal Múltiple)

Estructuramos un modelo predictivo multivariado donde los cargos médicos (charges) son explicados por factores demográficos y de riesgo conductual. Al ajustar los datos mediante mínimos cuadrados ordinary ordinarios (OLS), la ecuación matemática final queda determinada de la siguiente forma:

\[\text{Cargos Medicos} = -11938.5 + (257.8 \times \text{Edad}) + (322.4 \times \text{IMC}) + (23848.5 \times \text{Fumador}) + (475.5 \times \text{Hijos})\]

Resumen Estadístico de Coeficientes Obtenidos:

Variable Predictora Estimación Coeficiente Error Estándar Estadístico t Valor p Significancia
Intercepto -\(11,938.5\) \(952.8\) \(-12.53\) \(< 2\times 10^{-16}\) Altamente Significativo
Edad (age) +\(257.8\) \(11.9\) \(21.58\) \(< 2\times 10^{-16}\) Altamente Significativo
IMC (bmi) +\(322.4\) \(27.7\) \(11.61\) \(< 2\times 10^{-16}\) Altamente Significativo
Fumador (smokerYes) +\(23,848.5\) \(411.7\) \(57.92\) \(< 2\times 10^{-16}\) Altamente Significativo
Hijos (children) +\(475.5\) \(137.8\) \(3.45\) \(0.00057\) Significativo

4. Validación, Testeo del Modelo y Evaluación de Supuestos

Para garantizar la validez metodológica de los estimadores obtenidos, evaluamos los supuestos fundamentales mediante los gráficos de análisis de residuales del modelo matemático:

Valores Ajustados Residuals vs Fitted Cuantiles Teóricos Normal Q-Q

Análisis de Supuestos Fundamentales:

  1. Linealidad y Homocedasticidad (Residuals vs Fitted): El gráfico muestra un patrón segmentado en bandas horizontales debido al impacto masivo de la variable categórica de tabaquismo. Existe heterocedasticidad latente, lo cual es habitual en datos financieros de salud.
  2. Normalidad de Residuos (Normal Q-Q): El gráfico Q-Q normal revela desviaciones en el extremo superior, causadas por la asimetría intrínseca de los gastos médicos catastróficos altos.
  3. Puntos de Influencia (Residuals vs Leverage): No se detectan observaciones extremas con una distancia de Cook crítica que distorsione artificialmente las estimaciones gerenciales del modelo.

5. Interpretación de Resultados y Discusión

De acuerdo con el reporte estadístico del modelo (summary), analizamos el impacto gerencial de cada determinante evaluado:


6. Conclusiones y Propuestas en Gestión Sanitaria

  1. Segmentación Predictiva del Riesgo: El modelo demuestra cuantitativamente que el gasto en salud no se distribuye de manera uniforme ni depende exclusivamente de la edad biológica. El estilo de vida (en especial el tabaquismo combinado con el IMC) actúa como el multiplicador financiero más drástico del gasto.
  2. Retorno de la Inversión en Prevención (PyP): Desde la gerencia sanitaria, un costo adicional de $23,848 USD por fumador justifica plenamente la financiación de programas específicos de cesación de tabaquismo y clínicas de control de obesidad, ya que mitigar estos dos factores clínicos reduciría preventivamente el gasto prestacional a mediano plazo, protegiendo el margen y flujo de caja del sistema de salud.