Análisis de la Severidad del Cáncer y Costos del Tratamiento

Introducción

El cáncer representa uno de los mayores retos para la sostenibilidad y eficiencia del sector salud a nivel global, tanto por su impacto clínico como por sus implicaciones económicas. El aumento en el número de casos, la diversidad de tipos de cáncer y la variabilidad en la severidad de la enfermedad generan una presión constante sobre hospitales, aseguradoras, farmacéuticas y entidades gubernamentales. Desde la perspectiva del negocio, estas condiciones dificultan la planificación de costos, la gestión del riesgo, la priorización de tratamientos y la asignación eficiente de recursos médicos y financieros.

La severidad del cáncer influye directamente en la duración de los tratamientos, el consumo de servicios especializados, los costos asociados y los resultados clínicos, convirtiéndose en un factor clave para la toma de decisiones estratégicas. Sin embargo, comprender cómo interactúan la severidad, el tipo de cáncer, las características del paciente y el tiempo requiere un análisis estructurado de información histórica confiable, que permita pasar de decisiones reactivas a decisiones basadas en datos.

En este contexto, el dataset Global Cancer Patients 2015-2024 ofrece un conjunto de datos históricos sobre pacientes con cáncer a nivel global, incluyendo variables demográficas, tipo y severidad del cáncer, tratamientos, costos y resultados. Este dataset constituye una base analítica para explorar patrones, evaluar relaciones entre severidad y costos, analizar resultados clínicos y apoyar el desarrollo de modelos que respalden decisiones estratégicas en organizaciones del sector salud y negocios relacionados.

Para abordar esta problemática, es fundamental desglosar el impacto de la enfermedad en dos dimensiones: primero, identificar los factores determinantes de la severidad clínica y, segundo, cuantificar cómo esa severidad se traduce en costos.

Pregunta de Investigación

¿En qué medida los factores de riesgo del paciente relacionados con el estilo de vida, el entorno ambiental y la predisposición genética permiten predecir la severidad del cáncer y de qué manera esta severidad estimada explica el comportamiento de los costos de tratamiento para apoyar la optimización de recursos y la planificación financiera en el sector salud?

Análisis Exploratorio de Datos

Para el desarrollo de este estudio se propone el análisis del conjunto de datos Global Cancer Patients 2015–2024, disponible en la plataforma Kaggle, el cual contiene información de 50.000 pacientes con diagnóstico de cáncer reportados a nivel global durante el periodo comprendido entre 2015 y 2024. Este dataset proporciona una base sólida para el análisis de factores de riesgo, severidad de la enfermedad y resultados económicos asociados al tratamiento del cáncer. (Fuente: https://www.kaggle.com/datasets/zahidmughal2343/global-cancer-patients-2015-2024/data)

El conjunto de datos está conformado por 15 variables clave, las cuales permiten caracterizar de manera integral a cada paciente desde una perspectiva demográfica, clínica y económica:

Variable Tipo de variable Descripción
Age Cuantitativa Edad del paciente al momento del diagnóstico.
Gender Categórica nominal Género del paciente (Femenino, Masculino, Otro).
Country Categórica nominal País de residencia del paciente.
Year Cuantitativa Año de registro del caso dentro del periodo estudiado.
Genetic_Risk Cuantitativa Índice de predisposición genética al cáncer (escala 0–10).
Air_Pollution Cuantitativa Nivel de exposición a contaminación del aire (escala 0–10).
Alcohol_Use Cuantitativa Nivel de consumo de alcohol del paciente.
Smoking Cuantitativa Nivel de consumo de tabaco del paciente.
Obesity_Level Cuantitativa Grado de obesidad del paciente.
Cancer_Type Categórica nominal Tipo de cáncer diagnosticado (Pulmón, Hígado, Próstata, Cervical, Piel, Leucemia, Colon).
Cancer_Stage Categórica ordinal Estadio clínico del cáncer (Etapa 0 a Etapa IV).
Treatment_Cost_USD Cuantitativa Costo total del tratamiento médico en USD.
Survival_Years Cuantitativa Años de supervivencia posteriores al diagnóstico.
Target_Severity_Score Cuantitativa Puntaje de severidad clínica del cáncer (escala 0–10).
Patient_ID Identificador Identificador único del paciente.

Distribución del Dataset

Siguiendo la línea del análisis exploratorio de datos (EDA) y a partir de los gráficos de torta presentados, se pueden destacar las siguientes interpretaciones:

Estado del cáncer (Cancer Stage): La distribución de los pacientes entre las distintas etapas del cáncer es homogénea. Cada estadio (0, I, II, III y IV) presenta proporciones muy similares, sin evidencia de concentración predominante en una etapa específica.

Género: La variable género muestra una distribución equilibrada entre sus categorías (masculino, femenino y otro), con participaciones comparables entre los grupos. Esta uniformidad sugiere una adecuada representatividad demográfica dentro del conjunto de datos.

La distribución de los tipos de cáncer y de las regiones es prácticamente uniforme, como se observa en las barras de altura similar. Esto refleja que todos los grupos están representados de manera equilibrada.

No existe ninguna región ni tipo de cáncer que domine la muestra o sesgue los resultados, lo que asegura que cualquier análisis posterior sobre severidad o costos sea válido para todo el conjunto y no esté condicionado por la sobre-representación de un grupo específico.

Análisis de la Severidad según Variables Categóricas

El análisis de cajas y bigotes revela una característica crítica para el éxito de nuestra investigación: la severidad del cáncer se comporta de manera uniforme a través de todas las categorías analizadas.

En primer lugar, al analizar la severidad del cáncer según la etapa clínica, se observa que las distribuciones presentan medianas muy similares entre los distintos estadios, con rangos intercuartílicos comparables y una dispersión relativamente homogénea. Aunque las etapas más avanzadas tienden a mostrar valores ligeramente superiores, no se evidencian saltos abruptos entre categorías, lo que sugiere que la severidad capturada por el puntaje no depende exclusivamente del estadio clínico, sino que incorpora otros factores de riesgo y características del paciente.

De igual manera, la severidad del cáncer según el tipo de cáncer muestra distribuciones consistentes entre las diferentes clasificaciones. Las medianas se concentran alrededor de valores intermedios de la escala y la variabilidad es similar entre los tipos de cancer, lo cual indica que, si bien existen diferencias individuales, ningún tipo de cáncer domina claramente en términos de mayor o menor severidad promedio dentro del conjunto de datos.

Respecto a la región o país, las distribuciones de severidad se mantienen equilibradas, con patrones muy próximos entre países. Esta homogeneidad sugiere que el puntaje de severidad no presenta sesgos geográficos marcados y refuerza la comparabilidad internacional de los registros incluidos en el análisis.

Finalmente, al observar la severidad según el género entre pacientes, se aprecia nuevamente una alta similitud entre las categorías. Las medianas y la dispersión son comparables, lo que indica que no existen diferencias sustanciales en la severidad promedio del cáncer asociadas al género dentro del dataset.

En conjunto, este gráfico evidencia que la severidad del cáncer presenta una variabilidad consistente y comparable entre las distintas categorías analizadas. Este comportamiento respalda la idea de que la severidad es el resultado de la interacción de múltiples factores y no de una sola característica aislada, fortaleciendo su idoneidad como variable dependiente en análisis multivariados orientados a explicar la complejidad clínica del cáncer.

Análisis del Costo del Tratamiento según Variables Categóricas

Dado que la pregunta de investigación plantea no solo la explicación de la severidad del cáncer, sino también la posibilidad de estimar el comportamiento de los costos de tratamiento a partir de dicha severidad, se amplia el análisis para entender el comportamiento de los costos asociados al tratamiento versus las variables categóricas.

Al analizar el costo del tratamiento frente a distintas características del paciente y del diagnóstico, se observa que no existen diferencias claras y sistemáticas de costo cuando se consideran estas variables de manera aislada. En todos los grupos analizados, los costos se concentran alrededor de los 50.000 USD, aunque se observan valores que oscilan aproximadamente entre 5.000 y 100.000 USD, reflejando una alta heterogeneidad en el gasto entre pacientes.

Este resultado sugiere que el costo del tratamiento no está determinado únicamente por una característica puntual, como la etapa o el tipo de cáncer, sino que responde a una combinación más compleja de factores. En la práctica, pacientes con el mismo tipo o etapa de cáncer pueden requerir tratamientos muy distintos, con duraciones, intensidades y combinaciones terapéuticas diferentes, lo que se refleja en la variabilidad en los costos.Este hallazgo es relevante porque indica que clasificar pacientes únicamente por categorías clínicas o demográficas no es suficiente para anticipar el gasto médico.

Análisis de las Variables Cuantitativas

Para el estudio de las variables cuantitativas, se inicia con el análisis de la estadística descriptiva:

Promedio Desviación Coef.Variación
Age 54.42 20.22 0.37
Year 2019.48 2.87 0.00
Genetic_Risk 5.00 2.89 0.58
Air_Pollution 5.01 2.89 0.58
Alcohol_Use 5.01 2.89 0.58
Smoking 4.99 2.88 0.58
Obesity_Level 4.99 2.89 0.58
Treatment_Cost_USD 52467.30 27363.23 0.52
Survival_Years 5.01 2.88 0.58
Target_Severity_Score 4.95 1.20 0.24

El análisis inicial permitió identificar que la población estudiada presenta un rango amplio de edades, con una edad mediana cercana a los 54 años, lo que refleja una muestra heterogénea y representativa de distintos perfiles de pacientes oncológicos.

Las variables cuantitativas asociadas a los factores de riesgo del paciente, tales como riesgo genético, contaminación del aire, consumo de alcohol, tabaquismo y nivel de obesidad, presentan distribuciones equilibradas, con medianas y promedios ubicados en la zona media de la escala (alrededor de 5) y rangos consistentes dentro de los valores definidos de 0 a 10. Esta dispersión adecuada permite analizar de forma robusta su relación con la severidad del cáncer.

El puntaje de severidad del cáncer presenta una media de 4.95 y una distribución que cubre el rango completo de medición, lo que evidencia diferencias observables entre los pacientes y permite su utilización como variable dependiente en modelos de regresión orientados a la explicación de la severidad clínica.

Por su parte, los costos de tratamiento evidencian una alta variabilidad, con valores que oscilan entre aproximadamente 5.000 y 100.000 dólares, lo que sugiere la existencia de diferencias significativas en la intensidad y complejidad de los tratamientos, reforzando la pertinencia de analizar su relación con la severidad del cáncer.

Histograma de Severidad del Cáncer

El histograma de la severidad del cáncer permite observar cómo se distribuye el nivel de gravedad entre los pacientes del conjunto de datos. El gráfico muestra que la mayoría de los casos se concentran en valores intermedios de severidad, alrededor de 5, mientras que los casos muy leves o muy graves son menos frecuentes. Esto indica que el dataset representa una población diversa, pero dominada por situaciones clínicas de complejidad media.Este comportamiento es relevante para el análisis en cuestión porque confirma que la severidad no está concentrada en unos pocos valores, sino que varía entre pacientes, lo que hace posible comprender qué factores explicativos influyen en que un paciente tenga una severidad mayor o menor.

Adicionalmente, al cubrir casi toda la escala de medición, la severidad permite diferenciar perfiles de pacientes con impactos clínicos distintos. Esto es clave para el objetivo del análisis, ya que la severidad estimada será posteriormente utilizada para explicar el comportamiento de los costos del tratamiento.

Histograma de Costo del Tratamiento USD

El histograma del costo del tratamiento muestra una distribución amplia a lo largo de todo el rango, desde valores cercanos a 5.000 hasta aproximadamente 100.000 USD, sin una concentración marcada en un valor específico. Esto indica que no existe un costo “típico” de tratamiento y que el gasto puede variar considerablemente entre pacientes.

Este comportamiento sugiere que el costo, analizado de forma aislada, presenta una alta incertidumbre y resulta difícil de explicar únicamente a partir de estadísticas descriptivas. Por esta razón, se hace necesario analizar el costo en relación con otras variables, en particular con la severidad del cáncer, con el fin de identificar patrones que permitan comprender y anticipar mejor el comportamiento del gasto en salud.

Dispersión entre Severidad y Variables Cuantitativas

A continuación se observa la relación entre las variables cuantitativas como factores de riesgo, costo del tratamiento, edad y año de diagnostico con el puntaje de severidad de la enfermedad:

La relación entre el puntaje de severidad y las variables de contaminación ambiental, tabaquismo y riesgo genético muestran una tendencia ascendente muy clara.Esto indica que tanto el entorno en el que vive el paciente como su historial familiar son los determinantes más predecibles de la enfermedad: a mayor exposición o predisposición genética, mayor es la severidad del cáncer.

Factores como nivel de obesidad y consumo de alcohol demuestran que existe una relación con la severidad, pero más dispersa. Es decir, ni el consumo de alcohol ni el nivel de obesidad por si solos garantizan un aumento en la severidad. Un paciente con obesidad pero de bajo riesgo genético podría presentar menor severidad que una persona considerada delgada con alta predisposición genética.

Las líneas de tendencia para variables como edad y año de diagnóstico son prácticamente planas, lo que indica que no influyen significativamente en la severidad. Esto sugiere que un paciente joven con altos factores de riesgo como fumar en una zona con alta contaminación puede presentar una severidad comparable a la de un adulto mayor.

En cuánto a la asociación entre costo del tratamiento y severidad del cáncer la gráfica muestra una relación inversa entre ambas variables, a simple vista, los pacientes con niveles de severidad más bajos parecen asumir costos más altos que aquellos con severidad elevada. Esto podría explicarse a pacientes con menor severidad podrían estar recibiendo tratamientos o procedimientos de seguimiento más frecuentes o preventivos, que se reflejan en mayores costos, mientras que los pacientes con enfermedad avanzada podrían tener intervenciones más focalizadas o puntuales que resultan en menores costos totales en el registro.

Dispersión entre Costo del Tratamiento y Variables Cuantitativas

Al analizar los nueve paneles, el hallazgo más relevante es la falta de correlación visual entre el costo del tratamiento y la mayoría de las variables, con una excepción notable:

En siete de los ocho factores —Edad, Contaminación, Alcohol, Riesgo Genético, Obesidad, Tabaquismo y Años de Supervivencia— los puntos se distribuyen de manera uniforme, formando nubes planas. Esto indica que, para estos perfiles, el costo del tratamiento se mantiene constante y no varía de manera significativa según las características del paciente.

La excepción se encuentra en El puntaje de severidad de cáncer, que muestra una relación inversa clara: a medida que aumenta el puntaje de severidad, los costos registrados tienden a ser menores. Este patrón sugiere que los pacientes con mayor gravedad clínica, dentro de este dataset, están asociados a costos relativamente bajos, un fenómeno que puede reflejar cómo se registran o asumen los costos en casos críticos.

En cuanto a la variable año, se observan líneas verticales perfectas, lo que confirma que los datos están segmentados por años específicos, aunque el rango de costos se mantiene consistente en cada periodo.

En resumen, el costo del tratamiento se comporta de manera estandarizada, oscilando entre 5,000 y 100,000 USD para la mayoría de las variables, y solo muestra variación inversa respecto al nivel de severidad del paciente.

Matríz de Correlación

Para complementar las gráficas anteriores procedemos a estudiar la matriz de correlación:

La matriz muestra cómo los factores de riesgo se relacionan con la gravedad de la enfermedad y con el costo. Las variables como tabaquismo y riesgo genetico son los predictores más fuertes de severidad, seguidas por contaminación y consumo de alcohol, lo que confirma que la gravedad se construye de manera acumulativa a partir de riesgos biológicos y ambientales. Esto permite anticipar qué pacientes podrían desarrollar cuadros más críticos.

Se debe destacar la relación inversa entre el costo del tratamiento y la severidad del cáncer (-0.47). Los pacientes con menor severidad registran costos más altos que aquellos con severidad elevada. Esto refleja fenómenos como la estructura de los gastos o el registro de procedimientos preventivos, y muestra que el costo asumido no siempre sigue la gravedad de la patología detectada.

Finalmente, edad y año de diagnóstico muestran correlaciones cercanas a cero, indicando que la severidad y el costo no dependen de la edad del paciente ni del momento del diagnóstico. El análisis debe enfocarse en los perfiles de riesgo, más que en características demográficas.

Distribución de los pacientes por género, tipo de cáncer y etapa

El siguiente gráfico muestra cómo se distribuyen los pacientes según diferentes características, como género, tipo de cáncer y etapa de la enfermedad. Cada barra representa la proporción de pacientes en cada categoría, facilitando la comparación entre grupos.

Perfil de tipo de cáncer por factores de riesgo

El gráfico muestra el “perfil” de cada tipo de cáncer en varios factores de riesgo, como tabaquismo, riesgo genético, obesidad, consumo de alcohol; permitiendo comparar patrones entre los distintos tipos de cáncer.

Evolución en el tiempo del tipo de cáncer por su etapa

Este gráfico representa la distribución de los pacientes a lo largo de los años según el tipo de cáncer y su etapa. El tamaño de cada burbuja indica la cantidad de pacientes en esa categoría, facilitando la identificación de tendencias y patrones a lo largo del tiempo.

Modelo de Regresión Lineal Multivariado para la Severidad

Con base en la matriz de correlación y el análisis exploratorio de datos, se decide realizar un modelo de regresión lineal multivariado que permita predecir la severidad del cáncer a partir de los factores de riesgo.

Resumen Integral del Modelo de Severidad
Factor / Métrica Impacto / Valor P-valor
Intersección 0 1
Contaminación del Aire 0.3646 <0.001
Consumo de Alcohol 0.3628 <0.001
Riesgo Genético 0.4822 <0.001
Nivel de Obesidad 0.2418 <0.001
Tabaquismo 0.4846 <0.001
R-cuadrado (R2) 0.7919

El modelo de regresión desarrollado es altamente sólido, explicando el 79.2% de la variabilidad en la severidad del cáncer (R^2 = 0.7919). Esto significa que casi el 80% de la gravedad clínica de un paciente puede predecirse con solo estos cinco factores, lo que proporciona una base confiable para la interpretación y la toma de decisiones estratégicas.

Los líderes del impacto son Tabaquismo y Riesgo Genético, con coeficientes de 0.484 y 0.482 respectivamente. Esto indica que fumar y la predisposición genética son los principales impulsores de la severidad. En términos prácticos, un paciente con ambos factores elevados tiene una alta probabilidad de desarrollar cuadros clínicos críticos, lo que permite priorizar la identificación y el seguimiento de estos casos.

En un segundo nivel de influencia se encuentran Contaminación del Aire (0.364) y Consumo de Alcohol (0.362). Aunque su efecto es menor que el de la genética o el tabaquismo, el entorno y los hábitos de consumo siguen siendo determinantes importantes. Su impacto acumulativo contribuye de manera significativa al aumento de la gravedad clínica, reforzando la necesidad de considerar factores de riesgo tanto individuales como ambientales.

Nivel de Obesidad (0.241) actúa como un “factor acelerador”. Si bien su coeficiente es más bajo, la obesidad suma una carga adicional que eleva el riesgo del paciente y potencia el efecto de otros factores de riesgo. Esto muestra que incluso factores con menor influencia individual pueden ser relevantes cuando se combinan con otros determinantes.

Finalmente, la confianza en estos resultados es alta. Todos los factores presentan p-valores extremadamente bajos (menores a 2e-16), lo que indica que su relación con la severidad es consistente y estadísticamente robusta. En términos prácticos, estos cinco factores son predictores confiables de la gravedad clínica, y cualquier análisis o decisión basada en ellos tiene una base sólida, útil para priorizar estrategias de prevención, monitoreo y planificación clínica.

En el gráfico siguiente, se comprueba la efectividad del modelo para la predicción de la severidad del cáncer.

Modelo de Regresión Lineal Univariado para los Costos

Continuando con el análisis, el siguiente objetivo es evaluar si es posible estimar efectivamente el costo del tratamiento a partir de la severidad del cáncer predicha con el modelo anterior, para esto se realiza en modelo de regresión lineal univariado.

Resumen Integral del Modelo de Costos del Tratamiento USD
Factor / Métrica Impacto / Valor P-valor
Intersección 0 1.000000
Severidad Predicha -0.0112 0.012384
R-cuadrado (R2) 1e-04

El resumen del modelo indica que el costo del tratamiento en USD es esencialmente independiente de la severidad predicha. La intersección tiene un valor de 0 con p-valor de 1, lo que refleja que el punto de partida del modelo no aporta información relevante sobre los gastos.

El coeficiente de Severidad Predicha es ligeramente negativo (-0.0112) con un p-valor de 0.0124, evidenciando una relación inversa muy débil: a medida que la severidad aumenta, el costo registrado tiende a disminuir ligeramente. No obstante, este efecto es tan reducido que, en la práctica, no permite considerar la severidad clínica como un predictor confiable del gasto.

El R-cuadrado del modelo es de 0.0001, lo que confirma que el modelo explica una fracción mínima de la variabilidad del costo. Esto significa que el gasto médico depende principalmente de factores externos al perfil clínico del paciente.

Estos resultados reflejan que el costo es una variable exógena, condicionada por elementos fuera del alcance del análisis clínico, lo que permite interpretar los gastos desde distintos enfoques: la disponibilidad de recursos, la cobertura financiera del paciente y los procedimientos accesibles en cada institución.

Conclusiones

El análisis muestra un hallazgo central: mientras que la severidad del cáncer puede predecirse de manera consistente a partir de factores de riesgo como tabaquismo, predisposición genética, contaminación, alcohol y obesidad, el costo del tratamiento no sigue la misma lógica clínica. El modelo de regresión lineal para el costo (R^2 approx 0) evidencia que la severidad predicha no impulsa directamente el gasto médico, lo que indica que la asignación de recursos financieros no se ajusta al nivel de riesgo o criticidad del paciente.

Esto posiciona al costo como una variable exógena, es decir, un resultado que depende de otros factores que no fueron incluidos en este análisis. Entre ellos podrían estar el tipo de seguro o subsidios disponibles, los procedimientos específicos a los que puede acceder un paciente según la gravedad, o los recursos y capacidades del centro médico. Esta condición abre la puerta a diferentes interpretaciones: por ejemplo, se puede analizar el costo desde la perspectiva de lo que un paciente puede asumir, de los recursos que un hospital tiene disponibles o de cómo se distribuyen los gastos entre casos leves y críticos.

Un hallazgo particularmente relevante es la relación inversa entre costo y severidad, observada en la matriz de correlación y los gráficos de dispersión. Los pacientes con mayor severidad clínica aparecen asociados a menores costos registrados, lo que evidencia un riesgo crítico para la gestión de salud: quienes más requieren atención intensiva podrían no estar recibiendo los recursos necesarios. Al mismo tiempo, esto permite matizar la interpretación: un costo más bajo en pacientes críticos podría reflejar limitaciones del centro de salud o del tipo de procedimientos que pueden ofrecer, mientras que pacientes menos graves podrían registrar costos mayores por tratamientos rutinarios o preventivos.

En conjunto, este análisis muestra que la severidad del cáncer se explica por factores clínicos claros, mientras que el costo depende de elementos externos no evaluados directamente. Entender esta diferencia permite dar distintos enfoques al estudio y resalta la importancia de evaluar la equidad y la suficiencia de los recursos disponibles. Además, abre la posibilidad de un capítulo futuro dedicado a predecir el costo, incorporando algunas de estas variables externas, lo que enriquecerá la comprensión de cómo se distribuyen los recursos y cómo afectan a los pacientes según su nivel de severidad.