Introducción

Este proyecto se enfoca en estudiar la supervivencia de pacientes con cirrosis, una enfermedad hepática crónica con alto impacto clínico. Utilizando un dataset detallado que incluye variables demográficas, clínicas y de laboratorio, el análisis tiene varios objetivos clave: entender las características principales de los datos a través de exploraciones descriptivas, identificar patrones o valores atípicos, y preparar los datos mediante limpieza adecuada. Se aplicarán modelos de Kaplan-Meier para estimar curvas de supervivencia, con estratificaciones relevantes como sexo o etapas de la enfermedad. Además, se evaluarán diferencias significativas entre grupos utilizando pruebas estadísticas, como la log-rank. Los hallazgos buscan aportar información útil tanto desde una perspectiva analítica como clínica, ayudando a comprender mejor los factores asociados con la supervivencia en pacientes con cirrosis.

Variables

Análisis descriptivo

Distribución de Géneros La gráfica muestra una marcada diferencia en la distribución de géneros: la categoría “F” tiene una frecuencia significativamente mayor que “M”, indicando un desequilibrio notable en los datos.

Distribución de Ascitis La gráfica presenta la distribución de ascitis, donde la categoría “N” (No) tiene una frecuencia mucho mayor (~250) que la categoría “Y” (Sí) (~25), indicando que la mayoría de los casos no presentan ascitis.

Distribución de “Spiders” La gráfica refleja la distribución de “Spiders”, donde la categoría “N” tiene una frecuencia mucho mayor que la categoría “Y”, lo que indica que la mayoría de los casos no presentan presencia de “Spiders”.

Distribución del Edema La gráfica muestra la distribución del edema, donde la categoría “N” (No Edema) tiene una frecuencia mucho mayor que las categorías “S” (Algo de Edema) y “Y” (Sí Edema), destacando que la mayoría de los casos no presentan edema.

Distribución de Etapas de la Enfermedad La gráfica evidencia la distribución de las etapas de una enfermedad. La Etapa 3 tiene la frecuencia más alta (~100 casos), seguida de la Etapa 4 (~75), luego la Etapa 2 (~50) y finalmente la Etapa 1 con la frecuencia más baja (~15). Esto indica que la mayoría de los casos se encuentran en etapas avanzadas, principalmente en las Etapas 3 y 4.

Análisis de supervivencia

Datos en un Formato de Censura

##          Estado Cantidad
## 1    Censurados      232
## 2 No Censurados      161

Estimador Kaplan-Meier

## Call: survfit(formula = Surv(data$N_Days, data$Status) ~ 1, data = data)
## 
##        n events median 0.95LCL 0.95UCL
## [1,] 393    161   3358    2847    3839
  • n = 393: Esto significa que tenemos 393 individuos en total en el estudio, los cuales están siendo analizados para estimar la curva de supervivencia.

  • events = 161: Esto indica que 161 de las 393 personas han experimentado el evento de interés (como una recaída, muerte, o cualquier otro evento definido en Status).

  • median = 3358: El tiempo mediano de supervivencia es de 3358 días. Esto significa que, para este punto en el tiempo, la mitad de la población todavía no había experimentado el evento, mientras que la otra mitad sí.

  • Intervalo de confianza (0.95LCL y 0.95UCL):

    • 0.95LCL = 2847: El límite inferior es de 2847 días, lo que significa que tenemos un 95% de confianza en que la mediana verdadera de supervivencia es al menos este valor.

    • 0.95UCL = 3839: El límite superior es de 3839 días, lo que significa que la mediana verdadera también es muy probable que sea menor o igual a este valor.

Grafica de los tiempos de supervivencia

## Call: survfit(formula = Surv(data$N_Days, data$Status) ~ data$Sex, 
##     data = data)
## 
##              n events median 0.95LCL 0.95UCL
## data$Sex=F 352    137   3428    3090    3853
## data$Sex=M  41     24   2386    1478      NA

Este análisis Kaplan-Meier, estratificado por género, muestra que las mujeres (Sex=F) tienen una mediana de supervivencia de 3428 días con un intervalo de confianza de 3090 a 3853 días, mientras que los hombres (Sex=M) tienen una mediana menor, de 2386 días, sin un límite superior definido debido al tamaño reducido de su muestra (41 hombres frente a 352 mujeres). Esto sugiere una tendencia hacia mayor supervivencia en las mujeres, aunque la muestra masculina limitada podría dificultar conclusiones sólidas.

Estimador Kaplan-Meier (Estratificado por Sexo)

Los resultados del análisis Kaplan-Meier muestran que las mujeres tienen un tiempo mediano de supervivencia de 3428 días, significativamente mayor que el de los hombres, cuya mediana es de 2386 días. El intervalo de confianza para las mujeres (3090 a 3853 días) es confiable, mientras que en los hombres el límite superior no está definido, probablemente debido al tamaño reducido de la muestra masculina (41 hombres frente a 352 mujeres). Esto sugiere una tendencia hacia mayor supervivencia en el grupo femenino, pero la variabilidad en los datos masculinos podría afectar las conclusiones, destacando la necesidad de más datos para una evaluación más sólida.

PRUEBA DE LONG - RANK

## Call:
## survdiff(formula = Surv(data$N_Days, data$Status) ~ data$Sex, 
##     data = data)
## 
##              N Observed Expected (O-E)^2/E (O-E)^2/V
## data$Sex=F 352      137    143.6     0.306      2.85
## data$Sex=M  41       24     17.4     2.529      2.85
## 
##  Chisq= 2.9  on 1 degrees of freedom, p= 0.09

La prueba de log-rank comparó las curvas de supervivencia entre mujeres y hombres. Los resultados muestran que las mujeres tienen 352 casos con 137 eventos, mientras que los hombres tienen 41 casos con 24 eventos. Aunque los hombres muestran más eventos de lo esperado, el estadístico chi-cuadrado (2.9) y el p-valor (0.09) indican que no hay una diferencia estadísticamente significativa entre las curvas de supervivencia de ambos géneros. Esto puede deberse al tamaño reducido de la muestra masculina, lo que limita la precisión del análisis.

Curva de Supervivencia Kaplan-Meier

La gráfica de supervivencia Kaplan-Meier muestra la probabilidad de supervivencia del grupo a lo largo del tiempo en días. La curva en rojo indica una disminución gradual en la supervivencia conforme avanzan los días, lo que refleja el impacto acumulativo del evento de interés. La banda de confianza en gris ilustra la variabilidad estadística, siendo más estrecha al inicio y ampliándose con el tiempo, lo que refleja la menor certeza en las estimaciones con menos individuos en riesgo. En la tabla inferior, el número de individuos en riesgo disminuye consistentemente desde 393 al inicio hasta cero al final, lo que proporciona contexto sobre la población base en cada período de tiempo.

Función de Riesgo Acumulado

La gráfica de la función de riesgo acumulado muestra cómo el riesgo de experimentar un evento aumenta progresivamente con el tiempo, lo cual se observa en la pendiente creciente de la curva. El área sombreada indica los intervalos de confianza, reflejando la incertidumbre en las estimaciones, aunque estos permanecen razonablemente acotados. La gráfica abarca un rango temporal extenso, permitiendo identificar períodos de mayor acumulación de riesgo, lo que es crucial para decisiones prácticas en intervenciones o estrategias de gestión.