Este proyecto se enfoca en estudiar la supervivencia de pacientes con cirrosis, una enfermedad hepática crónica con alto impacto clínico. Utilizando un dataset detallado que incluye variables demográficas, clínicas y de laboratorio, el análisis tiene varios objetivos clave: entender las características principales de los datos a través de exploraciones descriptivas, identificar patrones o valores atípicos, y preparar los datos mediante limpieza adecuada. Se aplicarán modelos de Kaplan-Meier para estimar curvas de supervivencia, con estratificaciones relevantes como sexo o etapas de la enfermedad. Además, se evaluarán diferencias significativas entre grupos utilizando pruebas estadísticas, como la log-rank. Los hallazgos buscan aportar información útil tanto desde una perspectiva analítica como clínica, ayudando a comprender mejor los factores asociados con la supervivencia en pacientes con cirrosis.
ID: Identificador único para cada paciente. Es una variable nominal porque no tiene un orden inherente, solo identifica registros.
N_Days: Representa los días de seguimiento para cada paciente en el estudio. Es una variable cuantitativa continua.
Status: Indica si el paciente experimentó el evento de interés (ej. muerte) o si fue censurado. Es una variable binaria nominal (como “evento” o “no evento”).
Drug: Tipo de tratamiento o medicamento administrado al paciente. Es una variable nominal categórica.
Age: Edad del paciente en días. Es una variable cuantitativa continua.
Sex: Género del paciente (ej., “F” para femenino, “M” para masculino). Es una variable nominal categórica.
Ascites: Presencia de acumulación de líquido en el abdomen. Es una variable nominal binaria (puede ser “presente” o “ausente”).
Hepatomegaly: Presencia de agrandamiento del hígado. También es nominal binaria.
Spiders: Aparición de vasos sanguíneos visibles en la piel, característicos en ciertos pacientes. Es una variable nominal binaria.
Edema: Presencia de hinchazón debido a acumulación de líquidos. Es nominal binaria.
Bilirubin: Nivel de bilirrubina en la sangre, asociado a la función hepática. Es una variable cuantitativa continua.
Cholesterol: Nivel de colesterol en la sangre. Es una variable cuantitativa continua.
Albumin: Nivel de albúmina en la sangre, otra medida de función hepática. Es cuantitativa continua.
Copper: Nivel de cobre en el cuerpo. Es una variable cuantitativa continua.
Alk_Phos: Nivel de fosfatasa alcalina en sangre, asociado a la función del hígado y los huesos. Es cuantitativa continua.
SGOT: Nivel de transaminasa glutámico oxalacética (enzima hepática). Es una variable cuantitativa continua.
Tryglicerides: Nivel de triglicéridos en sangre. Es una variable cuantitativa continua.
Platelets: Recuento de plaquetas en sangre. Es una variable cuantitativa discreta, ya que cuenta elementos individuales.
Prothrombin: Nivel de protrombina (indica capacidad de coagulación sanguínea). Es una variable cuantitativa continua.
Stage: Etapa de la enfermedad, representada por números (1 a 4). Es una variable ordinal.
Distribución de Géneros La gráfica muestra una marcada diferencia en la distribución de géneros: la categoría “F” tiene una frecuencia significativamente mayor que “M”, indicando un desequilibrio notable en los datos.
Distribución de Ascitis La gráfica presenta la distribución de ascitis, donde la categoría “N” (No) tiene una frecuencia mucho mayor (~250) que la categoría “Y” (Sí) (~25), indicando que la mayoría de los casos no presentan ascitis.
Distribución de “Spiders” La gráfica refleja la distribución de “Spiders”, donde la categoría “N” tiene una frecuencia mucho mayor que la categoría “Y”, lo que indica que la mayoría de los casos no presentan presencia de “Spiders”.
Distribución del Edema La gráfica muestra la distribución del edema, donde la categoría “N” (No Edema) tiene una frecuencia mucho mayor que las categorías “S” (Algo de Edema) y “Y” (Sí Edema), destacando que la mayoría de los casos no presentan edema.
Distribución de Etapas de la Enfermedad La gráfica evidencia la distribución de las etapas de una enfermedad. La Etapa 3 tiene la frecuencia más alta (~100 casos), seguida de la Etapa 4 (~75), luego la Etapa 2 (~50) y finalmente la Etapa 1 con la frecuencia más baja (~15). Esto indica que la mayoría de los casos se encuentran en etapas avanzadas, principalmente en las Etapas 3 y 4.
## Estado Cantidad
## 1 Censurados 232
## 2 No Censurados 161
## Call: survfit(formula = Surv(data$N_Days, data$Status) ~ 1, data = data)
##
## n events median 0.95LCL 0.95UCL
## [1,] 393 161 3358 2847 3839
n = 393: Esto significa que tenemos 393 individuos en total en el estudio, los cuales están siendo analizados para estimar la curva de supervivencia.
events = 161: Esto indica que 161 de las 393 personas han experimentado el evento de interés (como una recaída, muerte, o cualquier otro evento definido en Status).
median = 3358: El tiempo mediano de supervivencia es de 3358 días. Esto significa que, para este punto en el tiempo, la mitad de la población todavía no había experimentado el evento, mientras que la otra mitad sí.
Intervalo de confianza (0.95LCL y 0.95UCL):
0.95LCL = 2847: El límite inferior es de 2847 días, lo que significa que tenemos un 95% de confianza en que la mediana verdadera de supervivencia es al menos este valor.
0.95UCL = 3839: El límite superior es de 3839 días, lo que significa que la mediana verdadera también es muy probable que sea menor o igual a este valor.
## Call: survfit(formula = Surv(data$N_Days, data$Status) ~ data$Sex,
## data = data)
##
## n events median 0.95LCL 0.95UCL
## data$Sex=F 352 137 3428 3090 3853
## data$Sex=M 41 24 2386 1478 NA
Este análisis Kaplan-Meier, estratificado por género, muestra que las mujeres (Sex=F) tienen una mediana de supervivencia de 3428 días con un intervalo de confianza de 3090 a 3853 días, mientras que los hombres (Sex=M) tienen una mediana menor, de 2386 días, sin un límite superior definido debido al tamaño reducido de su muestra (41 hombres frente a 352 mujeres). Esto sugiere una tendencia hacia mayor supervivencia en las mujeres, aunque la muestra masculina limitada podría dificultar conclusiones sólidas.
Los resultados del análisis Kaplan-Meier muestran que las mujeres tienen un tiempo mediano de supervivencia de 3428 días, significativamente mayor que el de los hombres, cuya mediana es de 2386 días. El intervalo de confianza para las mujeres (3090 a 3853 días) es confiable, mientras que en los hombres el límite superior no está definido, probablemente debido al tamaño reducido de la muestra masculina (41 hombres frente a 352 mujeres). Esto sugiere una tendencia hacia mayor supervivencia en el grupo femenino, pero la variabilidad en los datos masculinos podría afectar las conclusiones, destacando la necesidad de más datos para una evaluación más sólida.
## Call:
## survdiff(formula = Surv(data$N_Days, data$Status) ~ data$Sex,
## data = data)
##
## N Observed Expected (O-E)^2/E (O-E)^2/V
## data$Sex=F 352 137 143.6 0.306 2.85
## data$Sex=M 41 24 17.4 2.529 2.85
##
## Chisq= 2.9 on 1 degrees of freedom, p= 0.09
La prueba de log-rank comparó las curvas de supervivencia entre mujeres y hombres. Los resultados muestran que las mujeres tienen 352 casos con 137 eventos, mientras que los hombres tienen 41 casos con 24 eventos. Aunque los hombres muestran más eventos de lo esperado, el estadístico chi-cuadrado (2.9) y el p-valor (0.09) indican que no hay una diferencia estadísticamente significativa entre las curvas de supervivencia de ambos géneros. Esto puede deberse al tamaño reducido de la muestra masculina, lo que limita la precisión del análisis.
La gráfica de supervivencia Kaplan-Meier muestra la probabilidad de supervivencia del grupo a lo largo del tiempo en días. La curva en rojo indica una disminución gradual en la supervivencia conforme avanzan los días, lo que refleja el impacto acumulativo del evento de interés. La banda de confianza en gris ilustra la variabilidad estadística, siendo más estrecha al inicio y ampliándose con el tiempo, lo que refleja la menor certeza en las estimaciones con menos individuos en riesgo. En la tabla inferior, el número de individuos en riesgo disminuye consistentemente desde 393 al inicio hasta cero al final, lo que proporciona contexto sobre la población base en cada período de tiempo.
La gráfica de la función de riesgo acumulado muestra cómo el riesgo de experimentar un evento aumenta progresivamente con el tiempo, lo cual se observa en la pendiente creciente de la curva. El área sombreada indica los intervalos de confianza, reflejando la incertidumbre en las estimaciones, aunque estos permanecen razonablemente acotados. La gráfica abarca un rango temporal extenso, permitiendo identificar períodos de mayor acumulación de riesgo, lo que es crucial para decisiones prácticas en intervenciones o estrategias de gestión.