El procedimiento de Kaplan-Meier.
De acuerdo a [2], con el método de Kaplan-Meier, también llamadao el método del producto límite, podemos usar los datos que se recoletan para analizar y estimar la probabilidad de sobrevivir por un tiempo determinado. Este método es una técnica no parametrica, es decir, no se hacen suposiciones sobre la distribución de los tiempos se sobrevivencia.
Para este método, consideramos lo siguiente:
\(n=\) número total de sujetos de los que conocemos el tiempo de sobrevivencia.
\(\hat{p}_1=\) Estimación de la proporción de sujetos que sobreviven el primer periodo de tiempo.
\(\hat{p}_k=\) Estimación de la proporción se sujetos que sobreviven el periodo de tiempo \(k\) después de haber sobrevivido el periodo anterior \(k-1\).
A partir de estas estimaciónes de las proporciones \(\hat{p}_k\) podemos calcular la probabilidad estimada de sobrevivir en un tiempo \(t\), la cual está dada por:
\[\hat{S}(t) = \prod_{i = 1}^{t}\hat{p}_i\]
Es importante mencionar que podemos entender las proporciones \(\hat{p}_k\) como probabilidades condicionales: la probabilidad de sobrevivir otro periodo de tiempo dado que ya sobreviví los \((k-1)\) anteriores.
Ejemplo.
Este ejemplo es presentado y desarrollado en [2]. En este ejemplo 14.3.1, haciendo referencia al estudio de Martini et al [1], se analiza el tiempo de supervivencia de personas que tuvieron tumores. En específico, se tienen dos tipos de tumores (y dos datasets en consecuencia), los de grado bajo (con 25 personas en esta categoria) y los de grado alto (con 14 personas). Nuestro objetivo es comparar el tiempo de supervivencia entre ambos grupos, para lo que usaremos el método de Kaplan-Meier.
Primeramente, importamos y mostramos la estructura de los datos:
df <- read.csv('EXA_C14_S03_01.csv')
head(df)
Podemos observar que tenemos información del tiempo de supervivencia, y el tipo de tomor (L ⮕ grado bajo, H⮕g rado alto). Además, tenemos tres tipos de evento:
- dod: Muerte por enfermedad (dead of disease).
- ned: Sin evidencia de de enfermedad (no evidence of dsiease).
- dpo: Muerte después del estudio (dead postoperation).
Ahora, es necesario operar estos datos para obtener las proporciones \(\hat{p}_k\), así como la función de supervivencia \(\hat{S}(t)\).
# Separamos por tipo de tumor
df_l <- df[ which(df$TUMOR=='L'), ]
df_h <- df[ which(df$TUMOR=='H'), ]
# Función para conocer estatus:
get.status <- function(x){
if(x == 'ned'){
return(0)
}
else{
return(1)
}
}
# Definimos función que realiza kaplan-meier
kaplan.meier <- function(df){
time <- c() # Arreglo para guardar parte temporal
risk <- c() # Pacientes en riesgo (aun vivos)
alive <- c() # Pacientes vivos al final del periodo
proportion <- c() # Proporcions (vivos/riesgo)
cumulative <- c() # Función cumulativa de proporciones S(t)
# Intervalo de tiempo de interés
max <- max(df$TIME)
min <- min(df$TIME)
# Número total de pacientes
n <- length(df$SUBJ)
# Obtenemos proporciones en orden
for (k in min:max){
# Obtenemos pacientes con ese tiempo
aux = df[which(df$TIME==k),]
# En caso de tener paciente
if(length(aux$VITAL) > 0){
# Lista para estatus de pacientes
stat <- c()
for(j in 1:length(aux$VITAL)){
stat <- append(stat, get.status(aux$VITAL[j]))
}
# Si sucedió algo, calculamos todo
if(is.element(1, stat)){
time <- append(time, k)
die <- sum(stat == 1)
survive <- sum(stat == 0)
risk <- append(risk, n)
n <- n - die
alive <- append(alive, n)
prop <- n/(n+die)
proportion<- append(proportion, prop)
if(length(cumulative) == 0){
cumulative <- proportion[1]
}
else{
cumulative <- append(cumulative,prop*cumulative[length(cumulative)])
}
n <- n - survive
}
else{
# Quitamos pacientes que no mueren
n <- n-length(aux$VITAL)
}
}
}
df_ans <- data.frame(time, risk, alive, proportion, cumulative)
return(df_ans)
}
Con esta función, obtenemos la información relevante para ambos tumores. Primero, para el grado bajo:
ans_l <- kaplan.meier(df_l)
ans_l
Y ahora, el grado alto:
ans_h <- kaplan.meier(df_h)
ans_h
Finalmente, graficamos:
plot(x = append(ans_l$time, 212), y = append(1, ans_l$cumulative),
type = 'S',
col = 'blue',
main = 'Curva de supervivencia de Kaplan-Meier',
xlab = 'Tiempo (meses)',
ylab = 'Probabilidad',
ylim = c(0, 1),
xlim = c(0, 120))
lines(append(ans_h$time, 140), append(1, ans_h$cumulative), type = 'S', col = 'red')
# Etiquetas de líneas.
legend("topright", c("Grado bajo", "Grado alto"), fill=c("blue", "red"))
abline(v = 60)
abline(h = 0.5, col = 'gray')
# Agregamos una cuadrícula.
grid()

Algunas métricas importantes:
Mediana del tiempo de supervivencia: Corresponde con el punto donde la función cumulativa de supervivencia toda \(0.5\).
En el caso del grupo de grado bajo, esto es 212 meses, y en el grupo de grado alto es de tan solo 9 meses.
Proporción de supervivencia a 5 años: Observamos a la función a los 12 años (60 meses).
Para el grupo de grado bajo, esto es de \(0.73\) y el grado alto es de \(0.07\).
Tiempo promedio se supervivencia: Corresponde a dividir el tiempo total de vida entre todos los sujetos (sumado), dividido entre el número de sujetos.
Para el grupo de grado bajo:
total <- sum(df_l$TIME)
print(total/length(df_l$VITAL))
[1] 88.04
Y para el grupo de grado alto:
total <- sum(df_h$TIME)
print(total/length(df_h$VITAL))
[1] 18.35714
