El procedimiento de Kaplan-Meier.

De acuerdo a [2], con el método de Kaplan-Meier, también llamadao el método del producto límite, podemos usar los datos que se recoletan para analizar y estimar la probabilidad de sobrevivir por un tiempo determinado. Este método es una técnica no parametrica, es decir, no se hacen suposiciones sobre la distribución de los tiempos se sobrevivencia.

Para este método, consideramos lo siguiente:

A partir de estas estimaciónes de las proporciones \(\hat{p}_k\) podemos calcular la probabilidad estimada de sobrevivir en un tiempo \(t\), la cual está dada por:

\[\hat{S}(t) = \prod_{i = 1}^{t}\hat{p}_i\]

Es importante mencionar que podemos entender las proporciones \(\hat{p}_k\) como probabilidades condicionales: la probabilidad de sobrevivir otro periodo de tiempo dado que ya sobreviví los \((k-1)\) anteriores.

Ejemplo.

Este ejemplo es presentado y desarrollado en [2]. En este ejemplo 14.3.1, haciendo referencia al estudio de Martini et al [1], se analiza el tiempo de supervivencia de personas que tuvieron tumores. En específico, se tienen dos tipos de tumores (y dos datasets en consecuencia), los de grado bajo (con 25 personas en esta categoria) y los de grado alto (con 14 personas). Nuestro objetivo es comparar el tiempo de supervivencia entre ambos grupos, para lo que usaremos el método de Kaplan-Meier.

Primeramente, importamos y mostramos la estructura de los datos:

df <- read.csv('EXA_C14_S03_01.csv')
head(df)

Podemos observar que tenemos información del tiempo de supervivencia, y el tipo de tomor (L ⮕ grado bajo, H⮕g rado alto). Además, tenemos tres tipos de evento:

Ahora, es necesario operar estos datos para obtener las proporciones \(\hat{p}_k\), así como la función de supervivencia \(\hat{S}(t)\).

# Separamos por tipo de tumor
df_l <- df[ which(df$TUMOR=='L'), ]
df_h <- df[ which(df$TUMOR=='H'), ]

# Función para conocer estatus:
get.status <- function(x){
  if(x == 'ned'){
    return(0)
  }
  else{
    return(1)
  }
}

# Definimos función que realiza kaplan-meier
kaplan.meier <- function(df){
  time <- c() # Arreglo para guardar parte temporal
  risk <- c() # Pacientes en riesgo (aun vivos)
  alive <- c() # Pacientes vivos al final del periodo
  proportion <- c() # Proporcions (vivos/riesgo)
  cumulative <- c() # Función cumulativa de proporciones S(t)
  
  # Intervalo de tiempo de interés
  max <- max(df$TIME)
  min <- min(df$TIME)
  
  # Número total de pacientes
  n <- length(df$SUBJ)

  # Obtenemos proporciones en orden
  for (k in min:max){
    
    # Obtenemos pacientes con ese tiempo
    aux = df[which(df$TIME==k),]
    
    # En caso de tener paciente
    if(length(aux$VITAL) > 0){
      # Lista para estatus de pacientes
      stat <- c()
      for(j in 1:length(aux$VITAL)){
        stat <- append(stat, get.status(aux$VITAL[j]))
      }
      
      # Si sucedió algo, calculamos todo
      if(is.element(1, stat)){
        time <- append(time, k)
        die <- sum(stat == 1)
        survive <- sum(stat == 0)
        
        risk <- append(risk, n)
        n <- n - die
        alive <- append(alive, n)
        prop <- n/(n+die)
        proportion<- append(proportion, prop)
        if(length(cumulative) == 0){
          cumulative <- proportion[1]
        }
        else{
          cumulative <- append(cumulative,prop*cumulative[length(cumulative)])
        }
        n <- n - survive
      }
      else{
        # Quitamos pacientes que no mueren
        n <- n-length(aux$VITAL)
      }
    }
  
    }
  df_ans <- data.frame(time, risk, alive, proportion, cumulative)
  return(df_ans)
}
  

Con esta función, obtenemos la información relevante para ambos tumores. Primero, para el grado bajo:

ans_l <- kaplan.meier(df_l)
ans_l

Y ahora, el grado alto:

ans_h <- kaplan.meier(df_h)
ans_h

Finalmente, graficamos:

plot(x = append(ans_l$time, 212), y = append(1, ans_l$cumulative),
     type = 'S',
     col = 'blue',
     main = 'Curva de supervivencia de Kaplan-Meier', 
     xlab = 'Tiempo (meses)',
     ylab = 'Probabilidad',
     ylim = c(0, 1), 
     xlim = c(0, 120))
lines(append(ans_h$time, 140), append(1, ans_h$cumulative), type = 'S', col = 'red')

# Etiquetas de líneas.
legend("topright", c("Grado bajo", "Grado alto"), fill=c("blue", "red"))
abline(v = 60)
abline(h = 0.5, col = 'gray')

# Agregamos una cuadrícula.
grid()

Algunas métricas importantes:

  1. Mediana del tiempo de supervivencia: Corresponde con el punto donde la función cumulativa de supervivencia toda \(0.5\).

    En el caso del grupo de grado bajo, esto es 212 meses, y en el grupo de grado alto es de tan solo 9 meses.

  2. Proporción de supervivencia a 5 años: Observamos a la función a los 12 años (60 meses).

    Para el grupo de grado bajo, esto es de \(0.73\) y el grado alto es de \(0.07\).

  3. Tiempo promedio se supervivencia: Corresponde a dividir el tiempo total de vida entre todos los sujetos (sumado), dividido entre el número de sujetos.

    Para el grupo de grado bajo:

total <- sum(df_l$TIME)
print(total/length(df_l$VITAL))
[1] 88.04
Y para el grupo de grado alto: 
total <- sum(df_h$TIME)
print(total/length(df_h$VITAL))
[1] 18.35714

Referencias.

  1. Nael Martini, Andrew Michael E. Burt, Robert T. heelan, Manjit S. Bains, Patricia M. McCormack, Vlerie W. Rsch, Michael Weber, Robert J. Downey y Robert J. Ginsberg, Predictions of Survival in Malignant Tumors of the Sternum, Journal of Thoracic and Cardiovasvular Surgery, 111 (1996), 95-106
  2. Wayne W. Daniel y Chad L. Cross, Biostatistics: A Foundation for Analysis in the Health Sciences, 10° edition, Wiley.

Anexos.

Diapositivas de presentación de proyecto.

Se pueden encontrar en este link.

