UTS SURVIVAL MODEL

Tugas UTS


*Kontak : \(\downarrow\)*
Email
Instagram https://www.instagram.com/m_naufalardiansyah/
RPubs https://rpubs.com/muhamad_naufal/

Survival analysis 1: A gentle Introduction into Kaplan-Meier Curves

Analisis waktu Survival diperlukan dalam penelitian apa pun yang menyelidiki waktu untuk hasil tertentu yang menarik. Studi kanker dalam bidang kedokteran dan kegagalan pertama mobil dalam bidang teknik (analisis waktu kegagalan) adalah contoh yang baik. Hasil yang diinginkan dapat berupa kematian, remisi untuk kambuh, perkembangan, atau kegagalan. Titik waktu untuk mencapai hasil tersebut umumnya disebut peristiwa.Tidak semua “event” berakibat fatal, tetapi kadang-kadang bahkan bisa menjadi hasil yang menguntungkan seperti keluar dari rumah sakit. Dan dengan demikian, analisis ketahanan hidup juga merupakan istilah umum, karena ini bukan hanya tentang kelangsungan hidup.

library(tidyverse)  # data wrangling and visualization
## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ dplyr     1.1.1     ✔ readr     2.1.4
## ✔ forcats   1.0.0     ✔ stringr   1.5.0
## ✔ ggplot2   3.4.1     ✔ tibble    3.2.1
## ✔ lubridate 1.9.2     ✔ tidyr     1.3.0
## ✔ purrr     1.0.1     
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag()    masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors
library(sjPlot)     # for plotting results of log.regr.
## Learn more about sjPlot with 'browseVignettes("sjPlot")'.
library(effects)    # for probability output and plots
## Loading required package: carData
## lattice theme set by effectsTheme()
## See ?effectsTheme for details.
library(survival)   # for core survival analysis routines
library(survminer)  # for drawing survival curves
## Loading required package: ggpubr
## 
## Attaching package: 'survminer'
## 
## The following object is masked from 'package:survival':
## 
##     myeloma
library(knitr)      # for a wonderful-looking tables

Dalam materi ini akan dipelajari :

  • Konsep-konsep terpenting dalam analisis survival: kurva survival, penyensoran, dan uji log-rank,
  • Menghitung secara manual, kemudian mengkomputasi dan menginterpretasikan kurva survival, dan
  • Menguji perbedaan kelangsungan hidup antara dua atau lebih kelompok, misalnya perempuan vs laki-laki

Mengapa harus mempelajari analisis survival?

library(tidyverse)

d <- tibble(
  time   = c(1,1,1,2,2,3,4,5,7,10), 
  status = c(1,1,1,1,0,1,0,0,1,0)
)

d %>% kable()
time status
1 1
1 1
1 1
2 1
2 0
3 1
4 0
5 0
7 1
10 0

Pada subbab ini dalam menjawab pertanyaan mengapa harus mempelajari analisis survival dapat menggunakan contoh kasus penyintas Titanic: Dimana hanya 10 orang dan hanya 10 hari di laut setelah kecelakaan dan menganalisisnya dengan metode statistik klasik, regresi linier dan logistik. Problem yang akan dibahas yaitu berapa banyak orang dan berapa lama bertahan dan berapa banyak yang meninggal pada hari tertentu. Sehingga memiliki dua parameter utama adalah (1) waktu (dalam hari) dan (2) “status kehidupan” orang, di mana “status = 1” berarti kematian dan “status = 0” berarti bukan kematian. Dengan status orang maka dapat menghitung orang yang selamat dan tidak selamat pada setiap hari.

ggplot(d, aes(time, fill = factor(status)))+
  geom_bar(position = position_dodge())+
  theme_bw()

Pada plot diatas belum dapat disimpulkan dalam menjawab permasalah sebelumnya sehingga dapat dilakukan analisis.

  1. “status = 0” tidak selalu berarti bertahan hidup. Pertama, orang tersebut mungkin terbawa ombak dan menghilang sehingga tidak diketahui statusnya. Mungkin sudah mati, mungkin diselamatkan oleh perahu nelayan atau masih hidup di suatu tempat di lautan. Dengan demikian orang yang hilang ini tidak dapat dianggap mati atau selamat . Kedua, jika beberapa orang bertahan 10 hari, mereka mungkin mati pada hari ke 11 sehingga waktu menjadi salah satu faktor permasalahan.

  2. Tidak memiliki data untuk setiap 10 hari ini. Kelangsungan hidup pada data ini juga dapat dipengaruhi oleh kondisi tubuh atau pasokan makan untuk bertahan hidup yang tidak diketahui. Demikian pula, penurunan probabilitas kelangsungan hidup juga terakumulasi dari waktu ke waktu , yang tidak dapat ditentukan dengan penghitungan sederhana antara orang yang selamat dengan tidak selamat pada hari tertentu.

Dengan permasalahan diatas, dapat menentukan metode yang tepat.

  1. Melihat variabel numerik “waktu”, mungkin dapat tergoda untuk menggunakan regresi linier untuk memodelkan waktu bertahan hidup untuk dua kelompok status yang berbeda, 0 & 1:
m <- lm(time ~ status, d %>% mutate(status = factor(status)))

library(effects)
plot(allEffects(m))

Namun, ketika membuat plot hasil modelnya, dapat disadari bahwa ada sesuatu yang tidak beres di sana. Semua informasi yang dimiliki untuk memodelkan waktu bertahan hidup adalah angka nol dan satu. Dan waktu rata-rata kematian (status = 1) sebesar 2,5 hari melewatkan banyak informasi. Sebagai contoh, setengah dari orang-orang (3 orang) meninggal pada hari pertama! Dan semakin jauh melangkah ke depan, semakin sedikit orang yang meninggal, yang dapat dilihat pada plot hitungan pertama di atas. Jadi, waktu bertahan hidup tidak benar-benar linier dan tentu saja tidak dapat digambarkan hanya dengan angka nol dan satu! Sehingga disini model linier tampaknya tidak berguna.

  1. Karena disini memiliki angka nol dan satu pada kolom status, dapat menggunakan regresi logistik, Terutama karena kurva probabilitasnya tidak linier dan akan menangkap tren kelangsungan hidup dari waktu ke waktu.
m <- glm(status ~ time, d, family = binomial)

library(sjPlot)
plot_model(m, type = "pred", ci.lvl = NA)
## $time

Sekarang dapat dilihat bahwa probabilitas kelangsungan hidup non-linear, yang merupakan peningkatan besar dibandingkan dengan regresi linier. Namun, pengamatan kelima memiliki status 0 pada hari ke-2. Ini berarti bahwa orang tersebut pasti bertahan hidup selama 2 hari, tetapi hilang setelahnya. Probabilitas dalam regresi logistik akan menghitung orang ini sebagai 100% selamat setelah hari kedua hanya karena statusnya tidak “=1”, yang salah (atau bias), karena tidak diketahui apakah orang ini selamat. Dengan demikian, regresi logistik melebih-lebihkan probabilitas kelangsungan hidup dan oleh karena itu juga merupakan alat yang tidak tepat untuk menganalisis data kelangsungan hidup.

Jadi tidak dapat dilakukan analisis data Survival dengan metode klasik. Sehingga membutuhkan metode analisis survival.

Sementara model regresi linier menggambarkan waktu, tetapi melewatkan probabilitas kelangsungan hidup non-linier, regresi logistik menangkap tren non-linier, tetapi melebih-lebihkan probabilitas kelangsungan hidup. Sebaliknya, analisis survival memecahkan kedua masalah tersebut, karena model ini memodelkan probabilitas kelangsungan hidup non-linear dari waktu ke waktu sambil memperhitungkan subjek penelitian yang hilang, baik yang meninggal maupun yang selamat.

Kematian bukanlah satu-satunya pilihan! Atau: “Apakah yang dimaksud dengan peristiwa?”

Analisis waktu survival diperlukan dalam penelitian apa pun yang menyelidiki waktu untuk hasil tertentu yang menarik. Penelitian kanker dalam bidang kedokteran dan kegagalan pertama mobil dalam bidang teknik (analisis waktu kegagalan) adalah contoh yang baik. Hasil yang diinginkan dapat berupa kematian, remisi untuk kambuh, perkembangan, atau kegagalan. Titik waktu untuk mencapai hasil tersebut umumnya disebut peristiwa. sehingga, tidak semua “event” berakibat fatal , tetapi kadang-kadang bahkan bisa menjadi hasil yang menguntungkan seperti keluar dari rumah sakit. Dan dengan demikian, analisis survival juga merupakan istilah umum, karena ini bukan hanya tentang kelangsungan hidup.

Kejadian, sebagai titik waktu yang tetap diperlukan karena tidak dapat dilakukan pengamatan atau bereksperimen selamanya. Jika dipelajari kanker paru-paru, maka tidak bisa menunggu sampai pasien meninggal karena penyebab lain, misalnya karena sudah tua. Hanya ketika beberapa pasien selamat dari kanker, atau beberapa mobil tidak rusak pada waktu tertentu (peristiwa), kita bisa mendapatkan wawasan yang berharga. Misalnya, berapa lama waktu dari awal pengobatan hingga perkembangannya, atau berapa probabilitas untuk bertahan hidup dari kanker paru-paru setelah tepat 1 tahun? Selain itu, hal ini membuka kemungkinan untuk membandingkan waktu kelangsungan hidup atau kegagalan di antara kelompok yang berbeda, misalnya kanker paru-paru antara perokok dan non-perokok, atau waktu kerusakan antara mobil Jerman dan Korea.

Penyensoran

Sensoring diperlukan karena waktu kelangsungan hidup yang sebenarnya tidak akan diketahui oleh beberapa individu. Ada banyak cara untuk kehilangan subjek studi:

  1. Dapat kehilangan seseorang tanpa alasan, ketika itu tidak muncul lagi

  2. Individu mungkin mengalami peristiwa lain, misalnya kematian atau kecelakaan

  3. Bahkan pasien yang bertahan hingga akhir penelitian dapat diperlakukan sebagai disensor karena waktu kelangsungan hidup yang tidak diketahui

Semua contoh di atas dianggap sebagai sensoring kanan karena arahnya dari kiri ke kanan pada sumbu waktu. Sebagian besar data kelangsungan hidup disensor dengan benar. Ada dua jenis sensoring lainnya. Sensor kiri muncul jika tidak tahu dari mana penyakit itu bermula, sedangkan sensor interval terjadi ketika waktu pasti kehilangan pasien tidak diketahui, tetapi hanya jendela waktu. Sensoring kiri dan interval jarang terjadi, sulit dianalisis, seringkali merupakan hasil dari desain studi yang buruk.

Cara menghitung kurva survival Kaplan-Meier “secara manual” langkah demi langkah

Dengan membayangkan hari yang cerah dan damai tepat sebelum kecelakaan Titanic terjadi. Tidak ada yang meninggal, tetapi semua 10 orang berisiko tinggi (bahaya) meninggal, hanya saja mereka belum mengetahuinya. Dapat menebak berapa banyak orang yang mungkin akan meninggal sehari sebelum kecelakaan. Jawabannya adalah - mungkin nol. Secara harfiah, kemungkinan kematian adalah nol, karena kita tahu bahwa kecelakaan tidak akan terjadi sehari sebelum tabrakan yang sebenarnya. Untuk menjawab pertanyaan ini dengan lebih tepat, kita perlu mengingat definisi probabilitas: Probabilitas adalah rasio dari sesuatu yang terjadi, terhadap segala sesuatu yang dapat terjadi. Jadi, jika tidak ada seorang pun dari 10 orang yang meninggal sehari sebelum kecelakaan, maka probabilitas kematiannya adalah 0%, sedangkan probabilitas selamat adalah 100%:

\[ probability \ of \ dying = \frac{0}{10} = 0\]

\[ probability \ of \ surviving = \frac{10}{10} = 1 = 100\%\]

Untuk representasi yang lebih baik, mari kita letakkan semua angka dalam satu tabel:

tribble(
  ~time_in_days, ~N_at_risk, ~N_died, ~P_dying, ~`P_surviving`,
  0, 10, 0, "0/10 = 0", "10/10 = 1"
) %>% kable()
time_in_days N_at_risk N_died P_dying P_surviving
0 10 0 0/10 = 0 10/10 = 1

Kemudian, pada hari kecelakaan , di mana semua 10 orang sekarang tahu bahwa mereka berisiko tinggi meninggal, 3 dari mereka benar-benar meninggal. Probabilitas kematian pada hari pertama adalah kemudian \(3/10 = 0.3 \approx 30\%\) dan kemungkinan bertahan hidup adalah \(7/10 = 0.7 \approx 70\%\). Sehingga kelangsungan hidup juga dapat dihitung dari kemungkinan kematian \(1-0.3 = 0.7\).

Peluang Survival

Satu momen penting di sini adalah bahwa kemungkinan untuk bertahan hidup bersifat kumulatif, yang berarti terakumulasi dari hari ke hari. Akumulasi ini terjadi melalui mengalikan probabilitas baru untuk bertahan hidup pada hari ke-1 \((1 - \frac{d_i}{n_i}) = (1 - \frac{3}{10}) = 70\%\) dengan probabilitas lama untuk bertahan hidup sepanjang waktu sebelumnya, yang dalam kasus kami adalah sehari sebelum kecelakaan, atau - hari ke-nol \(S(t_{i-1}) = 100\%\):

\[ S(t_i) = S(t_{i-1})*(1 - \frac{d_i}{n_i}) = 1 * (1 - \frac{3}{10}) = 0.7 \]

Dimana,

  • \(S(t_{i−1})\) = probabilitas untuk hidup di \(t_{i−1}\)
  • \(n_i\) = jumlah pasien yang masih hidup sebelum \(t_i\)
  • \(d_i\) = Jumlah kejadian saat \(t_i\)
  • \(t_0\) = 0, \(S(0)\) = 1

Probabilitas bertahan hidup pada waktu tertentu, \(S(t)\), adalah syarat karena orang tersebut harus bertahan hidup setelah waktu tertentu, misalnya hari ke-nol (itulah syaratnya) untuk tetap berada dalam eksperimen untuk hari pertama.

tribble(
  ~time_in_days, ~N_at_risk, ~N_died, ~P_dying, ~`P_surviving`,
  0, 10, 0, "0/10 = 0",   "10/10      = 1",
  1, 10, 3, "3/10 = 0.3", "1 * (7/10) = 0.7",
) %>% kable()
time_in_days N_at_risk N_died P_dying P_surviving
0 10 0 0/10 = 0 10/10 = 1
1 10 3 3/10 = 0.3 1 * (7/10) = 0.7

Pada hari kedua sedikit lebih menarik, karena satu orang meninggal dan satu orang hilang begitu saja (status = 0). Orang yang hilang ini kemungkinan besar terbawa ombak dan mudah-mudahan bisa diselamatkan. Harapannya besar, karena semakin jauh orang tersebar di lautan, semakin besar kemungkinan salah satu dari mereka akan ditemukan dalam keadaan hidup. Dan hal ini akan memberi tahu dunia bahwa ada orang lain yang masih berada di luar sana. Jadi, meskipun orang hilang terlihat buruk, hal ini bisa jadi merupakan hal yang baik. Jadi, kita tentu tidak bisa menganggap orang yang hilang sebagai orang yang sudah mati. Selain itu, seperti kata pepatah Jerman: “Harapan adalah yang terakhir mati”.

Tetapi karena kita juga tidak yakin apakah orang ini masih hidup, kita tidak bisa mengatakan - orang tersebut selamat. Hal ini menimbulkan dilema: meskipun tidak meninggal, orang tersebut bukan bagian dari eksperimen kami lagi dan kami harus menghapusnya dari jumlah orang yang berisiko. Jadi, sementara hari kedua akan memiliki 7 orang yang berisiko yang tersisa (karena 3 orang telah meninggal di hari pertama), hari ketiga akan tersisa hanya 5 orang, karena 1 orang meninggal dan satu orang menghilang (disensor) dibandingkan dengan hari kedua. Sama halnya dengan hari pertama, probabilitas kelangsungan hidup bersifat kumulatif dan selalu menyertakan probabilitas hari sebelumnya.

tribble(
  ~time_in_days, ~N_at_risk, ~N_died, ~P_dying, ~`P_surviving`,
  0, 10, 0, "0/10 = 0",    "10/10       = 1",
  1, 10, 3, "3/10 = 0.3",  "1 * (7/10)  = 0.7",
  2, 7,  1, "1/7  = 0.14", "0.7 * (6/7) = 0.6",
  3, 5,  1, "1/5  = 0.20", "0.6 * (4/5) = 0.48"
) %>% kable()
time_in_days N_at_risk N_died P_dying P_surviving
0 10 0 0/10 = 0 10/10 = 1
1 10 3 3/10 = 0.3 1 * (7/10) = 0.7
2 7 1 1/7 = 0.14 0.7 * (6/7) = 0.6
3 5 1 1/5 = 0.20 0.6 * (4/5) = 0.48

Pada dua hari berikutnya, dua orang menghilang, jadi kita menyensor mereka. Tidak perlu menghitung sesuatu untuk data yang disensor dalam analisis kelangsungan hidup, karena kita tidak tahu apakah mereka selamat atau tidak. Dan karena kita tertarik pada kelangsungan hidup atau kematian, tabel akhir di bawah ini berisi kasus yang hanya mati. Pada hari ke 6 tidak ada yang mati atau menghilang, oleh karena itu kami juga tidak menghitung apa pun untuk hari itu. Orang terakhir dalam eksperimen kami meninggal pada hari ke 7. Jadi, “N_meninggal” akan menjadi 1, dan “N_berisiko” akan menjadi 2, karena 1 dari 5 orang yang tersisa telah meninggal dan 2 orang disensor. Dengan demikian, tabel yang dihitung secara “manual” akan terlihat :

tribble(
  ~time_in_days, ~N_at_risk, ~N_died, ~P_dying, ~`P_surviving`,
  0, 10, 0, "0/10 = 0",    "10/10        = 1",
  1, 10, 3, "3/10 = 0.3",  "1 * (7/10)   = 0.7",
  2, 7,  1, "1/7  = 0.14", "0.7 * (6/7)  = 0.6",
  3, 5,  1, "1/5  = 0.20", "0.6 * (4/5)  = 0.48",
  7, 2,  1, "1/2  = 0.50", "0.48 * (1/2) = 0.24"
) %>% kable()
time_in_days N_at_risk N_died P_dying P_surviving
0 10 0 0/10 = 0 10/10 = 1
1 10 3 3/10 = 0.3 1 * (7/10) = 0.7
2 7 1 1/7 = 0.14 0.7 * (6/7) = 0.6
3 5 1 1/5 = 0.20 0.6 * (4/5) = 0.48
7 2 1 1/2 = 0.50 0.48 * (1/2) = 0.24

Namun, apa yang akan terjadi jika kita mengabaikan penyensoran dan hanya menghitung probabilitas untuk tidak mati? Dikarenakan 4 orang tidak mati pada hari ke-7, probabilitas untuk bertahan hidup akan menjadi \(\frac{4}{10} = 40\%\) yang hampir dua kali lipat lebih tinggi, dan dengan demikian kita akan melebihkan probabilitas untuk bertahan hidup, dibandingkan dengan probabilitas sebenarnya yaitu 0,24 yang memperhitungkan penyensoran.

SUMBER

Hanya memperhatikan orang yang selamat* bahkan memiliki nama - bias penyintas, dan ada cerita kecil di baliknya. Selama Perang Dunia Kedua, beberapa pesawat kembali dari medan perang dengan banyak kerusakan akibat peluru. Mereka hampir tidak bisa terbang, tapi mereka tetap kembali. Jadi, pihak militer memutuskan untuk melindungi pesawat dengan lebih banyak pelindung di bagian yang paling banyak lubang peluru, seperti sayap, dan mengurangi pelindung di bagian yang tidak berlubang peluru. Anehnya, persentase pesawat yang kembali tidak meningkat. Para insinyur bingung! Hingga seorang ahli matematika, Abraham Walt, yang diundang untuk memecahkan masalah ini berkata: “Pasang lebih banyak lapis baja di tempat-tempat yang tidak memiliki lubang peluru, karena jika tempat ini ditembak, pesawat tidak akan kembali.” Dan ketika yang lain memikirkannya, mereka menyadari bahwa semua pesawat yang kembali tidak memiliki lubang peluru di kokpit atau mesin. Lubang peluru menunjukkan semua tempat di mana pesawat bisa ditembak tapi masih bisa kembali, atau selamat! Itulah yang disebut dengan bias bertahan hidup. Jadi, menurut saya, regresi logistik memiliki survivorship bias dibandingkan dengan analisis ketahanan hidup jika kita ingin menganalisis data ketahanan hidup.

Cara menghitung kurva survival Kaplan-Meier

library(tidyverse)  # data wrangling and visualization
library(knitr)      # beautifying tables
library(car)        # for checking assumptions, e.g. vif etc.
## 
## Attaching package: 'car'
## The following object is masked from 'package:dplyr':
## 
##     recode
## The following object is masked from 'package:purrr':
## 
##     some
library(broom)      # for tidy model output
library(sjPlot)     # for plotting results of log.regr.
library(sjmisc)     # for plotting results of log.regr.
## 
## Attaching package: 'sjmisc'
## The following object is masked from 'package:purrr':
## 
##     is_empty
## The following object is masked from 'package:tidyr':
## 
##     replace_na
## The following object is masked from 'package:tibble':
## 
##     add_case
library(effects)    # for probability output and plots

Pada regresi logistik 1 adalah kelangsungan hidup, sedangkan dalam analisis kelangsungan hidup 1 adalah kematian. Kedua, membedakan kasus yang disensor, misalnya dapat menandainya dengan tanda plus di data atau di plot. Data di bawah ini menunjukkan bahwa orang disensor pada hari ke 2+, 4+, 5+ dan 10+. Instal dan muat survivalpaket untuk dapat mengeksekusi kode di bawah ini:

# install.packages("survival")
library(survival)

Surv(time = d$time, event = d$status)
##  [1]  1   1   1   2   2+  3   4+  5+  7  10+

Fungsi Surv menyatukan data “waktu” dan “status” ke dalam satu objek “survival” tunggal, yang memungkinkan untuk “memperhitungkan pengamatan yang disensor”. Objek ini kemudian dapat digunakan untuk memodelkan probabilitas kelangsungan hidup dengan fungsi survfit. Kita memodelkan kelangsungan hidup dengan menambahkan “~1” pada objek tersebut, di mana 1 berarti tidak ada variabel yang dapat mempengaruhi kelangsungan hidup. Objek kelangsungan hidup kita di sisi kiri tilde adalah variabel respons dan di sisi kanan ~ (tilde) adalah prediktor, atau dalam kasus “1” - tidak ada.Selanjutnya dapat dibuat model survival pertama dan melihat keluaran modelnya:

survival_model <- survfit(Surv(time, status) ~ 1, data = d)

# small summary
survival_model
## Call: survfit(formula = Surv(time, status) ~ 1, data = d)
## 
##       n events median 0.95LCL 0.95UCL
## [1,] 10      6      3       1      NA

Dimana akan didapat - n - jumlah peserta, - event - jumlah kematian, yang secara umum disebut event karena dapat mempelajari jenis-jenis “deadlines” lainnya, seperti kambuhnya penyakit, atau kerusakan pertama pada mobil, - perkiraan waktu bertahan hidup median, bukan rata-rata karena sifat non-parametrik (dijelaskan nanti) dari analisis ketahanan hidup dan - Interval kepercayaan 95%** untuk waktu ketahanan hidup median

Lebih banyak informasi dapat dinilai dengan fungsi ringkasan, yang memberikan tabel yang sama dengan perhitung secara manual di atas:

# big summary
summary(survival_model)
## Call: survfit(formula = Surv(time, status) ~ 1, data = d)
## 
##  time n.risk n.event survival std.err lower 95% CI upper 95% CI
##     1     10       3     0.70   0.145       0.4665        1.000
##     2      7       1     0.60   0.155       0.3617        0.995
##     3      5       1     0.48   0.164       0.2458        0.938
##     7      2       1     0.24   0.188       0.0515        1.000

Sehingga dapat dilihat bahwa perhitungan sebelumya benar dan telah berhasil mempelajari cara melakukan analisis survival. Sehingga mulai sekarang dapat mulai menggunakan perangkat lunak. Perangkat lunak ini memiliki banyak keuntungan. Sebagai contoh, fungsi summary, yang hanya menampilkan hasil dari kasus yang mati, dapat diisi dengan argumen tambahan censored = TRUE, yang menampilkan semua kasus, baik yang mati maupun yang disensor:

summary(survival_model, censored = T)
## Call: survfit(formula = Surv(time, status) ~ 1, data = d)
## 
##  time n.risk n.event survival std.err lower 95% CI upper 95% CI
##     1     10       3     0.70   0.145       0.4665        1.000
##     2      7       1     0.60   0.155       0.3617        0.995
##     3      5       1     0.48   0.164       0.2458        0.938
##     4      4       0     0.48   0.164       0.2458        0.938
##     5      3       0     0.48   0.164       0.2458        0.938
##     7      2       1     0.24   0.188       0.0515        1.000
##    10      1       0     0.24   0.188       0.0515        1.000

Selanjutnya dapat menentukan hasil dari hari mana yang ingin dilihat dengan menambahkan argumen times = ... ke fungsi summary. Bahkan dapat juga meminta hari-hari yang tidak tersedia datanya, misalnya hari ke-8 atau ke-9 dalam contoh sederhana kita. Sebagai contoh, probabilitas kelangsungan hidup setelah hari ke-8 adalah 24%:

summary(survival_model, times = c(8, 9))
## Call: survfit(formula = Surv(time, status) ~ 1, data = d)
## 
##  time n.risk n.event survival std.err lower 95% CI upper 95% CI
##     8      1       6     0.24   0.188       0.0515            1
##     9      1       0     0.24   0.188       0.0515            1

Sekarang, karena kita mengetahui probabilitas yang tepat untuk bertahan hidup pada setiap hari, bahkan pada hari-hari dimana kita tidak memiliki datanya, kita dapat memvisualisasikan hasil model. Install dan muat paket survminer untuk dapat menjalankan kode di bawah ini:

# install.packages("survminer")
library(survminer)
ggsurvplot(
  survival_model, 
  conf.int = FALSE, 
  surv.median.line = "hv",
  xlab = "Days", 
  ylab = "Survival probability", 
  break.time.by = 1,
  risk.table = T
)

Dari output diatas dapat dilihat interval kepercayaan (CI) untuk kelangsungan hidup sehari-hari atau alur bertahan hidup. CI divisualisasikan secara default, tetapi dapat dihapus jika diperlukan melalui conf.int = FALSE_perintah. Baris terakhir pada kode di atas menampilkan tabel “Angka berisiko”, yang dihitung secara manual di atas.

Kurva ini dijelaskan secara independen oleh dua ilmuwan berbeda pada saat bersamaan. Edward Kaplan dan Paul Meier kemudian menerbitkan temuan mereka bersama sebagai estimator Kaplan-Meier (KM) pada tahun 1958 dan survfitfungsi cocok dengan type = “kaplan-meier”kurva secara default.

Sebagian besar data kelangsungan hidup menunjukkan banyak peristiwa di awal dan jumlah peristiwa yang lebih rendah sepanjang waktu. Hal ini membuat kurva kelangsungan hidup non-linier dan sebagian besar data kelangsungan hidup terdistribusi miring atau tidak normal (tidak berbentuk lonceng). Ini adalah alasan mengapa metode KM memperkirakan waktu bertahan hidup median daripada rata-rata sebagai ukuran tendensi sentral. Non-linearitas dan “stepiness” dari kurva KM tidak memungkinkan untuk meringkas data menjadi satu parameter tunggal , misalnya kemiringan , yang membuat metode KM non-parametrik .

Interpretasi Kurva Kaplan-Meier

Sumbu x mewakili waktu dalam hari, dan sumbu y menunjukkan probabilitas bertahan hidup atau proporsi orang yang bertahan hidup. Jadi, kurva itu sendiri menunjukkan probabilitas kelangsungan hidup yang tepat dari waktu ke waktu . Penurunan vertikal pada kurva menunjukkan setidaknya satu peristiwa . Ketinggian penurunan vertikal menunjukkan perubahan probabilitas kelangsungan hidup kumulatif. Bagian horizontal dari kurva mewakili durasi kelangsungan hidup untuk interval waktu tertentu , yang diakhiri oleh peristiwa berikutnya (dan penurunan kurva). Kurva KM terlihat seperti tangga aneh dengan anak tangga yang tidak rata, di mana probabilitas bertahan hidup konstan di antara peristiwa, dan karenanya merupakan fungsi langkah yang mengubah nilai hanya pada saat setiap peristiwa. Dengan cara ini setiap pasien menyumbangkan informasi berharga untuk perhitungan selama masih hidup. Orang yang disensor ditampilkan persis seperti pada objek bertahan hidup, dengan plus , seperti yang dilihat pada hari ke-2. Namun, sebagian besar plus terlihat seperti kutu vertikal , karena terletak di bagian horizontal kurva, yaitu hari 4 dan 5 Tanda centang ditampilkan secara default, tetapi dapat ditekan menggunakan argumen censor = FALSE. Tabel risiko di bawah plot menunjukkan jumlah orang yang berisiko , yang sebenarnya semua orang yang “benar-benar hidup” dalam percobaan yang tidak mengalami kejadian atau penyensoran pada titik waktu tertentu. Garis putus-putus mewakili waktu kelangsungan hidup rata-rata yang sesuai dengan probabilitas kelangsungan hidup 50% . Dan jika kita mengabaikan penyensoran dan hanya memperkirakan median waktu (hanya untuk orang mati), kita akan mendapatkan 1,5 bukannya 3, yang akan meningkatkan kemungkinan bertahan hidup dari 48% menjadi 70%. Sekali lagi, mengabaikan penyensoran akan menghasilkan kemungkinan bertahan hidup yang terlalu tinggi karena bias keberlangsungan hidup.

d %>% 
  filter(status == 1) %>% 
  summarize(median_survival_whithout_censoring = median(time))

Membandingkan kelangsungan hidup kelompok

2 group

Dengan menggunakan conoth data 100 orang setelah kecelakaan Titanic alih-alih 10 dan lihat kelangsungan hidup mereka menggunakan kurva Kaplan-Meier. Angka-angka dalam tabel risiko semakin besar dan sebaiknya kami menampilkan persentase berisiko dalam tanda kurung di dekat nilai absolut. Argumen risk.table = “abs_pct” membantu dengan itu. Contoh “bulat” dari 100 orang menunjukan persentase yang persis sama dengan angka absolut, namun dengan jumlah “bulat” yang lebih sedikit atau beberapa kelompok, persentase akan menjadi sangat berguna. Rata-rata waktu bertahan hidup orang-orang di lautan dingin adalah sekitar 70 hari dan interval kepercayaannya tidak terlalu lebar.

set.seed(999) # for reproducible example
library(rlang)
## 
## Attaching package: 'rlang'
## The following object is masked from 'package:sjmisc':
## 
##     is_empty
## The following objects are masked from 'package:purrr':
## 
##     %@%, flatten, flatten_chr, flatten_dbl, flatten_int, flatten_lgl,
##     flatten_raw, invoke, splice
library(dplyr)
library(tidyverse)
d <- ggstatsplot::Titanic_full %>% 
  mutate(survived = ifelse(Survived == "No", 1, 0),
         time     = runif(n=2201, min=1, max=100)) %>% 
  sample_n(100) 

m <- survfit(Surv(time, survived) ~ 1, data = d)

ggsurvplot(m, 
           conf.int = TRUE, 
           risk.table = "abs_pct", 
           surv.median.line = "hv")

Misalnya, membandingkan probabilitas kelangsungan hidup laki-laki dengan perempuan. Dengan mengganti rumus model dengan nama variabel kategori yang diminati, misalnya sex. Plot bertahan hidup kemudian menampilkan kurva Kaplan-Meier untuk setiap kategori variabel yang ada:

m <- survfit(Surv(time, survived) ~ Sex, data = d)

ggsurvplot(m, 
           pval = TRUE, 
           conf.int = TRUE, 
           risk.table = "abs_pct", 
           surv.median.line = "hv") 

Interpretasi perbandingan kelompok menggunakan 4 tolok ukur

  1. Perbandingan visual kurva : hanya dengan melihat dua kelompok sehingga dapat mengatakan apakah ada perbedaan. Misalnya, plot mengungkapkan bahwa perempuan memiliki kemungkinan lebih tinggi untuk bertahan hidup hampir sepanjang periode waktu (sumbu x). Namun, apakah perbedaan ini signifikan secara statistik memerlukan uji statistik formal . Dengan melihat angka kurva, misalnya: pada hari yang cerah dan indah sebelum himpitan, probabilitas bertahan hidup kedua kelompok adalah 1,0 (atau 100% penumpang masih hidup). Pada hari ke 50, kemungkinan bertahan hidup betina adalah ca. 0,75 (atau 75%) dan hanya ca. 0,65 (atau 65%) untuk laki-laki. Pada hari ke 75, kelangsungan hidup adalah ca. 60 dan kira-kira 30% sesuai.

  2. Perbandingan interval kepercayaan (CI) : CI yang tumpang tindih menunjukkan bahwa kelangsungan hidup jantan dan betina tidak terlalu berbeda dan bisa jadi karena kebetulan hingga 80 hari. Setelah 80 hari CI berhenti tumpang tindih yang menunjukkan perbedaan signifikan dalam bertahan hidup pada titik waktu tertentu, katakanlah 90 hari.

  3. Perkiraan waktu kelangsungan hidup Nilai Tengah mengungkapkan lebih dari interval kepercayaan. Waktu kelangsungan hidup rata-rata untuk setiap kelompok mewakili waktu di mana probabilitas kelangsungan hidup adalah 50%. Misalnya kelangsungan hidup rata-rata Betina jauh lebih tinggi (87 hari) daripada jantan (65 hari). Perbedaan 23 hari yang begitu besar, karena perempuan memiliki 23 hari lagi untuk ditemukan oleh beberapa kapal penangkap ikan. Di sini sekali lagi, hanya tes yang dapat mengetahui dan itulah mengapa tolok ukur terakhir untuk membandingkan dua kelompok adalah p-value yang diestimasi oleh tes Log-Rank (Peto et al, 1977), yang sangat penting, sehingga perlu bab tambahan.

m
## Call: survfit(formula = Surv(time, survived) ~ Sex, data = d)
## 
##             n events median 0.95LCL 0.95UCL
## Sex=Female 31     10   87.0    60.9      NA
## Sex=Male   69     54   64.5    53.6    72.9

Log-Rank test

  1. Uji statistik non-parametrik Log-Rank (kadang-kadang disebut Mantel-Haenszel) membandingkan median waktu kelangsungan hidup kelompok. Uji Log-Rank mirip dengan uji Wilcoxon-Rank non parametrik (1), yang juga membandingkan median dengan menggunakan peringkat dan juga mirip dengan uji Chi-square (2), di mana kita membandingkan jumlah kejadian yang diamati dengan yang diharapkan dengan menghitung statistik Chi-square:

\[ X^2 = \sum_{i = 1}^{g} \frac{(O_i - E_i)^2}{E_i}\]

Jumlah kejadian yang diharapkan dihitung untuk setiap titik waktu dan setiap kelompok dibandingkan dengan titik waktu sebelumnya. Nilai-nilai ini kemudian dijumlahkan pada semua titik waktu untuk memberikan jumlah total kejadian yang diharapkan pada setiap kelompok.

Sifat non-parametrik dari tes ini membuat tidak ada asumsi tentang distribusi kelangsungan hidup. Jadi, apakah waktu kelangsungan hidup normal (“lonceng melengkung”)? Bisa saja, tetapi tidak harus Faktanya, data kelangsungan hidup sangat jarang berdistribusi normal, tetapi sering kali miring karena biasanya banyak kejadian awal dan relatif sedikit kejadian akhir.

Hipotesis nol dari uji Log-Rank adalah tidak ada perbedaan dalam ketahanan hidup antara kedua kelompok. Nilai p-value sebesar 0,011 memungkinkan kita untuk menolak hipotesis nol dan mengindikasikan adanya perbedaan rata-rata yang signifikan dalam waktu kelangsungan hidup antara perempuan dan laki-laki.

Uji Log-Rank sangat banyak digunakan untuk membandingkan dua atau lebih kurva kelangsungan hidup, sehingga harus benar-benar membenarkan penggunaan uji lainnya.

Fungsi survdiff() menghitung uji Log-Rank dan mengembalikan komponen-komponen berikut:

  • Jumlah subjek dalam setiap kelompok.
  • Jumlah kejadian teramati tertimbang **dalam setiap kelompok.
  • Jumlah kejadian tertimbang * yang diharapkan* dalam setiap kelompok.
  • Statistik chi-square untuk uji kesetaraan
  • dan p-value untuk perbedaan kelangsungan hidup di antara kelompok
survdiff(Surv(time, survived) ~ Sex, data = d)
## Call:
## survdiff(formula = Surv(time, survived) ~ Sex, data = d)
## 
##             N Observed Expected (O-E)^2/E (O-E)^2/V
## Sex=Female 31       10     19.3      4.45      6.46
## Sex=Male   69       54     44.7      1.92      6.46
## 
##  Chisq= 6.5  on 1 degrees of freedom, p= 0.01

Apakah tes Log-Rank sempurna? Sayangnya, tidak. Salah satu masalahnya adalah: uji ini tidak memberikan ukuran efek yang membuat kita hanya memiliki p-value sebagai ukuran perbedaan. Masalah lain dengan uji Log-Rank (dan metode Kaplan-Meier secara umum) adalah bahwa uji ini tidak mengizinkan adanya perancu, uji ini mengabaikan faktor/variabel lain. Untungnya, kita masih bisa membandingkan lebih dari dua kelompok dengan satu variabel.

2 kelompok dan beberapa uji Log-Rank berpasangan (post-hoc)

Tes Log-Rank dapat membandingkan lebih dari dua kelompok dan mengatakan apakah ada perbedaan yang signifikan (p-value <0,05) di antara kelompok-kelompok ini. Hasil pengujian yang ditampilkan pada tabel dan kurva KM di bawah ini menunjukkan bahwa terdapat perbedaan kelangsungan hidup yang signifikan (p-value = 0,024) di antara kelompok orang pada kelas tiket yang berbeda. Namun, seperti kebanyakan tes lainnya (misalnya ANOVA), tidak disebutkan di antara kelompok mana tepatnya. Oleh karena itu diperlukan analisis tambahan yang membandingkan secara berpasangan setiap kelompok satu dengan kelompok lainnya. Analisis semacam itu sering disebut post-hoc.

survdiff(Surv(time, survived) ~ Class, data = d)
## Call:
## survdiff(formula = Surv(time, survived) ~ Class, data = d)
## 
##             N Observed Expected (O-E)^2/E (O-E)^2/V
## Class=1st  14        4    11.03     4.477     5.532
## Class=2nd  13        5     8.49     1.432     1.666
## Class=3rd  37       30    21.81     3.074     4.760
## Class=Crew 36       25    22.68     0.238     0.383
## 
##  Chisq= 9.5  on 3 degrees of freedom, p= 0.02
m <- survfit(Surv(time, survived) ~ Class, data = d)

ggsurvplot(m, 
           pval = TRUE, 
           conf.int = FALSE, 
           risk.table = "abs_pct", 
           surv.median.line = "hv",
           ncensor.plot = TRUE,
           break.time.by = 20,
           risk.table.y.text.col = TRUE, risk.table.y.text = FALSE) 

Tiga argumen plot yang berguna lebih lanjut yang dapat membantu memvisualisasikan data ketahanan hidup dengan lebih baik adalah:

  • break.time.by = 20 memecah sumbu x menjadi interval waktu yang diinginkan.
  • risk.table.y.text.col = TRUE dan risk.table.y.text = FALSE memplot batang, bukan nama dalam anotasi teks legenda tabel risiko
  • ncensor.plot = TRUE menampilkan jumlah subjek yang disensor, yang membantu untuk memahami apa yang menjadi penyebab angka risiko menjadi lebih kecil: peristiwa atau penyensoran.

Penafsiran

Kelangsungan hidup rata-rata adalah ca. 90 hari untuk penumpang kelas 1 dan 2, 58 hari untuk kelas 3 dan 65 hari untuk awak Titanic, menunjukkan kelangsungan hidup orang kaya yang baik, dibandingkan dengan yang lain. Dengan p-value yang rendah (p = 0,024) menunjukkan bahwa ada perbedaan yang signifikan dalam kelangsungan hidup antar kelompok . Di antaranya, hanya post-hoc yang tahu. Hasil dari analisis Log-Rank post-hoc tersebut dapat dilakukan dengan fungsi pairwise_survdiff dari survminer dan ditampilkan di bawah ini. Seperti biasa, jika memiliki banyak perbandingan sehingga berisiko membuat penemuan yang salah atau melewatkan penemuan penting. Jadi, harus menyesuaikan p-value untuk mengurangi kemungkinan terjadinya kesalahan.

pairwise_survdiff(
  formula = Surv(time, survived) ~ Class, data = d, p.adjust.method = "fdr"
  )
## 
##  Pairwise comparisons using Log-Rank test 
## 
## data:  d and Class 
## 
##      1st   2nd   3rd  
## 2nd  0.414 -     -    
## 3rd  0.028 0.139 -    
## Crew 0.095 0.317 0.414
## 
## P value adjustment method: fdr

Hasil analisis post-hoc mengungkapkan bahwa kelangsungan hidup kelas 1 secara signifikan lebih tinggi dibandingkan dengan kelas 3 dan Awak. Dan terlepas dari kenyataan bahwa rata-rata kelangsungan hidup penumpang kelas 2 sangat mirip dengan kelas 1, interval kepercayaan kelangsungan hidup ini sangat lebar dan banyak tumpang tindih dengan kelompok lain (tidak ditunjukkan untuk menghindari kekacauan). Itulah mengapa penumpang kelas 2 tidak umumnya memiliki waktu bertahan hidup yang lebih tinggi secara signifikan meskipun memiliki waktu bertahan hidup yang jauh lebih tinggi.

Multiple kurva Survival

Seperti disebutkan di atas, uji Log-Rank tidak dapat diterapkan pada beberapa variabel. Namun masih dapat memplot kurva kelangsungan hidup dari beberapa variabel untuk mendapatkan intuisi untuk data ini. Metode lebih lanjut, misalnya model Cox, dapat mengestimasi perbedaan di antara beberapa variabel, tetapi metode ini lebih kompleks daripada metode KM dan dengan demikian akan dibahas di posting mendatang.

m2 <- survfit( Surv(time, survived) ~ Sex + Class, data = d )

ggsurv <- ggsurvplot(m2, conf.int = TRUE)
   
ggsurv$plot +theme_bw() + 
  theme (legend.position = "right")+
  facet_grid(Sex ~ .)

Intuisi yang dapat kita peroleh dari plot di atas adalah bahwa wanita kaya (kelas tiket 1 dan 2) dan (hanya 2) wanita dari kru kapal memiliki probabilitas 100% untuk bertahan hidup, sementara wanita murni di kelas 3 akan mati dengan kepastian yang sama dengan pria. CI yang sangat tumpang tindih dari kelangsungan hidup pria menunjukkan bahwa semua pria pada akhirnya akan mati setelah kecelakaan Titanic.

Kesimpulan

Analisis ketahanan hidup menyelidiki waktu yang dibutuhkan untuk suatu peristiwa yang menarik untuk terjadi. Sebagian besar analisis ketahanan hidup univariat (variabel tunggal) menggunakan plot Kaplan-Meier untuk memvisualisasikan kurva ketahanan hidup dan Uji Log-Rank untuk membandingkan kurva ketahanan hidup dua atau lebih kelompok.

  • Keuntungan
  1. Keuntungan krusial kurva probabilitas bertahan hidup vs. kurva regresi logistik memperhitungkan data yang disensor, yang tidak mati, atau hidup. Regresi logistik memperlakukan semua orang yang tidak mati sebagai orang yang selamat, itu salah, hanya karena kita tidak mengetahui status kelangsungan hidup orang yang tidak terjawab. Pasien meninggalkan studi karena dua alasan utama, mereka merasa sangat buruk, sehingga mereka tidak lagi peduli dengan eksperimen , atau mereka merasa jauh lebih baik dan melupakan studi. Beberapa pasien mungkin hanya pindah ke kota lain tanpa berkata apa-apa. Menghitung semuanya sebagai selamat, seperti halnya regresi logistik, akan melebih-lebihkan kemungkinan bertahan hidup (survivorship bias) dan meremehkan bahaya kematian. Oleh karena itu, analisis kelangsungan hidup lebih tepat dibandingkan dengan regresi logistik, sementara itu masih menangkap tren probabilitas non-linier.

  2. Keunggulan lainnya adalah sifat nonparametrik dari metode Kaplan-Meier, yaitu tidak memiliki terlalu banyak asumsi. Sebenarnya satu-satunya asumsi penting adalah bahwa penyensoran harus bersifat non-informatif . Mengapa? Lebih banyak informasi selalu lebih baik, bukan? Ya! Tapi jika kita tahu mengapa orang meninggalkan penelitian, kita bisa menggunakan informasi ini sebagai variabel baru dan mempelajari pengaruhnya terhadap kelangsungan hidup. Metode KM akan menjadi tidak tepat, karena akan melewatkan informasi ini. Namun, seringkali tidak tahu (tidak ada info) mengapa orang keluar (disensor). Dan dalam hal ini metode KM memeras inferensi paling banyak dari data non-informatif tersebut.

  • Kerugian
  1. “Kurva” Kaplan-Meier sebenarnya tidak terlihat seperti kurva. Berlawanan dengan regresi logistik metode Kaplan-Meier tidak dapat digambarkan sebagai fungsi halus (kurva) dengan beberapa parameter, misalnya kemiringan atau rasio odds . Itu sebabnya membutuhkan tabel hasil bodoh atau grafik.

  2. Metode Kaplan-Meier tidak dapat memodelkan variabel numerik , tetapi hanya kategorikal.

  3. Metode Kaplan-Meier tidak dapat menyertakan banyak variabel penjelas . Itu buruk, karena membandingkan kelompok dalam hal bertahan hidup mungkin melewatkan efek faktor lain, yang dikenal sebagai kovariat atau perancu, yang berpotensi memengaruhi waktu bertahan hidup kelompok tertentu.

Saran

  1. Selalu menampilkan ketidakpastian statistik dengan memasukkan 95% CI atau/dan nilai p dari uji Log-Rank. Menampilkan CI pada beberapa titik waktu penting pada plot untuk setiap kelompok perlakuan terkadang lebih jelas daripada menampilkannya untuk semua titik waktu. CI yang tidak tumpang tindih menunjukkan perbedaan yang signifikan antar kelompok.

  2. Mempertimbangkan untuk memotong sumbu x . karena mata secara alami tertarik ke bagian kanan plot, di mana waktu berakhir. Namun, akhir plot berisi paling sedikit informasi dan ketidakpastian terbesar karena hanya sedikit peserta yang tersisa. Seberapa jauh waktu untuk memperpanjang plot? Terserah kamu.

  3. Selalu menampilkan tabel risiko yang menunjukkan jumlah pasien bebas kejadian dan masih dalam tindak lanjut di setiap kelompok perlakuan pada titik waktu yang relevan.

Survival analysis 2: Parametric Survival Models

Metode Kaplan-Meier (KM) non-parametrik tidak dapat menggambarkan probabilitas bertahan hidup dengan fungsi yang halus, yang berarti tidak dapat memprediksi apa pun. Model parametrik (mis. Eksponensial, Weibull, dll.) Selain itu, jika model parametrik sesuai, model tersebut lebih tepat, lebih efektif, dan lebih informatif daripada KM atau Cox. Namun sayangnya, langkah ini sering ditinggalkan karena penggunaan model parametrik belakang. Dalam posting ini akan mencoba untuk menutup celah ini.

library(tidyverse)  # data wrangling and visualization
library(sjPlot)     # for plotting results of log.regr.
library(effects)    # for probability output and plots
library(survival)   # for core survival analysis routines
library(survminer)  # for drawing survival curves
library(flexsurv)   # for Parametric Survival Modelling
library(knitr)      # for a wonderful-looking tables 

Mengapa kita membutuhkan model kelangsungan hidup parametrik

d2 <- tibble(
  time   = c(1,1,1,2,2,3,4,5,7,10), 
  status = c(1,1,1,1,0,1,0,0,1,0)
)
m <- survfit(Surv(time, status) ~ 1, data = d2)
ggsurvplot(
  m, 
  conf.int = FALSE, 
  surv.median.line = "hv",
  xlab = "Days", 
  ylab = "Survival probability", 
  break.time.by = 1,
  risk.table = F
)

Kerugian utama dari metode non-parametrik Kaplan-Meier (KM) yang ditunjukkan pada gambar di atas adalah tidak dapat dijelaskan probabilitas bertahan hidup dengan fungsi yang halus, yang artinya tidak dapat memprediksi apapun. Model parametrik (seperti Eksponensial, Weibull, dll.) Selain itu, model parametrik adalah langkah logis dalam perjalanan dari KM ke model Cox semi-parametrik , karena mereka dengan indah menghubungkan titik-titik antara model KM dan Cox dan dengan demikian sangat meningkatkan pemahaman tentang analisis kelangsungan hidup. Selain itu, jika model parametrik sesuai, model tersebut lebih tepat, lebih efektif, dan lebih informatif dari KM atau Cox. Namun sayangnya, langkah ini sering ditinggalkan karena penggunaan model parametrik belakang.

Apakah Waktu itu Variabel atau Konstanta?

Kematian dapat digambarkan dengan dua hal: peristiwa kematian itu sendiri dan titik waktu tertentu saat kematian terjadi. Dua hal ini selalu menggambarkan satu peristiwa, karena satu hanya mati sekali. Dengan demikian, waktu kematian akan bervariasi dan jumlah kematian akan bertambah seiring waktu, yang akan menjadikan waktu itu sendiri sebagai variabel . Begitulah beberapa peristiwa kematian pada titik waktu yang berbeda memungkinkan untuk mengungkapkan kematian dalam dua cara:

  1. Melalui sejumlah kejadian yang berbeda per satuan waktu tetap , yang sering disebut Risiko (Hazard) untuk mati , atau hanya Hazard (λ - lambda ). Ini membuat jumlah kejadian menjadi variabel, dan Bahaya menjadi tingkat kematian , misalnya, per hari.

  2. Melalui bentangan waktu berlalu yang berbeda per jumlah peristiwa yang tetap . Interval waktu biasanya diukur hingga peristiwa berikutnya terjadi. Ini membuat waktu menjadi variabel.

Perubahan stabil dalam bahaya dan kelangsungan hidup

Bayangkan setiap hari tepat 3 dari 10 orang meninggal di air laut yang dingin setelah kecelakaan Titanic. Ini tingkat kematian yang cukup stabil , atau Bahaya , sebesar 30%. Jika bahaya untuk mati terus tumbuh dengan laju yang sama, maka kemungkinan untuk bertahan hidup akan terus berkurang dengan laju yang sama. Dengan demikian, Bahaya dan Kelangsungan Hidup dapat diekspresikan satu sama lain. Secara khusus, Bahaya kematian dari waktu ke waktu dapat dilihat sebagai Gagal bertahan hidup \(F( t )\) dan kelangsungan hidup dari waktu ke waktu \(S( t )\) yang dapat dilihat sebagai Hazard of NOT-dying , atau hanya Hazard negatif , yang secara matematis dapat dinyatakan sebagai tanda minus “-”, atau “1-”, di depan Hazard. Kedua fungsi tersebut menghasilkan garis lurus, di mana Bahaya terus meningkat dan kelangsungan hidup terus menurun (plot di bawah): \[ F(t) = Hazard * t \] \[S(t) = 1 - Hazard * t\]

Peningkatan atau penurunan yang stabil dalam bahaya atau kelangsungan hidup seperti itu agak tidak alami, tidak realistis. Dalam memperkirakan kematian dapat dikatakn sulit. Bahaya biasanya meningkat secara eksponensial, misalnya dalam kasus kelaparan, atau menurun secara eksponensial, misalnya dalam kasus pandemi setelah vaksin ditemukan.

Perubahan eksponensial positif dalam bahaya dan kelangsungan hidup

Pikirkan tentang kelaparan sejenak. Semakin lama kondisi kelaparan, semakin tinggi kemungkinan (risiko) mati. Plot kiri di bawah menunjukkan perkembangan seperti itu, di mana bahaya kematian \(F( t )\) dinyatakan dalam probabilitas kecil pada awalnya (beberapa kematian), tetapi tumbuh secara eksponensial dengan waktu (semakin banyak kematian). Saya suka menyebut tren seperti itu sebagai perubahan eksponensial yang positif, atau mempercepat. “exp” dalam rumus kiri di bawah adalah semua yang diperlukan untuk merencanakan tren tersebut.

Sekali lagi, karena kelangsungan hidup dapat dilihat sebagai bahaya negatif dapat menyatakan kelangsungan hidup \(S( t )\) dengan hanya menggunakan tanda minus (atau “1-”) di depan Hazard. Plot di sebelah kanan menampilkan hasil dari fungsi bertahan hidup tersebut.Jika bahaya kematian rendah di awal “waktu”, maka kemungkinan bertahan hidup tinggi. Di akhir “waktu”, Kelangsungan Hidup turun secara eksponensial karena peningkatan Bahaya secara eksponensial. \[ F(t)= exp^{Hazard * t} \] \[S(t) = 1 - exp^{Hazard * t}\]

Perubahan eksponensial negatif dalam bahaya dan kelangsungan hidup

Namun, dalam beberapa kasus, lebih banyak orang meninggal pada awal “waktu”, di mana tingkat kematian menurun dari waktu ke waktu. Pikirkan tentang pandemi, atau kecelakaan besar. Perubahannya masih eksponensial, dan menuju ke arah yang sama: naik, dalam kasus Bahaya, dan turun, dalam kasus bertahan hidup. Namun, perubahan eksponensial agak terbalik (membungkuk). Saya suka menyebutnya sebagai perubahan eksponensial yang negatif, atau melambat.

Seperti “pembengkokan ke dalam” dapat dicapai dengan “-” minus sing di depan Hazard dan fungsi eksponensial itu sendiri (persamaan kiri dan gambar di bawah). Minus ini tidak menggambarkan hazard negatif, seperti pada contoh di atas. Itu hanya mengubah kurva dari percepatan ke perlambatan. Untuk mendapatkan kelangsungan hidup untuk fungsi ini seperti pada contoh di atas, harus menggunakan “-” (atau “1-”) di depan seluruh ekspresi hazard eksponensial. Menariknya, dua tanda minus di depan “exp” dalam rumus Survival saling menetralkan dan menjadi nilai tambah, yang menyisakan dengan

\[F(t)= - exp^{-Hazard * t}\]

\[S(t) = 1 - ( - exp^{-Hazard * t}) = exp^{-Hazard * t}\]

Membangun Model Ekponensial

Sejak fungsi bertahan hidup \(S( t )\) menunjukkan probabilitas bertahan hidup melewati titik waktu tertentu ,

\[S(t) = P(T > t)\]

dan fungsi eksponensial \(F( t )\) menunjukkan probabilitas Failed-survival melewati titik waktu tertentu ,

\[F(t) = P(T \leq t) = 1 - exp^{-Hazard * t}\]

fungsi bertahan hidup kemudian dapat dinyatakan dalam bentuk fungsi tidak bertahan hidup (eksponensial):

\[S(t) = P(T > t) = 1 - P(T \leq t) = 1 - F(t) = 1 - [1 - exp^{-Hazard * t}] = exp^{-Hazard * t}\]

Sehingga fungsi survival yang menunjukkan laju penurunan adalah fungsi flipped hazard yang menunjukkan laju kenaikan. Dengan demikian, dapat menulis ulang \(S( t )\) sebagai:

\[S(t) = exp^{- Hazard * t} = exp^{- \lambda* t}\]

di mana -Hazard dan waktu adalah dua parameter yang menggambarkan perubahan eksponensial dalam probabilitas bertahan hidup, itulah sebabnya model seperti itu memiliki nama - model eksponensial parametrik . Dan karena Hazard adalah negative , dan fungsi eksponensial tidak linier (alias. curvy ) - model keluar menghasilkan kurva eksponensial negatif (lihat di bawah). Tingkat penurunan yang mulus seperti itu menggambarkan probabilitas bertahan hidup jauh lebih baik daripada metode Kaplan-Meier, yang secara tiba-tiba (secara bertahap) menurunkan probabilitas hanya setelah suatu peristiwa, sambil menjaga probabilitas tetap konstan di antara peristiwa tersebut.

Cara menghitung model parametrik

library(flexsurv)    # for Parametric Survival Modelling

ex <- flexsurvreg(Surv(time, status) ~ 1, data = d2, dist="exponential")
we <- flexsurvreg(Surv(time, status) ~ 1, data = d2, dist="weibull")

ggsurvplot(
  ex, 
  conf.int = FALSE, 
  surv.median.line = "hv",
  xlab = "Days", 
  ylab = "Survival probability", 
  break.time.by = 1,
  risk.table = F
)

Parameter kurva (\(-\lambda * t\)) memungkinkan kita untuk memodelkan dan memprediksi kelangsungan hidup dan bahaya dari waktu ke waktu, yang merupakan keuntungan utama dari model eksponensial dibandingkan dengan metode Kaplan-Meier, yang tidak bersifat parametrik dan oleh karena itu tidak dapat dimodelkan. Namun, non-linearitas sering kali merepotkan, dan kami lebih suka menggunakan konsep regresi linear, yang meringkas (meregresikan) banyak angka menjadi beberapa angka, seperti intersep (\(\beta_0\)) dan kemiringan (\(\beta_1\)). Untungnya, kurva non-linier dapat dengan mudah “dilinierkan” melalui logaritma natural. Untuk melakukan ini, kita bahkan tidak perlu memahami cara kerja logaritma atau fungsi eksponensial, kita hanya perlu mengetahui bahwa keduanya saling menetralkan satu sama lain. Selain itu, menggunakan “log” (melogaritmakan kedua sisi persamaan di bawah ini) menghasilkan tiga efek samping yang positif:

  1. Pertama, di sisi kanan persamaan, ini akan memindahkan kurva kita (\(-\lambda * t\)) menjadi sebuah garis (\(b_0 + b_1x_1 + ... + b_kx_k\)), di mana kita akan dapat memiliki intersep dan koefisien \(\beta\) seperti pada regresi logistik linier biasa \[Hazard = exp^{b_0 + b_1x_1 + ... + b_kx_k}\]

atau

\[ log(Hazard) = b_0 + b_1x_1 + ... + b_kx_k \]

Model survival seperti itu sebenarnya adalah model Poisson. Oleh karena itu, akan sangat membantu jika sudah mengeuasai distribusi Poisson.

  1. Kedua, ini akan membantu kita untuk terhubung ke model-model selanjutnya, seperti model Weibull dan Cox, karena perbedaan di antara keduanya terutama terletak pada intersep “\(b_0\)”;

  2. Terakhir, ini akan sangat meningkatkan kemampuan interpretasi, karena Hazard-Ratios (HRs) (yang dihasilkan oleh model eksponensial) dapat diinterpretasikan persis seperti Odds-Ratios (ORs) dari regresi logistik (seperti yang dijelaskan dalam posting saya tentang regresi logistik). Sama halnya dengan Odds dalam regresi logistik, Hazard itu sendiri, yang merupakan probabilitas meninggal SEKARANG, kurang berguna dibandingkan dengan Hazard-Ratio. Hazard-Ratio adalah rasio bahaya seseorang yang terpapar (sakit) terhadap seseorang yang tidak terpapar (sehat). Misalnya jika HR = 2, risiko kematian seseorang yang terpapar adalah dua kali lipat dibandingkan dengan seseorang yang tidak terpapar.

Pikiran akhir

Apakah model parametrik berguna?

  • Tiga kurva di atas yang menggambarkan berbagai jenis perubahan dalam kelangsungan hidup dan bahaya dari waktu ke waktu dimaksudkan untuk mengatakan bahwa distribusi bisa sangat berbeda. Jika distribusi yang sesuai dapat ditemukan, model parametrik lebih informatif daripada model KM atau Cox

  • model ini dapat memprediksi probabilitas ketahanan hidup pada titik waktu tertentu, hazard kejadian, rata-rata dan median waktu ketahanan hidup sudah tersedia

  • model ini juga sedikit lebih efisien dan menghasilkan estimasi yang lebih tepat karena kecocokan yang lebih baik (lihat gambar di atas)

Apakah model parametrik itu sempurna? Tentu saja tidak!

  • model parametrik perlu menentukan distribusi, yang mungkin sulit untuk diidentifikasi

  • model ini juga secara matematis lebih kompleks, misalnya KM, dan oleh karena itu lebih jarang digunakan, sehingga mengurangi perbandingan hasil antar studi. Karena popularitasnya yang lebih rendah, saya tidak akan membahas lebih dalam tentang model parametrik tertentu: Model Weibull, Gompertz, model Waktu Kegagalan yang Dipercepat, dll.

Jadi, terlepas dari kenyataan bahwa model parametrik adalah alternatif yang baik untuk model regresi KM dan Cox (yang tidak perlu menentukan distribusi apa pun), KM dan Cox tetap menjadi metode yang paling populer untuk menganalisis data survival. Dan itulah mengapa langkah logis berikutnya dalam perjalanan statistik dalam mempelajari Model Cox Proportional Hazard (sedang berlangsung).

