Survival analysis 1: A gentle Introduction into Kaplan-Meier
Curves
Analisis waktu Survival diperlukan dalam penelitian apa pun yang
menyelidiki waktu untuk hasil tertentu yang menarik. Studi kanker dalam
bidang kedokteran dan kegagalan pertama mobil dalam bidang teknik
(analisis waktu kegagalan) adalah contoh yang baik. Hasil yang
diinginkan dapat berupa kematian, remisi untuk kambuh, perkembangan,
atau kegagalan. Titik waktu untuk mencapai hasil tersebut umumnya
disebut peristiwa.Tidak semua “event” berakibat fatal, tetapi
kadang-kadang bahkan bisa menjadi hasil yang menguntungkan seperti
keluar dari rumah sakit. Dan dengan demikian, analisis ketahanan hidup
juga merupakan istilah umum, karena ini bukan hanya tentang kelangsungan
hidup.
library(tidyverse) # data wrangling and visualization
## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ dplyr 1.1.1 ✔ readr 2.1.4
## ✔ forcats 1.0.0 ✔ stringr 1.5.0
## ✔ ggplot2 3.4.1 ✔ tibble 3.2.1
## ✔ lubridate 1.9.2 ✔ tidyr 1.3.0
## ✔ purrr 1.0.1
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag() masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors
library(sjPlot) # for plotting results of log.regr.
## Learn more about sjPlot with 'browseVignettes("sjPlot")'.
library(effects) # for probability output and plots
## Loading required package: carData
## lattice theme set by effectsTheme()
## See ?effectsTheme for details.
library(survival) # for core survival analysis routines
library(survminer) # for drawing survival curves
## Loading required package: ggpubr
##
## Attaching package: 'survminer'
##
## The following object is masked from 'package:survival':
##
## myeloma
library(knitr) # for a wonderful-looking tables
Dalam materi ini akan dipelajari :
- Konsep-konsep terpenting dalam analisis survival: kurva survival,
penyensoran, dan uji log-rank,
- Menghitung secara manual, kemudian mengkomputasi dan
menginterpretasikan kurva survival, dan
- Menguji perbedaan kelangsungan hidup antara dua atau lebih kelompok,
misalnya perempuan vs laki-laki
Mengapa harus mempelajari analisis survival?
library(tidyverse)
d <- tibble(
time = c(1,1,1,2,2,3,4,5,7,10),
status = c(1,1,1,1,0,1,0,0,1,0)
)
d %>% kable()
1 |
1 |
1 |
1 |
1 |
1 |
2 |
1 |
2 |
0 |
3 |
1 |
4 |
0 |
5 |
0 |
7 |
1 |
10 |
0 |
Pada subbab ini dalam menjawab pertanyaan mengapa harus mempelajari
analisis survival dapat menggunakan contoh kasus penyintas Titanic:
Dimana hanya 10 orang dan hanya 10 hari di laut setelah kecelakaan dan
menganalisisnya dengan metode statistik klasik, regresi linier dan
logistik. Problem yang akan dibahas yaitu berapa banyak orang dan berapa
lama bertahan dan berapa banyak yang meninggal pada hari tertentu.
Sehingga memiliki dua parameter utama adalah (1) waktu (dalam hari) dan
(2) “status kehidupan” orang, di mana “status = 1” berarti kematian dan
“status = 0” berarti bukan kematian. Dengan status orang maka dapat
menghitung orang yang selamat dan tidak selamat pada setiap hari.
ggplot(d, aes(time, fill = factor(status)))+
geom_bar(position = position_dodge())+
theme_bw()
Pada plot diatas belum dapat disimpulkan dalam menjawab permasalah
sebelumnya sehingga dapat dilakukan analisis.
“status = 0” tidak selalu berarti bertahan hidup. Pertama, orang
tersebut mungkin terbawa ombak dan menghilang sehingga tidak diketahui
statusnya. Mungkin sudah mati, mungkin diselamatkan oleh perahu nelayan
atau masih hidup di suatu tempat di lautan. Dengan demikian orang
yang hilang ini tidak dapat dianggap mati atau selamat . Kedua,
jika beberapa orang bertahan 10 hari, mereka mungkin mati pada hari ke
11 sehingga waktu menjadi salah satu faktor permasalahan.
Tidak memiliki data untuk setiap 10 hari ini. Kelangsungan hidup
pada data ini juga dapat dipengaruhi oleh kondisi tubuh atau pasokan
makan untuk bertahan hidup yang tidak diketahui. Demikian pula,
penurunan probabilitas kelangsungan hidup juga terakumulasi dari
waktu ke waktu , yang tidak dapat ditentukan dengan penghitungan
sederhana antara orang yang selamat dengan tidak selamat pada hari
tertentu.
Dengan permasalahan diatas, dapat menentukan metode yang tepat.
- Melihat variabel numerik “waktu”, mungkin dapat tergoda untuk
menggunakan regresi linier untuk memodelkan waktu bertahan hidup untuk
dua kelompok status yang berbeda, 0 & 1:
m <- lm(time ~ status, d %>% mutate(status = factor(status)))
library(effects)
plot(allEffects(m))

Namun, ketika membuat plot hasil modelnya, dapat disadari bahwa ada
sesuatu yang tidak beres di sana. Semua informasi yang dimiliki untuk
memodelkan waktu bertahan hidup adalah angka nol dan satu. Dan waktu
rata-rata kematian (status = 1) sebesar 2,5 hari melewatkan banyak
informasi. Sebagai contoh, setengah dari orang-orang (3 orang) meninggal
pada hari pertama! Dan semakin jauh melangkah ke depan, semakin sedikit
orang yang meninggal, yang dapat dilihat pada plot hitungan pertama di
atas. Jadi, waktu bertahan hidup tidak benar-benar linier dan tentu saja
tidak dapat digambarkan hanya dengan angka nol dan satu! Sehingga disini
model linier tampaknya tidak berguna.
- Karena disini memiliki angka nol dan satu pada kolom status, dapat
menggunakan regresi logistik, Terutama karena kurva probabilitasnya
tidak linier dan akan menangkap tren kelangsungan hidup dari waktu ke
waktu.
m <- glm(status ~ time, d, family = binomial)
library(sjPlot)
plot_model(m, type = "pred", ci.lvl = NA)
## $time

Sekarang dapat dilihat bahwa probabilitas kelangsungan hidup
non-linear, yang merupakan peningkatan besar dibandingkan dengan regresi
linier. Namun, pengamatan kelima memiliki status 0 pada hari ke-2. Ini
berarti bahwa orang tersebut pasti bertahan hidup selama 2 hari, tetapi
hilang setelahnya. Probabilitas dalam regresi logistik akan menghitung
orang ini sebagai 100% selamat setelah hari kedua hanya karena statusnya
tidak “=1”, yang salah (atau bias), karena tidak diketahui apakah orang
ini selamat. Dengan demikian, regresi logistik melebih-lebihkan
probabilitas kelangsungan hidup dan oleh karena itu juga merupakan alat
yang tidak tepat untuk menganalisis data kelangsungan hidup.
Jadi tidak dapat dilakukan analisis data Survival dengan
metode klasik. Sehingga membutuhkan metode analisis survival.
Sementara model regresi linier menggambarkan waktu, tetapi melewatkan
probabilitas kelangsungan hidup non-linier, regresi logistik menangkap
tren non-linier, tetapi melebih-lebihkan probabilitas kelangsungan
hidup. Sebaliknya, analisis survival memecahkan kedua masalah
tersebut, karena model ini memodelkan probabilitas kelangsungan hidup
non-linear dari waktu ke waktu sambil memperhitungkan subjek penelitian
yang hilang, baik yang meninggal maupun yang selamat.
Kematian bukanlah satu-satunya pilihan! Atau: “Apakah yang dimaksud
dengan peristiwa?”
Analisis waktu survival diperlukan dalam penelitian apa pun yang
menyelidiki waktu untuk hasil tertentu yang menarik. Penelitian kanker
dalam bidang kedokteran dan kegagalan pertama mobil dalam bidang teknik
(analisis waktu kegagalan) adalah contoh yang baik. Hasil yang
diinginkan dapat berupa kematian, remisi untuk kambuh, perkembangan,
atau kegagalan. Titik waktu untuk mencapai hasil tersebut umumnya
disebut peristiwa. sehingga, tidak semua “event” berakibat fatal ,
tetapi kadang-kadang bahkan bisa menjadi hasil yang menguntungkan
seperti keluar dari rumah sakit. Dan dengan demikian, analisis survival
juga merupakan istilah umum, karena ini bukan hanya tentang kelangsungan
hidup.
Kejadian, sebagai titik waktu yang tetap diperlukan karena tidak
dapat dilakukan pengamatan atau bereksperimen selamanya. Jika dipelajari
kanker paru-paru, maka tidak bisa menunggu sampai pasien meninggal
karena penyebab lain, misalnya karena sudah tua. Hanya ketika beberapa
pasien selamat dari kanker, atau beberapa mobil tidak rusak pada waktu
tertentu (peristiwa), kita bisa mendapatkan wawasan yang berharga.
Misalnya, berapa lama waktu dari awal pengobatan hingga perkembangannya,
atau berapa probabilitas untuk bertahan hidup dari kanker paru-paru
setelah tepat 1 tahun? Selain itu, hal ini membuka kemungkinan untuk
membandingkan waktu kelangsungan hidup atau kegagalan di antara kelompok
yang berbeda, misalnya kanker paru-paru antara perokok dan non-perokok,
atau waktu kerusakan antara mobil Jerman dan Korea.
Penyensoran
Sensoring diperlukan karena waktu kelangsungan hidup yang sebenarnya
tidak akan diketahui oleh beberapa individu. Ada banyak cara untuk
kehilangan subjek studi:
Dapat kehilangan seseorang tanpa alasan, ketika itu tidak muncul
lagi
Individu mungkin mengalami peristiwa lain, misalnya kematian atau
kecelakaan
Bahkan pasien yang bertahan hingga akhir penelitian dapat
diperlakukan sebagai disensor karena waktu kelangsungan hidup yang tidak
diketahui
Semua contoh di atas dianggap sebagai sensoring kanan karena arahnya
dari kiri ke kanan pada sumbu waktu. Sebagian besar data kelangsungan
hidup disensor dengan benar. Ada dua jenis sensoring lainnya. Sensor
kiri muncul jika tidak tahu dari mana penyakit itu bermula, sedangkan
sensor interval terjadi ketika waktu pasti kehilangan pasien tidak
diketahui, tetapi hanya jendela waktu. Sensoring kiri dan interval
jarang terjadi, sulit dianalisis, seringkali merupakan hasil dari desain
studi yang buruk.
Cara menghitung kurva survival Kaplan-Meier “secara manual” langkah
demi langkah
Dengan membayangkan hari yang cerah dan damai tepat sebelum
kecelakaan Titanic terjadi. Tidak ada yang meninggal, tetapi semua 10
orang berisiko tinggi (bahaya) meninggal, hanya saja mereka belum
mengetahuinya. Dapat menebak berapa banyak orang yang mungkin akan
meninggal sehari sebelum kecelakaan. Jawabannya adalah - mungkin nol.
Secara harfiah, kemungkinan kematian adalah nol, karena kita tahu bahwa
kecelakaan tidak akan terjadi sehari sebelum tabrakan yang sebenarnya.
Untuk menjawab pertanyaan ini dengan lebih tepat, kita perlu mengingat
definisi probabilitas: Probabilitas adalah rasio dari sesuatu yang
terjadi, terhadap segala sesuatu yang dapat terjadi. Jadi, jika
tidak ada seorang pun dari 10 orang yang meninggal sehari sebelum
kecelakaan, maka probabilitas kematiannya adalah 0%, sedangkan
probabilitas selamat adalah 100%:
\[ probability \ of \ dying = \frac{0}{10}
= 0\]
\[ probability \ of \ surviving =
\frac{10}{10} = 1 = 100\%\]
Untuk representasi yang lebih baik, mari kita letakkan semua angka
dalam satu tabel:
tribble(
~time_in_days, ~N_at_risk, ~N_died, ~P_dying, ~`P_surviving`,
0, 10, 0, "0/10 = 0", "10/10 = 1"
) %>% kable()
0 |
10 |
0 |
0/10 = 0 |
10/10 = 1 |
Kemudian, pada hari kecelakaan , di mana semua 10 orang sekarang tahu
bahwa mereka berisiko tinggi meninggal, 3 dari mereka benar-benar
meninggal. Probabilitas kematian pada hari pertama adalah kemudian \(3/10 = 0.3 \approx 30\%\) dan kemungkinan
bertahan hidup adalah \(7/10 = 0.7 \approx
70\%\). Sehingga kelangsungan hidup juga dapat dihitung dari
kemungkinan kematian \(1-0.3 =
0.7\).
Peluang Survival
Satu momen penting di sini adalah bahwa kemungkinan untuk
bertahan hidup bersifat kumulatif, yang berarti
terakumulasi dari hari ke hari. Akumulasi ini terjadi melalui
mengalikan probabilitas baru untuk bertahan hidup pada hari
ke-1 \((1 - \frac{d_i}{n_i}) = (1 -
\frac{3}{10}) = 70\%\) dengan probabilitas lama untuk
bertahan hidup sepanjang waktu sebelumnya, yang dalam kasus kami adalah
sehari sebelum kecelakaan, atau - hari ke-nol \(S(t_{i-1}) = 100\%\):
\[ S(t_i) = S(t_{i-1})*(1 -
\frac{d_i}{n_i}) = 1 * (1 - \frac{3}{10}) = 0.7 \]
Dimana,
- \(S(t_{i−1})\) = probabilitas untuk
hidup di \(t_{i−1}\)
- \(n_i\) = jumlah pasien yang masih
hidup sebelum \(t_i\)
- \(d_i\) = Jumlah kejadian saat
\(t_i\)
- \(t_0\) = 0, \(S(0)\) = 1
Probabilitas bertahan hidup pada waktu tertentu, \(S(t)\), adalah syarat karena orang
tersebut harus bertahan hidup setelah waktu tertentu, misalnya hari
ke-nol (itulah syaratnya) untuk tetap berada dalam eksperimen untuk hari
pertama.
tribble(
~time_in_days, ~N_at_risk, ~N_died, ~P_dying, ~`P_surviving`,
0, 10, 0, "0/10 = 0", "10/10 = 1",
1, 10, 3, "3/10 = 0.3", "1 * (7/10) = 0.7",
) %>% kable()
0 |
10 |
0 |
0/10 = 0 |
10/10 = 1 |
1 |
10 |
3 |
3/10 = 0.3 |
1 * (7/10) = 0.7 |
Pada hari kedua sedikit lebih menarik, karena satu orang
meninggal dan satu orang hilang begitu saja (status = 0). Orang yang
hilang ini kemungkinan besar terbawa ombak dan mudah-mudahan bisa
diselamatkan. Harapannya besar, karena semakin jauh orang tersebar di
lautan, semakin besar kemungkinan salah satu dari mereka akan ditemukan
dalam keadaan hidup. Dan hal ini akan memberi tahu dunia bahwa ada orang
lain yang masih berada di luar sana. Jadi, meskipun orang hilang
terlihat buruk, hal ini bisa jadi merupakan hal yang baik. Jadi, kita
tentu tidak bisa menganggap orang yang hilang sebagai orang yang sudah
mati. Selain itu, seperti kata pepatah Jerman: “Harapan adalah yang
terakhir mati”.
Tetapi karena kita juga tidak yakin apakah orang ini masih hidup,
kita tidak bisa mengatakan - orang tersebut selamat. Hal ini menimbulkan
dilema: meskipun tidak meninggal, orang tersebut bukan bagian dari
eksperimen kami lagi dan kami harus menghapusnya dari jumlah orang yang
berisiko. Jadi, sementara hari kedua akan memiliki 7 orang yang
berisiko yang tersisa (karena 3 orang telah meninggal di hari pertama),
hari ketiga akan tersisa hanya 5 orang, karena 1 orang
meninggal dan satu orang menghilang (disensor) dibandingkan dengan hari
kedua. Sama halnya dengan hari pertama, probabilitas kelangsungan hidup
bersifat kumulatif dan selalu menyertakan probabilitas hari
sebelumnya.
tribble(
~time_in_days, ~N_at_risk, ~N_died, ~P_dying, ~`P_surviving`,
0, 10, 0, "0/10 = 0", "10/10 = 1",
1, 10, 3, "3/10 = 0.3", "1 * (7/10) = 0.7",
2, 7, 1, "1/7 = 0.14", "0.7 * (6/7) = 0.6",
3, 5, 1, "1/5 = 0.20", "0.6 * (4/5) = 0.48"
) %>% kable()
0 |
10 |
0 |
0/10 = 0 |
10/10 = 1 |
1 |
10 |
3 |
3/10 = 0.3 |
1 * (7/10) = 0.7 |
2 |
7 |
1 |
1/7 = 0.14 |
0.7 * (6/7) = 0.6 |
3 |
5 |
1 |
1/5 = 0.20 |
0.6 * (4/5) = 0.48 |
Pada dua hari berikutnya, dua orang menghilang, jadi kita
menyensor mereka. Tidak perlu menghitung sesuatu untuk data yang
disensor dalam analisis kelangsungan hidup, karena kita tidak tahu
apakah mereka selamat atau tidak. Dan karena kita tertarik pada
kelangsungan hidup atau kematian, tabel akhir di bawah ini berisi kasus
yang hanya mati. Pada hari ke 6 tidak ada yang mati
atau menghilang, oleh karena itu kami juga tidak menghitung apa pun
untuk hari itu. Orang terakhir dalam eksperimen kami meninggal pada
hari ke 7. Jadi, “N_meninggal” akan menjadi 1, dan “N_berisiko”
akan menjadi 2, karena 1 dari 5 orang yang tersisa telah meninggal dan 2
orang disensor. Dengan demikian, tabel yang dihitung secara “manual”
akan terlihat :
tribble(
~time_in_days, ~N_at_risk, ~N_died, ~P_dying, ~`P_surviving`,
0, 10, 0, "0/10 = 0", "10/10 = 1",
1, 10, 3, "3/10 = 0.3", "1 * (7/10) = 0.7",
2, 7, 1, "1/7 = 0.14", "0.7 * (6/7) = 0.6",
3, 5, 1, "1/5 = 0.20", "0.6 * (4/5) = 0.48",
7, 2, 1, "1/2 = 0.50", "0.48 * (1/2) = 0.24"
) %>% kable()
0 |
10 |
0 |
0/10 = 0 |
10/10 = 1 |
1 |
10 |
3 |
3/10 = 0.3 |
1 * (7/10) = 0.7 |
2 |
7 |
1 |
1/7 = 0.14 |
0.7 * (6/7) = 0.6 |
3 |
5 |
1 |
1/5 = 0.20 |
0.6 * (4/5) = 0.48 |
7 |
2 |
1 |
1/2 = 0.50 |
0.48 * (1/2) = 0.24 |
Namun, apa yang akan terjadi jika kita mengabaikan
penyensoran dan hanya menghitung probabilitas untuk tidak mati?
Dikarenakan 4 orang tidak mati pada hari ke-7, probabilitas untuk
bertahan hidup akan menjadi \(\frac{4}{10} =
40\%\) yang hampir dua kali lipat lebih tinggi, dan dengan
demikian kita akan melebihkan probabilitas untuk bertahan
hidup, dibandingkan dengan probabilitas sebenarnya yaitu 0,24 yang
memperhitungkan penyensoran.
SUMBER
Hanya memperhatikan orang yang selamat* bahkan memiliki nama - bias
penyintas, dan ada cerita kecil di baliknya. Selama Perang Dunia Kedua,
beberapa pesawat kembali dari medan perang dengan banyak kerusakan
akibat peluru. Mereka hampir tidak bisa terbang, tapi mereka tetap
kembali. Jadi, pihak militer memutuskan untuk melindungi pesawat dengan
lebih banyak pelindung di bagian yang paling banyak lubang peluru,
seperti sayap, dan mengurangi pelindung di bagian yang tidak berlubang
peluru. Anehnya, persentase pesawat yang kembali tidak meningkat. Para
insinyur bingung! Hingga seorang ahli matematika, Abraham Walt, yang
diundang untuk memecahkan masalah ini berkata: “Pasang lebih banyak
lapis baja di tempat-tempat yang tidak memiliki lubang peluru, karena
jika tempat ini ditembak, pesawat tidak akan kembali.” Dan ketika yang
lain memikirkannya, mereka menyadari bahwa semua pesawat yang kembali
tidak memiliki lubang peluru di kokpit atau mesin. Lubang peluru
menunjukkan semua tempat di mana pesawat bisa ditembak tapi masih bisa
kembali, atau selamat! Itulah yang disebut dengan bias bertahan hidup.
Jadi, menurut saya, regresi logistik memiliki survivorship bias
dibandingkan dengan analisis ketahanan hidup jika kita ingin
menganalisis data ketahanan hidup.
Cara menghitung kurva survival Kaplan-Meier
library(tidyverse) # data wrangling and visualization
library(knitr) # beautifying tables
library(car) # for checking assumptions, e.g. vif etc.
##
## Attaching package: 'car'
## The following object is masked from 'package:dplyr':
##
## recode
## The following object is masked from 'package:purrr':
##
## some
library(broom) # for tidy model output
library(sjPlot) # for plotting results of log.regr.
library(sjmisc) # for plotting results of log.regr.
##
## Attaching package: 'sjmisc'
## The following object is masked from 'package:purrr':
##
## is_empty
## The following object is masked from 'package:tidyr':
##
## replace_na
## The following object is masked from 'package:tibble':
##
## add_case
library(effects) # for probability output and plots
Pada regresi logistik 1 adalah kelangsungan hidup, sedangkan dalam
analisis kelangsungan hidup 1 adalah kematian. Kedua, membedakan kasus
yang disensor, misalnya dapat menandainya dengan tanda plus di data atau
di plot. Data di bawah ini menunjukkan bahwa orang disensor pada hari ke
2+, 4+, 5+ dan 10+. Instal dan muat survivalpaket untuk dapat
mengeksekusi kode di bawah ini:
# install.packages("survival")
library(survival)
Surv(time = d$time, event = d$status)
## [1] 1 1 1 2 2+ 3 4+ 5+ 7 10+
Fungsi Surv
menyatukan data “waktu” dan “status” ke
dalam satu objek “survival” tunggal, yang memungkinkan untuk
“memperhitungkan pengamatan yang disensor”. Objek ini kemudian dapat
digunakan untuk memodelkan probabilitas kelangsungan hidup dengan fungsi
survfit
. Kita memodelkan kelangsungan hidup dengan
menambahkan “~1” pada objek tersebut, di mana 1 berarti tidak ada
variabel yang dapat mempengaruhi kelangsungan hidup. Objek kelangsungan
hidup kita di sisi kiri tilde adalah variabel respons dan di sisi kanan
~ (tilde) adalah prediktor, atau dalam kasus “1” - tidak ada.Selanjutnya
dapat dibuat model survival pertama dan melihat keluaran modelnya:
survival_model <- survfit(Surv(time, status) ~ 1, data = d)
# small summary
survival_model
## Call: survfit(formula = Surv(time, status) ~ 1, data = d)
##
## n events median 0.95LCL 0.95UCL
## [1,] 10 6 3 1 NA
Dimana akan didapat - n - jumlah peserta, - event -
jumlah kematian, yang secara umum disebut event karena dapat
mempelajari jenis-jenis “deadlines” lainnya, seperti kambuhnya
penyakit, atau kerusakan pertama pada mobil, - perkiraan waktu bertahan
hidup median, bukan rata-rata karena sifat non-parametrik
(dijelaskan nanti) dari analisis ketahanan hidup dan - Interval
kepercayaan 95%** untuk waktu ketahanan hidup median
Lebih banyak informasi dapat dinilai dengan fungsi
ringkasan
, yang memberikan tabel yang sama dengan perhitung
secara manual di atas:
# big summary
summary(survival_model)
## Call: survfit(formula = Surv(time, status) ~ 1, data = d)
##
## time n.risk n.event survival std.err lower 95% CI upper 95% CI
## 1 10 3 0.70 0.145 0.4665 1.000
## 2 7 1 0.60 0.155 0.3617 0.995
## 3 5 1 0.48 0.164 0.2458 0.938
## 7 2 1 0.24 0.188 0.0515 1.000
Sehingga dapat dilihat bahwa perhitungan sebelumya benar dan telah
berhasil mempelajari cara melakukan analisis survival. Sehingga mulai
sekarang dapat mulai menggunakan perangkat lunak. Perangkat lunak ini
memiliki banyak keuntungan. Sebagai contoh, fungsi summary
,
yang hanya menampilkan hasil dari kasus yang mati, dapat diisi dengan
argumen tambahan censored = TRUE
, yang menampilkan semua
kasus, baik yang mati maupun yang disensor:
summary(survival_model, censored = T)
## Call: survfit(formula = Surv(time, status) ~ 1, data = d)
##
## time n.risk n.event survival std.err lower 95% CI upper 95% CI
## 1 10 3 0.70 0.145 0.4665 1.000
## 2 7 1 0.60 0.155 0.3617 0.995
## 3 5 1 0.48 0.164 0.2458 0.938
## 4 4 0 0.48 0.164 0.2458 0.938
## 5 3 0 0.48 0.164 0.2458 0.938
## 7 2 1 0.24 0.188 0.0515 1.000
## 10 1 0 0.24 0.188 0.0515 1.000
Selanjutnya dapat menentukan hasil dari hari mana yang ingin dilihat
dengan menambahkan argumen times = ...
ke fungsi
summary
. Bahkan dapat juga meminta hari-hari yang tidak
tersedia datanya, misalnya hari ke-8 atau ke-9 dalam contoh sederhana
kita. Sebagai contoh, probabilitas kelangsungan hidup setelah hari ke-8
adalah 24%:
summary(survival_model, times = c(8, 9))
## Call: survfit(formula = Surv(time, status) ~ 1, data = d)
##
## time n.risk n.event survival std.err lower 95% CI upper 95% CI
## 8 1 6 0.24 0.188 0.0515 1
## 9 1 0 0.24 0.188 0.0515 1
Sekarang, karena kita mengetahui probabilitas yang tepat untuk
bertahan hidup pada setiap hari, bahkan pada hari-hari dimana
kita tidak memiliki datanya, kita dapat memvisualisasikan hasil model.
Install dan muat paket survminer
untuk dapat menjalankan
kode di bawah ini:
# install.packages("survminer")
library(survminer)
ggsurvplot(
survival_model,
conf.int = FALSE,
surv.median.line = "hv",
xlab = "Days",
ylab = "Survival probability",
break.time.by = 1,
risk.table = T
)

Dari output diatas dapat dilihat interval kepercayaan (CI) untuk
kelangsungan hidup sehari-hari atau alur bertahan hidup. CI
divisualisasikan secara default, tetapi dapat dihapus jika diperlukan
melalui conf.int = FALSE_perintah. Baris terakhir pada kode di atas
menampilkan tabel “Angka berisiko”, yang dihitung secara manual di
atas.
Kurva ini dijelaskan secara independen oleh dua ilmuwan berbeda pada
saat bersamaan. Edward Kaplan dan Paul Meier kemudian menerbitkan temuan
mereka bersama sebagai estimator Kaplan-Meier (KM) pada tahun 1958 dan
survfitfungsi cocok dengan type = “kaplan-meier”kurva secara
default.
Sebagian besar data kelangsungan hidup menunjukkan banyak peristiwa
di awal dan jumlah peristiwa yang lebih rendah sepanjang waktu. Hal ini
membuat kurva kelangsungan hidup non-linier dan sebagian besar data
kelangsungan hidup terdistribusi miring atau tidak normal (tidak
berbentuk lonceng). Ini adalah alasan mengapa metode KM memperkirakan
waktu bertahan hidup median daripada rata-rata sebagai ukuran tendensi
sentral. Non-linearitas dan “stepiness” dari kurva KM tidak memungkinkan
untuk meringkas data menjadi satu parameter tunggal , misalnya
kemiringan , yang membuat metode KM non-parametrik .
Interpretasi Kurva Kaplan-Meier
Sumbu x mewakili waktu dalam hari, dan sumbu y menunjukkan
probabilitas bertahan hidup atau proporsi orang yang bertahan hidup.
Jadi, kurva itu sendiri menunjukkan probabilitas kelangsungan hidup yang
tepat dari waktu ke waktu . Penurunan vertikal pada kurva menunjukkan
setidaknya satu peristiwa . Ketinggian penurunan vertikal menunjukkan
perubahan probabilitas kelangsungan hidup kumulatif. Bagian horizontal
dari kurva mewakili durasi kelangsungan hidup untuk interval waktu
tertentu , yang diakhiri oleh peristiwa berikutnya (dan penurunan
kurva). Kurva KM terlihat seperti tangga aneh dengan anak tangga yang
tidak rata, di mana probabilitas bertahan hidup konstan di antara
peristiwa, dan karenanya merupakan fungsi langkah yang mengubah nilai
hanya pada saat setiap peristiwa. Dengan cara ini setiap pasien
menyumbangkan informasi berharga untuk perhitungan selama masih hidup.
Orang yang disensor ditampilkan persis seperti pada objek bertahan
hidup, dengan plus , seperti yang dilihat pada hari ke-2. Namun,
sebagian besar plus terlihat seperti kutu vertikal , karena terletak di
bagian horizontal kurva, yaitu hari 4 dan 5 Tanda centang ditampilkan
secara default, tetapi dapat ditekan menggunakan argumen censor = FALSE.
Tabel risiko di bawah plot menunjukkan jumlah orang yang berisiko , yang
sebenarnya semua orang yang “benar-benar hidup” dalam percobaan yang
tidak mengalami kejadian atau penyensoran pada titik waktu tertentu.
Garis putus-putus mewakili waktu kelangsungan hidup rata-rata yang
sesuai dengan probabilitas kelangsungan hidup 50% . Dan jika kita
mengabaikan penyensoran dan hanya memperkirakan median waktu (hanya
untuk orang mati), kita akan mendapatkan 1,5 bukannya 3, yang akan
meningkatkan kemungkinan bertahan hidup dari 48% menjadi 70%. Sekali
lagi, mengabaikan penyensoran akan menghasilkan kemungkinan bertahan
hidup yang terlalu tinggi karena bias keberlangsungan hidup.
d %>%
filter(status == 1) %>%
summarize(median_survival_whithout_censoring = median(time))
Membandingkan kelangsungan hidup kelompok
2 group
Dengan menggunakan conoth data 100 orang setelah kecelakaan Titanic
alih-alih 10 dan lihat kelangsungan hidup mereka menggunakan kurva
Kaplan-Meier. Angka-angka dalam tabel risiko semakin besar dan sebaiknya
kami menampilkan persentase berisiko dalam tanda kurung di dekat nilai
absolut. Argumen risk.table = “abs_pct” membantu dengan itu. Contoh
“bulat” dari 100 orang menunjukan persentase yang persis sama dengan
angka absolut, namun dengan jumlah “bulat” yang lebih sedikit atau
beberapa kelompok, persentase akan menjadi sangat berguna. Rata-rata
waktu bertahan hidup orang-orang di lautan dingin adalah sekitar 70 hari
dan interval kepercayaannya tidak terlalu lebar.
set.seed(999) # for reproducible example
library(rlang)
##
## Attaching package: 'rlang'
## The following object is masked from 'package:sjmisc':
##
## is_empty
## The following objects are masked from 'package:purrr':
##
## %@%, flatten, flatten_chr, flatten_dbl, flatten_int, flatten_lgl,
## flatten_raw, invoke, splice
library(dplyr)
library(tidyverse)
d <- ggstatsplot::Titanic_full %>%
mutate(survived = ifelse(Survived == "No", 1, 0),
time = runif(n=2201, min=1, max=100)) %>%
sample_n(100)
m <- survfit(Surv(time, survived) ~ 1, data = d)
ggsurvplot(m,
conf.int = TRUE,
risk.table = "abs_pct",
surv.median.line = "hv")

Misalnya, membandingkan probabilitas kelangsungan hidup laki-laki
dengan perempuan. Dengan mengganti rumus model dengan nama variabel
kategori yang diminati, misalnya sex. Plot bertahan hidup kemudian
menampilkan kurva Kaplan-Meier untuk setiap kategori variabel yang
ada:
m <- survfit(Surv(time, survived) ~ Sex, data = d)
ggsurvplot(m,
pval = TRUE,
conf.int = TRUE,
risk.table = "abs_pct",
surv.median.line = "hv")

Interpretasi perbandingan kelompok menggunakan 4 tolok
ukur
Perbandingan visual kurva : hanya dengan melihat
dua kelompok sehingga dapat mengatakan apakah ada perbedaan. Misalnya,
plot mengungkapkan bahwa perempuan memiliki kemungkinan lebih tinggi
untuk bertahan hidup hampir sepanjang periode waktu (sumbu x). Namun,
apakah perbedaan ini signifikan secara statistik memerlukan uji
statistik formal . Dengan melihat angka kurva, misalnya: pada hari yang
cerah dan indah sebelum himpitan, probabilitas bertahan hidup kedua
kelompok adalah 1,0 (atau 100% penumpang masih hidup). Pada hari ke 50,
kemungkinan bertahan hidup betina adalah ca. 0,75 (atau 75%) dan hanya
ca. 0,65 (atau 65%) untuk laki-laki. Pada hari ke 75, kelangsungan hidup
adalah ca. 60 dan kira-kira 30% sesuai.
Perbandingan interval kepercayaan (CI) : CI yang
tumpang tindih menunjukkan bahwa kelangsungan hidup jantan dan betina
tidak terlalu berbeda dan bisa jadi karena kebetulan hingga 80 hari.
Setelah 80 hari CI berhenti tumpang tindih yang menunjukkan perbedaan
signifikan dalam bertahan hidup pada titik waktu tertentu, katakanlah 90
hari.
Perkiraan waktu kelangsungan hidup Nilai Tengah
mengungkapkan lebih dari interval kepercayaan. Waktu kelangsungan hidup
rata-rata untuk setiap kelompok mewakili waktu di mana probabilitas
kelangsungan hidup adalah 50%. Misalnya kelangsungan hidup rata-rata
Betina jauh lebih tinggi (87 hari) daripada jantan (65 hari). Perbedaan
23 hari yang begitu besar, karena perempuan memiliki 23 hari lagi untuk
ditemukan oleh beberapa kapal penangkap ikan. Di sini sekali lagi, hanya
tes yang dapat mengetahui dan itulah mengapa tolok ukur terakhir untuk
membandingkan dua kelompok adalah p-value yang diestimasi oleh tes
Log-Rank (Peto et al, 1977), yang sangat penting, sehingga perlu bab
tambahan.
## Call: survfit(formula = Surv(time, survived) ~ Sex, data = d)
##
## n events median 0.95LCL 0.95UCL
## Sex=Female 31 10 87.0 60.9 NA
## Sex=Male 69 54 64.5 53.6 72.9
Log-Rank test
- Uji statistik non-parametrik Log-Rank (kadang-kadang
disebut Mantel-Haenszel) membandingkan median waktu kelangsungan hidup
kelompok. Uji Log-Rank mirip dengan uji Wilcoxon-Rank non parametrik
(1), yang juga membandingkan median dengan menggunakan peringkat dan
juga mirip dengan uji Chi-square (2), di mana kita membandingkan jumlah
kejadian yang diamati dengan yang diharapkan dengan menghitung statistik
Chi-square:
\[ X^2 = \sum_{i = 1}^{g} \frac{(O_i -
E_i)^2}{E_i}\]
Jumlah kejadian yang diharapkan dihitung untuk setiap titik waktu
dan setiap kelompok dibandingkan dengan titik waktu sebelumnya.
Nilai-nilai ini kemudian dijumlahkan pada semua titik waktu untuk
memberikan jumlah total kejadian yang diharapkan pada setiap
kelompok.
Sifat non-parametrik dari tes ini membuat tidak ada asumsi tentang
distribusi kelangsungan hidup. Jadi, apakah waktu kelangsungan hidup
normal (“lonceng melengkung”)? Bisa saja, tetapi tidak harus Faktanya,
data kelangsungan hidup sangat jarang berdistribusi normal, tetapi
sering kali miring karena biasanya banyak kejadian awal dan relatif
sedikit kejadian akhir.
Hipotesis nol dari uji Log-Rank adalah tidak ada perbedaan dalam
ketahanan hidup antara kedua kelompok. Nilai p-value sebesar 0,011
memungkinkan kita untuk menolak hipotesis nol dan mengindikasikan adanya
perbedaan rata-rata yang signifikan dalam waktu kelangsungan hidup
antara perempuan dan laki-laki.
Uji Log-Rank sangat banyak digunakan untuk membandingkan dua atau
lebih kurva kelangsungan hidup, sehingga harus benar-benar membenarkan
penggunaan uji lainnya.
Fungsi survdiff()
menghitung uji Log-Rank dan
mengembalikan komponen-komponen berikut:
- Jumlah subjek dalam setiap kelompok.
- Jumlah kejadian teramati tertimbang **dalam setiap
kelompok.
- Jumlah kejadian tertimbang * yang diharapkan* dalam setiap
kelompok.
- Statistik chi-square untuk uji kesetaraan
- dan p-value untuk perbedaan kelangsungan hidup di antara
kelompok
survdiff(Surv(time, survived) ~ Sex, data = d)
## Call:
## survdiff(formula = Surv(time, survived) ~ Sex, data = d)
##
## N Observed Expected (O-E)^2/E (O-E)^2/V
## Sex=Female 31 10 19.3 4.45 6.46
## Sex=Male 69 54 44.7 1.92 6.46
##
## Chisq= 6.5 on 1 degrees of freedom, p= 0.01
Apakah tes Log-Rank sempurna? Sayangnya, tidak. Salah satu masalahnya
adalah: uji ini tidak memberikan ukuran efek yang membuat kita
hanya memiliki p-value sebagai ukuran perbedaan. Masalah lain dengan uji
Log-Rank (dan metode Kaplan-Meier secara umum) adalah bahwa uji ini
tidak mengizinkan adanya perancu, uji ini mengabaikan
faktor/variabel lain. Untungnya, kita masih bisa membandingkan lebih
dari dua kelompok dengan satu variabel.
2 kelompok dan beberapa uji Log-Rank berpasangan (post-hoc)
Tes Log-Rank dapat membandingkan lebih dari dua kelompok dan
mengatakan apakah ada perbedaan yang signifikan (p-value <0,05) di
antara kelompok-kelompok ini. Hasil pengujian yang ditampilkan pada
tabel dan kurva KM di bawah ini menunjukkan bahwa terdapat perbedaan
kelangsungan hidup yang signifikan (p-value = 0,024) di antara kelompok
orang pada kelas tiket yang berbeda. Namun, seperti kebanyakan tes
lainnya (misalnya ANOVA), tidak disebutkan di antara kelompok mana
tepatnya. Oleh karena itu diperlukan analisis tambahan yang
membandingkan secara berpasangan setiap kelompok satu dengan kelompok
lainnya. Analisis semacam itu sering disebut post-hoc.
survdiff(Surv(time, survived) ~ Class, data = d)
## Call:
## survdiff(formula = Surv(time, survived) ~ Class, data = d)
##
## N Observed Expected (O-E)^2/E (O-E)^2/V
## Class=1st 14 4 11.03 4.477 5.532
## Class=2nd 13 5 8.49 1.432 1.666
## Class=3rd 37 30 21.81 3.074 4.760
## Class=Crew 36 25 22.68 0.238 0.383
##
## Chisq= 9.5 on 3 degrees of freedom, p= 0.02
m <- survfit(Surv(time, survived) ~ Class, data = d)
ggsurvplot(m,
pval = TRUE,
conf.int = FALSE,
risk.table = "abs_pct",
surv.median.line = "hv",
ncensor.plot = TRUE,
break.time.by = 20,
risk.table.y.text.col = TRUE, risk.table.y.text = FALSE)

Tiga argumen plot yang berguna lebih lanjut yang dapat membantu
memvisualisasikan data ketahanan hidup dengan lebih baik adalah:
break.time.by = 20
memecah sumbu x menjadi interval
waktu yang diinginkan.
risk.table.y.text.col = TRUE
dan
risk.table.y.text = FALSE
memplot batang, bukan nama dalam
anotasi teks legenda tabel risiko
ncensor.plot = TRUE
menampilkan jumlah subjek yang
disensor, yang membantu untuk memahami apa yang menjadi penyebab angka
risiko menjadi lebih kecil: peristiwa atau penyensoran.
Penafsiran
Kelangsungan hidup rata-rata adalah ca. 90 hari untuk penumpang kelas
1 dan 2, 58 hari untuk kelas 3 dan 65 hari untuk awak Titanic,
menunjukkan kelangsungan hidup orang kaya yang baik, dibandingkan dengan
yang lain. Dengan p-value yang rendah (p = 0,024) menunjukkan bahwa ada
perbedaan yang signifikan dalam kelangsungan hidup antar kelompok . Di
antaranya, hanya post-hoc yang tahu. Hasil dari analisis Log-Rank
post-hoc tersebut dapat dilakukan dengan fungsi pairwise_survdiff dari
survminer dan ditampilkan di bawah ini. Seperti biasa, jika memiliki
banyak perbandingan sehingga berisiko membuat penemuan yang salah atau
melewatkan penemuan penting. Jadi, harus menyesuaikan p-value untuk
mengurangi kemungkinan terjadinya kesalahan.
pairwise_survdiff(
formula = Surv(time, survived) ~ Class, data = d, p.adjust.method = "fdr"
)
##
## Pairwise comparisons using Log-Rank test
##
## data: d and Class
##
## 1st 2nd 3rd
## 2nd 0.414 - -
## 3rd 0.028 0.139 -
## Crew 0.095 0.317 0.414
##
## P value adjustment method: fdr
Hasil analisis post-hoc mengungkapkan bahwa kelangsungan hidup kelas
1 secara signifikan lebih tinggi dibandingkan dengan kelas 3 dan Awak.
Dan terlepas dari kenyataan bahwa rata-rata kelangsungan hidup penumpang
kelas 2 sangat mirip dengan kelas 1, interval kepercayaan kelangsungan
hidup ini sangat lebar dan banyak tumpang tindih dengan kelompok lain
(tidak ditunjukkan untuk menghindari kekacauan). Itulah mengapa
penumpang kelas 2 tidak umumnya memiliki waktu bertahan hidup yang lebih
tinggi secara signifikan meskipun memiliki waktu bertahan hidup yang
jauh lebih tinggi.
Multiple kurva Survival
Seperti disebutkan di atas, uji Log-Rank tidak dapat diterapkan pada
beberapa variabel. Namun masih dapat memplot kurva kelangsungan hidup
dari beberapa variabel untuk mendapatkan intuisi untuk data ini. Metode
lebih lanjut, misalnya model Cox, dapat mengestimasi perbedaan di antara
beberapa variabel, tetapi metode ini lebih kompleks daripada metode KM
dan dengan demikian akan dibahas di posting mendatang.
m2 <- survfit( Surv(time, survived) ~ Sex + Class, data = d )
ggsurv <- ggsurvplot(m2, conf.int = TRUE)
ggsurv$plot +theme_bw() +
theme (legend.position = "right")+
facet_grid(Sex ~ .)

Intuisi yang dapat kita peroleh dari plot di atas adalah bahwa wanita
kaya (kelas tiket 1 dan 2) dan (hanya 2) wanita dari kru kapal memiliki
probabilitas 100% untuk bertahan hidup, sementara wanita murni di kelas
3 akan mati dengan kepastian yang sama dengan pria. CI yang sangat
tumpang tindih dari kelangsungan hidup pria menunjukkan bahwa semua pria
pada akhirnya akan mati setelah kecelakaan Titanic.
Kesimpulan
Analisis ketahanan hidup menyelidiki waktu yang dibutuhkan untuk
suatu peristiwa yang menarik untuk terjadi. Sebagian besar analisis
ketahanan hidup univariat (variabel tunggal) menggunakan plot
Kaplan-Meier untuk memvisualisasikan kurva ketahanan hidup dan
Uji Log-Rank untuk membandingkan kurva ketahanan hidup dua atau
lebih kelompok.
Keuntungan krusial kurva probabilitas bertahan hidup vs. kurva
regresi logistik memperhitungkan data yang disensor, yang tidak mati,
atau hidup. Regresi logistik memperlakukan semua orang yang tidak mati
sebagai orang yang selamat, itu salah, hanya karena kita tidak
mengetahui status kelangsungan hidup orang yang tidak terjawab. Pasien
meninggalkan studi karena dua alasan utama, mereka merasa sangat buruk,
sehingga mereka tidak lagi peduli dengan eksperimen , atau mereka merasa
jauh lebih baik dan melupakan studi. Beberapa pasien mungkin hanya
pindah ke kota lain tanpa berkata apa-apa. Menghitung semuanya sebagai
selamat, seperti halnya regresi logistik, akan melebih-lebihkan
kemungkinan bertahan hidup (survivorship bias) dan meremehkan bahaya
kematian. Oleh karena itu, analisis kelangsungan hidup lebih tepat
dibandingkan dengan regresi logistik, sementara itu masih menangkap tren
probabilitas non-linier.
Keunggulan lainnya adalah sifat nonparametrik dari metode
Kaplan-Meier, yaitu tidak memiliki terlalu banyak asumsi. Sebenarnya
satu-satunya asumsi penting adalah bahwa penyensoran harus bersifat
non-informatif . Mengapa? Lebih banyak informasi selalu lebih baik,
bukan? Ya! Tapi jika kita tahu mengapa orang meninggalkan penelitian,
kita bisa menggunakan informasi ini sebagai variabel baru dan
mempelajari pengaruhnya terhadap kelangsungan hidup. Metode KM akan
menjadi tidak tepat, karena akan melewatkan informasi ini. Namun,
seringkali tidak tahu (tidak ada info) mengapa orang keluar (disensor).
Dan dalam hal ini metode KM memeras inferensi paling banyak dari data
non-informatif tersebut.
“Kurva” Kaplan-Meier sebenarnya tidak terlihat seperti kurva.
Berlawanan dengan regresi logistik metode Kaplan-Meier tidak dapat
digambarkan sebagai fungsi halus (kurva) dengan beberapa parameter,
misalnya kemiringan atau rasio odds . Itu sebabnya membutuhkan tabel
hasil bodoh atau grafik.
Metode Kaplan-Meier tidak dapat memodelkan variabel numerik ,
tetapi hanya kategorikal.
Metode Kaplan-Meier tidak dapat menyertakan banyak variabel
penjelas . Itu buruk, karena membandingkan kelompok dalam hal bertahan
hidup mungkin melewatkan efek faktor lain, yang dikenal sebagai kovariat
atau perancu, yang berpotensi memengaruhi waktu bertahan hidup kelompok
tertentu.
Saran
Selalu menampilkan ketidakpastian statistik dengan memasukkan 95%
CI atau/dan nilai p dari uji Log-Rank. Menampilkan CI pada beberapa
titik waktu penting pada plot untuk setiap kelompok perlakuan terkadang
lebih jelas daripada menampilkannya untuk semua titik waktu. CI yang
tidak tumpang tindih menunjukkan perbedaan yang signifikan antar
kelompok.
Mempertimbangkan untuk memotong sumbu x . karena mata secara
alami tertarik ke bagian kanan plot, di mana waktu berakhir. Namun,
akhir plot berisi paling sedikit informasi dan ketidakpastian terbesar
karena hanya sedikit peserta yang tersisa. Seberapa jauh waktu untuk
memperpanjang plot? Terserah kamu.
Selalu menampilkan tabel risiko yang menunjukkan jumlah pasien
bebas kejadian dan masih dalam tindak lanjut di setiap kelompok
perlakuan pada titik waktu yang relevan.
Survival analysis 2: Parametric Survival Models
Metode Kaplan-Meier (KM) non-parametrik tidak dapat menggambarkan
probabilitas bertahan hidup dengan fungsi yang halus, yang berarti tidak
dapat memprediksi apa pun. Model parametrik (mis. Eksponensial, Weibull,
dll.) Selain itu, jika model parametrik sesuai, model tersebut lebih
tepat, lebih efektif, dan lebih informatif daripada KM atau Cox. Namun
sayangnya, langkah ini sering ditinggalkan karena penggunaan model
parametrik belakang. Dalam posting ini akan mencoba untuk menutup celah
ini.
library(tidyverse) # data wrangling and visualization
library(sjPlot) # for plotting results of log.regr.
library(effects) # for probability output and plots
library(survival) # for core survival analysis routines
library(survminer) # for drawing survival curves
library(flexsurv) # for Parametric Survival Modelling
library(knitr) # for a wonderful-looking tables
Mengapa kita membutuhkan model kelangsungan hidup parametrik
d2 <- tibble(
time = c(1,1,1,2,2,3,4,5,7,10),
status = c(1,1,1,1,0,1,0,0,1,0)
)
m <- survfit(Surv(time, status) ~ 1, data = d2)
ggsurvplot(
m,
conf.int = FALSE,
surv.median.line = "hv",
xlab = "Days",
ylab = "Survival probability",
break.time.by = 1,
risk.table = F
)

Kerugian utama dari metode non-parametrik Kaplan-Meier
(KM) yang ditunjukkan pada gambar di atas adalah tidak dapat
dijelaskan probabilitas bertahan hidup dengan fungsi yang halus, yang
artinya tidak dapat memprediksi apapun. Model parametrik (seperti
Eksponensial, Weibull, dll.) Selain itu, model
parametrik adalah langkah logis dalam perjalanan dari KM ke
model Cox semi-parametrik , karena mereka dengan indah menghubungkan
titik-titik antara model KM dan Cox dan dengan demikian sangat
meningkatkan pemahaman tentang analisis kelangsungan hidup. Selain itu,
jika model parametrik sesuai, model tersebut lebih tepat, lebih
efektif, dan lebih informatif dari KM atau Cox. Namun
sayangnya, langkah ini sering ditinggalkan karena penggunaan model
parametrik belakang.
Apakah Waktu itu Variabel atau Konstanta?
Kematian dapat digambarkan dengan dua hal: peristiwa kematian itu
sendiri dan titik waktu tertentu saat kematian terjadi. Dua hal ini
selalu menggambarkan satu peristiwa, karena satu hanya mati sekali.
Dengan demikian, waktu kematian akan bervariasi dan jumlah kematian akan
bertambah seiring waktu, yang akan menjadikan waktu itu sendiri sebagai
variabel . Begitulah beberapa peristiwa kematian pada titik waktu yang
berbeda memungkinkan untuk mengungkapkan kematian dalam dua cara:
Melalui sejumlah kejadian yang berbeda per satuan waktu tetap ,
yang sering disebut Risiko (Hazard) untuk mati , atau hanya Hazard (λ -
lambda ). Ini membuat jumlah kejadian menjadi variabel, dan Bahaya
menjadi tingkat kematian , misalnya, per hari.
Melalui bentangan waktu berlalu yang berbeda per jumlah peristiwa
yang tetap . Interval waktu biasanya diukur hingga peristiwa berikutnya
terjadi. Ini membuat waktu menjadi variabel.
Perubahan stabil dalam bahaya dan kelangsungan hidup
Bayangkan setiap hari tepat 3 dari 10 orang meninggal di air laut
yang dingin setelah kecelakaan Titanic. Ini tingkat kematian yang cukup
stabil , atau Bahaya , sebesar 30%. Jika bahaya untuk mati terus tumbuh
dengan laju yang sama, maka kemungkinan untuk bertahan hidup akan terus
berkurang dengan laju yang sama. Dengan demikian, Bahaya dan
Kelangsungan Hidup dapat diekspresikan satu sama lain. Secara khusus,
Bahaya kematian dari waktu ke waktu dapat dilihat sebagai Gagal bertahan
hidup \(F( t )\) dan kelangsungan hidup
dari waktu ke waktu \(S( t )\) yang
dapat dilihat sebagai Hazard of NOT-dying , atau hanya Hazard negatif ,
yang secara matematis dapat dinyatakan sebagai tanda minus “-”, atau
“1-”, di depan Hazard. Kedua fungsi tersebut menghasilkan garis lurus,
di mana Bahaya terus meningkat dan kelangsungan hidup terus menurun
(plot di bawah): \[ F(t) = Hazard * t
\] \[S(t) = 1 - Hazard *
t\]

Peningkatan atau penurunan yang stabil dalam bahaya atau kelangsungan
hidup seperti itu agak tidak alami, tidak realistis. Dalam memperkirakan
kematian dapat dikatakn sulit. Bahaya biasanya meningkat secara
eksponensial, misalnya dalam kasus kelaparan, atau menurun secara
eksponensial, misalnya dalam kasus pandemi setelah vaksin ditemukan.
Perubahan eksponensial positif dalam bahaya dan kelangsungan
hidup
Pikirkan tentang kelaparan sejenak. Semakin lama kondisi kelaparan,
semakin tinggi kemungkinan (risiko) mati. Plot kiri di bawah menunjukkan
perkembangan seperti itu, di mana bahaya kematian \(F( t )\) dinyatakan dalam probabilitas
kecil pada awalnya (beberapa kematian), tetapi tumbuh secara
eksponensial dengan waktu (semakin banyak kematian). Saya suka menyebut
tren seperti itu sebagai perubahan eksponensial yang positif, atau
mempercepat. “exp” dalam rumus kiri di bawah adalah semua yang
diperlukan untuk merencanakan tren tersebut.
Sekali lagi, karena kelangsungan hidup dapat dilihat sebagai bahaya
negatif dapat menyatakan kelangsungan hidup \(S( t )\) dengan hanya menggunakan tanda
minus (atau “1-”) di depan Hazard. Plot di sebelah kanan menampilkan
hasil dari fungsi bertahan hidup tersebut.Jika bahaya kematian rendah di
awal “waktu”, maka kemungkinan bertahan hidup tinggi. Di akhir “waktu”,
Kelangsungan Hidup turun secara eksponensial karena peningkatan Bahaya
secara eksponensial. \[ F(t)= exp^{Hazard *
t} \] \[S(t) = 1 - exp^{Hazard *
t}\]

Perubahan eksponensial negatif dalam bahaya dan kelangsungan
hidup
Namun, dalam beberapa kasus, lebih banyak orang meninggal pada awal
“waktu”, di mana tingkat kematian menurun dari waktu ke waktu. Pikirkan
tentang pandemi, atau kecelakaan besar. Perubahannya masih eksponensial,
dan menuju ke arah yang sama: naik, dalam kasus Bahaya, dan turun, dalam
kasus bertahan hidup. Namun, perubahan eksponensial agak terbalik
(membungkuk). Saya suka menyebutnya sebagai perubahan eksponensial yang
negatif, atau melambat.
Seperti “pembengkokan ke dalam” dapat dicapai dengan “-” minus sing
di depan Hazard dan fungsi eksponensial itu sendiri (persamaan kiri dan
gambar di bawah). Minus ini tidak menggambarkan hazard negatif, seperti
pada contoh di atas. Itu hanya mengubah kurva dari percepatan ke
perlambatan. Untuk mendapatkan kelangsungan hidup untuk fungsi ini
seperti pada contoh di atas, harus menggunakan “-” (atau “1-”) di depan
seluruh ekspresi hazard eksponensial. Menariknya, dua tanda minus di
depan “exp” dalam rumus Survival saling menetralkan dan menjadi nilai
tambah, yang menyisakan dengan
\[F(t)= - exp^{-Hazard * t}\]
\[S(t) = 1 - ( - exp^{-Hazard * t}) =
exp^{-Hazard * t}\]

Membangun Model Ekponensial
Sejak fungsi bertahan hidup \(S( t
)\) menunjukkan probabilitas bertahan hidup melewati titik waktu
tertentu ,
\[S(t) = P(T > t)\]
dan fungsi eksponensial \(F( t )\)
menunjukkan probabilitas Failed-survival melewati titik waktu tertentu
,
\[F(t) = P(T \leq t) = 1 - exp^{-Hazard *
t}\]
fungsi bertahan hidup kemudian dapat dinyatakan dalam bentuk fungsi
tidak bertahan hidup (eksponensial):
\[S(t) = P(T > t) = 1 - P(T \leq t) = 1
- F(t) = 1 - [1 - exp^{-Hazard * t}] = exp^{-Hazard * t}\]
Sehingga fungsi survival yang menunjukkan laju penurunan adalah
fungsi flipped hazard yang menunjukkan laju kenaikan. Dengan demikian,
dapat menulis ulang \(S( t )\)
sebagai:
\[S(t) = exp^{- Hazard * t} = exp^{-
\lambda* t}\]
di mana -Hazard dan waktu adalah dua parameter yang menggambarkan
perubahan eksponensial dalam probabilitas bertahan hidup, itulah
sebabnya model seperti itu memiliki nama - model eksponensial parametrik
. Dan karena Hazard adalah negative , dan fungsi eksponensial tidak
linier (alias. curvy ) - model keluar menghasilkan kurva eksponensial
negatif (lihat di bawah). Tingkat penurunan yang mulus seperti itu
menggambarkan probabilitas bertahan hidup jauh lebih baik daripada
metode Kaplan-Meier, yang secara tiba-tiba (secara bertahap) menurunkan
probabilitas hanya setelah suatu peristiwa, sambil menjaga probabilitas
tetap konstan di antara peristiwa tersebut.
Cara menghitung model parametrik
library(flexsurv) # for Parametric Survival Modelling
ex <- flexsurvreg(Surv(time, status) ~ 1, data = d2, dist="exponential")
we <- flexsurvreg(Surv(time, status) ~ 1, data = d2, dist="weibull")
ggsurvplot(
ex,
conf.int = FALSE,
surv.median.line = "hv",
xlab = "Days",
ylab = "Survival probability",
break.time.by = 1,
risk.table = F
)

Parameter kurva (\(-\lambda * t\))
memungkinkan kita untuk memodelkan dan memprediksi kelangsungan
hidup dan bahaya dari waktu ke waktu, yang merupakan keuntungan
utama dari model eksponensial dibandingkan dengan metode
Kaplan-Meier, yang tidak bersifat parametrik dan oleh karena itu tidak
dapat dimodelkan. Namun, non-linearitas sering kali merepotkan, dan kami
lebih suka menggunakan konsep regresi linear, yang meringkas
(meregresikan) banyak angka menjadi beberapa angka, seperti intersep
(\(\beta_0\)) dan kemiringan (\(\beta_1\)). Untungnya, kurva non-linier
dapat dengan mudah “dilinierkan” melalui logaritma natural. Untuk
melakukan ini, kita bahkan tidak perlu memahami cara kerja logaritma
atau fungsi eksponensial, kita hanya perlu mengetahui bahwa keduanya
saling menetralkan satu sama lain. Selain itu, menggunakan “log”
(melogaritmakan kedua sisi persamaan di bawah ini) menghasilkan tiga
efek samping yang positif:
- Pertama, di sisi kanan persamaan, ini akan memindahkan kurva
kita (\(-\lambda * t\))
menjadi sebuah garis (\(b_0 + b_1x_1
+ ... + b_kx_k\)), di mana kita akan dapat memiliki intersep dan
koefisien \(\beta\) seperti pada
regresi logistik linier biasa \[Hazard =
exp^{b_0 + b_1x_1 + ... + b_kx_k}\]
atau
\[ log(Hazard) = b_0 + b_1x_1 + ... +
b_kx_k \]
Model survival seperti itu sebenarnya adalah model Poisson. Oleh
karena itu, akan sangat membantu jika sudah mengeuasai distribusi
Poisson.
Kedua, ini akan membantu kita untuk terhubung ke model-model
selanjutnya, seperti model Weibull dan Cox, karena perbedaan di antara
keduanya terutama terletak pada intersep “\(b_0\)”;
Terakhir, ini akan sangat meningkatkan kemampuan interpretasi,
karena Hazard-Ratios (HRs) (yang dihasilkan oleh model eksponensial)
dapat diinterpretasikan persis seperti Odds-Ratios (ORs) dari regresi
logistik (seperti yang dijelaskan dalam posting saya tentang regresi
logistik). Sama halnya dengan Odds dalam regresi logistik, Hazard
itu sendiri, yang merupakan probabilitas meninggal SEKARANG, kurang
berguna dibandingkan dengan Hazard-Ratio. Hazard-Ratio adalah rasio
bahaya seseorang yang terpapar (sakit) terhadap seseorang yang tidak
terpapar (sehat). Misalnya jika HR = 2, risiko kematian seseorang yang
terpapar adalah dua kali lipat dibandingkan dengan seseorang yang tidak
terpapar.
Pikiran akhir
Apakah model parametrik berguna?
Tiga kurva di atas yang menggambarkan berbagai jenis perubahan
dalam kelangsungan hidup dan bahaya dari waktu ke waktu dimaksudkan
untuk mengatakan bahwa distribusi bisa sangat berbeda. Jika distribusi
yang sesuai dapat ditemukan, model parametrik lebih informatif daripada
model KM atau Cox
model ini dapat memprediksi probabilitas ketahanan hidup pada
titik waktu tertentu, hazard kejadian, rata-rata dan median waktu
ketahanan hidup sudah tersedia
model ini juga sedikit lebih efisien dan menghasilkan estimasi
yang lebih tepat karena kecocokan yang lebih baik (lihat gambar di
atas)
Apakah model parametrik itu sempurna? Tentu saja tidak!
model parametrik perlu menentukan distribusi, yang mungkin sulit
untuk diidentifikasi
model ini juga secara matematis lebih kompleks, misalnya KM, dan
oleh karena itu lebih jarang digunakan, sehingga mengurangi perbandingan
hasil antar studi. Karena popularitasnya yang lebih rendah, saya tidak
akan membahas lebih dalam tentang model parametrik tertentu: Model
Weibull, Gompertz, model Waktu Kegagalan yang Dipercepat, dll.
Jadi, terlepas dari kenyataan bahwa model parametrik adalah
alternatif yang baik untuk model regresi KM dan Cox (yang tidak perlu
menentukan distribusi apa pun), KM dan Cox tetap menjadi metode yang
paling populer untuk menganalisis data survival. Dan itulah mengapa
langkah logis berikutnya dalam perjalanan statistik dalam mempelajari
Model Cox Proportional Hazard (sedang berlangsung).
