Analisis Survival
February 25, 2026
Bab 1 Pertemuan 1: Analisis Survival
1.1 Apa yang dimaksud dengan Censoring Data?
Censoring data adalah kondisi dalam analisis survival ketika waktu terjadinya suatu event tidak terobservasi secara lengkap selama periode pengamatan, namun informasi parsial mengenai individu tersebut tetap tersedia dan relevan untuk analisis statistik.
Dalam survival analysis, variabel utama adalah time-to-event, sehingga ketika:
- event belum terjadi hingga akhir studi,
- subjek keluar dari penelitian,
- atau kehilangan follow-up,
maka waktu kejadian sebenarnya tidak diketahui secara pasti, dan data tersebut disebut sebagai censored.
Secara operasional:
- status = 1 → event terjadi (uncensored)
- status = 0 → censored (event belum terobservasi)
Dalam analisis survival, censoring secara umum dibedakan menjadi tiga jenis, yaitu:
- Right censoring: terjadi ketika individu belum mengalami event hingga akhir periode observasi, sehingga waktu kejadian yang sebenarnya lebih besar atau sama dengan waktu pengamatan terakhir.
- Left censoring: terjadi ketika event sudah terjadi sebelum proses observasi dimulai, sehingga waktu kejadian yang tepat tidak diketahui karena berada sebelum waktu awal pengamatan.
- Interval censoring: terjadi ketika waktu terjadinya event tidak diketahui secara pasti, tetapi hanya diketahui berada di dalam suatu interval waktu tertentu antara dua periode observasi.
1.2 Mengapa Perlu Belajar Survival Analysis?
Survival analysis perlu dipelajari karena banyak kondisi dalam sains data berbentuk time-to-event data yang tidak dapat dianalisis secara tepat menggunakan metode statistik konvensional seperti regresi linear atau time series analysis.
Alasan metodologis utama:
- Data sering mengandung censoring
- Distribusi waktu kejadian biasanya tidak normal
- Informasi parsial (censored) tetap bernilai statistik
- Fokus analisis adalah probabilitas bertahan (survival probability) dan risiko kejadian (hazard)
Jika censoring diabaikan dan dianalisis dengan metode biasa:
- estimasi menjadi bias
- kehilangan informasi penting
- kesimpulan penelitian menjadi tidak valid
Dalam konteks sains data modern, survival analysis juga menjadi penting untuk:
- churn prediction berbasis waktu
- risk modeling
- retention analysis
- predictive maintenance
1.3 Kapan Sebaiknya Menggunakan Survival Analysis?
Survival analysis sebaiknya digunakan ketika penelitian memiliki karakteristik berikut:
- Variabel respon berupa waktu hingga suatu kejadian (time-to-event)
- Tidak semua subjek mengalami event selama periode observasi
- Terdapat data censoring
- Tujuan analisis adalah memodelkan ketahanan (survival) atau risiko kejadian
Secara aplikatif, metode ini tepat digunakan pada kasus:
- Waktu pasien meninggal atau sembuh
- Waktu pelanggan berhenti berlangganan (customer churn)
- Waktu mesin mengalami kerusakan
- Waktu mahasiswa lulus atau dropout
- Durasi penggunaan aplikasi oleh user
Jika seluruh data lengkap tanpa censoring dan fokus bukan pada waktu kejadian, maka survival analysis tidak selalu diperlukan.
1.4 Terapan Analisis Survival di Sains Data
Walaupun historisnya berkembang di bidang kesehatan, survival analysis saat ini sangat luas digunakan dalam sains data.
1.4.1 Bidang Kesehatan (Medical Data Science)
- Analisis ketahanan hidup pasien kanker
- Evaluasi efektivitas terapi
- Risk stratification berbasis faktor klinis
Sumber Dataset:
- Dataset kanker paru dari paket
survival(lung dataset) - Clinical trial datasets di Kaggle
1.4.2 Business & Customer Analytics
- Time to churn (durasi hingga pelanggan berhenti)
- Customer lifetime value (CLV)
- Subscription retention analysis
Sumber Dataset:
- Telco Customer Churn (Kaggle) → dapat dikonversi menjadi survival data
1.4.3 Engineering & Reliability
- Predictive maintenance
- Failure time analysis mesin
- Reliability analysis produk
Sumber Dataset:
- NASA Turbofan Engine Degradation Dataset (Kaggle/NASA)
1.4.4 Teknologi & Digital Product
- Time to uninstall aplikasi
- User retention duration
- Session survival analysis
Dalam sains data, survival analysis sering dikombinasikan dengan model Cox Proportional Hazards dan machine learning survival models untuk memodelkan waktu terjadinya suatu peristiwa (time-to-event) secara lebih akurat dengan mempertimbangkan adanya data censoring, pengaruh kovariat, serta pola hubungan yang kompleks dan non-linear dalam dataset.
1.5 Contoh Data Censoring dan No Censoring
1.5.1 Data Censoring (Real Dataset)
Catatan:
time = waktu survival pasien (dalam hari sejak awal observasi/diagnosis hingga terjadi event atau akhir pengamatan)
status = indikator kejadian, dengan:
- 0 = censored (pasien masih hidup atau keluar dari studi saat pengamatan berakhir)
- 1 = dead/event (pasien meninggal selama periode observasi)
Dataset ini merupakan data survival pasien kanker paru-paru yang mengandung right censoring, karena tidak semua pasien mengalami kematian selama masa studi. Beberapa pasien hanya diamati sampai waktu tertentu tanpa mengalami event, sehingga waktu survival mereka diketahui minimal sebesar waktu observasi, tetapi waktu kejadian sebenarnya tidak diketahui secara pasti.
Selain itu, variabel lain seperti age, sex, ph.ecog (status performa), ph.karno, dan wt.loss berperan sebagai kovariat yang dapat digunakan dalam model survival (misalnya Cox Proportional Hazards) untuk menganalisis faktor-faktor yang memengaruhi risiko kematian pasien.
1.5.2 Data No Censoring (Real Dataset)
Dataset 30E_0C_3000N_5Cov merupakan dataset survival simulasi yang digunakan untuk memodelkan waktu hingga terjadinya suatu event (time-to-event) pada sejumlah individu hipotetik. Dataset ini tidak berasal dari kasus klinis nyata, melainkan data sintetis yang dibuat untuk keperluan pengujian metode analisis survival, seperti Kaplan-Meier, Cox Proportional Hazards, dan survival machine learning, dengan beberapa kovariat sebagai faktor yang memengaruhi waktu kejadian.
Catatan:
nid = identitas unik setiap individu
start = waktu awal observasi (umumnya 0)
stop = waktu survival, yaitu waktu hingga terjadinya event
status = indikator kejadian, dengan:
- 1 = event terjadi (observasi lengkap / tidak tersensor)
Dataset ini merupakan dataset survival tanpa censoring (complete survival data), karena hanya berisi observasi dengan status = 1. Artinya, seluruh individu mengalami event selama periode observasi sehingga waktu survival setiap subjek diketahui secara lengkap tanpa adanya observasi terpotong (censored).
Selain itu, variabel z, x, x.1, x.2, x.3, dan x.4 berperan sebagai kovariat numerik yang digunakan sebagai prediktor dalam pemodelan survival untuk menganalisis pengaruh faktor terhadap waktu terjadinya event.
1.6 Perbandingan Konseptual (Censoring vs No Censoring)
| Aspek | Data Censoring | Data No Censoring |
|---|---|---|
| Event terjadi | Tidak semua | Semua terjadi |
| Kelengkapan data waktu | Tidak lengkap | Lengkap |
| Umum di bidang | Kesehatan, sosial | Engineering, eksperimen |
| Contoh dataset real | Clinical survival (Kaggle), lung dataset | Failure time (UCI, NASA) |
| Kompleksitas analisis | Lebih tinggi | Lebih sederhana |
1.7 Penutup
Secara metodologis, analisis survival merupakan pendekatan statistik yang dirancang khusus untuk menganalisis data time-to-event yang mengandung censoring. Keunggulan utama metode ini terletak pada kemampuannya mengakomodasi data tidak lengkap tanpa menghilangkan informasi penting. Dalam praktik nyata, dataset dengan censoring lebih umum ditemukan, khususnya pada bidang kesehatan dan sosial, sedangkan dataset tanpa censoring lebih sering dijumpai pada studi reliability dan eksperimen terkontrol.