Introduction to Survival Analysis
March 03, 2026
1 Apa yang dimaksud dengan censoring data?
Censoring atau penyensoran merupakan konsep inti dalam analisis survival yang membedakannya dari metode statistik konvensional. Penyensoran terjadi ketika waktu kejadian (event time) tidak dapat diamati secara lengkap, sehingga yang diketahui hanya bahwa individu bertahan hingga waktu tertentu tanpa mengalami kejadian. Dengan kata lain, informasi yang tersedia bersifat parsial, bukan hilang. Data tersensor tetap memberikan kontribusi karena menunjukkan lamanya subjek berada dalam kondisi berisiko sebelum pengamatan berakhir.
Penyensoran data umumnya terjadi karena beberapa kondisi, yaitu:
- Pengamatan Terhenti : ketika subjek tetap bertahan hidup atau belum mengalami kejadian (sembuh/mati) hingga periode penelitian berakhir
- Kehilangan Jejak (Lost to Follow-up) : ketika subjek tidak lagi dapat dihubungi, pindah lokasi atau tidak merespons peneliti selama masa studi berlangsung.
- Pengunduran Diri (Withdrawal) : ketika subjek memutuskan untuk berhenti dari penelitian secara sukarela atau sedang mengalami kejadian lain yang tidak menjadi fokus utama (misalnya meninggal karena penyebab yang tidak relevan dengan penyakit yang sedang diteliti).
Berdasarkan mekanismenya, terdapat tiga jenis tama penyensoran :
- Right Censoring : ketika waktu kejadian sebenarnya lebih besar dari waktu observasi yang tercatat. Ini merupakan salah satu bentuk yang paling umum
- Left Censoring : ketika kejadiannya telah terjadi sebelum periode pengamatan dimulai, tetapi waktu pastinya tidak diketahui.
- Interval Censoring : ketika kejadian hanya diketahui terjadi di antara dua waktu pengamatan tertentu.
Perbedan utama antara data tersensor dengan data lengkap terletak pada kelengkapan informasi waktu kejadiannya. Pada analisis statistik biasa, nilai respon harus dikatahui secara pasti untuk setiap dilakukan observasi. Sebaliknya dalam analisis survival, data yang tersensor tetap digunakan karena masih dapat memberikan informasi bahwa kejadian belum terjadi hingga waktu tertentu.
2 Mengapa belajar survival analysis?
Alasan utama memperlajari analisis survival adalah karena metode statistik standar tidak mampu menangani data tersensor (Censored Data) secara akurat. Dalam data dunia nyata, seringkali kita tidak mengetahui waktu kejadian (event) yang pasti untuk semua subjek karena mereka hilang dari pengamatan atau studi berakhir sebelum kejadian terjadi. Jika kita menggunakan regresi biasa, kita terpaksa membuang data tersensor tersebut yang dapat menyebabkan bias atau mengasumsikannya secara salah. Analisis survival memberikan solusi matematis untuk tetap menyertakan informasi dari subjek yang tersensor guna mendapatkan estimasi yang presisi.
Selain itu, analisis ini sangat penting untuk memahami Harzard Function (fungsi bahaya). Berbeda dengan statistik biasa yang hanya melihat hasil akhir saja, fungsi hazard memungkinkan kita untuk mengukur risiko instan seseorang untuk mengalami suatu kejadian pada titik waktu tertentu, asalkan ia telah bertahan hingga waktu tersebut. Dengan memahami pola risiko yang berubah-ubah seiring waktu ini, peneliti dapat menarik kesimpulan yang jauh lebih mendalam daripada sekedar melihat angka rata-rata durasi atau frekuensi kejadian saja.
3 Kapan sebaiknya mengunakan survival analysis?
Analisis ini sebaiknya diterapkan apabila variabel hasil (outcome) yang diteliti adalah waktu hingga suatu kejadian terjadi (time to event). Penggunaannya menjadi wajib ketika penelitian melibatkan pemantauan subjek dalam jangka waktu tertentu (studi longitudinal) dan terdapat kemungkinan adanya data yang tersensor. Secara spesifik, metode ini digunakan ketika 3 kejadian sebagai berikut :
- Fokus utama adalah durasi waktu, seperti jumlah hari hingga pasien pulih atau jumlah bulan hingga sebuah mesin mengalami kerusakan.
- Terdapat kebutuhan untuk membandingkan pengalaman kelangsungan hidup antara kelompok yang berbeda (misalnya kelompok yang diberi obat baru dibandingkan dengan kelompok kontrol).
- Peneliti ingin mengetahui bagaimana berbagai faktor (variabel independen) memengaruhi kecepatan atau perlambatan terjadinya suatu kejadian melalui pemodelan matematika yang kompleks.
4 Terapan analysis survival di sains data?
Dalam sains data, analisis survival memiliki aplikasi yang sangat luas diberbagai industri karena kemampuannya memprediksi kapan sesuatu akan terjadi, bukan hanya sekedar apakah hal itu terjadi. beberapa terapan pentingnya meliputi aspek berikut :
4.1 Analisis Churn Pelanggan :
Penelitian menggunakan model COX Proportional Harzards untuk memodelkan waktu hingga pelanggan berhenti berlangganan. Hasilnya menunjukkan bahwa faktor demografis dan pola penggunakan layanan sangat berpengaruh secara signifikan terhadap durasi pelanggan untuk bertahan.
Sumber : https://jurnal.untirta.ac.id/index.php/jiss/article/view/14313?utm_source
4.2 Analisis Risiko Kredit :
Studi di Indonesia menerapkan metode Kaplan-Meier dan regresi COX untuk memodelkan waktu perubahan status kredit lancar menjadi kredit bermasalah (pra-NPL). Model ini mampu membantu bank mengidentifikasi periode risiko tertinggi terjadinya default.
Sumber : https://ejournal.unesa.ac.id/index.php/mathunesa/article/view/60822?utm_source
4.3 Prediksi Turnover Karyawan
Penelitian pada data ketenagakerjaan menggunakan survival analysis untuk mengindentifikasi faktor yang memengaruhi seberapa lama masa kerja karyawan dan dapat memprediksi kapan risiko pengunduran diri akan meningkat.
Sumber : https://journal.unimma.ac.id/index.php/komtika/article/view/11194?utm_source
5 Contoh data censoring data dengan R
5.1 Censoring
5.1.1 Penjelasan Dataset Censoring
Dataset ini termasuk ke dalam data survival (time-ro-event data) yaitu kematian pasien akibat gagal jantung. Dataset ini tidak hanya mencatat kondisi klinis pasien saja, akan tetapi mencatat juga berapa lama pasien bertahan selama masa pengamatan. Komponen penting yang dalam dataset ini adalah :
- Time : lama pengamatan pasien (dalam hari) sejak awal studi
- DEATH_EVENT : indikator kejadian yang terdapat 2 kemungkinan
- 1 = pasien meninggal (event terjadi)
- 0 = pasien masih hidup saat pengamatan berakhir
Pada variabel time merepresentasikan durasi ketahanan hidup pasien sampai kematian terjadi atau sampai penelitian selesai. Nilai ini menunjukkan lamanya pasien bertahan, bukan sekedar lama perawatan.
Dataset ini juga mengandung right censoring, karena tidak semua pasien meninggal selama periode observasi. Jika DEATH_EVENT = 0, artinya pasien masih hidup hingga akhir penelitian sehingga waktu kematian sebenarnya belum diketahui. Kita hanya mengetahui bahwa pasien bertahan minimal sampai waktu tertentu, tapi tidak tahu kapan kejadian terjadi setelahnya.
Sumber : https://www.kaggle.com/datasets/andrewmvd/heart-failure-clinical-data
5.2 Non Censoring
5.2.1 Penjelasan Dataset Non-Censoring
Dataset yang dianalisis merupakan hasil penyaringan data dengan hanya memilih observasi yang memiliki event = 1 (arrest terjadi). Artinya, seluruh individu dalam dataset ini adalah mereka yang benar-benar mengalami penangkapan kembali selama periode observasi. Dataset ini tidak lagi merepresentasikan data survival lengkap, melainkan hanya menggambarkan waktu hingga kejadian yang sudah pasti terjadi.
Secara deskriptif, terdapat 114 individu dengan karakteristik sebagai berikut:
Waktu hingga arrest (week) rata-rata 28,7 minggu (±6–7 bulan), dengan rentang 1–52 minggu. Hal ini menunjukkan variasi yang cukup besar dalam kecepatan terjadinya recidivism.
Usia (age) rata-rata 22,76 tahun (median 21 tahun), menandakan dominasi kelompok usia dewasa muda.
Riwayat kejahatan sebelumnya (prio) rata-rata 3,77 kasus, menunjukkan sebagian besar individu sudah memiliki catatan kriminal sebelumnya.
Dari aspek sosial-ekonomi:
- sekitar 42% menerima bantuan finansial
- 45% memiliki pengalaman kerja
- hanya 7% berstatus menikah
- sekitar 60% berada dalam masa parole saat arrest terjadi.
Secara umum, profil dalam dataset ini didominasi oleh individu usia muda dengan riwayat kriminal sebelumnya dan tingkat stabilitas sosial yang relatif rendah. Karena seluruh data merupakan kejadian yang pasti terjadi (event = 1), maka analisis lebih tepat difokuskan pada faktor-faktor yang berkaitan dengan lamanya waktu hingga arrest, bukan pada estimasi probabilitas bertahan tanpa kejadian.
Sumber : https://raw.githubusercontent.com/CamDavidsonPilon/lifelines/master/lifelines/datasets/rossi.csv
6 Daftar Referensi Utama
[1] Survival Analysis: A Self-Learning Text
[2] Analisis Survival pada Pasien Penyakit Kronis - JKI UI
[3] Introduction to Survival Analysis in R - RPubs