Pengantar Analisis Survival

Foto Kelompok

Nama : Rachelia Bevina Tambajong

NIM : 52240021

Prodi : Sains Data

Mata Kuliah : Analisis Survival

Dosen Pengampu: Bakti Siregar, M.Sc., CDS.

Institusi : Institut Teknologi Sains Bandung

1. Pengertian Sensoring

Sensoring dalam analisis survival adalah kondisi di mana pengamatan terhadap subjek berakhir sebelum kejadian yang ditunggu terjadi. Ini bukan berarti data hilang, melainkan kita hanya tahu bahwa waktu survival melebihi nilai tertentu pada akhir observasi.

Penyebab utama sensoring yaitu:

  • Kejadian belum terjadi pada subjek tersebut.
  • Rentang data observasi tidak sesuai atau berakhir lebih awal.

Jenis-Jenis Sensoring

Ada tiga jenis utama sensoring dalam analisis survival:

1. Right-Sensoring: Kejadian belum terjadi saat observasi berakhir. Waktu survival hanya diketahui secara minimal (lebih dari nilai tercatat).
Contoh: studi selesai setelah 5 tahun, pasien masih hidup → disensor di 5 tahun.

  • Type I: observasi berakhir pada waktu tetap (end-of-study) atau dropout acak independen.
  • Type II: studi berakhir setelah jumlah event tertentu tercapai.

2. Left-Sensoring : Kejadian sudah terjadi sebelum observasi dimulai. Waktu survival hanya diketahui secara maksimal (kurang dari nilai tercatat).
Contoh: pasien sudah terinfeksi sebelum tes pertama dilakukan.

3. Interval-Sensoring: Kejadian terjadi dalam interval waktu tertentu, tetapi waktu pasti tidak diketahui.
Contoh: pasien dicek setiap 6 bulan; event terjadi antara kunjungan ke-2 dan ke-3.

Sensoring harus independen/non-informatif (tidak bergantung pada risiko event) agar analisis tetap valid. Jika sensoring informatif (misalnya pasien keluar karena kondisi semakin buruk), hasil analisis bisa bias. Sensoring menyebabkan data tidak dapat dianalisis dengan statistik biasa seperti uji hipotesis karena berpotensi menimbulkan bias jika diabaikan. Analisis survival dirancang khusus untuk menangani hal ini sehingga estimasi probabilitas survival tetap akurat.

2. Alasan Pentingnya Mempelajari Analisis Survival

Metode statistik standar seperti regresi linier, ANOVA, atau uji hipotesis biasa tidak mampu menangani data yang mengandung sensoring dengan benar, jika sensoring diabaikan atau diperlakukan sebagai data hilang, hasil estimasi akan bias dan tidak akurat.

Oleh karena itu, analisis survival perlu dipelajari dan dikembangkan khusus untuk:

  1. Mengelola sensoring secara tepat sehingga estimasi tetap akurat

  2. Menjawab pertanyaan inti seperti:
    • Berapa lama rata-rata hingga kejadian terjadi?
    • Berapa persentase subjek yang masih belum mengalami kejadian pada waktu tertentu?
    • Faktor apa saja yang mempercepat atau memperlambat terjadinya kejadian?

Kemampuan ini membuat analisis survival menjadi alat penting yang mampu memprediksi berdasarkan waktu kejadian di berbagai bidang, mulai dari kesehatan, bisnis, teknik, hingga analisis sumber daya manusia.

3. Waktu yang Tepat untuk Menggunakan Analisis Survival

Analisis survival adalah pilihan yang tepat ketika data memiliki tiga ciri utama berikut:

  1. Ada pengukuran durasi waktu dari titik mulai hingga terjadinya kejadian tertentu (time-to-event).
  2. Kejadian yang diamati bersifat biner: terjadi atau belum terjadi.
  3. Tidak semua subjek mengalami kejadian selama periode pengamatan (adanya sensoring).

Contoh kasus yang sangat cocok yaitu seperti:

  • Waktu hingga pasien sembuh, kambuh, atau meninggal.
  • Waktu hingga mesin atau komponen mengalami kerusakan.
  • Waktu hingga karyawan resign atau dipromosikan.

Sebaliknya, jika data hanya berupa nilai yang berubah sepanjang waktu tanpa konsep “kejadian iya/tidak” (misalnya harga saham harian, suhu bulanan, atau pendapatan perusahaan), maka metode time series lebih sesuai daripada analisis survival.

4. Penerapan Analisis Survival dalam Sains Data

Analisis Survival digunakan untuk memprediksi waktu hingga kejadian tertentu sambil menangani data yang disensor. Berikut penerapannya di berbagai bidang, disertai contoh kasus dan metode utama:

4.1 Penerapan di Bidang Kesehatan

Digunakan untuk memodelkan kelangsungan hidup pasien atau waktu hingga kesembuhan.

  • Contoh: Prediksi survival pasien kanker payudara berdasarkan usia, stadium penyakit, dan jenis terapi. Hasil analisis menunjukkan pasien dengan terapi hormon tertentu memiliki risiko kematian lebih tinggi.
  • Metode utama: Kaplan-Meier untuk membuat kurva survival, Cox Proportional Hazards untuk menghitung hazard ratio, serta Random Survival Forests untuk data yang lebih kompleks.

4.2 Penerapan di Bidang Bisnis & Keuangan

Digunakan untuk memprediksi churn pelanggan, waktu gagal bayar kredit, atau nilai lifetime pelanggan.

  • Contoh: Di perusahaan telekomunikasi, pelanggan dengan biaya bulanan tinggi cenderung churn lebih cepat, sehingga perusahaan bisa menawarkan diskon tepat waktu untuk mempertahankan mereka.
  • Metode utama: Kaplan-Meier untuk kurva churn, Cox Proportional Hazards untuk mengidentifikasi faktor risiko, serta Gradient Boosting Survival untuk prediksi yang lebih akurat.

4.3 Penerapan di BidangE-commerce & Marketing

Digunakan untuk menganalisis waktu hingga pembelian pertama atau pembelian ulang.

  • Contoh: Pembeli produk gadget cenderung melakukan pembelian ulang lebih cepat dibandingkan pembeli fashion, sehingga timing kampanye bisa disesuaikan agar lebih efektif.
  • Metode utama: Kaplan-Meier untuk menghitung probabilitas pembelian ulang, Cox Proportional Hazards untuk efek channel pemasaran, serta DeepSurv untuk prediksi yang lebih personal.

4.4 Penerapan di Bidang Manajemen SDM

Digunakan untuk memprediksi retensi karyawan atau waktu hingga promosi.

  • Contoh:Karyawan dengan jarak kerja jauh memiliki risiko turnover dua kali lebih tinggi, sehingga perusahaan bisa membuat strategi retensi khusus untuk kelompok tersebut.

  • Metode utama: Kaplan-Meier untuk kurva retensi, Cox Proportional Hazards untuk hazard ratio faktor seperti gaji atau jenis kontrak, serta Survival Trees untuk membagi karyawan berdasarkan tingkat risiko.

4.5 Penerapan di Bidang Industri & Teknik

Digunakan untuk predictive maintenance, yaitu memprediksi waktu hingga kerusakan mesin.

  • Contoh: Di pabrik, model memprediksi kegagalan elektroda sehingga jadwal maintenance bisa dibuat secara dinamis dan mengurangi downtime hingga 25%.
  • Metode utama: Random Survival Forests dan Gradient Boosting Survival untuk model non-linier, serta Cox Proportional Hazards untuk mengintegrasikan data dari sensor.

5. Contoh Data Sensoring dengan R

5.1 Data Sensoring

Berikut adalah contoh data sensoring dalam bidang kesehatan, yaitu Simplified Survival Data. Dataset sederhana ini menggambarkan waktu hingga terjadinya suatu kejadian (time-to-event) pada beberapa subjek (misalnya Person A, Person B, Person C, dan seterusnya). Variabel utama dalam dataset ini meliputi:

  • Time: durasi waktu (minggu) hingga kejadian atau akhir observasi (numerik).

  • Status: indikator censoring (1 = kejadian terjadi/event, 0 = censored/ke jadian belum terjadi).

Dataset ini disebut data sensoring karena mengandung sensoring (status = 0): untuk subjek tertentu, kita hanya tahu waktu survival “minimal” (lebih dari nilai time), bukan waktu pasti kejadian, sebab observasi berakhir lebih dulu (misalnya pasien masih hidup). Inilah contoh klasik yang menunjukkan kenapa analisis survival diperlukan karena sensoring harus ditangani khusus agar estimasi tidak bias.

5.2 Data Non Sensoring

Berikut adalah contoh data non-sensoring dalam bidang kesehatan, yaitu SA-Data (Survival Analysis - Example Data). Dataset buatan sederhana ini menggambarkan waktu hingga terjadinya suatu kejadian (time-to-event) pada dua kelompok perlakuan (test group dan placebo group). Variabel utama dalam dataset ini meliputi:

  • Time: durasi waktu hingga kejadian atau akhir observasi (numerik).
  • Status: indikator kejadian (1 = kejadian terjadi/event, 0 = censored/ke jadian belum terjadi).
  • Group: kelompok perlakuan (test atau placebo).

Dataset ini disebut non-sensoring (minim sensoring) karena sensoring (status = 0) tidak dominan, dataset sangat kecil dan sederhana, serta sensoring mudah difilter (hanya ambil baris status = 1) sehingga waktu menjadi fully observed (waktu pasti hingga kejadian).

Referensi

  1. Siregar B. Survival Analysis ~ Intro. RPubs; 2023. https://rpubs.com/dsciencelabs/intro

  2. Prinja S, Gupta N, Verma R. Censoring in Clinical Trials: Review of Survival Analysis Techniques. Indian J Community Med. 2010;35(2):217-221. https://pmc.ncbi.nlm.nih.gov/articles/PMC2940174/

  3. Lunn M. Definitions and Censoring. Lecture Notes on Survival Analysis. University of Oxford; 2001. https://www.stats.ox.ac.uk/~mlunn/lecturenotes1.pdf

  4. Shedden K. Analysis of data with censored values. University of Michigan Statistics Notes; 2023. https://dept.stat.lsa.umich.edu/~kshedden/stats504/topics/survival

  5. Djegou E. Simplified Data Table for Survival Analysis [dataset]. Kaggle; 2023. https://www.kaggle.com/datasets/emmanueldjegou/simplified-survival-data

  6. Georgiades L. Survival Analysis - Example Data [dataset]. Kaggle; 2023. https://www.kaggle.com/datasets/lambrosgeorgiades/sa-data

  7. Dudley WN, Wickham R, Coombs N. An Introduction to Survival Statistics: Kaplan-Meier Analysis. J Nucl Med Technol. 2016;44(3):155-160. https://pmc.ncbi.nlm.nih.gov/articles/PMC5045282/

  8. Goel MK, Khanna P, Kishore J. Understanding survival analysis: Kaplan-Meier estimate. Int J Ayurveda Res. 2010;1(4):274-278. https://pmc.ncbi.nlm.nih.gov/articles/PMC3059453/

  9. Beis G, et al. Survival Analysis Methods - Clinical Applications. Anticancer Res. 2024;44(2):471-480. https://ar.iiarjournals.org/content/44/2/471

  10. Havrylovych M, et al. Survival analysis methods for churn prevention in telecommunications industry. CEUR Workshop Proceedings. 2019. https://ceur-ws.org/Vol-2577/paper5.pdf

  11. Wagh SK, et al. Customer churn prediction in telecom sector using machine learning techniques. Intell Syst Appl. 2024;21:200144. https://www.sciencedirect.com/science/article/pii/S2666720723001443

  12. Statsig Team. Survival analysis: Time-to-event metrics. Statsig Perspectives. 2025. https://www.statsig.com/perspectives/survival-analysis-time-metrics

  13. Ghavami V, et al. A survival analysis approach to determine factors associated with non-retention of newly hired health workers in Iran. BMC Health Serv Res. 2023;23:278. https://pmc.ncbi.nlm.nih.gov/articles/PMC10022210/

  14. Coutinho B, et al. Survival Analysis-Based System for Predictive Maintenance Optimization. SN Comput Sci. 2025;6:142. https://link.springer.com/article/10.1007/s42979-025-04291-9

  15. Moreira M, et al. Data-Driven Predictive Maintenance for Component Life-Cycle Extension. Proceedings of the 13th International Conference on Data Science, Technology and Applications. 2025. https://www.scitepress.org/Papers/2024/130142/130142.pdf

  16. Le-Rademacher J, et al. Time-To-Event Data: An Overview and Analysis. J Thorac Oncol. 2021;16(7):1061-1070. https://www.sciencedirect.com/science/article/pii/S1556086421021146