Introduction to Survival Analysis

Survival Analysis

Lecturer : Mr. Bakti Siregar, M.Sc., CDS.

awokwowk

Compiled by : Syifa Nurulfajri (52240001)

Data Science. Faculty of Digital, Design, and Business

INSTITUT TEKNOLOGI SAINS BANDUNG

2025


1. Definition of Censoring Data

Censoring terjadi saat nilai waktu suatu kejadian (event) tidak bisa kita amati secara lengkap, melainkan hanya diketahui sebagian. Sederhananya, kita tahu “sesuatu” terjadi, tapi tidak tahu titik waktu pastinya. Dalam Analisis Survival, data censored tidak dibuang dan tidak dianggap sebagai bias. Analisis ini memperlakukan sensor sebagai informasi parsial. Jadi, data tetap digunakan karena memberikan informasi bahwa subjek tersebut “masih bertahan” sampai waktu tertentu.

Perbedaan Data Normal vs Data Censored

Data sensor bukan angka pasti, melainkan sebuah batas waktu: - Data Normal: - Time = 10 (Kita tahu kejadiannya tepat di angka 10).

  • Data Censored:
    • Time > 10 (Kejadian belum terjadi sampai waktu pengamatan selesai).
    • Time < 5 (Kejadian sudah terjadi sebelum pengamatan dimulai).
    • 5 < Time < 10 (Kejadian terjadi di antara dua waktu, tapi tidak tahu pastinya kapan).

Jenis-Jenis Censoring

Berikut adalah pembagian sensor berdasarkan batas waktunya (bounds):

  1. Right Censoring (Lower Bound) Ini kondisi di mana kejadian belum terjadi sampai waktu pengamatan berakhir atau pasien keluar dari studi (lost to follow-up).
    • Contoh: Pasien masih dalam kondisi sakit/hidup saat penelitian ditutup.
  2. Left Censoring (Upper Bound) Ini kondisi di mana kejadian sudah terjadi sebelum kita mulai mengamati, sehingga kita tidak tahu kapan titik awalnya.
    • Contoh: Pasien sudah dinyatakan sembuh sesaat sebelum kita mulai melakukan observasi pertama.
  3. Interval Censoring (Interval Bound) Ini kondisi di mana kejadian terjadi di antara dua waktu pengamatan, tapi kita tidak tahu detik atau hari pastinya.
    • Contoh: Kamu melakukan observasi rutin setiap 2 bulan sekali. Pada bulan ke-2 pasien masih sehat, tapi saat dicek lagi pada bulan ke-4 pasien sudah sakit. Maka, kejadiannya berada di rentang bulan ke-2 sampai bulan ke-4.

2. Why learn survival analysis?

Banyak masalah di dunia nyata yang sebenarnya berkaitan dengan “berapa lama” suatu kejadian akan terjadi, seperti kapan pelanggan akan churn atau kapan sebuah mesin akan rusak. Di sinilah Survival Analysis hadir sebagai tool khusus untuk menangani durasi waktu dan data tersensor (censored data) yang tidak bisa ditangani oleh model statistik biasa. Poin Utama Survival Analysis:

  • Memanfaatkan Informasi Terbatas: Berbeda dengan model biasa, analisis ini tidak membuang data yang belum lengkap (censored), melainkan tetap mengolahnya sebagai informasi berharga. Hasilnya, prediksi risiko dan durasi kejadian jadi jauh lebih akurat.

  • Bukan Sekadar Klasifikasi: Kita tidak hanya memprediksi “apakah” sesuatu akan terjadi, tapi “kapan” dan faktor apa saja yang mempengaruhinya.

  • Penerapan Luas: Meskipun sangat populer di bidang Kesehatan (untuk melihat durasi bertahan hidup pasien), teknik ini juga sangat krusial di industri lain seperti finance, engineering, hingga startup.

Kesimpulan:

Memahami Survival Analysis sangat penting bagi kita agar bisa mengembangkan model prediksi berbasis waktu kejadian. Dengan metode ini, kita dapat mendukung pengambilan keputusan yang lebih komprehensif dan realistis berdasarkan data yang ada di lapangan.

3. When should survival analysis be used?

Survival analysis sebaiknya digunakan ketika fokus analisis adalah durasi waktu sampai suatu kejadian terjadi. Metode ini cocok digunakan ketika terdapat data censored, yaitu subjek yang belum mengalami kejadian selama periode pengamatan. Selain itu, survival analysis juga digunakan ketika ingin mengetahui bagaimana risiko suatu kejadian berubah seiring waktu, serta untuk menjawab pertanyaan seperti “kapan event terjadi?”, misalnya berapa lama pasien bertahan sampai sakit atau sembuh.

4. Application of survival Analysis in Data Science

1. Bidang Pendidikan (Lama Studi Mahasiswa)

Sumber: Jurnal Matematika dan Komputasi Statistik (JMathCoS)

Judul: Analisis Survival pada Data Lama Studi Mahasiswa Menggunakan Regresi Cox Proportional Hazard

Penelitian ini menggunakan regresi Cox Proportional Hazard untuk memodelkan waktu hingga mahasiswa lulus. Variabel prediktor yang digunakan meliputi faktor akademik dan demografis seperti IPK, jenis kelamin, dan jalur masuk perguruan tinggi. Analisis survival dipilih karena terdapat mahasiswa yang belum lulus pada akhir periode penelitian, sehingga datanya bersifat right censored. Model Cox digunakan untuk mengestimasi pengaruh faktor-faktor tersebut terhadap peluang kelulusan mahasiswa seiring waktu.

2. Bidang Teknik dan Manufaktur (Predictive Maintenance Mesin)

Sumber: Jurnal Integrasi Sistem (JISS – Universitas Sultan Ageng Tirtayasa)

Judul: Analisis Survival pada Kasus Kegagalan Komponen Mesin Menggunakan Distribusi Weibull

Penelitian ini menerapkan metode survival parametrik dengan distribusi Weibull untuk menganalisis waktu hingga kegagalan komponen mesin. Distribusi Weibull digunakan untuk memodelkan pola kerusakan komponen berdasarkan usia pemakaian mesin. Analisis ini bertujuan untuk menghitung laju kegagalan (hazard rate) dan mengidentifikasi pola peningkatan atau penurunan risiko kerusakan seiring waktu, sehingga dapat digunakan dalam perencanaan pemeliharaan prediktif (predictive maintenance).

3. Bidang Keuangan dan Perbankan (Risiko Gagal Bayar Kredit)

Sumber: Jurnal Keuangan dan Perbankan (JKDP – Universitas Merdeka)

Judul: Aplikasi Analisis Survival untuk Estimasi Waktu Gagal Bayar Kredit (Credit Default)

Penelitian ini menggunakan Kaplan–Meier estimator dan regresi Cox untuk mengestimasi waktu hingga nasabah mengalami gagal bayar kredit (credit default). Kaplan–Meier digunakan untuk mengestimasi fungsi survival nasabah yang tetap membayar cicilan, sedangkan regresi Cox digunakan untuk menganalisis faktor-faktor yang memengaruhi risiko gagal bayar. Metode survival dipilih karena tidak semua nasabah mengalami gagal bayar selama periode observasi, sehingga terdapat data censored.

4. Bidang Data Science Modern & AI (Deep Learning Survival Analysis)

Sumber: arXiv

Judul: Deep Recurrent Survival Analysis (Kan et al., 2018)

Penelitian ini mengusulkan model Deep Recurrent Survival Analysis (DRSA) yang menggabungkan Recurrent Neural Network (RNN) dengan analisis survival. Model ini digunakan untuk memodelkan data survival yang bersifat sekuensial dan kompleks, serta untuk menangani data censored secara otomatis. Pendekatan ini tidak bergantung pada asumsi distribusi tertentu seperti pada model statistik klasik, sehingga lebih fleksibel untuk data berdimensi tinggi dan dinamis.

5. Examples of Censoring and Noncensoring Data

5.1 Censored Data

Dataset ini dirancang untuk analisis survival, yaitu mempelajari waktu sampai suatu kejadian terjadi, misalnya waktu seorang pasien bertahan hidup atau waktu karyawan sampai keluar dari perusahaan. Dataset ini disebut censored karena tidak semua individu mengalami kejadian selama masa pengamatan. Artinya, ada beberapa orang yang “belum terkena” kejadian saat studi berakhir, sehingga kita hanya tahu bahwa mereka bertahan sampai waktu tertentu, tapi tidak tahu kapan kejadian sebenarnya akan terjadi. Dalam dataset ini biasanya ada kolom waktu (misalnya time) dan kolom indikator kejadian (event) yang menunjukkan apakah kejadian terjadi atau belum. Dengan adanya censoring, analisis survival seperti Kaplan-Meier atau model Cox bisa digunakan untuk memperkirakan probabilitas bertahan dan risiko kejadian meski sebagian data belum lengkap.

5.2 Non-censored Data

Dataset employee turnover yang kamu sebutkan bersifat non-censored, karena semua baris pada kolom event bernilai 1, artinya setiap karyawan yang diamati benar-benar mengalami kejadian (turnover) selama periode pengamatan. Tidak ada individu yang “belum keluar” atau kehilangan data waktu sampai kejadian. Kolom stag menunjukkan lama bekerja sampai terjadi turnover, sementara variabel lain seperti gender, usia, industri, dan skor kepribadian bisa digunakan untuk menganalisis faktor-faktor yang memengaruhi turnover. Karena semua data lengkap dan tidak ada censoring, analisis bisa langsung menggunakan metode yang menghitung waktu kejadian tanpa harus memperhitungkan individu yang belum mengalami event.

Dataset ini berisi informasi harian tentang harga saham, termasuk harga pembukaan, harga tertinggi, harga terendah, harga penutupan, volume perdagangan, dan harga yang disesuaikan. Setiap tanggal perdagangan memiliki data lengkap, sehingga tidak ada informasi yang hilang tentang “kejadian” tertentu. Dalam konteks survival analysis, tidak ada kejadian yang perlu diamati sampai waktunya terjadi, sehingga dataset ini juga disebut non-censored. Data ini bisa langsung digunakan untuk analisis tren atau prediksi tanpa harus memperhitungkan waktu terpotong atau censoring.

5.3 Perbedaan Data censored dan Non-censored

Aspek Data Censored Data Non-Censored
Definisi Data dimana waktu kejadian sebenarnya tidak sepenuhnya diketahui karena beberapa alasan. Data dimana waktu kejadian diketahui sepenuhnya untuk semua subjek.
Contoh Pasien mengikuti studi kanker 5 tahun, tapi pada akhir studi beberapa pasien masih hidup waktu kematian tidak diketahui data tersebut censored. Semua pasien kanker dalam studi meninggal tercatat dengan waktu yang tepat non-censored.
Simbolisasi Biasanya menggunakan indikator event = 0 untuk censored dan event = 1 untuk kejadian. Semua kejadian tercatat indikator event = 1 untuk semua subjek.
Tujuan informasi Menunjukkan batas bawah waktu kejadian kita tahu bahwa kejadian belum terjadi sampai titik observasi tertentu. Memberikan informasi waktu pasti kejadian tidak ada ketidakpastian.
Visualisasi Kurva Kaplan-Meier biasanya menunjukkan tanda + pada titik censored. Semua titik di kurva survival menunjukkan kejadian yang sebenarnya terjadi.

6. Referensi

Dscience Labs. (n.d.). Introduction to survival analysis. RPubs. https://rpubs.com/dsciencelabs/intro?authuser=1

Btari, C. (2020). Survival Analysis Dataset. Kaggle. https://www.kaggle.com/datasets/cindybtari/survival-analysis-dataset

Handayani, S., & Abadi, A. (2022). Analisis Survival pada Data Lama Studi Mahasiswa Menggunakan Regresi Cox Proportional Hazard. JMathCoS (Journal of Mathematics, Computations, and Statistics), 5(2). https://ojs.unm.ac.id/JMathCoS/article/view/38853

Kan, Z., Jing, Y., & Wei, P. (2019). Deep Recurrent Survival Analysis. arXiv.org. https://arxiv.org/abs/1809.02403

Nurfadilah, S., & Santoso, H. (2018). Aplikasi Analisis Survival untuk Estimasi Waktu Gagal Bayar Kredit (Credit Default). Jurnal Keuangan dan Perbankan, 22(1). https://jurnal.unmer.ac.id/index.php/jkdp/article/view/1601

Sari, D. P., & Syukroni, M. A. (2021). Analisis Survival pada Kasus Kegagalan Komponen Mesin Menggunakan Distribusi Weibull. JISS: Jurnal Integrasi Sistem, 14(1). https://jurnal.untirta.ac.id/index.php/jiss/article/view/14313

Wijaya, D. (2021). Employee Turnover Dataset. Kaggle. https://www.kaggle.com/datasets/davinwijaya/employee-turnover