Survival Analysis in Industry Applications
Survival Analysis
Lecturer : Mr. Bakti Siregar, M.Sc., CDS.
Compiled by : Syifa Nurulfajri (52240001)
Data Science. Faculty of Digital, Design, and Business
INSTITUT TEKNOLOGI SAINS BANDUNG
2025
Industry 1 - Healthcare
Waktu Kambuhnya Penyakit Setelah Pengobatan Kanker
Tujuan Bisnis:
Membandingkan dua metode pengobatan dan menentukan mana yang lebih lama menunda kambuhnya penyakit.
1. Perawatan mana yang menunjukkan probabilitas kelangsungan hidup yang lebih tinggi?
Perawatan dengan probabilitas kelangsungan hidup yang lebih tinggi yaitu perawatan B diliat dari garis biru, treatment B lebih tinggi dibandingkan treatment A hampir di seluruh waktu pengamatan.
2. Berapa probabilitas bebas kambuh pada bulan ke-8?
Pada bulan ke 8 probabilitas bebas kambuh untuk Treatment A sekitar 0.40, sedangkan untuk Treatment B sekitar 0.70. Nilai ini diliat dari tinggi kurva pada sumbu Y (survival probability) tepat di waktu 8 bulan pada sumbu X. Karena kurva Treatment B berada lebih tinggi dibandingkan Treatment A pada waktu tersebut, maka dapat disimpulkan bahwa pasien pada Treatment B memiliki peluang bebas kambuh yang lebih besar pada bulan ke-8.
3. Apakah kurva menunjukkan perbedaan yang signifikan?
Kurva Treatment B (biru) cenderung berada di atas kurva Treatment A (merah) hampir sepanjang waktu pengamatan. Hal ini menunjukkan bahwa secara deskriptif Treatment B memiliki probabilitas bebas kambuh yang lebih tinggi. Namun, berdasarkan nilai p = 0.35 (> 0.05), yang berarti perbedaan kedua kurva tersebut tidak signifikan secara statistik. Artinya, meskipun secara visual terlihat ada jarak antara kedua kurva, perbedaan tersebut belum cukup kuat secara statistik untuk menyatakan bahwa kedua treatment benar-benar berbeda dalam mempengaruhi risiko kambuh.
## Call:
## survdiff(formula = surv_health ~ treatment, data = healthcare)
##
## N Observed Expected (O-E)^2/E (O-E)^2/V
## treatment=A 10 6 4.51 0.494 0.879
## treatment=B 10 5 6.49 0.343 0.879
##
## Chisq= 0.9 on 1 degrees of freedom, p= 0.3
1. Menafsirkan hasil Chi-square.
Hipotesisnya :
- \(H_0\) : Tidak Ada perbedaan survival antara kedua metode
- \(H_1\) : Ada perbedaan survivan antara kedua metode
Chi-square (\(X^2\)) untuk mengukur seberapa besar perbedaan antara observed dan expected. Untuk mengetahui chi-square itu kecil atau besar dibandingkan dengan nilai kritis.
## Nilai kritis : 3.841459
\(x^2 = 0.9 < \text{Nilai kritis} = 3.84\), yang berarti \(x^2\) lebih besar dari nilai kritis.
untuk mengukur seberapa besar perbedaan antara observed dan expected bisa juga dari nilai p-value.
\(p = 0.3 > 0.05\), yang berarti P lebih besar dari 0.05.
Maka, keduanya gagal menolak \(H_0\) yang berarti tidak ada perbedaan yang signifikan antara kedua metode
2. Apakah Perawatan B secara statistik lebih baik?
Perawatan B dikatakan lebih baik dikarenakan nilai observed nya lebih dikit daripada nilai expected, event lebih sedikit dari harapan. Namun, karena nilai p = 0.3 perbedaan tersebut tidak signifikan secara statistik.
## Call:
## coxph(formula = surv_health ~ treatment + age + gender, data = healthcare)
##
## n= 20, number of events= 11
##
## coef exp(coef) se(coef) z Pr(>|z|)
## treatmentB -0.68540 0.50389 0.63846 -1.074 0.2830
## age -0.13534 0.87341 0.07543 -1.794 0.0728 .
## genderM 0.03021 1.03067 0.69187 0.044 0.9652
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## exp(coef) exp(-coef) lower .95 upper .95
## treatmentB 0.5039 1.9846 0.1442 1.761
## age 0.8734 1.1449 0.7534 1.013
## genderM 1.0307 0.9702 0.2656 4.000
##
## Concordance= 0.693 (se = 0.102 )
## Likelihood ratio test= 5.36 on 3 df, p=0.1
## Wald test = 4.25 on 3 df, p=0.2
## Score (logrank) test = 4.59 on 3 df, p=0.2
1. Interpretasikan Rasio Bahaya untuk Perawatan B
Hasil menunjukan bahwa nilai Hazard rasio untuk treatment B memiliki nilai sebesar 0.5039, yang berati risiko terjadinya event setengahnya risiko pada treatment A. Karena HR kurang dari 1 maka risiko dikatakan risikonya lebih kecil dengan 49.6% menurunkan risiko event dibandingkan treatment A.
2. Apakah usia meningkatkan risiko kambuh?
Usia memilki HR sebesar 0.873 karena kurang dari 1 maka usia justru menurunkan risiko seiring dengan bertambangnya usia. Namun, karena confidence Interval (0.7534 - 1.013) melewati 1 menunjukkan bahwa pengaruh usia terhadap risiko kambuh tidak signifikan secara statistik.
3. Variabel mana yang signifikan?
Berdasarkan hasil analisis regresi Cox, tidak terdapat variabel yang berpengaruh signifikan terhadap risiko kambuh pada taraf signifikansi 5% (\(\alpha = 0.05\)), karena seluruh p-value lebih besar dari 0,05 dan interval confidence Interval variabel mencakup angka 1. Meskipun Treatment B dan usia menunjukkan kecenderungan menurunkan risiko kambuh (HR < 1), pengaruh tersebut belum signifikan secara statistik. Variabel gender juga tidak menunjukkan pengaruh terhadap risiko kambuh. Namun, pada taraf signifikansi 10% (\(\alpha = 0.10\)), variabel usia menunjukkan pengaruh yang signifikan terhadap risiko kambuh (p = 0,0728 < 0,10). Hal ini mengindikasikan bahwa terdapat kecenderungan penurunan risiko kambuh seiring bertambahnya usia, meskipun pengaruh tersebut tidak signifikan pada taraf 5%. Sementara itu, variabel treatment dan gender tetap tidak signifikan.
Industry 2 - Manufacturing
Analisis Kegagalan Mesin
Tujuan Bisnis :
Menentukan apakah mesin Premium memiliki umur pakai yang lebih lama dibandingkan dengan mesin Standar.
1. Jenis mesin mana yang lebih awet?
mesin yang bisa bertahan lebih lama yaitu mesin yang premium diliat dari garis merah, mesin premiun lebih tinggi dibandingkan mesin yang standar hampir di seluruh waktu pengamatan.
2. Apa probabilitas kelangsungan hidup pada 300 jam?
Pada jam ke 300 probabilitas kelangsungan hidup untuk mesin premium sekitar 0.90, sedangkan untuk mesin standar sekitar 0.40. Nilai ini diliat dari tinggi kurva pada sumbu Y (survival probability) tepat di 300 jam pada sumbu X. Karena kurva mesin premium berada lebih tinggi dibandingkan mesin standar pada waktu tersebut, maka dapat disimpulkan bahwa mesin yang premium memiliki peluang lebih awet yang lebih besar pada 300 jam.
3. Apakah Premium terlihat lebih andal?
Secara visual, tipe Premium terlihat lebih andal karena kurva Kaplan–Meier berada di atas tipe Standar dan menunjukkan probabilitas bertahan yang lebih tinggi sepanjang waktu pengamatan. Namun, berdasarkan nilai p = 0,16 (> 0,05), sehingga perbedaan tersebut tidak signifikan secara statistik.
## Call:
## coxph(formula = surv_machine ~ type + temp, data = manufacturing)
##
## n= 20, number of events= 11
##
## coef exp(coef) se(coef) z Pr(>|z|)
## typeStandar -1.4100 0.2441 0.9467 -1.489 0.136386
## temp 0.5467 1.7275 0.1510 3.620 0.000294 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## exp(coef) exp(-coef) lower .95 upper .95
## typeStandar 0.2441 4.0959 0.03818 1.561
## temp 1.7275 0.5789 1.28495 2.323
##
## Concordance= 0.872 (se = 0.034 )
## Likelihood ratio test= 17.99 on 2 df, p=1e-04
## Wald test = 13.69 on 2 df, p=0.001
## Score (logrank) test = 19.69 on 2 df, p=5e-05
1. Menafsirkan Rasio Bahaya untuk Premium .
Berdasarkan model Cox yang memasukkan variabel suhu (type + temp), diperoleh nilai hazard ratio untuk mesin tipe Premium (exp(-coef)) memiliki hazard kerusakan sekitar 4.0959 kali lebih besar dibandingkan tipe Standar. Pada variabel suhu diperoleh exp(coef) sebesar 0,5467 dengan p-value 0,000294, yang menunjukkan bahwa suhu berpengaruh signifikan terhadap risiko kerusakan. Jika dibandingkan dengan kurva Kaplan-Meier, terlihat bahwa kurva Premium berada lebih tinggi dibandingkan Standar, yang secara deskriptif menunjukkan bahwa Premium lebih awet.
## Call:
## coxph(formula = surv_machine ~ type, data = manufacturing)
##
## n= 20, number of events= 11
##
## coef exp(coef) se(coef) z Pr(>|z|)
## typeStandar 0.8492 2.3378 0.6186 1.373 0.17
##
## exp(coef) exp(-coef) lower .95 upper .95
## typeStandar 2.338 0.4278 0.6954 7.859
##
## Concordance= 0.655 (se = 0.063 )
## Likelihood ratio test= 1.88 on 1 df, p=0.2
## Wald test = 1.88 on 1 df, p=0.2
## Score (logrank) test = 1.99 on 1 df, p=0.2
Hasil ini sejalan dengan model Cox tanpa memasukkan suhu, di mana diperoleh exp(-coef) untuk Premium memiliki hazard sekitar 0,43 kali dibandingkan Standar (sekitar 57% lebih rendah). Perbedaan arah hasil antara model dengan dan tanpa suhu menunjukkan bahwa suhu berperan sebagai variabel yang mempengaruhi hubungan antara tipe mesin dan kerusakan.
2. Apakah suhu yang lebih tinggi meningkatkan risiko kegagalan?
Berdasarkan hasil model Cox, suhu berpengaruh signifikan terhadap risiko kegagalan (p = 0,000294). Nilai hazard ratio sebesar 0,5467 menunjukkan bahwa setiap kenaikan satu satuan suhu justru menurunkan risiko kegagalan sekitar 45%. Dengan demikian, dalam data ini suhu yang lebih tinggi tidak meningkatkan risiko kegagalan, melainkan cenderung menurunkannya.
3. Apa implikasi manajerialnya?
Diliat dari perbedaan tipe yang tidak signifikan manajemen ga perlu mengkhawatirkan tipe mana yang lebih cepat rusak dan menggantinya dengan mesin yang lebih awet karena suhu yang lebih signifikan maka membuat jadwal maintenance berdasarkan kondisi suhu lebih baik dibandingkan waktu untuk peningkatan kendala mesin agar lebih awet.
Industry 3 - Customer Analytics
Waktu Hingga Pelanggan Berhenti Berlangganan
Tujuan Bisnis :
Evaluasi perbedaan tingkat retensi antara paket langganan Basic dan Pro.
1. Rencana mana yang menunjukkan tingkat retensi yang lebih baik?
Plan yang tingkat retensi nya lebih baik yaitu plan yang pro diliat dari garis biru, tipe pro lebih tinggi dibandingkan tipe basic hampir di seluruh waktu pengamatan.
2. Berapa probabilitas bertahan hidup ≥ 6 bulan?
Probabilitas plan yang tipe basic akan bertahan hidup lebih dari 6 bulan mulai dari 0.60 - 0.40 atau 60% - 40%. Sedangkan, probabilitas plan yang tipe pro akan bertahan hidup lebih dari 6 dari bulan mulai dari 1.00 - 0.60 atau 100% - 60%. Karena kurva plan pro berada lebih tinggi dibandingkan plan basic mulai dari waktu 6 bulan, maka dapat disimpulkan bahwa plan yang pro memiliki peluang bertahan hidup yang lebih besar daripada plan yang basic.
3. Apakah perbedaan tersebut secara statistik signifikan?
Berdasarkan hasil p-vaue = 0.17 yang berarti lebih besar dari 0.05, maka perbedaan tersebut tidak signifikan secara statistik.
## Call:
## coxph(formula = Surv_customer ~ plan + support_calls + fee, data = customer)
##
## n= 20, number of events= 10
##
## coef exp(coef) se(coef) z Pr(>|z|)
## planPro 0.6690 1.9523 0.8219 0.814 0.41564
## support_calls 2.3029 10.0031 0.7092 3.247 0.00116 **
## fee NA NA 0.0000 NA NA
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## exp(coef) exp(-coef) lower .95 upper .95
## planPro 1.952 0.51222 0.3899 9.775
## support_calls 10.003 0.09997 2.4917 40.158
## fee NA NA NA NA
##
## Concordance= 0.958 (se = 0.023 )
## Likelihood ratio test= 32.54 on 2 df, p=9e-08
## Wald test = 10.63 on 2 df, p=0.005
## Score (logrank) test = 33.94 on 2 df, p=4e-08
1. Menafsirkan Rasio Bahaya untuk Paket Pro.
Berdasarkan model Cox yang memasukkan variabel lain, diperoleh nilai hazard ratio untuk plan tipe Pro memiliki hazard churn sekitar 1.95 kali lebih besar dibandingkan tipe basic. Pada variabel support calls diperoleh sebesar 10.00 dan p-value sekitar 0.00116 yang menunjukkan bahwa support calls berpengaruh signifikan terhadap risiko churn. Jika dibandingkan dengan kurva Kaplan-Meier, terlihat bahwa kurva Pro berada lebih tinggi dibandingkan basic, yang secara deskriptif menunjukkan bahwa Pro lebih lebih bertahan
## Call:
## coxph(formula = Surv_customer ~ plan, data = customer)
##
## n= 20, number of events= 10
##
## coef exp(coef) se(coef) z Pr(>|z|)
## planPro -0.8632 0.4218 0.6505 -1.327 0.185
##
## exp(coef) exp(-coef) lower .95 upper .95
## planPro 0.4218 2.371 0.1179 1.51
##
## Concordance= 0.644 (se = 0.071 )
## Likelihood ratio test= 1.81 on 1 df, p=0.2
## Wald test = 1.76 on 1 df, p=0.2
## Score (logrank) test = 1.87 on 1 df, p=0.2
Hasil ini sejalan dengan model Cox tanpa memasukkan variabel lain, di mana diperoleh untuk Pro memiliki hazard sekitar 0,42 kali dibandingkan Standar (sekitar 42% lebih rendah). Perbedaan arah hasil antara model dengan dan tanpa variabel lain menunjukkan bahwa variabel lain berperan sebagai variabel yang mempengaruhi hubungan antara tipe dan churn. Namun, nilai cI melewati 1 jadi Tidak ada bukti kuat bahwa paket Pro benar-benar meningkatkan atau menurunkan risiko churn.
2. Apakah panggilan dukungan meningkatkan risiko churn?
Hasil menunjukan nilai hazard rasio untuk support calls sebesar 10.00 yang berarti setiap tambahan 1 kali panggilan ke customer meningkatkan risiko churn sekitar 10 kali lipat.
3. Strategi retensi apa yang dapat dikembangkan?
Strategi retensi sebaiknya difokuskan pada pengelolaan dan peningkatan kualitas layanan pelanggan, karena jumlah panggilan dukungan terbukti secara signifikan meningkatkan risiko churn. Sistem deteksi dini dan perbaikan pengalaman layanan menjadi kunci untuk menurunkan tingkat kehilangan pelanggan.
Analisis Kritis
Healthcare
1. Apa yang dimaksud dengan sensor dalam konteks ini?
Sensor dalam heathcare itu pasien yang Kambuh Penyakitnya Setelah Pengobatan Kanker sampai akhir pengamatan.Terdapat 9 pasien yang tida diketahui waktu kejadiannya hanya diketahui pasien masih bertahan sampai akhir pengamatan.
2. Mengapa rata-rata waktu tidak memadai?
Karena tidak semua pasien mengalami kejadian, ada data sensor dan rata- rata waktu hanya menghitung yang mengalami event jadi rata - rata bisa bias dan meremehkan waktu survival sebenernya. Survival analis diperlukan dengan karena mempertimbangkan censoring.
3. Keputusan strategis apa yang dapat diambil oleh manajemen?
Berdasarkan hasil analisis Cox, meskipun variabel treatment tidak signifikan (p = 0,283), usia menunjukkan kecenderungan berpengaruh terhadap risiko kejadian (HR = 0,873; p = 0,0728). Oleh karena itu, manajemen dapat membedakan pendekatan pemantauan dan perawatan untuk kelompok usia tertentu. Pasien dengan risiko lebih tinggi dapat diberikan pengawasan yang lebih intensif. Selain itu, manajemen dapat mengevaluasi kemungkinan bahwa treatment bekerja berbeda pada kelompok usia tertentu. Terakhir, karena model memiliki nilai concordance sebesar 0,693 yang menunjukkan kemampuan prediksi cukup baik, manajemen dapat menggunakan model untuk membuat sistem risk scoring. Skor risiko ini dapat membantu mengidentifikasi pasien dengan peluang kejadian lebih tinggi sehingga sumber daya medis dapat dialokasikan secara lebih efektif dan tepat sasaran.
4. Apa yang akan terjadi jika kita menggunakan regresi linier sebagai gantinya?
Estimasi akan bias dan juga kesimpulannya salah karena regresi linear tidak bisa menangani censoring sehingga akan memperlakukan pasien yang belum kambuh seolah-olah sudah selasai.
Manufacturing
1. Apa yang dimaksud dengan sensor dalam konteks ini?
Sensor disini yaitu mesin yang belum rusak sampai akhir pengamatan. Terdapat 9 mesin yang tidak diketahui waktu kejadiannya hanya diketahui mesin masih bertahan sampai akhir pengamatan.
2. Mengapa rata-rata waktu tidak memadai?
Karena Tidak semua mesin rusak. Rata-rata hanya menghitung mesin yang rusak. Padahal survival analysis menghitung peluang bertahan dari waktu ke waktu.
3. Keputusan strategis apa yang dapat diambil oleh manajemen?
Membuat jadwal maintenance berdasarkan kondisi suhu untuk peningkatan kendala mesin agar lebih awet karena suhu secara signifikan meningkatkan risiko kerusakan.
4. Apa yang akan terjadi jika kita menggunakan regresi linier sebagai gantinya?
regresi linear akan menghasilkan prediksi waku negatif jadi tidak logis karena regresi ga bisa menangani censoring dan juga data waktu biasanya tidak normal jadi lebih baik menggunakan survival analis.
customer Anaysis
1. Apa yang dimaksud dengan sensor dalam konteks ini?
sensor berarti customer belum churn sampai akhir pengamatan.terdapat 10 customer yang hanya diketahui mereka masih aktif sampai waktu akhir pengamatan.
2. Mengapa rata-rata waktu tidak memadai?
Karena Tidak semua customer churn juga Menghitung rata-rata lama berlangganan saja mengabaikan pelanggan aktif. Ini bisa meremehkan customer lifetime sebenarnya.
3. Keputusan strategis apa yang dapat diambil oleh manajemen?
Strategi retensi sebaiknya difokuskan pada pengelolaan dan peningkatan kualitas layanan pelanggan, karena jumlah panggilan dukungan terbukti secara signifikan meningkatkan risiko churn. Sistem deteksi dini dan perbaikan pengalaman layanan menjadi kunci untuk menurunkan tingkat kehilangan pelanggan.
4. Apa yang akan terjadi jika kita menggunakan regresi linier sebagai gantinya?
Jika regresi linier digunakan sebagai pengganti survival analysis, maka hasil yang diperoleh berpotensi bias dan tidak akurat. Hal ini karena churn merupakan kejadian waktu ke kejadian (time-to-event), sehingga yang dianalisis bukan hanya apakah pelanggan churn atau tidak, tetapi juga kapan churn tersebut terjadi. Regresi linier tidak mampu menangani censoring, yaitu pelanggan yang belum churn sampai akhir periode pengamatan. Dalam regresi linier, pelanggan yang masih aktif akan diperlakukan seolah-olah sudah memiliki waktu churn yang pasti, padahal sebenarnya belum terjadi. Hal ini dapat menyebabkan estimasi koefisien menjadi bias. Selain itu, regresi linier tidak secara khusus memodelkan risiko kejadian dari waktu ke waktu. Model ini hanya memprediksi nilai rata-rata, sehingga tidak mempertimbangkan dinamika risiko churn sepanjang periode observasi. Dengan demikian, penggunaan regresi linier dapat menghasilkan kesimpulan yang keliru.
Referensi
Sulantari, S., & Hariadi, W. (2022). Analisis Survival Model Regresi Cox pada Lama Waktu Sembuh Pasien Gejala Sedang Covid‑19. UJMC (Unisda Journal of Mathematics and Computer Science), 8(1), 43–54.https://e-jurnal.unisda.ac.id/index.php/ujmc/article/view
Arina, F., & Ulfah, M. (2022). Analisa survival untuk mengurangi customer churn pada perusahaan telekomunikasi. Journal Industrial Servicess, 8(1).https://jurnal.untirta.ac.id/index.php/jiss/article/view/14313/8980