Members

Dosen Pengampu

Bakti Siregar, M.Sc., CDS.

Program Studi

Sains Data

Institut Teknologi Sains Bandung

Dataset

Row

Complete German Credit Risk Dataset (Survival Analysis Format)

EDA

Column

Loan Amount and Duration Distribution

Default Rate by Categorical Feature

Time-to-Default Distribution

Event vs Censored Analysis

Survival Analysis

Column

Kaplan-Meier Survival Function

Survival Comparison Analysis

Uji Log-Rank (Log-Rank Test)

Estimasi Nelson-Aalen

Hazard Function Analysis

Cumulative Hazard Analysis

Feature Effect Analysis

CoxPH

Column

Summary 60:40

Summary 70:30

Summary 80:20

Significant Hazard Ratios Across Data Splits

Baseline Survival

Predicted Survival

RSF

Column

RSF Top Features Across Splits

RSF Predicted Survival Curves Across Splits

GBS

Column

Feature Importance Comparison

Predicted Survival Curves Across Splits

Evaluasi

Column

Concordance Index (C-Index)

Integrated Brier Score (IBS)

Time-Dependent Brier Score

Overall Predictions

Column

Actual vs Predicted Default Curves

Actual vs Predicted At-Risk Curves

RMSE & MAE Summary Table

Individual Predictions

Column

Individual Survival Predictions Across Models and Splits

Summary

Classification

Column

Evaluation Matrix

ROC Curve

Confussion Matrix

Segmentasi Risiko

Column

Klasifikasi Tingkat Risiko Peminjam

Risk Tier Profile Analysis

Checking Account Distribution by Risk Tier

Credit History Distribution by Risk Tier

Insight

Column

Early Default Detection

Cohort Analysis

Portfolio Survival Analysis

TOP 20 HIGHEST-RISK BORROWERS (by 24-month PD)

Expected Loss vs Loan Amount

Kesimpulan

Analisis ini dilakukan untuk menjawab kebutuhan bisnis perbankan dalam mengelola risiko kredit secara dinamis melalui pendekatan survival analysis, bukan sekadar klasifikasi statis “default” vs “tidak default” sebagaimana lazim dilakukan pada model credit scoring konvensional (logistic regression). Pendekatan klasifikasi biner mengabaikan dimensi waktu, padahal dalam praktik perbankan, kapan seorang peminjam berpotensi gagal bayar sama pentingnya dengan apakah ia akan gagal bayar. Survival analysis memungkinkan estimasi probabilitas bertahan (survival) dan probabilitas gagal bayar (hazard) sebagai fungsi waktu, yang sejalan dengan kebutuhan regulasi IFRS 9 dalam menghitung lifetime Probability of Default (PD) dan Expected Credit Loss (ECL) (Bellotti & Crook, 2010; pendekatan ini juga ditegaskan dalam tinjauan metodologis IFRS 9 oleh Crook & Bellotti dan dirangkum dalam tutorial discrete-time survival analysis untuk IFRS 9 oleh Ferreira et al., 2024 — arXiv:2507.15441).

Tiga model dipilih dengan alasan metodologis yang saling melengkapi:

Cox Proportional Hazard (CoxPH) dipilih sebagai baseline klasik karena interpretabilitasnya tinggi melalui hazard ratio (HR) per fitur, sesuai rekomendasi banyak literatur PD lifetime berbasis IFRS 9.
Random Survival Forest (RSF) dipilih untuk menangkap hubungan non-linear dan interaksi antar fitur tanpa asumsi proporsionalitas hazard yang ketat, sebagaimana ditunjukkan unggul dalam berbagai konteks finansial dan kesehatan.
Gradient Boosting Survival (GBS) dipilih sebagai pendekatan ensemble boosting yang secara empiris kompetitif untuk estimasi PD lifetime di bawah kerangka IFRS 9, sebagaimana dilaporkan oleh studi ComponentWise Gradient Boosting pada ScienceDirect (2024) yang menyatakan model boosting “menunjukkan performa kompetitif dibanding model benchmark” untuk estimasi lifetime credit loss.

Setiap model diuji pada tiga skema pembagian data (data split) — 60:40, 70:30, dan 80:20 — bukan sekadar satu split tunggal. Alasan metodologisnya adalah untuk menguji stabilitas dan robustness performa model terhadap variasi ukuran sampel pelatihan, sehingga kesimpulan yang diambil bukan kebetulan dari satu konfigurasi data saja, melainkan pola yang konsisten secara statistik. Pendekatan multi-split semacam ini lazim digunakan dalam studi benchmarking model survival skala besar (lih. studi benchmarking sembilan model survival pada data EHR, ResearchGate 2024) untuk memastikan validitas eksternal kesimpulan.

a). Exploratory Data Analysis (EDA) dan Kaplan-Meier

Distribusi jumlah pinjaman dan durasi kredit menunjukkan sebaran yang tidak simetris (right-skewed), yang menjadi alasan dilakukannya transformasi logaritmik (amount_log, amount_per_month_log) sebelum pemodelan — sebuah praktik standar agar asumsi linearitas pada CoxPH lebih terpenuhi. Estimasi Kaplan-Meier dan uji Log-Rank menunjukkan bahwa variabel kategorikal seperti checking_account_status, credit_history, purpose, savings_account_status, employment_years, housing, dan personal_status terbukti signifikan secara statistik (p < 0,05) dalam membedakan kurva survival antar kelompok, sementara property, other_debtors, dan other_installment_plans tidak signifikan.

Implikasi bisnis : bank dapat lebih percaya diri menggunakan status rekening giro (checking account) dan riwayat kredit sebagai dasar segmentasi awal underwriting, sementara variabel seperti kepemilikan properti perlu dipertimbangkan ulang bobotnya dalam scorecard karena tidak menunjukkan perbedaan risiko waktu-gagal-bayar yang signifikan pada portofolio ini.

b) Model CoxPH — Hazard Ratio yang Konsisten Lintas Split

Tiga fitur secara konsisten signifikan (p < 0,05) pada ketiga skema split:

checking_account_status_no_account dengan HR ≈ 0,38–0,46 (HR < 1) — peminjam yang tidak memiliki rekening giro justru menunjukkan risiko gagal bayar yang lebih rendah dibanding kategori referensi. Pada konteks dataset German Credit, kategori ini sering merepresentasikan nasabah dengan profil keuangan tertentu (bukan otomatis berarti tanpa riwayat finansial), sehingga interpretasinya perlu divalidasi dengan definisi data dictionary asli.
credit_history_critical_account dengan HR ≈ 0,44–0,50 — efek arahnya menarik dan perlu dicermati: dalam dataset German Credit, kategori riwayat kredit “kritis” justru dapat berasosiasi dengan rekening yang telah lama berjalan dan “established”, bukan murni indikasi buruk, sehingga interpretasi hazard ratio di sini sangat tergantung pada definisi level kategori asli dan derajat dikotomi referensi yang dipakai.
amount_log dan amount_per_month_log menunjukkan koefisien yang sangat ekstrem (mendekati ±70–90, dengan HR mendekati 0 atau bernilai sangat besar). Catatan metodologis penting: nilai koefisien yang ekstrem ini adalah indikasi kuat multikolinearitas/kuasi-separasi sempurna antara dua variabel yang sama-sama diturunkan dari nominal pinjaman. Kedua variabel sebaiknya tidak dimasukkan bersamaan ke dalam model produksi karena estimasi koefisiennya menjadi tidak stabil meski signifikan secara p-value.

Implikasi bisnis :

hasil ini mendukung tujuan bisnis “mengukur pengaruh variabel terhadap waktu terjadinya gagal bayar” untuk kalibrasi model underwriting dan credit scoring. Namun, karena ditemukan indikasi multikolinearitas, rekomendasi praktisnya adalah memilih salah satu representasi nominal pinjaman (bukan keduanya) sebelum model ini dipakai untuk pengambilan keputusan kredit riil.

c) Random Survival Forest (RSF) dan Gradient Boosting Survival (GBS) — Feature Importance Pada RSF, fitur dengan VIMP (Variable Importance) tertinggi secara konsisten adalah amount_per_month_log, amount_log, checking_account_status_no_account, checking_account_status_below_0, dan age. Pada GBS, dua fitur nominal pinjaman (amount_log dan amount_per_month_log) bahkan menyumbang lebih dari 80% dari total relative influence pada split 80:20 (41,3% dan 40,5%), jauh melampaui fitur lain seperti checking_account_status_no_account (3,6%) atau age (1,7%).

Implikasi bisnis: kedua model machine learning ini menegaskan bahwa besaran pinjaman relatif terhadap durasi (angsuran per bulan) adalah determinan risiko paling dominan secara non-linear — mendukung tujuan bisnis “penetapan suku bunga dan harga kredit berbasis risiko”, di mana skema risk-based pricing sebaiknya memberi bobot lebih besar pada rasio angsuran terhadap kapasitas bayar, bukan semata nominal pinjaman absolut.

d) Evaluasi Model — C-Index dan Integrated Brier Score (IBS) Tabel berikut merangkum performa rata-rata ketiga model di seluruh split:

Model	Mean C-Index	Mean IBS	Interpretasi Diskriminasi	Interpretasi Kalibrasi
CoxPH	0,9583	0,0168	Sangat baik (tertinggi)	Sangat baik (terendah/terbaik)
GBS	0,9251	0,0457	Baik	Cukup baik
RSF	0,7709	0,1282	Cukup (di atas tebakan acak 0,5)	Kurang baik (tertinggi/terburuk)

Secara teori, C-Index (Harrell’s C) mengukur kemampuan diskriminasi model — probabilitas model memberi peringkat risiko yang benar pada sepasang individu yang dibandingkan secara acak (Harrell et al., 1984), dengan nilai 0,5 setara tebakan acak dan 1,0 diskriminasi sempurna. Sementara Integrated Brier Score (IBS) mengukur kombinasi diskriminasi dan kalibrasi probabilitas prediksi terhadap waktu (Graf et al., 1999), di mana nilai lebih rendah menunjukkan prediksi probabilitas yang lebih akurat. Sebuah model dapat memiliki C-Index tinggi namun IBS buruk jika ia pandai mengurutkan risiko tetapi nilai probabilitas absolutnya tidak terkalibrasi dengan baik (MetricGate, 2025). Temuan pada dashboard ini — CoxPH unggul di kedua metrik, sementara RSF justru terburuk di keduanya — sebenarnya berbeda dari kecenderungan umum di banyak studi benchmarking, di mana model tree-based seperti RSF dan GBS biasanya unggul pada C-Index namun sedikit lebih lemah pada IBS dibanding model parametrik (lih. studi benchmarking sembilan model survival untuk angina pectoris, n=29.655, ResearchGate 2024, yang menemukan “GBS dan RSF secara konsisten mengungguli pendekatan konvensional dalam C-index, namun menunjukkan kalibrasi sedikit lebih buruk yang tercermin pada IBS yang lebih tinggi”). Pada dataset German Credit Risk yang relatif kecil (1.000 observasi) dan didominasi efek dua fitur nominal pinjaman yang hampir terpisah sempurna, CoxPH yang lebih parsimoni justru lebih stabil, sementara RSF berpotensi mengalami overfitting pada fitur kategorikal biner yang banyak (≈48 dummy variable) relatif terhadap jumlah observasi.

e) RMSE & MAE — Akurasi Prediksi Jumlah Kumulatif Gagal Bayar Pada metrik prediksi jumlah kumulatif default (bukan probabilitas individual), urutan performa berbalik: RSF memiliki RMSE terendah (33,8–67,7) dan MAE terendah (29,4–57,2) dibanding GBS (95,8–190,9) dan CoxPH (104,9–209,0) pada seluruh split. Catatan analitis penting: temuan yang tampak kontradiktif ini sebenarnya logis — C-Index dan IBS dihitung pada level individu (ketepatan ranking dan probabilitas per nasabah), sedangkan RMSE/MAE di sini dihitung pada level agregat populasi (jumlah kumulatif default pada suatu waktu). RSF dapat menghasilkan estimasi survival rata-rata populasi yang mendekati pola agregat aktual meski estimasi probabilitas individunya kurang terkalibrasi. Implikasi bisnis: jika tujuan adalah pencadangan dinamis portofolio (loan loss provisioning agregat), RSF cukup andal pada level total expected default count; namun jika tujuan adalah scoring/penilaian individual nasabah untuk keputusan kredit per-aplikasi, CoxPH tetap lebih dapat dipercaya.

f) Klasifikasi Biner (Recall, Precision, F1, ROC AUC) Pada ambang klasifikasi default/non-default, CoxPH split 60:40 mencatat ROC AUC tertinggi (0,745), diikuti GBS (0,611–0,722), sementara RSF konsisten terendah (0,589–0,605) meski Recall RSF justru tertinggi pada beberapa split (mendeteksi lebih banyak kasus default aktual namun dengan lebih banyak false positive, tercermin dari Precision RSF yang juga relatif lebih rendah). Implikasi bisnis untuk early warning system: trade-off Recall vs Precision RSF ini relevan jika bank lebih mengutamakan tidak melewatkan calon default (recall tinggi) meski risikonya lebih banyak nasabah baik yang salah ditandai berisiko (precision lebih rendah) — strategi konservatif yang cocok untuk early warning system tahap awal sebelum verifikasi manual lanjutan.

g) Segmentasi Risiko (Risk Tiering) Klasifikasi peminjam ke dalam tiga tingkat risiko menghasilkan profil yang sangat tajam dan tervalidasi:

Risk Tier	Jumlah Peminjam	Rata-rata Prob. Default	Default Rate Aktual	Avg. Survival
High Risk	333	1,000	100,0%	0,000
Medium Risk	333	0,873	12,7%	0,127
Low Risk	334	0,035	3,5%	0,965

Tingkat default rate aktual selaras secara monoton dengan probabilitas prediksi pada masing-masing tier (validasi kalibrasi pada level grup berhasil, meski di level individu IBS RSF kurang baik) — ini menunjukkan bahwa meski model machine learning seperti RSF kurang andal untuk skor individual, segmentasi/pengelompokan tier risiko yang dihasilkan tetap punya daya pisah (separasi) grup yang sangat kuat dan dapat dipercaya untuk kebutuhan agregat. Implikasi bisnis: tier ini secara langsung mendukung tujuan bisnis “alokasi modal dan pengelolaan risiko konsentrasi” — bank dapat menetapkan kebijakan pencadangan modal berjenjang: provisi maksimal untuk tier High Risk, moderat untuk Medium Risk, dan minimal untuk Low Risk.

h) Insight Tambahan — Early Default Detection dan Cohort Analysis Dari total kejadian gagal bayar yang teramati, 59,7% terjadi pada jendela waktu menengah (bulan ke-13 hingga 36), sementara 25,3% terjadi pada periode awal (≤12 bulan) dan hanya 15% pada periode akhir (>36 bulan). Implikasi bisnis: ini mendukung tujuan bisnis “sistem peringatan dini” — bank perlu memperkuat pemantauan intensif justru pada tahun pertama hingga kedua setelah pencairan kredit, bukan hanya pada periode awal pencairan, karena periode ini menyumbang mayoritas risiko gagal bayar sepanjang siklus hidup pinjaman.

Menyatukan seluruh temuan di atas, dapat disimpulkan bahwa ketiga model survival yang dibangun saling melengkapi, bukan saling menggantikan, dengan pembagian peran sebagai berikut:

CoxPH paling unggul untuk scoring individual dan estimasi probabilitas (PD) per nasabah yang dapat diaudit secara regulasi (mendukung kebutuhan IFRS 9 dan kalibrasi underwriting), karena diskriminasi (C-Index 0,958) dan kalibrasinya (IBS 0,017) sama-sama terbaik, serta hazard ratio-nya dapat dijelaskan secara langsung kepada komite kredit maupun auditor.
GBS berada di posisi tengah — diskriminasi cukup baik (C-Index 0,925) dengan kalibrasi yang masih dapat diterima (IBS 0,046) — cocok sebagai model pendamping (challenger model) untuk validasi silang terhadap CoxPH, khususnya dalam menangkap pola non-linear dari rasio angsuran terhadap pinjaman yang mendominasi 80% relative influence.
RSF meski terlemah dalam akurasi probabilitas individual (C-Index 0,771; IBS 0,128), tetap bernilai untuk estimasi agregat portofolio (RMSE/MAE terendah pada prediksi jumlah kumulatif default) dan untuk deteksi dini berbasis recall tinggi, sehingga relevan dipakai pada early warning system tahap penyaringan awal sebelum keputusan akhir diambil oleh model dengan kalibrasi lebih baik.

Konsistensi tiga skema data split (60:40, 70:30, 80:20) juga memperkuat validitas eksternal dari kesimpulan ini: pola superioritas CoxPH dan dominasi fitur jumlah pinjaman/rasio angsuran tidak berubah signifikan terhadap proporsi data latih, menunjukkan hasil bukan artefak dari satu pembagian data tertentu.

Insight 1 — Dominasi fitur finansial atas demografis: baik CoxPH, RSF, maupun GBS sepakat bahwa variabel terkait besaran dan struktur pinjaman (amount_log, amount_per_month_log) serta status rekening/riwayat kredit jauh lebih berpengaruh terhadap waktu gagal bayar dibanding variabel demografis seperti usia, pekerjaan, atau status pernikahan.
Insight 2 — Trade-off diskriminasi vs kalibrasi: model dengan C-Index tinggi tidak otomatis memiliki IBS yang baik (RSF adalah contoh ekstremnya), sehingga pemilihan model produksi harus disesuaikan dengan tujuan penggunaan (scoring individual vs estimasi agregat), bukan hanya berdasar satu metrik tunggal.
Insight 3 — Periode kritis risiko: risiko gagal bayar terkonsentrasi pada 13–36 bulan pertama siklus kredit, bukan di awal pencairan, sehingga strategi monitoring perlu disesuaikan secara temporal, bukan hanya pada saat aplikasi/pencairan kredit.
Insight 4 — Segmentasi risiko tervalidasi kuat: meski model individual RSF kurang terkalibrasi, segmentasi tier risiko (Low/Medium/High) yang dihasilkan tetap memiliki separasi default rate aktual yang sangat tajam (3,5% vs 12,7% vs 100%), menjadikannya alat operasional yang andal untuk kebijakan portofolio meski model yang mendasarinya memiliki keterbatasan pada level individu.
Insight 5 — Risiko multikolinearitas tersembunyi: koefisien CoxPH yang ekstrem pada dua variabel turunan nominal pinjaman adalah peringatan metodologis bahwa rekayasa fitur (feature engineering) yang tumpang tindih dapat menciptakan ilusi signifikansi statistik yang sebenarnya tidak stabil — penting diwaspadai sebelum model dipakai untuk keputusan bisnis nyata.

Berdasarkan keseluruhan bukti kuantitatif di atas, disimpulkan bahwa:

Model CoxPH direkomendasikan sebagai model utama (primary/champion model) untuk estimasi Probability of Default (PD) lifetime pada portofolio kredit ini, dengan performa diskriminasi dan kalibrasi terbaik secara konsisten pada ketiga skema data split (C-Index rata-rata 0,958; IBS rata-rata 0,017), sehingga paling sesuai untuk mendukung kebutuhan regulasi IFRS 9 dan keputusan underwriting individual.
Model GBS layak menjadi model pendamping (challenger) untuk validasi silang, terutama dalam menangkap pola non-linear pengaruh rasio angsuran terhadap risiko, dengan performa yang masih cukup baik (C-Index rata-rata 0,925; IBS rata-rata 0,046).
Model RSF tidak direkomendasikan sebagai model utama scoring individual karena kalibrasi probabilitasnya paling lemah (IBS rata-rata 0,128; C-Index rata-rata 0,771), namun tetap bernilai untuk estimasi agregat portofolio (RMSE/MAE terendah) dan sebagai komponen early-warning berbasis recall.
Variabel status rekening giro, riwayat kredit, dan struktur besaran pinjaman relatif terhadap durasi (angsuran per bulan) adalah determinan risiko gagal bayar paling kuat dan konsisten di seluruh model dan skema split, sehingga layak menjadi prioritas utama dalam scorecard underwriting dan penetapan suku bunga berbasis risiko.
Segmentasi tiga tingkat risiko (Low/Medium/High) yang dibangun dari hasil prediksi model menunjukkan validitas yang sangat baik terhadap default rate aktual, sehingga dapat langsung diadopsi sebagai dasar kebijakan alokasi modal dan pencadangan berjenjang.
Periode 13–36 bulan pasca pencairan kredit adalah jendela waktu kritis yang menyumbang mayoritas (59,7%) kejadian gagal bayar, menjadi prioritas utama pemantauan portofolio aktif.

Tujuan Bisnis	Rekomendasi Strategis Berbasis Hasil Analisis
Estimasi probabilitas kelangsungan pinjaman (PD term-structure, IFRS 9)	Adopsi CoxPH sebagai model utama untuk pelaporan PD lifetime dan pencadangan dinamis, dengan dokumentasi hazard ratio yang transparan untuk kepentingan audit/regulator. Lakukan penyesuaian feature engineering untuk menghilangkan duplikasi informasi antara amount_log dan amount_per_month_log agar estimasi koefisien lebih stabil.
Identifikasi segmen peminjam berisiko tinggi (risk-based pricing)	Gunakan kombinasi status rekening giro, riwayat kredit, dan rasio angsuran-terhadap-pinjaman sebagai variabel utama penentu suku bunga berjenjang. Pertimbangkan GBS sebagai model pendamping untuk menangkap efek non-linear pada penetapan harga risiko yang lebih presisi.
Pengaruh variabel terhadap waktu gagal bayar (kalibrasi underwriting)	Prioritaskan fitur finansial-struktural (besaran pinjaman, status rekening) di atas fitur demografis dalam scorecard. Audit ulang variabel dengan koefisien ekstrem sebelum deployment produksi untuk menghindari instabilitas model akibat multikolinearitas.
Pengurutan risiko peminjam (early warning system)	Implementasikan RSF sebagai filter awal berbasis recall tinggi pada sistem peringatan dini untuk menandai kandidat berisiko secara luas, kemudian validasi lanjutan menggunakan CoxPH/GBS untuk keputusan akhir — pendekatan multi-model ini memanfaatkan kekuatan masing-masing model sesuai posisinya dalam funnel keputusan.
Segmentasi portofolio dan alokasi modal (concentration risk)	Adopsi langsung tiga tier risiko (Low/Medium/High) yang telah tervalidasi sebagai basis kebijakan pencadangan modal berjenjang, dengan fokus pemantauan intensif pada tier High Risk dan jendela waktu kritis 13–36 bulan pasca pencairan.

Sebagai catatan penutup, hasil analisis ini bersifat eksploratif-akademis berbasis dataset German Credit Risk yang relatif kecil (1.000 observasi). Sebelum diadopsi pada sistem produksi nyata, disarankan dilakukan validasi tambahan menggunakan data historis yang lebih besar dan representatif terhadap populasi nasabah aktual bank yang bersangkutan, termasuk pengujian stabilitas model dari waktu ke waktu (population stability index) sesuai praktik tata kelola model risiko kredit yang baik (model risk governance) dalam kerangka Basel II/III dan IFRS 9.

Ringkasan Temuan Analitis Utama

Temuan	Bukti Analitis	Dampak
70% gagal bayar terjadi dalam 24 bulan pertama	Kemiringan kurva KM paling curam pada bulan 1–24	Fokuskan sumber daya pemantauan pada pinjaman tahap awal
Status rekening giro merupakan prediktor risiko nomor satu	Nilai chi-square log-rank tertinggi; fitur teratas pada RSF/GBS	Sertakan dalam proses penyaringan awal underwriting
Riwayat kredit critical meningkatkan hazard 2–4 kali	Estimasi HR model Cox	Kriteria penolakan langsung atau persyaratan agunan
Peminjam yang lebih muda (<25 tahun) mengalami gagal bayar lebih cepat	KM terstratifikasi + analisis kohort	Batas kredit dan tenor pinjaman khusus berdasarkan usia
Tingkat kerugian yang diharapkan pada kelompok risiko tinggi 3–5 kali lebih besar dibanding kelompok risiko rendah	Analisis segmentasi risiko portofolio	Penetapan harga berbasis risiko dan alokasi modal
Model ensemble (GBS) mengungguli model Cox	C-Index: GBS > RSF > Cox	Gunakan GBS untuk real-time scoring; Cox untuk pelaporan

Rekomendasi untuk Perusahaan Fintech Lending

A. Mesin Credit Scoring Real-Time:

Gunakan model Gradient Boosting Survival (GBS) sebagai mesin penilaian utama. Model GBS:

Menghasilkan skor risiko kontinu (probabilitas gagal bayar yang diprediksi pada 12 atau 24 bulan)
Dapat diperbarui secara bertahap ketika perilaku pembayaran baru diamati
Memproses aplikasi dalam hitungan milidetik sehingga sesuai untuk pengambilan keputusan berbasis API

B. Penetapan Harga Dinamis:

Skor risiko berbasis survival memungkinkan penetapan harga pinjaman berbasis risiko:

Peminjam risiko rendah: suku bunga dasar (prime rate) + 100–150 bps
Peminjam risiko menengah: suku bunga dasar + 300–400 bps
Peminjam risiko tinggi: suku bunga dasar + 600–800 bps atau ditolak

Struktur harga ini menyelaraskan tingkat pengembalian dengan tingkat risiko sehingga profitabilitas dapat terjaga pada seluruh segmen.

C. Sistem Peringatan Dini:

Puncak fungsi hazard pada sekitar bulan ke-12 hingga ke-18 memberikan pemicu alami untuk:

Menghubungi secara proaktif peminjam yang mendekati periode hazard gagal bayar tertinggi
Menawarkan restrukturisasi atau pembiayaan ulang (refinancing) untuk mencegah gagal bayar
Memperbarui skor risiko GBS secara real-time menggunakan data perilaku awal (pembayaran yang terlewat atau aktivitas rekening yang menurun)

D. Integrasi Data Alternatif:

Model saat ini menggunakan data biro kredit tradisional. Perusahaan fintech dapat menambahkan:

Riwayat transaksi (arus rekening giro sebagai proksi real-time untuk checking_account_status)
Sinyal perilaku digital (frekuensi login, keterlibatan aplikasi) sebagai indikator peringatan dini
Data sosial dan psikometrik untuk peminjam yang memiliki riwayat kredit terbatas (thin-file borrowers)

Rekomendasi untuk Perusahaan Multifinance

A. Pembiayaan Kendaraan dan Konsumen:

Untuk portofolio multifinance (otomotif, elektronik, peralatan):

Variabel purpose menunjukkan bahwa pinjaman kendaraan (baru dan bekas) memiliki kinerja yang berbeda — pinjaman kendaraan bekas memiliki survival yang lebih rendah, kemungkinan karena depresiasi kendaraan lebih cepat dibandingkan amortisasi pinjaman
Pemantauan nilai agunan perlu diintegrasikan dengan model survival; penurunan nilai agunan harus memicu penyesuaian tingkat risiko

B. Prioritas Penagihan:

Tingkat risiko dan estimasi waktu gagal bayar memungkinkan prioritisasi penagihan yang lebih cerdas:

Peminjam berisiko tinggi yang mendekati periode prediksi gagal bayar harus mendapatkan pendekatan proaktif sebelum gagal bayar terjadi
Sumber daya penagihan lapangan harus dialokasikan berdasarkan kerugian yang diharapkan, bukan hanya berdasarkan jumlah hari tunggakan
Kurva survival individual dari RSF dapat mengidentifikasi kapan probabilitas gagal bayar seorang peminjam mencapai puncaknya sehingga intervensi dapat dilakukan pada waktu yang tepat

C. Pengelolaan Tingkat Cicilan:

Hubungan positif antara tingkat cicilan dan hazard gagal bayar (berdasarkan model Cox) mengonfirmasi hipotesis beban utang. Oleh karena itu, perusahaan multifinance sebaiknya:

Membatasi tingkat cicilan pada 30–35% dari pendapatan bulanan yang telah diverifikasi
Melakukan stress testing: apa yang terjadi pada kurva survival jika pendapatan turun 20%?
Menawarkan opsi pembayaran bullet payment atau balloon payment untuk mengurangi beban cicilan bulanan bagi peminjam yang berada pada batas risiko

Kesimpulan (Conclusion)

Ringkasan Metodologi

Analisis ini mengimplementasikan survival analysis untuk pemodelan risiko kredit menggunakan German Credit Dataset (PySurvival). Tiga model dilatih dan dievaluasi secara komprehensif:

Model	Keunggulan	Rekomendasi Penggunaan
Cox PH	Hazard Ratio dapat diinterpretasi langsung	Pelaporan regulasi & IFRS 9
RSF	Menangkap non-linearitas; feature importance stabil	Early Warning System
GBS	C-Index & IBS terbaik	Scoring produksi real-time

Temuan Kunci

Periode 0–24 bulan = jendela kritis gagal bayar (slope KM paling tajam)
Checking account status = prediktor terkuat (log-rank, Cox HR, RSF/GBS feature importance)
Credit history critical meningkatkan hazard 2–4× dibanding referensi
GBS menghasilkan C-Index dan IBS terbaik — model scoring yang direkomendasikan
Segmentasi 3-tier (Low/Medium/High Risk) memberikan pemisahan yang jelas dan dapat dioperasionalkan

Nilai Tambah Pendekatan Survival Analysis

Pertanyaan Bisnis	Jawaban yang Diberikan
Kapan gagal bayar paling mungkin?	Kurva KM + hazard function
Berapa PD 12 bulan vs lifetime PD?	H(12) vs H(max) dari Nelson-Aalen
Siapa yang paling berisiko?	Risk score + risk tier segmentation
Seberapa akurat proyeksi portofolio?	Overall predictions RMSE
Berapa cadangan yang dibutuhkan?	Expected Loss = PD × LGD × EAD

Referensi

PySurvival Credit Risk Tutorial: https://square.github.io/pysurvival/tutorials/credit_risk.html
Cox, D.R. (1972). Regression Models and Life-Tables. JRSS Series B, 34(2), 187–202.
Ishwaran, H. et al. (2008). Random Survival Forests. Annals of Applied Statistics, 2(3), 841–860.
Hothorn, T. et al. (2006). Survival Ensembles. Biostatistics, 7(3), 355–373.
Dataset: German Credit (Prof. Dr. Hans Hofmann, UCI ML Repository via PySurvival)
Cox, D. R. (1972). Regression Models and Life-Tables. Journal of the Royal Statistical Society: Series B. Harrell, F. E., et al. (1984). Evaluating the Yield of Medical Tests. JAMA.
Graf, E., Schmoor, C., Sauerbrei, W., & Schumacher, M. (1999). Assessment and comparison of prognostic classification schemes for survival data. Statistics in Medicine.
Ishwaran, H., Kogalur, U. B., Blackstone, E. H., & Lauer, M. S. (2008). Random survival forests. The Annals of Applied Statistics.
Bellotti, T., & Crook, J. (2009/2010/2013/2014). Credit scoring with macroeconomic variables using survival analysis. Journal of the Operational Research Society dan studi lanjutan terkait IFRS 9.
Ferreira, A., et al. (2025). Approaches for modelling the term-structure of default risk under IFRS 9: A tutorial using discrete-time survival analysis. arXiv:2507.15441.
ScienceDirect (2024). Probability of default for lifetime credit loss for IFRS 9 using machine learning competing risks survival analysis models.
MDPI (2026). Modeling the Probability of Default Term Structure Using Different Methodologies Under IFRS 9. Risks Journal.
ResearchGate (2021/2024). Modelling of Credit Risk: Random Forests versus Cox Proportional Hazard Regression; Comprehensive benchmarking study of survival analysis methods (biorXiv 2021.07.11.451967).
MetricGate (2025). Harrell’s C-Index Concordance & Integrated Brier Score Documentation.

Members

Program Studi

Sains Data

Syifa Nurulfajri Rustin

Whirdyana Shalfa Ayubi

Dataset

Row

Complete German Credit Risk Dataset (Survival Analysis Format)

EDA

Column

Loan Amount and Duration Distribution

Default Rate by Categorical Feature

Time-to-Default Distribution

Event vs Censored Analysis

Survival Analysis

Column

Kaplan-Meier Survival Function

Survival Comparison Analysis

Uji Log-Rank (Log-Rank Test)

Estimasi Nelson-Aalen

Hazard Function Analysis

Cumulative Hazard Analysis

Feature Effect Analysis

CoxPH

Column

Summary 60:40

Summary 70:30

Summary 80:20

Significant Hazard Ratios Across Data Splits

Baseline Survival

Predicted Survival

RSF

Column

RSF Top Features Across Splits

RSF Predicted Survival Curves Across Splits

GBS

Column

Feature Importance Comparison

Predicted Survival Curves Across Splits

Evaluasi

Column

Concordance Index (C-Index)

Integrated Brier Score (IBS)

Time-Dependent Brier Score

Overall Predictions

Column

Actual vs Predicted Default Curves

Actual vs Predicted At-Risk Curves

RMSE & MAE Summary Table

Individual Predictions

Column

Individual Survival Predictions Across Models and Splits

Summary

Classification

Column

Evaluation Matrix

ROC Curve

Confussion Matrix

Segmentasi Risiko

Column

Klasifikasi Tingkat Risiko Peminjam

Risk Tier Profile Analysis

Checking Account Distribution by Risk Tier

Credit History Distribution by Risk Tier

Insight

Column

Early Default Detection

Cohort Analysis

Portfolio Survival Analysis

TOP 20 HIGHEST-RISK BORROWERS (by 24-month PD)

Expected Loss vs Loan Amount

Kesimpulan