JAMALLUDIN

25 DESEMBER 2021

1 Credit Risk dan Model Prediksi

1.1 Pendahuluan

Credit risk adalah resiko yang harus ditanggung oleh seorang individu atau lembaga ketika memberikan pinjaman - biasanya dalam bentuk uang - ke individu atau pihak lain.

Resiko ini berupa tidak bisa dibayarkannya pokok dan bunga pinjaman, sehingga mengakibatkan kerugian berikut:

A. gangguan aliran kas (cash flow) sehingga modal kerja terganggu.

B. meningkatkan biaya operasional untuk mengejar pembayaran tersebut (collection).

Untuk memperkecil resiko kredit ini, biasanya dilakukan proses yang disebut dengan credit scoring dan credit rating terhadap pihak peminjam. Hasil proses ini akan menjadi basis untuk menentukan apakah aplikasi pengajuan pinjaman baru diterima atau ditolak.

1.2 Credit Score

Credit score adalah nilai resiko yang diberikan kepada seorang individu atau organisasi yang mengajukan pinjaman berdasarkan rekam jejak pinjaman dan pembayaran yang dilakukan. Proses pemberian credit score ini biasanya disebut sebagai credit scoring.

Perhitungan credit score biasanya dibuat berdasarkan data riwayat lamanya keterlambatan pembayaran dan yang tidak bayar sama sekali (bad debt). Bad debt biasanya mengakibatkan lembaga pemberian kredit harus menyita aset atau melakukan write off. Nilai credit score biasanya bervariasi antar lembaga. Namun banyak yang kemudian mengadopsi model FICO Score yang memiliki rentang nilai 300 - 850. Semakin tinggi nilai yang didapatkan, maka semakin baik tingkat kemampuan seseorang atau sebuah lembaga untuk membayar pinjaman.

Jadi, credit score adalah nilai kemampuan seorang individu atau organisasi untuk melunasi pembayaran berdasarkan rekam jejak historisnya.

1.3 Risk Rating

Kadang banyak lembaga yang menggunakan risk rating atau tingkat resiko. Terbalik dengan credit score, semakin tinggi rating ini menunjukkan resiko yang semakin meningkat.

Selain itu kodifikasi juga dibuat lebih sederhana dibandingkan rentang nilai sehingga keputusan yang bisa diambil lebih cepat. Contoh, misalkan penggunaan kombinasi seperti huruf AAA, AA+, P-1, dan seterusnya. Atau untuk banyak internal lembaga peminjam, kategorisasi hanya menggunakan rentang angka yang kecil misalkan 1 sampai dengan 5.

Kolom risk_rating ini berelasi langsung dengan kolom overdue_average, atau kolom keterlambatan pembayaran.

Jika keterlambatan sampai dengan 30 hari (0 - 30 days) maka diberikan nilai 1. keterlambatan 31 sampai dengan 45 hari (31 - 45 days) maka scoring diberikan nilai 2.dan seterusnya Dari sini juga beberapa kolom juga diambil oleh analis untuk mencari pola keterkaitannya terhadap rating ini, yaitu:

A. pendapatan dalam jutaan per tahun (pendapatan_setahun_juta).

B. durasi pinjaman dalam satuan bulan (durasi_pinjaman_bulan).

C. jumlah tanggungan (jumlah_tanggungan).

D. apakah ada KPR/Kredit Pemilikan Rumah aktif atau tidak (kpr_aktif).

adapaun rekam jejak historis yang digunakan sebagai basis untuk perhitungan credit score dan risk rating yaitu keterlambatan pembyaran pinjaman.

1.4 Analisa dan Model Pengambilan Keputusan

Masih terkait dengan contoh data sebelumnya, dibawah ini diberikan ilustrasi aktivitas tindak lanjut terhadap data dengan contoh skenario berikut.

Seorang analis akan melakukan penelusuran terhadap data sebelumnya untuk mencari pola. Berikut adalah temuannya:

Jika jumlah tanggungan berjumlah lebih dari 4, kecenderungan resikonya sangat tinggi (rating 4 dan 5). Jika durasi pinjaman semakin lama yaitu lebih dari 24 bulan, maka kecenderungan resiko juga meningkat (rating 4 dan 5). Dari kedua temuan ini, analis akan membentuk aturan-aturan untuk menuntun pengambilan keputusan (decision making model) terhadap pengajuan pinjaman baru untuk sebagai berikut:

Jika jumlah tanggungan berjumlah kurang dari 5 orang, dan durasi pinjaman kurang dari 24 bulan maka rating diberikan nilai 2 dan pengajuan pinjaman diterima. Jika jumlah tanggungan berjumlah lebih dari 4 orang dan durasi pinjaman lebih dari 24 bulan maka maka rating diberikan nilai 5 dan pengajuan pinjaman ditolak. Jika jumlah tanggungan berjumlah kurang dari 5, dan durasi pinjaman kurang dari 36 bulan maka maka rating diberikan nilai 3 dan diberikan pinjaman. Nah, tiga aturan itu akan disebut sebagai model untuk memprediksi nilai risk rating dan menjadi basis pengambilan keputusan terhadap aplikasi pinjaman baru.

Dengan model ini, lembaga pinjaman akan semakin cepat mengambil keputusan dan dengan tingkat kesalahan pengambilan keputusan yang lebih minim.

Adapun yang dilakukan oleh analyst dari skenario diatas adalah mencari pola antara credit score dengan variabel lain dan membuat model pengambilan keputusan untuk apliaksi pinjaman baru.

2 Decision Tree

Pemodelan Decision Tree dengan Machine Learning

Dibawah adalah contoh otomatisasi model decision tree dengan menggunakan salah satu algoritma populer di R, yaitu C5.0. Package C5.0 digunakan untuk pengenalan pola dengan pemodelan decision tree dan rule-based. .

library("openxlsx")
library("C50")
summary(modelKu)

Call:
C5.0.default(x = datafeed, y = as.factor(dataCreditRating$risk_rating))


C5.0 [Release 2.07 GPL Edition]     Sat Dec 25 11:42:06 2021
-------------------------------

Class specified by attribute `outcome'

Read 900 cases (4 attributes) from undefined.data

Decision tree:

jumlah_tanggungan > 4:
:...durasi_pinjaman_bulan <= 24: 4 (112/30)
:   durasi_pinjaman_bulan > 24: 5 (140/55)
jumlah_tanggungan <= 4:
:...jumlah_tanggungan > 2: 3 (246/22)
    jumlah_tanggungan <= 2:
    :...durasi_pinjaman_bulan <= 36: 1 (294/86)
        durasi_pinjaman_bulan > 36:
        :...jumlah_tanggungan <= 0: 2 (41/8)
            jumlah_tanggungan > 0: 3 (67/4)


Evaluation on training data (900 cases):

        Decision Tree   
      ----------------  
      Size      Errors  

         6  205(22.8%)   <<


       (a)   (b)   (c)   (d)   (e)    <-classified as
      ----  ----  ----  ----  ----
       208     2     5     6     6    (a): class 1
        86    33    21     6    13    (b): class 2
               4   287                (c): class 3
               2          82    36    (d): class 4
                          18    85    (e): class 5


    Attribute usage:

    100.00% jumlah_tanggungan
     72.67% durasi_pinjaman_bulan


Time: 0.1 secs

Hasil diatas adalah bentuk representasi tree/pohon dalam bentuk teks. Dimana pengecekan akan dimulai dari variabel jumlah_tanggungan. Sebagai contoh, jika jumlah tanggungan lebih dari 4 dan durasi pinjaman sampai dengan maksimal 24 bulan maka rating diberikan nilai 4.

3 Algoritma C5.0

3.1 Apa Itu Algoritma C5.0?

C5.0 adalah kode penamaan suatu algoritma untuk decision tree. Banyak algoritma lain seperti random forest, CART, CHAID, MARS, dan lain-lain. Namun C5.0 adalah algoritma yang sangat populer karena memiliki performa yang sangat baik dari sisi kecepatan maupun akurasi.

Algoritma ini sering dikategorikan sebagai classification, dimana tujuannya adalah untuk mengkategorikan atau mengklasifikan sesuatu - pada contoh risk rating - berdasarkan input dari data-data lain.

3.2 Data Preparation untuk Class Variable

str(dataCreditRating)
'data.frame':   900 obs. of  7 variables:
 $ kode_kontrak           : chr  "AGR-000001" "AGR-000011" "AGR-000030" "AGR-000043" ...
 $ pendapatan_setahun_juta: num  295 271 159 210 165 220 70 88 163 100 ...
 $ kpr_aktif              : chr  "YA" "YA" "TIDAK" "YA" ...
 $ durasi_pinjaman_bulan  : num  48 36 12 12 36 24 36 48 48 36 ...
 $ jumlah_tanggungan      : num  5 5 0 3 0 5 3 3 5 6 ...
 $ rata_rata_overdue      : chr  "61 - 90 days" "61 - 90 days" "0 - 30 days" "46 - 60 days" ...
 $ risk_rating            : Factor w/ 5 levels "1","2","3","4",..: 4 4 1 3 2 1 2 2 2 2 ...

Untuk class variable, yaitu kolom risk_rating ternyata masih dibaca dalam bentuk numerik. Untuk menjadi class variable yang digunakan pada algoritma C5.0, maka perlu dikonversi menjadi factor. Ini bisa dilakukan dengan menggunakan fungsi as.factor() yang disimpan ke dalam variabel yang sudah mengarah ke kolom yang ingin dikonversi.

str(dataCreditRating)
'data.frame':   900 obs. of  7 variables:
 $ kode_kontrak           : chr  "AGR-000001" "AGR-000011" "AGR-000030" "AGR-000043" ...
 $ pendapatan_setahun_juta: num  295 271 159 210 165 220 70 88 163 100 ...
 $ kpr_aktif              : chr  "YA" "YA" "TIDAK" "YA" ...
 $ durasi_pinjaman_bulan  : num  48 36 12 12 36 24 36 48 48 36 ...
 $ jumlah_tanggungan      : num  5 5 0 3 0 5 3 3 5 6 ...
 $ rata_rata_overdue      : chr  "61 - 90 days" "61 - 90 days" "0 - 30 days" "46 - 60 days" ...
 $ risk_rating            : Factor w/ 5 levels "1","2","3","4",..: 4 4 1 3 2 1 2 2 2 2 ...

Maka kolom risk_rating sudah bertipe data factor dan class variabel sudah terbentuk.

3.3 Data Preparation untuk Input Variables

Tidak semua input variabel yang perlu akan gunakan, apalagi yang sangat berkaitan sangat erat dengan risk_rating, yaitu rata_rata_overdue. Input variabel ini akan dibuang. Proses ini disebut sebagai feature selection.

Karena menggunakan data frame sebagai tipe data input untuk C5.0, maka fields/kolom-kolom yang ingin digunakan bisa dimasukkan sebagai vector sebagai filter.

str(datafeed)
'data.frame':   900 obs. of  2 variables:
 $ durasi_pinjaman_bulan: num  48 36 12 12 36 24 36 48 48 36 ...
 $ jumlah_tanggungan    : num  5 5 0 3 0 5 3 3 5 6 ...

Catatan: kode_kontrak harusnya tidak dipilih karena unik untuk keseluruhan data, dan tidak menjadi penentu untuk membentuk pola. Tetapi ini dimasukkan dengan tujuan untuk menunjukkan C5.0 memiliki kemampuan untuk membuang variabel input yang tidak relevan secara otomatis.

3.4 Traning Set dan Testing Set

Untuk proses pembentukan model machine learning dan melihat akurasinya, biasanya dataset perlu dibagi menjadi dua, yaitu:

Training set: adalah porsi dataset yang digunakan oleh algoritma untuk dianalisa dan menjadi input untuk pembentukan model. Testing set: adalah porsi dataset yang tidak digunakan untuk membentuk model, tapi untuk menguji model yang telah dibentuk. Pembentukan ini biasanya menggunakan metode pemilihan acak.

Training dan testing set akan mengambil dari variabel data frame bernama datafeed yang telah dipersiapkan sebelumnya. Jumlah baris dataset adalah 900, dimana akan mengambil 800 baris secara acak sebagai training set dan sisa 100 sebagai testing set.

Dimana:

set.seed(100) adalah perintah untuk menyeragamkan pengambilan bilangan acak di seluruh aplikasi R. sample(900, 800) adalah membuat urutan acak dengan rentang nilai 1 sampai dengan 900, tetapi diambil sebanyak 800 nilai.

Dimana:

input_training_set akan diisi dari data frame datafeed dengan jumlah indeksnya yang terdapat pada variabel indeks_training_set.

class_training_set akan diisi dari data frame dataCreditRating dengan indeks yang isinya terdapat pada variabel indeks_training_set.

input_testing_set akan diisi datafeed dengan indeks yang isinya ‘tidak ada’ di indeks_training_set - perhatikan tanda minus yang ada di depan variabel indeks_training_set.

str(input_training_set)
'data.frame':   800 obs. of  2 variables:
 $ durasi_pinjaman_bulan: num  36 24 36 36 36 24 12 48 48 12 ...
 $ jumlah_tanggungan    : num  1 1 5 1 5 3 3 3 0 0 ...
str(class_training_set)
 Factor w/ 5 levels "1","2","3","4",..: 1 1 4 1 5 3 3 3 2 1 ...
str(input_testing_set)
'data.frame':   100 obs. of  2 variables:
 $ durasi_pinjaman_bulan: num  12 36 48 36 48 48 12 12 12 12 ...
 $ jumlah_tanggungan    : num  0 0 3 3 6 5 0 0 0 4 ...

3.5 Mengahasilkan Model dengan Fungsi C5.0

Fungsi C5.0 mengambil beberapa argumen didalamnya. Contohnya C5.0(x, y, trials = …, …). Baca selengkapnya di sini. Namun tidak semua argumen akan digunakan. Atau agar lebih mudah rumus fungsi C5.0 dalam kasus ini yaitu C5.0(input_variables, class_variables).

Dari variabel sebelumnya, hanya butuh argumen x dan y.

Dimana x dan y di fungsi C5.0:

x: sebuah data frame atau matiks untuk prediksi. y: sebuah faktor yang memiliki 2 level atau lebih. Maksud level disini yaitu banyaknya jumlah data di dalam data frame atau kolom bertipe data factor. Dengan menggunakan dataset yang sudah disiapkan maka perintah untuk membentuk model dengan fungsi C5.0 dan sekaligus menyimpannya dalam satu variabel bernama risk_rating_model adalah sebagai berikut:

summary(risk_rating_model)

Call:
C5.0.default(x = input_training_set, y = class_training_set)


C5.0 [Release 2.07 GPL Edition]     Sat Dec 25 11:43:00 2021
-------------------------------

Class specified by attribute `outcome'

Read 800 cases (3 attributes) from undefined.data

Decision tree:

jumlah_tanggungan > 4:
:...durasi_pinjaman_bulan <= 24: 4 (105/30)
:   durasi_pinjaman_bulan > 24: 5 (120/51)
jumlah_tanggungan <= 4:
:...jumlah_tanggungan > 2: 3 (216/20)
    jumlah_tanggungan <= 2:
    :...durasi_pinjaman_bulan <= 36: 1 (264/80)
        durasi_pinjaman_bulan > 36:
        :...jumlah_tanggungan <= 0: 2 (37/7)
            jumlah_tanggungan > 0: 3 (58/4)


Evaluation on training data (800 cases):

        Decision Tree   
      ----------------  
      Size      Errors  

         6  192(24.0%)   <<


       (a)   (b)   (c)   (d)   (e)    <-classified as
      ----  ----  ----  ----  ----
       184     2     5     6     6    (a): class 1
        80    30    19     6    11    (b): class 2
               3   250                (c): class 3
               2          75    34    (d): class 4
                          18    69    (e): class 5


    Attribute usage:

    100.00% jumlah_tanggungan
     73.00% durasi_pinjaman_bulan


Time: 0.0 secs

Output tersebut menceritakan tingkat pentingnya penggunaan tiap variabel. Disini jumlah_tanggungan menempati urutan pertama dengan nilai 100% dan durasi_pinjaman dengan 73.00%.

3.6 Visualisasi dari Model C5.0

Selain model teks dari output sebelumnya, bisa juga menghasilkan decision tree dalam bentuk grafik.

4 Evaluasi Model

4.1 Pendahuluan

Confusion Matrix yang terdapat pada output model sebelumnya adalah evaluasi model menggunakan training set. Namun, perlu mengevaluasi model ini terhadap testing set yang telah disiapkan.

4.2 Menggunakan Fungsi Predict

Package C50 memiliki fungsi bernama predict, yang bisa digunakan untuk melakukan prediksi berdasarkan input model dan data test. Fungsi lengkapnya terlihat sebagai berikut.

predict(risk_rating_model, input_testing_set)
  [1] 1 1 3 3 5 5 1 1 1 3 1 2 1 1 3 3 1 3 3 3 3 3 1 5 1 1 3 1 3 5 1 1 2 1 5 1 1 5 3 3 3 3 4 3 3 1
 [47] 3 5 2 3 2 5 3 5 1 5 4 5 3 4 1 3 4 4 3 5 5 5 3 1 1 1 1 3 5 1 4 5 3 1 3 3 3 3 3 1 3 3 5 4 5 3
 [93] 3 3 1 1 5 5 3 3
Levels: 1 2 3 4 5

Terlihat hasil prediksi semua sesuai dengan posisi baris data dari testing set. Dan ini juga sesuai dengan rentang nilai risk_rating, yaitu 1 sampai dengan 5.

Model dan data frame dengan input variables adalah yang diperlukan oleh fungsi predict.

4.3 Menggabungkan Hasil Prediksi

Seperti diinformasikan pada subbab sebelumnya, bagaimana cara menyimpan risk_rating dari dataset awal dan hasil prediksi ini ke dalam dua kolom nama yang lain di data frame input_testing_set. Mari namakan kolom tersebut dengan risk_rating dan hasil_prediksi.

Dengan kolom risk_rating dan hasil_prediksi bersampingan, disini bisa langsung bandingkan data awal dengan hasil prediksi. Terlihat ada rating yang sama (prediksi benar) dan berbeda (prediksi salah). Lalu selanjunya akan dievaluasi tingkat akurasi dari kedua kolom ini dengan menghasilkan confusion matrix pada bagian selanjutnya.

4.4 Membuat Tabel Confusion Matrix

Setelah hasil prediksi terhadap testing set selesai, langkah berikutnya coba lihat distribusi mana yang terprediksi dengan benar dan salah. Ini dilakukan dengan confusion matrix.

dcast(hasil_prediksi ~ risk_rating, data=input_testing_set)
Using hasil_prediksi as value column: use value.var to override.
Aggregation function missing: defaulting to length

Diagonal yang angka 24, 3, 37, 7, dan 16 menunjukkan jumlah data yang terprediksi dengan benar, dan sisa angka lainnya menunjukkan data yang salah terprediksi.

Sekilas terlihat jumlah yang terprediksi dengan benar jauh lebih besar porsinya dibandingkan yang salah. Namun untuk yang 4 dan 5 ada sedikit catatan dimana prediksi 5 itu kadang jatuh ke 4. Namun ini bisa diabaikan, karena 4 dan 5 memang beresiko tinggi.

4.5 Jumlah Data dengan Prediksi Benar

Untuk menghitung persentase error, bisa menghitung terlebih dahulu jumlah data dengan prediksi yang benar. Hasil dikatakan benar jika data risk_rating sama dengan hasil_prediksi.

input_testing_set$risk_rating == input_testing_set$hasil_prediksi
  [1]  TRUE FALSE FALSE FALSE FALSE FALSE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE FALSE  TRUE
 [16]  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE FALSE  TRUE  TRUE  TRUE FALSE  TRUE  TRUE
 [31]  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE FALSE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE
 [46]  TRUE  TRUE  TRUE  TRUE  TRUE FALSE FALSE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE
 [61]  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE FALSE  TRUE  TRUE  TRUE  TRUE  TRUE
 [76]  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE
 [91]  TRUE  TRUE  TRUE  TRUE  TRUE FALSE  TRUE  TRUE  TRUE  TRUE

Ini artinya kalau TRUE maka data pada posisi tersebut prediksinya benar dan FALSE untuk sebaliknya. Namun ini masih belum dalam bentuk yang diinginkan. Masih perlu beberapa tambahan perintah tersebut untuk mengeluarkan persentase prediksi yang tepat.

Langkah berikutnya, adalah filtering/menyaring data frame tersebut dengan hasil tadi dengan perintah berikut.

Terlihat semua hasil filtering memiliki nilai yang sama untuk kolom risk_rating dan hasil_prediksi. Kemudian akan dihitung jumlah baris filtering ini dengan menambahkan fungsi nrow terhadap perintah di atas.

nrow(input_testing_set[input_testing_set$risk_rating == input_testing_set$hasil_prediksi, ])
[1] 87

Angka 87 ini menunjukkan jumlah data dengan prediksi yang benar terhadap testing set. Karena testing set berjumlah 100, maka persentase prediksi yang benar adalah 87%, dan error rate atau persentase yang salah adalah 13%.

Mari cek kembali hasil tersebut dengan menjumlahkan posisi diagonal pada confusion matrix yang telah dibuat sebelumnya.

dcast(hasil_prediksi ~ risk_rating, data=input_testing_set)
Using hasil_prediksi as value column: use value.var to override.
Aggregation function missing: defaulting to length

Hasilnya juga 87 yang merupakan hasil dari operasi penjumlah 24 + 3 + 37 + 7 + 16.

4.6 Jumlah Data dengan Prediksi Salah

Bagaimana kalau hanya ingin mencari yang tidak sama, dengan kata lain mencari yang salah prediksinya?

nrow(input_testing_set[input_testing_set$risk_rating != input_testing_set$hasil_prediksi,])
[1] 13

Terlihat bahwa jumlah prediksi error ada 13. Hasil ini konsisten jika dibandingkan dengan jumlah 87 dari prediksi yang benar, dimana total keduanya adalah 100 - yang merupakan jumlah data untuk testing set.

4.7 Kesimpulan

menjadi bagian yang sangat penting yaitu untuk pertama kalinya melakukan prediksi dengan function predict terhadap porsi data testing set.

Tujuannya adalah mengukur akurasi dari hasil prediksi dengan data awal. Ini digunakan dengan menggunakan confusion matrix juga dan menghitung jumlah prediksi data yang benar dan salah secara agak “manual”. Pendekatan terakhir adalah membandingkan data awal dan hasil prediksi di data frame dengan operator ==, !=, dan nrow.

Dengan tingkat error 13%, dan walaupun ada catatan untuk klasifikasi 4 dan 5, namun secara garis besar bisa anggap model ini cukup baik. Dan dengan keputusan ini, saatnya mengadopsi model ini untuk melakukan prediksi per data aplikasi kredit baru yang masuk.

5 Menggunakan Model untuk Prediksi

Tahap terakhir setelah melakukan evaluasi dan yakin akan akurasinya, model akan digunakan dalam keseharian untuk melakukan prediksi risk rating dari data baru.

5.1 Mempersiapkan Data Pengajuan Baru

Data pengajuan baru perlu dibentuk sebagai satu data frame dengan input dimana nama-nama variabel yang digunakan harus sama persis. Dari awal pemodelan, sudah menggunakan dua variabel yakni:

jumlah_tanggungan

durasi_pinjaman_bulan

Keduanya dalam bentuk numerik (angka)

Data frame ini akan digunakan sebagai input untuk prediksi

5.2 Melakukan Prediksi terhadap Data Pengajuan Baru

Data aplikasi baru yang telah dibuat sebelumnya akan diprediksi nilai risk_rating nya dengan fungsi predict, dimana cara penggunaannya masih sama.

Maka penyesuaian perintah di atas dengan nama model dan variabel yang digunakan, adalah variabel risk_rating_model sebagai model dan aplikasi_baru sebagai data frame yang akan di prediksi.

predict(risk_rating_model, aplikasi_baru)
[1] 4
Levels: 1 2 3 4 5

Ini artinya hasil prediksi risk_rating untuk aplikasi baru ini adalah 4, dari kemungkinan 1, 2, 3, 4 dan 5. Nilai 4 ini adalah nilai resiko yang cukup tinggi, jadi bisa saja aplikasi baru ini ditolak sesuai dengan kebijakan lembaga peminjam.

5.3 Merubah Durasi Pinjaman

Sekarang dicoba memprediksi dari data yang tidak ada dari data set yang dijadikan model.

Mari coba ganti durasi pinjaman selama 64 bulan.

predict(risk_rating_model, aplikasi_baru)
[1] 5
Levels: 1 2 3 4 5

Ini artinya hasil prediksi risk_rating untuk aplikasi baru ini adalah 5, dari kemungkinan 1, 2, 3, 4 dan 5. Nilai 5 ini adalah nilai resiko yang sangat tinggi dikarenakan durasi peminjaman tidak termasuk dalam data yang di lakukan model.

---
title: "CREDIT RISK ANALYSIS"
output: html_notebook
---

JAMALLUDIN 

25 DESEMBER 2021 



# 1 Credit Risk dan Model Prediksi

# 1.1 Pendahuluan

Credit risk adalah resiko yang harus ditanggung oleh seorang individu atau lembaga ketika memberikan pinjaman - biasanya dalam bentuk uang - ke individu atau pihak lain.

Resiko ini berupa tidak bisa dibayarkannya pokok dan bunga pinjaman, sehingga mengakibatkan kerugian berikut:

A. gangguan aliran kas (cash flow) sehingga modal kerja terganggu.

B. meningkatkan biaya operasional untuk mengejar pembayaran tersebut (collection).

Untuk memperkecil resiko kredit ini, biasanya dilakukan proses yang disebut dengan credit scoring dan credit rating terhadap pihak peminjam. Hasil proses ini akan menjadi basis untuk menentukan apakah aplikasi pengajuan pinjaman baru diterima atau ditolak.

# 1.2 Credit Score

Credit score adalah nilai resiko yang diberikan kepada seorang individu atau organisasi yang mengajukan pinjaman berdasarkan rekam jejak pinjaman dan pembayaran yang dilakukan. Proses pemberian credit score ini biasanya disebut sebagai credit scoring.

Perhitungan credit score biasanya dibuat berdasarkan data riwayat lamanya keterlambatan pembayaran dan yang tidak bayar sama sekali (bad debt). Bad debt biasanya mengakibatkan lembaga pemberian kredit harus menyita aset atau melakukan write off. Nilai credit score biasanya bervariasi antar lembaga. Namun banyak yang kemudian mengadopsi model FICO Score yang memiliki rentang nilai 300 - 850. Semakin tinggi nilai yang didapatkan, maka semakin baik tingkat kemampuan seseorang atau sebuah lembaga untuk membayar pinjaman.

Jadi, credit score adalah nilai kemampuan seorang individu atau organisasi untuk melunasi pembayaran berdasarkan rekam jejak historisnya.


# 1.3 Risk Rating

Kadang banyak lembaga yang menggunakan risk rating atau tingkat resiko. Terbalik dengan credit score, semakin tinggi rating ini menunjukkan resiko yang semakin meningkat.

Selain itu kodifikasi juga dibuat lebih sederhana dibandingkan rentang nilai sehingga keputusan yang bisa diambil lebih cepat. Contoh, misalkan penggunaan kombinasi seperti huruf AAA, AA+, P-1, dan seterusnya. Atau untuk banyak internal lembaga peminjam, kategorisasi hanya menggunakan rentang angka yang kecil misalkan 1 sampai dengan 5.



Kolom risk_rating ini berelasi langsung dengan kolom overdue_average, atau kolom keterlambatan pembayaran.

Jika keterlambatan sampai dengan 30 hari (0 - 30 days) maka diberikan nilai 1.
keterlambatan 31 sampai dengan 45 hari (31 - 45 days) maka scoring diberikan nilai 2.dan seterusnya Dari sini juga beberapa kolom juga diambil oleh analis untuk mencari pola keterkaitannya terhadap rating ini, yaitu:

A. pendapatan dalam jutaan per tahun (pendapatan_setahun_juta).

B. durasi pinjaman dalam satuan bulan (durasi_pinjaman_bulan).

C. jumlah tanggungan (jumlah_tanggungan).

D. apakah ada KPR/Kredit Pemilikan Rumah aktif atau tidak (kpr_aktif).

adapaun rekam jejak historis yang digunakan sebagai basis untuk perhitungan credit score dan risk rating yaitu keterlambatan pembyaran pinjaman.

# 1.4 Analisa dan Model Pengambilan Keputusan

Masih terkait dengan contoh data sebelumnya, dibawah ini diberikan ilustrasi aktivitas tindak lanjut terhadap data dengan contoh skenario berikut.

Seorang analis akan melakukan penelusuran terhadap data sebelumnya untuk mencari pola. Berikut adalah temuannya:

Jika jumlah tanggungan berjumlah lebih dari 4, kecenderungan resikonya sangat tinggi (rating 4 dan 5).
Jika durasi pinjaman semakin lama yaitu lebih dari 24 bulan, maka kecenderungan resiko juga meningkat (rating 4 dan 5).
Dari kedua temuan ini, analis akan membentuk aturan-aturan untuk menuntun pengambilan keputusan (decision making model) terhadap pengajuan pinjaman baru untuk sebagai berikut:

Jika jumlah tanggungan berjumlah kurang dari 5 orang, dan durasi pinjaman kurang dari 24 bulan maka rating diberikan nilai 2 dan pengajuan pinjaman diterima.
Jika jumlah tanggungan berjumlah lebih dari 4 orang dan durasi pinjaman lebih dari 24 bulan maka maka rating diberikan nilai 5 dan pengajuan pinjaman ditolak.
Jika jumlah tanggungan berjumlah kurang dari 5, dan durasi pinjaman kurang dari 36 bulan maka maka rating diberikan nilai 3 dan diberikan pinjaman.
Nah, tiga aturan itu akan disebut sebagai model untuk memprediksi nilai risk rating dan menjadi basis pengambilan keputusan terhadap aplikasi pinjaman baru.

Dengan model ini, lembaga pinjaman akan semakin cepat mengambil keputusan dan dengan tingkat kesalahan pengambilan keputusan yang lebih minim.

Adapun yang dilakukan oleh analyst dari skenario diatas adalah mencari pola antara credit score dengan variabel lain dan membuat model pengambilan keputusan untuk apliaksi pinjaman baru.


# 2 Decision Tree

Pemodelan Decision Tree dengan Machine Learning

Dibawah adalah contoh otomatisasi model decision tree dengan menggunakan salah satu algoritma populer di R, yaitu C5.0. Package C5.0 digunakan untuk pengenalan pola dengan pemodelan decision tree dan rule-based. .

```{r}
library("openxlsx")
library("C50")

```


```{r}
# Mempersiapkan data

dataCreditRating <- read.xlsx(xlsxFile = "credit_scoring_dqlab.xlsx")

dataCreditRating$risk_rating <- as.factor(dataCreditRating$risk_rating) 

head(dataCreditRating)
```


```{r}
# Menggunakan C5.0

drop_columns <- c("kpr_aktif", "pendapatan_setahun_juta", "risk_rating", "rata_rata_overdue")

datafeed <- dataCreditRating[ , !(names(dataCreditRating) %in% drop_columns)]

modelKu <- C5.0(datafeed, as.factor(dataCreditRating$risk_rating))

summary(modelKu)
```

Hasil diatas adalah bentuk representasi tree/pohon dalam bentuk teks. Dimana pengecekan akan dimulai dari variabel jumlah_tanggungan. Sebagai contoh, jika jumlah tanggungan lebih dari 4 dan durasi pinjaman sampai dengan maksimal 24 bulan maka rating diberikan nilai 4.

# 3 Algoritma C5.0

3.1 Apa Itu Algoritma C5.0?

C5.0 adalah kode penamaan suatu algoritma untuk decision tree. Banyak algoritma lain seperti random forest, CART, CHAID, MARS, dan lain-lain. Namun C5.0 adalah algoritma yang sangat populer karena memiliki performa yang sangat baik dari sisi kecepatan maupun akurasi.

Algoritma ini sering dikategorikan sebagai classification, dimana tujuannya adalah untuk mengkategorikan atau mengklasifikan sesuatu - pada contoh risk rating - berdasarkan input dari data-data lain.

3.2 Data Preparation untuk Class Variable

```{r}
str(dataCreditRating)
```

Untuk class variable, yaitu kolom risk_rating ternyata masih dibaca dalam bentuk numerik. Untuk menjadi class variable yang digunakan pada algoritma C5.0, maka perlu dikonversi menjadi factor. Ini bisa dilakukan dengan menggunakan fungsi as.factor() yang disimpan ke dalam variabel yang sudah mengarah ke kolom yang ingin dikonversi.

```{r}
dataCreditRating$risk_rating <- as.factor(dataCreditRating$risk_rating)
str(dataCreditRating)
```

Maka kolom risk_rating sudah bertipe data factor dan class variabel sudah terbentuk.


3.3 Data Preparation untuk Input Variables

Tidak semua input variabel yang perlu akan gunakan, apalagi yang sangat berkaitan sangat erat dengan risk_rating, yaitu rata_rata_overdue. Input variabel ini akan dibuang. Proses ini disebut sebagai feature selection.

Karena menggunakan data frame sebagai tipe data input untuk C5.0, maka fields/kolom-kolom yang ingin digunakan bisa dimasukkan sebagai vector sebagai filter.

```{r}
# Menghilangkan beberapa variable input dari dataset 

input_columns <- c("durasi_pinjaman_bulan", "jumlah_tanggungan")
datafeed <- dataCreditRating[ , input_columns ]

str(datafeed)
```

Catatan: kode_kontrak harusnya tidak dipilih karena unik untuk keseluruhan data, dan tidak menjadi penentu untuk membentuk pola. Tetapi ini dimasukkan dengan tujuan untuk menunjukkan C5.0 memiliki kemampuan untuk membuang variabel input yang tidak relevan secara otomatis.

3.4 Traning Set dan Testing Set

Untuk proses pembentukan model machine learning dan melihat akurasinya, biasanya dataset perlu dibagi menjadi dua, yaitu:

Training set: adalah porsi dataset yang digunakan oleh algoritma untuk dianalisa dan menjadi input untuk pembentukan model.
Testing set: adalah porsi dataset yang tidak digunakan untuk membentuk model, tapi untuk menguji model yang telah dibentuk.
Pembentukan ini biasanya menggunakan metode pemilihan acak.

Training dan testing set akan mengambil dari variabel data frame bernama datafeed yang telah dipersiapkan sebelumnya. Jumlah baris dataset adalah 900, dimana akan mengambil 800 baris secara acak sebagai training set dan sisa 100 sebagai testing set.

```{r}

# Mempersiapkan porsi index acak untuk training dan testing set

set.seed(100)
indeks_training_set <- sample(900, 800)
```

Dimana:

set.seed(100) adalah perintah untuk menyeragamkan pengambilan bilangan acak di seluruh aplikasi R.
sample(900, 800) adalah membuat urutan acak dengan rentang nilai 1 sampai dengan 900, tetapi diambil sebanyak 800 nilai.

```{r}
# Membuat dan menampilkan training set dan testing set

input_training_set <- datafeed[indeks_training_set,]
class_training_set <- dataCreditRating[indeks_training_set,]$risk_rating
input_testing_set <- datafeed[-indeks_training_set,]
```

Dimana:

input_training_set akan diisi dari data frame datafeed dengan jumlah indeksnya yang terdapat pada variabel indeks_training_set.

class_training_set akan diisi dari data frame dataCreditRating dengan indeks yang isinya terdapat pada variabel indeks_training_set.

input_testing_set akan diisi datafeed dengan indeks yang isinya ‘tidak ada’ di indeks_training_set - perhatikan tanda minus yang ada di depan variabel indeks_training_set.

```{r}
str(input_training_set)
```

```{r}
str(class_training_set)
```

```{r}
str(input_testing_set)
```

3.5 Mengahasilkan Model dengan Fungsi C5.0

Fungsi C5.0 mengambil beberapa argumen didalamnya. Contohnya C5.0(x, y, trials = …, …). Baca selengkapnya di sini. Namun tidak semua argumen akan digunakan. Atau agar lebih mudah rumus fungsi C5.0 dalam kasus ini yaitu C5.0(input_variables, class_variables).

Dari variabel sebelumnya, hanya butuh argumen x dan y.

Dimana x dan y di fungsi C5.0:

x: sebuah data frame atau matiks untuk prediksi.
y: sebuah faktor yang memiliki 2 level atau lebih. Maksud level disini yaitu banyaknya jumlah data di dalam data frame atau kolom bertipe data factor. 
Dengan menggunakan dataset yang sudah disiapkan maka perintah untuk membentuk model dengan fungsi C5.0 dan sekaligus menyimpannya dalam satu variabel bernama risk_rating_model adalah sebagai berikut:

```{r}
risk_rating_model <- C5.0(input_training_set, class_training_set)

# Melihat overview dari model diatas

summary(risk_rating_model)
```

Output tersebut menceritakan tingkat pentingnya penggunaan tiap variabel. Disini jumlah_tanggungan menempati urutan pertama dengan nilai 100% dan durasi_pinjaman dengan 73.00%.

3.6 Visualisasi dari Model C5.0

Selain model teks dari output sebelumnya, bisa juga menghasilkan decision tree dalam bentuk grafik. 

```{r}
risk_rating_model <- C5.0(input_training_set, class_training_set)

# Visualisasi model
plot(risk_rating_model)
```

# 4 Evaluasi Model

4.1 Pendahuluan

Confusion Matrix yang terdapat pada output model sebelumnya adalah evaluasi model menggunakan training set. Namun, perlu mengevaluasi model ini terhadap testing set yang telah disiapkan.

4.2 Menggunakan Fungsi Predict

Package C50 memiliki fungsi bernama predict, yang bisa digunakan untuk melakukan prediksi berdasarkan input model dan data test. Fungsi lengkapnya terlihat sebagai berikut.

```{r}
predict(risk_rating_model, input_testing_set)
```

Terlihat hasil prediksi semua sesuai dengan posisi baris data dari testing set. Dan ini juga sesuai dengan rentang nilai risk_rating, yaitu 1 sampai dengan 5.

Model dan data frame dengan input variables adalah yang diperlukan oleh fungsi predict.

4.3 Menggabungkan Hasil Prediksi

Seperti diinformasikan pada subbab sebelumnya, bagaimana cara menyimpan risk_rating dari dataset awal dan hasil prediksi ini ke dalam dua kolom nama yang lain di data frame input_testing_set. Mari namakan kolom tersebut dengan risk_rating dan hasil_prediksi.

```{r}
input_testing_set$risk_rating <- dataCreditRating[-indeks_training_set, ]$risk_rating

input_testing_set$hasil_prediksi <- predict(risk_rating_model, input_testing_set)

input_testing_set
```

Dengan kolom risk_rating dan hasil_prediksi bersampingan, disini bisa langsung bandingkan data awal dengan hasil prediksi. Terlihat ada rating yang sama (prediksi benar) dan berbeda (prediksi salah). Lalu selanjunya akan dievaluasi tingkat akurasi dari kedua kolom ini dengan menghasilkan confusion matrix pada bagian selanjutnya.


4.4 Membuat Tabel Confusion Matrix

Setelah hasil prediksi terhadap testing set selesai, langkah berikutnya coba lihat distribusi mana yang terprediksi dengan benar dan salah. Ini dilakukan dengan confusion matrix.

```{r}
dcast(hasil_prediksi ~ risk_rating, data=input_testing_set)
```

Diagonal yang angka 24, 3, 37, 7, dan 16 menunjukkan jumlah data yang terprediksi dengan benar, dan sisa angka lainnya menunjukkan data yang salah terprediksi.

Sekilas terlihat jumlah yang terprediksi dengan benar jauh lebih besar porsinya dibandingkan yang salah. Namun untuk yang 4 dan 5 ada sedikit catatan dimana prediksi 5 itu kadang jatuh ke 4. Namun ini bisa diabaikan, karena 4 dan 5 memang beresiko tinggi.

4.5 Jumlah Data dengan Prediksi Benar

Untuk menghitung persentase error, bisa menghitung terlebih dahulu jumlah data dengan prediksi yang benar. Hasil dikatakan benar jika data risk_rating sama dengan hasil_prediksi.

```{r}
input_testing_set$risk_rating == input_testing_set$hasil_prediksi
```

Ini artinya kalau TRUE maka data pada posisi tersebut prediksinya benar dan FALSE untuk sebaliknya. Namun ini masih belum dalam bentuk yang diinginkan. Masih perlu beberapa tambahan perintah tersebut untuk mengeluarkan persentase prediksi yang tepat.

Langkah berikutnya, adalah filtering/menyaring data frame tersebut dengan hasil tadi dengan perintah berikut.

```{r}
input_testing_set[input_testing_set$risk_rating == input_testing_set$hasil_prediksi, ]
```

Terlihat semua hasil filtering memiliki nilai yang sama untuk kolom risk_rating dan hasil_prediksi. Kemudian akan dihitung jumlah baris filtering ini dengan menambahkan fungsi nrow terhadap perintah di atas.

```{r}
nrow(input_testing_set[input_testing_set$risk_rating == input_testing_set$hasil_prediksi, ])
```

Angka 87 ini menunjukkan jumlah data dengan prediksi yang benar terhadap testing set. Karena testing set berjumlah 100, maka persentase prediksi yang benar adalah 87%, dan error rate atau persentase yang salah adalah 13%.

Mari cek kembali hasil tersebut dengan menjumlahkan posisi diagonal pada confusion matrix yang telah dibuat sebelumnya.

```{r}
dcast(hasil_prediksi ~ risk_rating, data=input_testing_set)
```

Hasilnya juga 87 yang merupakan hasil dari operasi penjumlah 24 + 3 + 37 + 7 + 16.

4.6 Jumlah Data dengan Prediksi Salah

Bagaimana kalau hanya ingin mencari yang tidak sama, dengan kata lain mencari yang salah prediksinya?

```{r}
nrow(input_testing_set[input_testing_set$risk_rating != input_testing_set$hasil_prediksi,])
```

Terlihat bahwa jumlah prediksi error ada 13. Hasil ini konsisten jika dibandingkan dengan jumlah 87 dari prediksi yang benar, dimana total keduanya adalah 100 - yang merupakan jumlah data untuk testing set.

4.7 Kesimpulan

menjadi bagian yang sangat penting yaitu untuk pertama kalinya melakukan prediksi dengan function predict terhadap porsi data testing set.

Tujuannya adalah mengukur akurasi dari hasil prediksi dengan data awal. Ini digunakan dengan menggunakan confusion matrix juga dan menghitung jumlah prediksi data yang benar dan salah secara agak “manual”. Pendekatan terakhir adalah membandingkan data awal dan hasil prediksi di data frame dengan operator ==, !=, dan nrow.

Dengan tingkat error 13%, dan walaupun ada catatan untuk klasifikasi 4 dan 5, namun secara garis besar bisa anggap model ini cukup baik. Dan dengan keputusan ini, saatnya mengadopsi model ini untuk melakukan prediksi per data aplikasi kredit baru yang masuk.


# 5 Menggunakan Model untuk Prediksi

Tahap terakhir setelah melakukan evaluasi dan yakin akan akurasinya, model akan digunakan dalam keseharian untuk melakukan prediksi risk rating dari data baru.

5.1 Mempersiapkan Data Pengajuan Baru

Data pengajuan baru perlu dibentuk sebagai satu data frame dengan input dimana nama-nama variabel yang digunakan harus sama persis. Dari awal pemodelan, sudah menggunakan dua variabel yakni:

jumlah_tanggungan

durasi_pinjaman_bulan

Keduanya dalam bentuk numerik (angka)

```{r}
aplikasi_baru <- data.frame(jumlah_tanggungan = 6, durasi_pinjaman_bulan = 12)

print(aplikasi_baru)
```


Data frame ini akan digunakan sebagai input untuk prediksi

5.2 Melakukan Prediksi terhadap Data Pengajuan Baru

Data aplikasi baru yang telah dibuat sebelumnya akan diprediksi nilai risk_rating nya dengan fungsi predict, dimana cara penggunaannya masih sama.

Maka penyesuaian perintah di atas dengan nama model dan variabel yang digunakan, adalah variabel risk_rating_model sebagai model dan aplikasi_baru sebagai data frame yang akan di prediksi.

```{r}
# Membuat data frame aplikasi baru

aplikasi_baru <- data.frame(jumlah_tanggungan = 6, durasi_pinjaman_bulan = 12)

# Melakukan prediksi

predict(risk_rating_model, aplikasi_baru)
```

Ini artinya hasil prediksi risk_rating untuk aplikasi baru ini adalah 4, dari kemungkinan 1, 2, 3, 4 dan 5. Nilai 4 ini adalah nilai resiko yang cukup tinggi, jadi bisa saja aplikasi baru ini ditolak sesuai dengan kebijakan lembaga peminjam.

5.3 Merubah Durasi Pinjaman

Sekarang dicoba memprediksi dari data yang tidak ada dari data set yang dijadikan model.

Mari coba ganti durasi pinjaman selama 64 bulan.

```{r}
# Membuat data frame aplikasi baru

aplikasi_baru <- data.frame(jumlah_tanggungan = 6, durasi_pinjaman_bulan = 64)

# Melakukan prediksi

predict(risk_rating_model, aplikasi_baru)
```

Ini artinya hasil prediksi risk_rating untuk aplikasi baru ini adalah 5, dari kemungkinan 1, 2, 3, 4 dan 5. Nilai 5 ini adalah nilai resiko yang sangat tinggi dikarenakan durasi peminjaman tidak termasuk dalam data yang di lakukan model.