Introduction

Xếp hạng tín dụng (Credit Scoring / Scocard Modelling) đóng một vai trò quan trọng đối với lợi nhuận và phát triển bền vững của ngân hàng nói riêng cũng như các tổ chức tài chính khác. Hiện nay cách tiếp cận theo phương pháp học máy (Machine Learning) đã chứng tỏ nhiều ưu thế về mức độ chính xác cũng như tin cậy so với một số mô hình phân loại theo phương pháp thống kê truyền thống.

Sự kiện cuộc khủng hoảng tài chính dẫn đến sự sụp đổ của một loạt các định chế tài chính nói chung và ngân hàng nói riêng đã thức tỉnh các tổ chức này chú trọng hơn đến vai trò của thẩm định tín dụng trong hoạt động của mình. Hầu hết lợi nhuận của các ngân hàng đến từ hoạt động cấp tín dụng và cho vay. Cấp tín dụng là một trong những hoạt động tạo ra một tỉ trọng lớn về doanh thu và lợi nhuận cho ngân hàng nhưng cũng tiềm ẩn rất nhiều rủi ro (Zakrzewska, 2007). Rủi ro chính của ngân hàng là khả năng khách hàng không có khả năng hoàn trả lại khoản vay mà ngân hàng đã cấp. Mặt khác, quyết định có hay không cung cấp một khoản vay cho khách hàng thường phụ thuộc nhiều vào trình độ cũng như kinh nghiệm của cán nhân viên thẩm định tín dụng (Thomas, 2000). Ngoài ra, căn cứ để cấp tín dụng cho một khách hàng còn căn cứ vào một số tiêu chí xếp hạng mà một số trong số đó là rất khó đo lường, hoặc khó có thể đo lường chính xác. Chẳng hạn tiêu chuẩn 5C khi cấp tín dụng là dựa trên những đánh giá của ngân hàng về tư cách, năng lực, vốn, tài sản thế chấp, và điều kiện của người xin vay (Abrahams & Zhang, 2008). Rõ ràng một số tiêu chí, chẳng hạn như tư cách và năng lực của người vay là một nhân tố khó đánh giá và do vậy có thể dẫn đến các sai sót khi quyết định cho vay. Ngoài ra phương pháp đánh giá xếp hạng tín dụng dựa trên tiêu chuẩn 5C là có chi phí cao và có thể xẩy ra sự không nhất quán về việc cho vay hay không giữa những nhân viên thẩm định tín dụng khác nhau đối với cùng một hồ sơ xin vay. Vì những hạn chế này, các ngân hàng cũng như các tổ chức tài chính cần sử dụng các phương pháp thẩm định và xếp hạng tín dụng tin cậy, khách quan và chi phí thấp nhằm giúp những tổ chức này quyết định có hay không cấp tín dụng cho các hồ sơ xin vay (Akhavein, Frame, & White, 2005; Chye, Chin, & Peng, 2004). Hơn nữa, theo Thomas và ctg (2002), các ngân hàng cần một phương pháp xếp hạng tín dụng mà thỏa mãn những đòi hỏi sau: (1) chi phí rẻ và dễ vận hành, (2) nhanh chóng và ổn định, (3) đưa ra những quyết định nhất quán dựa trên các thông tin khách quan không phụ thuộc vào cảm xúc và tình cảm chủ quan của con người, và (4) hiệu quả của hệ phương pháp xếp hạng tín dụng có thể dễ dàng kiểm tra, điều chỉnh ở bất kì thời điểm nào nhằm điều chỉnh kịp thời với những thay đổi về chính sách hoặc điều kiện của nền kinh tế.

Đối với vấn đề phân loại tín dụng, cách tiếp cận truyền thống là dựa vào các phương pháp thống kê thuần túy như hồi quy tuyến tính đa biến (Meyer & Pifer, 1970), phân tích khác biệt (Altman, 1968; Banasik, Crook, & Thomas, 2003), và hồi quy Logistic (Desai, Crook, & Overstreet, 1996; Dimitras, Zanakis, & Zopounidis, 1996; Elliott & Filinkov, 2008; Lee, Chiu, Lu, & Chen, 2002). Tuy nhiên những yêu cầu của hội đồng Basel về giám sát hoạt động ngân hàng (the Basel Committee on Banking Supervision) ban hành năm 2004 đòi hỏi các ngân hàng cũng như các tổ chức tài chính phải sử dụng những mô hình phân loại tín dụng tin cậy hơn nhằm nâng cao hiệu quả của việc phân bổ vốn. Nhằm đáp ứng những đòi hỏi trên, trong những năm gần đây đã xuất hiện một số mô hình phân loại tín dụng mới theo cách tiếp cận của học máy (Machine Learning) và trí thông minh nhân tạo (Artificial Intelligence). Không giống như các tiếp cận trước đây, các phương pháp mới này không đưa ra bất kì giả thiết chặt chẽ nào như đòi hỏi của các cách tiếp cận theo phương pháp thống kê. Thay vào đó, các tiếp cận mới này cố gắng khai thác và đưa ra các kiến thức, các thông tin đầu ra chỉ dựa vào các thông tin đầu vào là các quan sát, các thông tin trong quá khứ. Với bài toán phân loại tín dụng, một số mô hình thuộc học máy như mạng trí tuệ nhân tạo ANN (Artificial Neural Network), Máy Hỗ Trợ Véctơ SVM (Support Vector Machines), K láng giềng gần nhất KNN (K-Nearest Neighbors), rừng ngẫu nhiên RF (Random Forest), cây quyết định DT (Decision Tree) chẳng hạn đã chứng tỏ nhiều ưu thế về mức độ chính xác cũng như tin cậy so với một số mô hình phân loại truyền thống (Chi & Hsu, 2012; Huang et.all, 2004; Huang, Chen, & Wang, 2007; Ince & Aktan, 2009; Martens và et al., 2010).

Post này sẽ trình bày quá trình xây dựng mô hình xếp hạng theo thẻ điểm (thường gọi là Scorecard Modelling / Credit Scoring) đồng thời so sánh khả năng phân biệt của cả hai cách tiếp cận là hồi quy Logistic với biến được thực hiện WOE Transformation và Random Forest - một cách tiếp cận của Machine Learning với bộ số liệu hmeq.csv của cuốn sách Credit Risk Analytics: Measurement Techniques, Applications, and Examples in SAS.

Process of Developing The Scorecard Model

Bất kể cách tiếp cận được sử dụng cho Scorecard Modelling là thống kê truyền thống (như sử dụng Logistic Regression) hay Machine Learning thì các bước xây dựng mô hình thường tuân theo các bước với thứ tự như sau:

  1. Lên sách sách các biến có thể được sử dụng cho mô hình. Danh sách biến này gọi là long list of variables (gọi tắt là long list).
  2. Thực hiện phân tích đơn biến (single-variable Analysis) để rút gọn danh sách biến ở long list. Thực chất đây là quá trình phân tích nhằm lựa chọn biến số cho mô hình dựa trên một số tiêu chuẩn nào đó, ví dụ, như là Information Value (IV). Bước này ta sẽ thu được cái gọi là short list.
  3. Với các biến thuộc danh sách short list, thực hiện phân tích đa biến (Multivariable Analysis). Bước này được thực hiện để, ví dụ, phát hiện ra biến tương quan cao và lựa chọn biến nào cho mô hình là hợp lí nếu chúng ta có, ví dụ, một cặp biến tương quan cao trên một ngưỡng định trước nào đó.
  4. Xây dựng mô hình và hiệu chỉnh.
  5. Đánh giá chất lượng (và so sánh) chất lượng của các mô hình dựa trên một hoặc một số tiêu chí được sử dụng phổ biến như AUC chẳng hạn.

Các bước mô tả ở trên là không cố định và có thể có một số tùy biến tùy biến. Bạn đọc quan tâm có thể tham khảo kĩ hơn từ:

  1. Credit Risk Analytics: Measurement Techniques, Applications, and Examples in SAS.

  2. IFRS 9 and CECL Credit Risk Modelling and Validation.

  3. Credit Scoring: The Development Process from End to End.

  4. A Step-by-Step Guide To Creating Credit Scoring Model From Scratch.

R Codes for Scorecard Modelling

Dưới đây là R codes cho Scorecard Modelling. Trước hết (và luôn làm đầu tiên) là thực hiện tiền xử lí - làm sạch số liệu:

Thực hiện phân tích lựa chọn biến số dựa trên tiêu chuẩn IV như mô tả bởi Bellini (2019) và Baesens et al. (2013):

## [INFO] creating woe binning ...

Theo thông lệ, chỉ có các biến có IV lớn hơn 0.1 mới được sử dụng cho mô hình. Trong post này thì tất cả các biến sẽ được sử dụng. Dưới đây là R Codes cho thực hiện Logistic Regression với biến đã thực hiện WOE Transformation:

## [INFO] converting into woe values ... 
## [INFO] converting into woe values ...
Table 1: Coefficients from Logistic Models Based on WOE Transformation Variables
term estimate std.error statistic p.value
(Intercept) -1.417 0.064 -22.030 0.000
LOAN_woe -0.606 0.149 -4.079 0.000
MORTDUE_woe -0.821 0.270 -3.040 0.002
VALUE_woe -0.558 0.158 -3.535 0.000
REASON_woe -0.835 0.483 -1.727 0.084
JOB_woe -0.976 0.264 -3.702 0.000
YOJ_woe -0.917 0.204 -4.490 0.000
DEROG_woe -0.692 0.093 -7.442 0.000
DELINQ_woe -0.936 0.083 -11.245 0.000
CLAGE_woe -0.842 0.138 -6.104 0.000
NINQ_woe -0.294 0.166 -1.765 0.078
CLNO_woe -0.959 0.192 -4.999 0.000
DEBTINC_woe -0.917 0.047 -19.561 0.000

Scorecard của mỗi một hồ sơ xin vay được tính toán dựa trên Probability of Default (PD) được dự báo từ mô hình. Trước hết viết hàm tính toán Scorecard Point dựa trên PD như mô tả của Bellini (2019) và Baesens et al. (2013):

Với Scorecard Point dựa trên PD dự báo từ mô hình Logistic thì điểm trung bình cho hai nhóm hồ sơ Bad và Good rõ ràng có sự khác biệt. Sự khác biệt này mà càng lớn thì đó là dấu hiệu của một mô hình phân loại tốt:

Table 2: Scorecad Points by Group for Test Data
BAD min max median mean n
Bad 45 744 382 393 612
Good 213 831 615 593 2368

Chúng ta có thể hình ảnh hóa khả năng phân biệt hai nhóm Bad và Good dựa trên Scorecard Point bằng công cụ hình ảnh:

Theo thông lệ, AUC (và biến thể của nó là GINI Index = 2*AUC - 1) là một tiêu chí được sử dụng để đánh giá mô hình phân loại. Dưới đây là giá trị AUC và ROC curve của mô hình Logistic:

Giá trị AUC trên test data là 87.8% (một con số rất cao) và theo quy ước thì giá trị này là dấu hiệu cho thấy rằng cách tiếp cận mà chúng ta sử dụng (mô hình Logistic với biến WOE Transformation) là tốt.

Nhưng sử dụng Random Forest - một cách tiếp cận của Machine Learning còn tốt hơn nữa - thể hiện qua khả năng xác định (detect) các hồ sơ là Bad và cả AUC.

Machine Learning Approach to Scorecard Modelling

Trước hết chúng ta huấn luyện RF trên cùng một bộ dữ liệu như đã sử dụng để xây dựng mô hình Logistic ở trên:

Dựa trên 25 thử nghiệm thì giá trị AUC của mô hình RF là 95.4%:

Table 3: Model Performance by AUC
Model Average AUC
ranger 0.954

AUC cao hơn nghĩa là PD dự báo từ RF là tốt hơn so với Logistic. Điều này được thấy qua sự khác biệt về điểm giữa hai nhóm:

Table 4: Scorecad Points by Group for Test Data
BAD min max median mean n
Bad 81 836 356 365 612
Good 304 836 621 623 2368

Phân phối về điểm cho hai nhóm hồ sơ của mô hình RF:

AUC của RF cũng cao hơn và đương nhiên giá trị này, dù chưa tính thì chúng ta cũng có thể kì vọng là không khác biệt quá nhiều so với con số 0.954 đã biết:

Các ngân hàng lựa chọn AUC/ROC để đánh giá và so sách khả năng phân loại của các mô hình cạnh tranh nhau (như Logistic và RF) nhưng đồng thời chúng cũng quan tâm đến một khía cạnh thực tế sau đó là khả năng cover / detect các hồ sơ là Bad trong tổng số, ví dụ, 500 hồ sơ được xét.

Bằng chứng bằng số dưới đây chỉ ra rằng khả năng detect các hồ sơ Bad của RF luôn cao hơn Logistic

# Comparision based on PD predicted: 

df_test_ml %>% 
  mutate(PD_glm = pd_logit, PD_rf = pd_rf, 
         Score_glm = scaled_score(pd_logit), 
         Score_rf = scaled_score(pd_rf)) -> df_results

# Function for ranking by PD: 

coverBad_byPD <- function(n_cases) {
  
  df_cover_glm <- df_results %>% 
    arrange(-PD_glm) %>% 
    slice(1:n_cases) %>% 
    group_by(BAD) %>% 
    count() %>% 
    ungroup() %>% 
    mutate(Model = "GLM")
  
  df_cover_rf <- df_results %>% 
    arrange(-PD_rf) %>% 
    slice(1:n_cases) %>% 
    group_by(BAD) %>% 
    count() %>% 
    ungroup() %>% 
    mutate(Model = "RF")

  return(bind_rows(df_cover_glm, df_cover_rf) %>% mutate(N = n_cases))
  
}

# Function for ranking by scorecard score: 
coverBad_byScore <- function(n_cases) {
  
  df_cover_glm <- df_results %>% 
    arrange(Score_glm) %>% 
    slice(1:n_cases) %>% 
    group_by(BAD) %>% 
    count() %>% 
    ungroup() %>% 
    mutate(Model = "GLM")
  
  df_cover_rf <- df_results %>% 
    arrange(Score_rf) %>% 
    slice(1:n_cases) %>% 
    group_by(BAD) %>% 
    count() %>% 
    ungroup() %>% 
    mutate(Model = "RF")

  return(bind_rows(df_cover_glm, df_cover_rf) %>% mutate(N = n_cases))
  
}


# Use the functions:   

df_cover_socre <- do.call("bind_rows", lapply(seq(200, 1000, 100), coverBad_byScore))
df_cover_pd <- do.call("bind_rows", lapply(seq(200, 1000, 100), coverBad_byPD))

# http://bradleyboehmke.github.io/tutorials/barchart

df_cover_socre %>% 
  filter(BAD == "Bad") %>% 
  ggplot(aes(x = N, y = n, fill = Model)) + 
  geom_bar(stat = "identity", position = "dodge") + 
  scale_x_continuous(breaks = seq(200, 1000, 100)) + 
  scale_y_continuous(breaks = seq(0, 600, 100)) + 
  geom_text(aes(label = n), position = position_dodge(0.9), vjust = 1.2) + 
  theme(panel.grid.major.x = element_blank()) + 
  theme(panel.grid.minor.x = element_blank()) + 
  labs(x = "Number of Cases Classified", y = "Number of Bad Cases", 
       caption = "Data Source: http://www.creditriskanalytics.net/", 
       title = "Figure 5: Ability to Distinguish Bad Cases by the two Models")

Ví dụ, trong 200 hồ sơ có điểm Scorecard thấp nhất thì nếu sử dụng RF ngân hàng sẽ xác định được 198 cases là Bad trong khi con số này là 176 nếu sử dụng Scorecard thu được từ mô hình Logistic.

Nghĩa là tỉ lệ xác định các hồ sơ Bad của RF luôn cao hơn Logistic:

Figure 5 chỉ ra rằng nếu ngân hàng xét 500 cases dựa trên điểm Scorecard từ hai mô hình thì RF sẽ xác định hơn 70% là Bad trong khi Logistic chỉ xác định được gần 60%.

Đương nhiên nếu chúng ta căn cứ vào PD thì kết quả cũng không khác biệt. Vì Scorecard chỉ là cách diễn giải khác (là một biến thể) của PD như chúng ta có thể thấy qua công thức chuyển hóa điểm Scorecard từ PD.

Nếu muốn kiểm tra chúng ta có thể sử dụng codes sau:

Final Conclusions

Bằng chứng thực nghiệm dựa trên bộ số liệu hmeq.csv đã chỉ ra rằng Scorecard Point dựa trên PD được dự báo từ Random Forest là hiệu quả hơn so với Logistic Regrassion ở cả hai tiêu chuẩn: (1) tiêu chuẩn thống kê AUC/ROC, và (2) khả năng cover (phân loại) hồ sơ Bad.

Một số vấn đề khác khi xây dựng Scorecard Modelling / Credit Scoring chưa được thảo luận và làm rõ trong post này là:

  1. Accuracy chỉ là điều kiện cần chứ không phải là tiêu chuẩn để căn cứ cho việc lựa chọn mô hình. Chi tiết xem thêm ở đây.

  2. Nếu có thêm thông tin (như mỗi hồ sơ duyệt vay được vay bao nhiêu và với lãi suất bao nhiêu) thì bank sẽ lựa chọn và đánh giá tác động của mô hình căn cứ vào tiêu chuẩn lợi nhuận. Chi tiết xem thêm ở đây.

  3. Các tiêu chuẩn dựa trên thống kê như AUC (hay Accuracy) chỉ là một trong số các tiêu chí thường được sử dụng khi đánh giá và lựa chọn các mô hình cạnh tranh khác nhau.. Chi tiết xem thêm ở đây.

  4. Lựa chọn biến căn cứ vào WOE / IV được trình bày và giải thích chi tiết ở đây, ở đâyở đây.

  5. Theo thông lệ, các hồ sơ xin vay được dán các nhãn xanh - đỏ - vàng với hàm ý các hồ sơ nhãn xanh (nhóm điểm cao) là tốt, ít rủi ro nhất còn nhãn đỏ (nhóm điểm thấp) là rủi ro nhất còn vàng là nhóm trung gian chuyên tiếp. Việc dán nhãn xanh - đỏ - vàng dựa trên Scorecard Point sẽ phụ thuộc vào nhiều yếu tố bao gồm cả định hướng và mức độ ưa thích rủi ro của tổ chức sử dụng mô hình.

References

  1. Martens, D., B. Baesens, T. Van Gestel, and J. Vanthienen. 2007. “Comprehensible Credit Scoring Models Using Rule Extraction from Support Vector Machines.” European Journal of Operational Research 183:1466–1476.

  2. Baesens, B., Roesch, D., & Scheule, H. (2016). Credit risk analytics: Measurement techniques, applications, and examples in SAS. John Wiley & Sons.

  3. Bellini, T. (2019). IFRS 9 and CECL Credit Risk Modelling and Validation: A Practical Guide with Examples Worked in R and SAS. Academic Press.

  4. Siddiqi, N. (2012). Credit risk scorecards: developing and implementing intelligent credit scoring. John Wiley & Sons.

  5. Anderson R (2007): The Credit Scoring Toolkit: Theory and Practice for Retail Credit Risk Management and Decision Automation. Oxford, Oxford University Press.

  6. Hand DJ, Henley WE (1997): Statistical Classification Methods in Consumer Credit Scoring: a review. Journal. of the Royal Statistical Society, Series A, 160(3):523–541.

  7. Thomas LC (2000): A survey of credit and behavioural scoring: forecasting financial risk of lending to consumers. International Journal of Forecasting, 16(2):149–172 .

  8. Thomas LC (2009): Consumer Credit Models: Pricing, Profit, and Portfolio. Oxford, Oxford University Press.

  9. Crook JN, Edelman DB, Thomas LC (2007): Recent developments in consumer credit risk assessment. European Journal of Operational Research, 183(3):1447–1465.

  10. Van Gestel, T., B. Baesens, P. Van Dijcke, J. Suykens, J. Garcia, and T. Alderweireld. 2005. “Linear and Nonlinear Credit Scoring by Combining Logistic Regression and Support Vector Machines.” Journal of Credit Risk 1, no. 4.

  11. Ben-David, A., & Frank, E. (2009). Accuracy of machine learning models versus “hand crafted” expert systems–a credit scoring case study. Expert Systems with Applications, 36(3), 5264-5271.

---
title: "A Detailed Comparison Between Machine Learning and Logistic Approach to Scorecard Modelling/Credit Scoring" 
subtitle: "R for Pleasure"
author: "Nguyen Chi Dung"
output:
  html_document: 
    code_download: true
    code_folding: hide
    highlight: pygments
    # number_sections: yes
    theme: "flatly"
    toc: TRUE
    toc_float: TRUE
---

```{r setup,include=FALSE}
knitr::opts_chunk$set(echo = TRUE, warning = FALSE, message = FALSE)
```


![](C:\\Users\\Zbook\\Desktop\\pic\\scorecard.png)

# Introduction

Xếp hạng tín dụng (Credit Scoring / Scocard Modelling) đóng một vai trò quan trọng đối với lợi nhuận và phát triển bền vững của ngân hàng nói riêng cũng như các tổ chức tài chính khác. Hiện nay cách tiếp cận theo phương pháp học máy (Machine Learning) đã chứng tỏ nhiều ưu thế về mức độ chính xác cũng như tin cậy so với một số mô hình phân loại theo phương pháp thống kê truyền thống.

Sự kiện cuộc khủng hoảng tài chính dẫn đến sự sụp đổ của một loạt các định chế tài chính nói chung và ngân hàng nói riêng đã thức tỉnh các tổ chức này chú trọng hơn đến vai trò của thẩm định tín dụng trong hoạt động của mình. Hầu hết lợi nhuận của các ngân hàng đến từ hoạt động cấp tín dụng và cho vay. Cấp tín dụng là một trong những hoạt động tạo ra một tỉ trọng lớn về doanh thu và lợi nhuận cho ngân hàng nhưng cũng tiềm ẩn rất nhiều rủi ro (Zakrzewska, 2007). Rủi ro chính của ngân hàng là khả năng khách hàng không có khả năng hoàn trả lại khoản vay mà ngân hàng đã cấp. Mặt khác, quyết định có hay không cung cấp một khoản vay cho khách hàng thường phụ thuộc nhiều vào trình độ cũng như kinh nghiệm của cán nhân viên thẩm định tín dụng (Thomas, 2000). Ngoài ra, căn cứ để cấp tín dụng cho một khách hàng còn căn cứ vào một số tiêu chí xếp hạng mà một số trong số đó là rất khó đo lường, hoặc khó có thể đo lường chính xác. Chẳng hạn tiêu chuẩn 5C khi cấp tín dụng là dựa trên những đánh giá của ngân hàng về tư cách, năng lực, vốn, tài sản thế chấp, và điều kiện của người xin vay (Abrahams & Zhang, 2008). Rõ ràng một số tiêu chí, chẳng hạn như tư cách và năng lực của người vay là một nhân tố khó đánh giá và do vậy có thể dẫn đến các sai sót khi quyết định cho vay. Ngoài ra phương pháp đánh giá xếp hạng tín dụng dựa trên tiêu chuẩn 5C là có chi phí cao và có thể xẩy ra sự không nhất quán về việc cho vay hay không giữa những nhân viên thẩm định tín dụng khác nhau đối với cùng một hồ sơ xin vay. Vì những hạn chế này, các ngân hàng cũng như các tổ chức tài chính cần sử dụng các phương pháp thẩm định và xếp hạng tín dụng tin cậy, khách quan và chi phí thấp nhằm giúp những tổ chức này quyết định có hay không cấp tín dụng cho các hồ sơ xin vay (Akhavein, Frame, & White, 2005; Chye, Chin, & Peng, 2004). Hơn nữa, theo Thomas và ctg (2002), các ngân hàng cần một phương pháp xếp hạng tín dụng mà thỏa mãn những đòi hỏi sau: (1) chi phí rẻ và dễ vận hành, (2) nhanh chóng và ổn định, (3) đưa ra những quyết định nhất quán dựa trên các thông tin khách quan không phụ thuộc vào cảm xúc và tình cảm chủ quan của con người, và (4) hiệu quả của hệ phương pháp xếp hạng tín dụng có thể dễ dàng kiểm tra, điều chỉnh ở bất kì thời điểm nào nhằm điều chỉnh kịp thời với những thay đổi về chính sách hoặc điều kiện của nền kinh tế.

Đối với vấn đề phân loại tín dụng, cách tiếp cận truyền thống là dựa vào các phương pháp thống kê thuần túy như hồi quy tuyến tính đa biến (Meyer & Pifer, 1970), phân tích khác biệt (Altman, 1968; Banasik, Crook, & Thomas, 2003), và hồi quy Logistic (Desai, Crook, & Overstreet, 1996; Dimitras, Zanakis, & Zopounidis, 1996; Elliott & Filinkov, 2008; Lee, Chiu, Lu, & Chen, 2002). Tuy nhiên những yêu cầu của hội đồng Basel về giám sát hoạt động ngân hàng (the Basel Committee on Banking Supervision) ban hành năm 2004 đòi hỏi các ngân hàng cũng như các tổ chức tài chính phải sử dụng những mô hình phân loại tín dụng tin cậy hơn nhằm nâng cao hiệu quả của việc phân bổ vốn. Nhằm đáp ứng những đòi hỏi trên, trong những năm gần đây đã xuất hiện một số mô hình phân loại tín dụng mới theo cách tiếp cận của học máy (Machine Learning) và trí thông minh nhân tạo (Artificial Intelligence). Không giống như các tiếp cận trước đây, các phương pháp mới này không đưa ra bất kì giả thiết chặt chẽ nào như đòi hỏi của các cách tiếp cận theo phương pháp thống kê. Thay vào đó, các tiếp cận mới này cố gắng khai thác và đưa ra các kiến thức, các thông tin đầu ra chỉ dựa vào các thông tin đầu vào là các quan sát, các thông tin trong quá khứ. Với bài toán phân loại tín dụng, một số mô hình thuộc học máy như mạng trí tuệ nhân tạo ANN (Artificial Neural Network), Máy Hỗ Trợ Véctơ SVM (Support Vector Machines), K láng giềng gần nhất KNN (K-Nearest Neighbors), rừng ngẫu nhiên RF (Random Forest), cây quyết định DT (Decision Tree) chẳng hạn đã chứng tỏ nhiều ưu thế về mức độ chính xác cũng như tin cậy so với một số mô hình phân loại truyền thống (Chi & Hsu, 2012; Huang et.all, 2004; Huang, Chen, & Wang, 2007; Ince & Aktan, 2009; Martens và et al., 2010).


Post này sẽ trình bày quá trình xây dựng mô hình xếp hạng theo thẻ điểm (thường gọi là Scorecard Modelling / Credit Scoring) đồng thời so sánh khả năng phân biệt của cả hai cách tiếp cận là hồi quy Logistic với biến được thực hiện  WOE Transformation và Random Forest - một cách tiếp cận của Machine Learning với bộ số liệu hmeq.csv của cuốn sách [Credit Risk Analytics: Measurement Techniques, Applications, and Examples in SAS](https://www.amazon.com/Credit-Risk-Analytics-Measurement-Applications/dp/1119143985). 

# Process of Developing The Scorecard Model

Bất kể cách tiếp cận được sử dụng cho Scorecard Modelling là thống kê truyền thống (như sử dụng Logistic Regression) hay Machine Learning thì các bước xây dựng mô hình thường tuân theo các bước với thứ tự như sau: 

1. Lên sách sách các biến có thể được sử dụng cho mô hình. Danh sách biến này gọi là long list of variables (gọi tắt là long list). 
2. Thực hiện phân tích đơn biến (single-variable Analysis) để rút gọn danh sách biến ở long list. Thực chất đây là quá trình phân tích nhằm lựa chọn biến số cho mô hình dựa trên một số tiêu chuẩn nào đó, ví dụ, như là Information Value (IV). Bước này ta sẽ thu được cái gọi là short list. 
3. Với các biến thuộc danh sách short list, thực hiện phân tích đa biến (Multivariable Analysis). Bước này được thực hiện để, ví dụ, phát hiện ra biến tương quan cao và lựa chọn biến nào cho mô hình là hợp lí nếu chúng ta có, ví dụ, một cặp biến tương quan cao trên một ngưỡng định trước nào đó. 
4. Xây dựng mô hình và hiệu chỉnh. 
5. Đánh giá chất lượng (và so sánh) chất lượng của các mô hình dựa trên một hoặc một số tiêu chí được sử dụng phổ biến như AUC chẳng hạn. 

Các bước mô tả ở trên là không cố định và có thể có một số tùy biến tùy biến. Bạn đọc quan tâm có thể tham khảo kĩ hơn từ: 

1. [Credit Risk Analytics: Measurement Techniques, Applications, and Examples in SAS](https://www.amazon.com/Credit-Risk-Analytics-Measurement-Applications/dp/1119143985). 

2. [IFRS 9 and CECL Credit Risk Modelling and Validation](https://www.amazon.com/IFRS-CECL-Credit-Modelling-Validation-ebook/dp/B07MV1RQ9M). 


3. [Credit Scoring: The Development Process from End to End](https://www.worldprogramming.com/blog/credit_scoring_development_pt1). 

4. [A Step-by-Step Guide To Creating Credit Scoring Model From Scratch](https://www.analyticsindiamag.com/a-step-by-step-to-creating-credit-scoring-model-from-scratch/). 


# R Codes for Scorecard Modelling

Dưới đây là R codes cho Scorecard Modelling. Trước hết (và luôn làm đầu tiên) là thực hiện tiền xử lí - làm sạch số liệu: 

```{r}


#=================================
#  State 1: Data Pre-processing
#=================================

# Load some packages for data manipulation: 
library(tidyverse)
library(magrittr)
library(caret)
library(caretEnsemble)
library(broom)
library(knitr)

# Clear workspace: 
rm(list = ls())

# Import data: 
hmeq <- read.csv("http://www.creditriskanalytics.net/uploads/1/9/5/1/19511601/hmeq.csv")

# Function replaces NA by mean: 
replace_by_mean <- function(x) {
  x[is.na(x)] <- mean(x, na.rm = TRUE)
  return(x)
}

# A function imputes NA observations for categorical variables: 

replace_na_categorical <- function(x) {
  x %>% 
    table() %>% 
    as.data.frame() %>% 
    arrange(-Freq) ->> my_df
  
  n_obs <- sum(my_df$Freq)
  pop <- my_df$. %>% as.character()
  set.seed(29)
  x[is.na(x)] <- sample(pop, sum(is.na(x)), replace = TRUE, prob = my_df$Freq)
  return(x)
}

# Use the two functions: 
df <- hmeq %>% 
  mutate_if(is.factor, as.character) %>% 
  mutate(REASON = case_when(REASON == "" ~ NA_character_, TRUE ~ REASON), 
         JOB = case_when(JOB == "" ~ NA_character_, TRUE ~ JOB)) %>%
  mutate_if(is_character, as.factor) %>% 
  mutate_if(is.numeric, replace_by_mean) %>% 
  mutate_if(is.factor, replace_na_categorical)


# Split data: 
set.seed(1)
id <- createDataPartition(y = df$BAD, p = 0.5, list = FALSE)

df_train <- df[id, ] # Train data for WOE transformation and Logistic Model. 
df_test <- df[-id, ] # Test data for WOE transformation and Logistic Model. 

```

Thực hiện phân tích lựa chọn biến số dựa trên tiêu chuẩn IV như mô tả bởi Bellini (2019) và Baesens et al. (2013): 


```{r}
#===============================================================================
#      Develop a scorecard Model as described by Bellini and Baesens et al. 
#===============================================================================

library(scorecard)

# Generates optimal binning for numerical, factor and categorical variables: 
bins_var <- woebin(df_train, y = "BAD", no_cores = 8, positive = "BAD|1")

# IV for variables: 

do.call("rbind", bins_var) %>% 
  as.data.frame() %>% 
  filter(!duplicated(variable)) %>% 
  rename(iv_var = total_iv) %>% 
  arrange(iv_var) %>% 
  mutate(variable = factor(variable, levels = variable)) -> iv_values

theme_set(theme_minimal())

iv_values %>% 
  ggplot(aes(variable, iv_var)) + 
  geom_col(fill = "#377eb8") + 
  coord_flip() + 
  geom_col(data = iv_values %>% filter(iv_var < 0.1), aes(variable, iv_var), fill = "grey60") + 
  geom_text(data = iv_values %>% filter(iv_var < 0.1), aes(label = round(iv_var, 3)), 
            hjust = -0.1, size = 5, color = "grey40") + 
  geom_text(data = iv_values %>% filter(iv_var >= 0.1), aes(label = round(iv_var, 3)), 
            hjust = -.1, size = 5, color = "#377eb8") + 
  labs(title = "Figure 1: Information Value (IV) for Variables", 
       x = NULL, y = "Information Value (IV)") + 
  scale_y_continuous(expand = c(0, 0), limits = c(0, 1.8)) + 
  theme(panel.grid.major.y = element_blank()) + 
  theme(plot.margin = unit(c(1, 1, 1, 1), "cm"))

```

Theo thông lệ, chỉ có các biến có IV lớn hơn 0.1 mới được sử dụng  cho mô hình. Trong post này thì tất cả các biến sẽ được sử dụng. Dưới đây là R Codes cho thực hiện Logistic Regression với biến đã thực hiện WOE Transformation: 



```{r}
# A function for conducting binning and WOE transformation: 

my_binningData <- function(...) {
  
  df_train_woe <- woebin_ply(df_train, bins_var)
  df_test_woe <- woebin_ply(df_test, bins_var)
  
  df_train_woe %>% 
    mutate(BAD = NULL) %>% 
    mutate_all(function(x) {-1*x}) %>% 
    mutate(BAD = df_train_woe$BAD) -> train_woe
  
  df_test_woe %>% 
    mutate(BAD = NULL) %>% 
    mutate_all(function(x) {-1*x}) %>% 
    mutate(BAD = df_test_woe$BAD) -> test_woe
  
  return(list(df_train_woe = train_woe, df_test_woe = test_woe))
  
}

# Use this function: 

woe_for_both <- my_binningData()

# Train and Test Data with WOE transformation variables: 
df_train_woe <- woe_for_both[[1]]
df_test_woe <- woe_for_both[[2]]

# Logistic Regression and results: 
my_logistic <- glm(BAD ~ ., family = binomial, data = df_train_woe)

my_logistic %>% 
  tidy() %>% 
  mutate_if(is.numeric, function(x) {round(x, 3)}) %>% 
  kable(caption = "Table 1: Coefficients from Logistic Models Based on WOE Transformation Variables")
  
```


Scorecard của mỗi một hồ sơ xin vay được tính toán dựa trên Probability of Default (PD) được dự báo từ mô hình. Trước hết viết hàm tính toán Scorecard Point dựa trên PD như mô tả của Bellini (2019) và Baesens et al. (2013): 

```{r}

# Use Logit Model for predicting PD (Probability of Default): 
pd_logit <- predict(my_logistic, df_test_woe, type = "response")

# Function for scoring based on PD predicted: 

scaled_score <- function(pd_selected) {
  odds <- 19
  my_offset <- 600
  pdo <- 50
  b <- pdo / log(2)
  a <- my_offset - b*log(odds)
  
  scores <- a + b*log((1 - pd_selected) / pd_selected)
  return(round(scores, 0))
  
}

# Convert to Scorecard point based on PD: 

SCORE <- scaled_score(pd_logit)
```

Với Scorecard Point dựa trên PD dự báo từ mô hình Logistic thì điểm trung bình cho hai nhóm hồ sơ Bad và Good rõ ràng có sự khác biệt. Sự khác biệt này mà càng lớn thì đó là dấu hiệu của một mô hình phân loại tốt: 


```{r}

df_scored_test <- df_test %>% 
  mutate(SCORE = SCORE) %>% 
  mutate(BAD = case_when(BAD == 1 ~ "Bad", TRUE ~ "Good")) 

df_scored_test %>% 
  group_by(BAD) %>% 
  summarise_each(funs(min, max, median, mean, n()), SCORE) %>% 
  mutate_if(is.numeric, function(x) {round(x, 0)}) %>% 
  knitr::kable(caption = "Table 2: Scorecad Points by Group for Test Data")
```


Chúng ta có thể hình ảnh hóa khả năng phân biệt hai nhóm Bad và Good dựa trên Scorecard Point bằng công cụ hình ảnh: 

```{r}
df_scored_test %>% 
  group_by(BAD) %>% 
  summarise(tb = mean(SCORE)) %>% 
  ungroup() -> mean_score_test


df_scored_test %>% 
  ggplot(aes(SCORE, color = BAD, fill = BAD)) + 
  geom_density(alpha = 0.3) + 
  geom_vline(aes(xintercept = mean_score_test$tb[1]), linetype = "dashed", color = "red") + 
  geom_vline(aes(xintercept = mean_score_test$tb[2]), linetype = "dashed", color = "blue") + 
  geom_text(aes(x = mean_score_test$tb[1] - 25, y = 0.002, label = mean_score_test$tb[1] %>% round(0)), color = "red", size = 4) + 
  geom_text(aes(x = mean_score_test$tb[2] + 25, y = 0.002, label = mean_score_test$tb[2] %>% round(0)), color = "blue", size = 4) + 
  theme(legend.title = element_blank()) + 
  theme(legend.position = c(0.2, 0.8)) + 
  theme(panel.grid = element_blank()) +
  theme(axis.text.y = element_blank()) + 
  theme(plot.margin = unit(c(1.3, 1.3, 1.3, 1.3), "cm")) + 
  labs(x = "Scorecard Point", y = NULL, 
       caption = "Data Source: http://www.creditriskanalytics.net/", 
       title = "Figure 2: Scorecard Distribution by Group, Logistic Model", 
       subtitle = "The scorecard point is a numeric expression measuring creditworthiness. Commercial Banks\nusually utilize it as a method to support the decision-making about credit applications.")

```

Theo thông lệ, AUC (và biến thể của nó là GINI Index = 2*AUC - 1) là một tiêu chí được sử dụng để đánh giá mô hình phân loại. Dưới đây là giá trị AUC và ROC curve của mô hình Logistic: 

```{r}
# Function for calcualting AUC/ROC: 

auc_for_test <- function(pd_selected) {
  return(pROC::roc(df_test$BAD, pd_selected))
}


# Function for presenting AUC/ROC curve:
my_ROC_curve <- function(auc_object) {
  
  sen_spec_df <- data_frame(TPR = auc_object$sensitivities, 
                            FPR = 1 - auc_object$specificities)
  
  sen_spec_df %>% 
    ggplot(aes(x = FPR, ymin = 0, ymax = TPR))+
    geom_polygon(aes(y = TPR), fill = "red", alpha = 0.3)+
    geom_path(aes(y = TPR), col = "firebrick", size = 1.2) +
    geom_abline(intercept = 0, slope = 1, color = "gray37", size = 1, linetype = "dashed") +
    scale_y_continuous(labels = scales::percent) + 
    scale_x_continuous(labels = scales::percent) + 
    theme_bw() +
    coord_equal() %>% 
    return()
}


# Plot ROC curve and show AUC value: 

my_auc_logit <- auc_for_test(pd_logit)

my_auc_logit %>% 
  my_ROC_curve() + 
  labs(x = "FPR (1 - Specificity)", 
       y = "TPR (Sensitivity)", 
       title = "Figure 3: Model Performance Based on Test Data", 
       subtitle = paste0("AUC Value for Logistic Approach: ", my_auc_logit$auc %>% round(3)))


```

Giá trị AUC trên test data là 87.8% (một con số rất cao) và theo quy ước thì giá trị này là dấu hiệu cho thấy rằng cách tiếp cận mà chúng ta sử dụng (mô hình Logistic với biến WOE Transformation) là tốt. 

Nhưng sử dụng Random Forest - một cách tiếp cận của Machine Learning còn tốt hơn nữa - thể hiện qua khả năng xác định (detect) các hồ sơ là Bad và cả AUC. 

# Machine Learning Approach to Scorecard Modelling


Trước hết chúng ta huấn luyện RF trên cùng một bộ dữ liệu như đã sử dụng để xây dựng mô hình Logistic ở trên: 

```{r}

#================================
#   Machine Learning Approach
#================================

# Convert BAD to factor and scale 0 -1 data set: 
df_for_ml <- df %>% 
  mutate(BAD = case_when(BAD == 1 ~ "Bad", TRUE ~ "Good") %>% as.factor()) %>% 
  mutate_if(is.numeric, function(x) {(x - min(x)) / (max(x) - min(x))})

# Prepare data for Random Forest: 

df_train_ml <- df_for_ml[id, ]
df_test_ml <- df_for_ml[-id, ]

# Set conditions for training model and cross-validation: 

set.seed(1)
number <- 5
repeats <- 5
control <- trainControl(method = "repeatedcv", 
                        number = number, 
                        repeats = repeats, 
                        classProbs = TRUE, 
                        savePredictions = "final", 
                        index = createResample(df_train_ml$BAD, number*repeats), 
                        summaryFunction = multiClassSummary, 
                        allowParallel = TRUE)

# Use Parallel computing (I use 8 CPU cores for training ML Models): 
library(doParallel)
registerDoParallel(cores = 8)

# Run Random Forest: 

set.seed(1)

# my_models <- c("rf", "adaboost", "knn", "svmRadial", "glm", "nb")
my_models <- c("ranger")
model_list1 <- caretList(BAD ~., 
                         data = df_train_ml,
                         trControl = control,
                         metric = "Accuracy", 
                         methodList = my_models)


# Extract all results: 

list_of_results <- lapply(my_models, function(x) {model_list1[[x]]$resample})

# Convert to data frame: 
total_df <- do.call("bind_rows", list_of_results)
total_df %<>% mutate(Model = lapply(my_models, function(x) {rep(x, number*repeats)}) %>% unlist())
```

Dựa trên 25 thử nghiệm thì giá trị AUC của mô hình RF là 95.4%: 

```{r}
# Accuracy based on 25 samples for these models: 

total_df %>% 
  select(AUC, Model) %>% 
  group_by(Model) %>% 
  summarise(avg_auc = mean(AUC)) %>% 
  ungroup() %>% 
  arrange(-avg_auc) %>% 
  mutate_if(is.numeric, function(x) {round(x, 3)}) %>% 
  kable(caption = "Table 3: Model Performance by AUC", 
        col.names = c("Model", "Average AUC"))

```

AUC cao hơn nghĩa là PD dự báo từ RF là tốt hơn so với Logistic. Điều này được thấy qua sự khác biệt về điểm giữa hai nhóm: 

```{r}

# Calculate PD predicted from Random Forest: 

pd_rf <- predict(model_list1$ranger, df_test_ml, type = "prob") %>% pull(Bad)

# Assign score for test data using PD predicted from Random Forest: 
SCORE <- scaled_score(pd_rf)
SCORE <- case_when(is.infinite(SCORE) ~ max(SCORE[!is.infinite(SCORE)]), TRUE ~ SCORE)

df_scored_test <- df_test %>% 
  mutate(SCORE = SCORE) %>% 
  mutate(BAD = case_when(BAD == 1 ~ "Bad", TRUE ~ "Good")) 

df_scored_test %>% 
  group_by(BAD) %>% 
  summarise_each(funs(min, max, median, mean, n()), SCORE) %>% 
  mutate_if(is.numeric, function(x) {round(x, 0)}) %>% 
  knitr::kable(caption = "Table 4: Scorecad Points by Group for Test Data")


```

Phân phối về điểm cho hai nhóm hồ sơ của mô hình RF: 

```{r}


df_scored_test %>% 
  group_by(BAD) %>% 
  summarise(tb = mean(SCORE)) %>% 
  ungroup() -> mean_score_test


df_scored_test %>% 
  ggplot(aes(SCORE, color = BAD, fill = BAD)) + 
  geom_density(alpha = 0.3) + 
  geom_vline(aes(xintercept = mean_score_test$tb[1]), linetype = "dashed", color = "red") + 
  geom_vline(aes(xintercept = mean_score_test$tb[2]), linetype = "dashed", color = "blue") + 
  geom_text(aes(x = mean_score_test$tb[1] - 25, y = 0.002, label = mean_score_test$tb[1] %>% round(0)), color = "red", size = 4) + 
  geom_text(aes(x = mean_score_test$tb[2] + 25, y = 0.002, label = mean_score_test$tb[2] %>% round(0)), color = "blue", size = 4) + 
  theme(legend.title = element_blank()) + 
  theme(legend.position = c(0.2, 0.8)) + 
  theme(panel.grid = element_blank()) +
  theme(axis.text.y = element_blank()) + 
  theme(plot.margin = unit(c(1.3, 1.3, 1.3, 1.3), "cm")) + 
  labs(x = "Scorecard Point", y = NULL, 
       caption = "Data Source: http://www.creditriskanalytics.net/", 
       title = "Figure 4: Scorecard Distribution by Group, Random Forest Model", 
       subtitle = "Note: Infinitive Scores Are Converted to Max.")
```

AUC của RF cũng cao hơn và đương nhiên giá trị này, dù chưa tính thì chúng ta cũng có thể kì vọng là không khác biệt quá nhiều so với con số 0.954 đã biết: 

```{r}


# Plot AUC curve and show AUC: 

my_auc_rf <- auc_for_test(pd_rf)
my_auc_rf %>% 
  my_ROC_curve() + 
  labs(x = "FPR (1 - Specificity)", 
       y = "TPR (Sensitivity)", 
       title = "Figure 5: Model Performance Based on Test Data", 
       subtitle = paste0("AUC Value for Random Forest Approach: ", my_auc_rf$auc %>% round(3)))

```

Các ngân hàng lựa chọn AUC/ROC để đánh giá và so sách khả năng phân loại của các mô hình cạnh tranh nhau (như Logistic và RF) nhưng đồng thời chúng cũng quan tâm đến một khía cạnh thực tế sau đó là **khả năng cover / detect các hồ sơ là Bad trong tổng số, ví dụ, 500 hồ sơ được xét**. 

Bằng chứng bằng số dưới đây chỉ ra rằng khả năng detect các hồ sơ Bad của RF luôn cao hơn Logistic




```{r}

# Comparision based on PD predicted: 

df_test_ml %>% 
  mutate(PD_glm = pd_logit, PD_rf = pd_rf, 
         Score_glm = scaled_score(pd_logit), 
         Score_rf = scaled_score(pd_rf)) -> df_results

# Function for ranking by PD: 

coverBad_byPD <- function(n_cases) {
  
  df_cover_glm <- df_results %>% 
    arrange(-PD_glm) %>% 
    slice(1:n_cases) %>% 
    group_by(BAD) %>% 
    count() %>% 
    ungroup() %>% 
    mutate(Model = "GLM")
  
  df_cover_rf <- df_results %>% 
    arrange(-PD_rf) %>% 
    slice(1:n_cases) %>% 
    group_by(BAD) %>% 
    count() %>% 
    ungroup() %>% 
    mutate(Model = "RF")

  return(bind_rows(df_cover_glm, df_cover_rf) %>% mutate(N = n_cases))
  
}

# Function for ranking by scorecard score: 
coverBad_byScore <- function(n_cases) {
  
  df_cover_glm <- df_results %>% 
    arrange(Score_glm) %>% 
    slice(1:n_cases) %>% 
    group_by(BAD) %>% 
    count() %>% 
    ungroup() %>% 
    mutate(Model = "GLM")
  
  df_cover_rf <- df_results %>% 
    arrange(Score_rf) %>% 
    slice(1:n_cases) %>% 
    group_by(BAD) %>% 
    count() %>% 
    ungroup() %>% 
    mutate(Model = "RF")

  return(bind_rows(df_cover_glm, df_cover_rf) %>% mutate(N = n_cases))
  
}


# Use the functions:   

df_cover_socre <- do.call("bind_rows", lapply(seq(200, 1000, 100), coverBad_byScore))
df_cover_pd <- do.call("bind_rows", lapply(seq(200, 1000, 100), coverBad_byPD))

# http://bradleyboehmke.github.io/tutorials/barchart

df_cover_socre %>% 
  filter(BAD == "Bad") %>% 
  ggplot(aes(x = N, y = n, fill = Model)) + 
  geom_bar(stat = "identity", position = "dodge") + 
  scale_x_continuous(breaks = seq(200, 1000, 100)) + 
  scale_y_continuous(breaks = seq(0, 600, 100)) + 
  geom_text(aes(label = n), position = position_dodge(0.9), vjust = 1.2) + 
  theme(panel.grid.major.x = element_blank()) + 
  theme(panel.grid.minor.x = element_blank()) + 
  labs(x = "Number of Cases Classified", y = "Number of Bad Cases", 
       caption = "Data Source: http://www.creditriskanalytics.net/", 
       title = "Figure 5: Ability to Distinguish Bad Cases by the two Models")

```

Ví dụ, trong 200 hồ sơ có điểm Scorecard thấp nhất thì nếu sử dụng RF ngân hàng sẽ xác định được 198 cases là Bad trong khi con số này là 176 nếu sử dụng Scorecard thu được từ mô hình Logistic. 

Nghĩa là tỉ lệ xác định các hồ sơ Bad của RF luôn cao hơn Logistic: 


```{r}

my_colors <- c("#e41a1c", "#377eb8")

df_cover_socre %>% 
  filter(BAD == "Bad") %>% 
  mutate(cover_rate = n / sum(df_results$BAD == "Bad")) %>% 
  ggplot(aes(N, cover_rate, color = Model)) + 
  geom_line() + 
  geom_point(size = 2) + 
  scale_color_manual(values = my_colors) + 
  theme(panel.grid.minor = element_blank()) + 
  scale_x_continuous(breaks = seq(200, 1000, 100)) + 
  scale_y_continuous(labels = scales::percent, breaks = seq(0.2, 1, 0.1)) + 
  labs(x = "Number of Cases Classified", y = "Bad Rate", 
       caption = "Data Source: http://www.creditriskanalytics.net/", 
       title = "Figure 6: Ability to Detect Bad Cases by The Two Models")

```

Figure 5 chỉ ra rằng nếu ngân hàng xét 500 cases dựa trên điểm Scorecard từ hai mô hình thì RF sẽ xác định hơn 70% là Bad trong khi Logistic chỉ xác định được gần 60%. 


Đương nhiên nếu chúng ta căn cứ vào PD thì kết quả cũng không khác biệt. Vì Scorecard chỉ là cách diễn giải khác (là một biến thể) của PD như chúng ta có thể thấy qua công thức chuyển hóa điểm Scorecard từ PD. 

Nếu muốn kiểm tra chúng ta có thể sử dụng codes sau: 

```{r, eval=FALSE}

df_cover_pd %>% 
  filter(BAD == "Bad") %>% 
  ggplot(aes(x = N, y = n, fill = Model)) + 
  geom_bar(stat = "identity", position = "dodge") + 
  scale_x_continuous(breaks = seq(200, 1000, 100)) + 
  geom_text(aes(label = n), position = position_dodge(0.9), vjust = 1.2) 

```


# Final Conclusions

Bằng chứng thực nghiệm dựa trên bộ số liệu hmeq.csv đã chỉ ra rằng **Scorecard Point dựa trên PD được dự báo từ Random Forest là hiệu quả hơn so với Logistic Regrassion ở cả hai tiêu chuẩn: (1) tiêu chuẩn thống kê AUC/ROC, và (2) khả năng cover (phân loại) hồ sơ Bad.**

Một số vấn đề khác khi xây dựng Scorecard Modelling / Credit Scoring chưa được thảo luận và làm rõ trong post này là: 

1. **Accuracy chỉ là điều kiện cần chứ không phải là tiêu chuẩn để căn cứ cho việc lựa chọn mô hình**. Chi tiết xem thêm [ở đây](http://rpubs.com/chidungkt/297825). 

2. Nếu có thêm thông tin (như mỗi hồ sơ duyệt vay được vay bao nhiêu và với lãi suất bao nhiêu) thì **bank sẽ lựa chọn và đánh giá tác động của mô hình căn cứ vào tiêu chuẩn lợi nhuận.** Chi tiết xem thêm [ở đây](http://rpubs.com/chidungkt/487912). 

3. **Các tiêu chuẩn dựa trên thống kê như AUC (hay Accuracy) chỉ là một trong số các tiêu chí thường được sử dụng khi đánh giá và lựa chọn các mô hình cạnh tranh khác nhau.**. Chi tiết xem thêm [ở đây](http://rpubs.com/chidungkt/447989). 

4. Lựa chọn biến căn cứ vào WOE / IV được trình bày và giải thích chi tiết [ở đây](http://rpubs.com/chidungkt/482163),  [ở đây](http://rpubs.com/chidungkt/478669) và [ở đây](http://rpubs.com/chidungkt/496068). 

5. Theo thông lệ, các hồ sơ xin vay được dán các nhãn xanh - đỏ - vàng với hàm ý các hồ sơ nhãn xanh (nhóm điểm cao) là tốt, ít rủi ro nhất còn nhãn đỏ (nhóm điểm thấp) là rủi ro nhất còn vàng là nhóm trung gian chuyên tiếp. Việc dán nhãn xanh - đỏ - vàng dựa trên Scorecard Point sẽ phụ thuộc vào nhiều yếu tố bao gồm cả định hướng và mức độ ưa thích rủi ro của tổ chức sử dụng mô hình.


# References


1. Martens, D., B. Baesens, T. Van Gestel, and J. Vanthienen. 2007. “Comprehensible Credit Scoring Models Using Rule Extraction from Support Vector Machines.” European Journal of Operational Research 183:1466–1476.

2. Baesens, B., Roesch, D., & Scheule, H. (2016). Credit risk analytics: Measurement techniques, applications, and examples in SAS. John Wiley & Sons.

3. Bellini, T. (2019). IFRS 9 and CECL Credit Risk Modelling and Validation: A Practical Guide with Examples Worked in R and SAS. Academic Press.

4. Siddiqi, N. (2012). Credit risk scorecards: developing and implementing intelligent credit scoring. John Wiley & Sons.

5. Anderson R (2007): The Credit Scoring Toolkit: Theory and Practice for Retail Credit Risk Management and Decision Automation. Oxford, Oxford University Press.

6. Hand DJ, Henley WE (1997): Statistical Classification Methods in Consumer Credit Scoring: a review. Journal. of the Royal Statistical Society, Series A, 160(3):523–541.

7. Thomas LC (2000): A survey of credit and behavioural scoring: forecasting financial risk of lending to consumers. International Journal of Forecasting, 16(2):149–172 .

8. Thomas LC (2009): Consumer Credit Models: Pricing, Profit, and Portfolio. Oxford, Oxford University Press.

9. Crook JN, Edelman DB, Thomas LC (2007): Recent developments in consumer credit risk assessment. European Journal of Operational Research, 183(3):1447–1465.

10. Van Gestel, T., B. Baesens, P. Van Dijcke, J. Suykens, J. Garcia, and T. Alderweireld. 2005. “Linear and Nonlinear Credit Scoring by Combining Logistic Regression and Support Vector Machines.” Journal of Credit Risk 1, no. 4.

11. Ben-David, A., & Frank, E. (2009). Accuracy of machine learning models versus “hand crafted” expert systems–a credit scoring case study. Expert Systems with Applications, 36(3), 5264-5271.


















