Nhu cầu về các mô hình phân loại ở các tổ chức tài chính - tín dụng

Xếp hạng tín dụng đóng một vai trò quan trọng đối với lợi nhuận và phát triển bền vững của ngân hàng nói riêng cũng như các tổ chức tài chính khác. Hiện nay cách tiếp cận theo phương pháp học máy (Machine Learning) đã chứng tỏ nhiều ưu thế về mức độ chính xác cũng như tin cậy so với một số mô hình phân loại truyền thống.

Sự kiện cuộc khủng hoảng tài chính dẫn đến sự sụp đổ của một loạt các định chế tài chính nói chung và ngân hàng nói riêng đã thức tỉnh các tổ chức này chú trọng hơn đến vai trò của thẩm định tín dụng trong hoạt động của mình. Hầu hết lợi nhuận của các ngân hàng đến từ hoạt động cấp tín dụng và cho vay. Cấp tín dụng là một trong những hoạt động tạo ra một tỉ trọng lớn về doanh thu và lợi nhuận cho ngân hàng nhưng cũng tiềm ẩn rất nhiều rủi ro (Zakrzewska, 2007). Rủi ro chính của ngân hàng là khả năng khách hàng không có khả năng hoàn trả lại khoản vay mà ngân hàng đã cấp. Mặt khác, quyết định có hay không cung cấp một khoản vay cho khách hàng thường phụ thuộc nhiều vào trình độ cũng như kinh nghiệm của cán nhân viên thẩm định tín dụng (Thomas, 2000). Ngoài ra, căn cứ để cấp tín dụng cho một khách hàng còn căn cứ vào một số tiêu chí xếp hạng mà một số trong số đó là rất khó đo lường, hoặc khó có thể đo lường chính xác. Chẳng hạn tiêu chuẩn 5C khi cấp tín dụng là dựa trên những đánh giá của ngân hàng về tư cách, năng lực, vốn, tài sản thế chấp, và điều kiện của người xin vay (Abrahams & Zhang, 2008). Rõ ràng một số tiêu chí, chẳng hạn như tư cách và năng lực của người vay là một nhân tố khó đánh giá và do vậy có thể dẫn đến các sai sót khi quyết định cho vay. Ngoài ra phương pháp đánh giá xếp hạng tín dụng dựa trên tiêu chuẩn 5C là có chi phí cao và có thể xẩy ra sự không nhất quán về việc cho vay hay không giữa những nhân viên thẩm định tín dụng khác nhau đối với cùng một hồ sơ xin vay. Vì những hạn chế này, các ngân hàng cũng như các tổ chức tài chính cần sử dụng các phương pháp thẩm định và xếp hạng tín dụng tin cậy, khách quan và chi phí thấp nhằm giúp những tổ chức này quyết định có hay không cấp tín dụng cho các hồ sơ xin vay (Akhavein, Frame, & White, 2005; Chye, Chin, & Peng, 2004). Hơn nữa, theo Thomas và ctg (2002), các ngân hàng cần một phương pháp xếp hạng tín dụng mà thỏa mãn những đòi hỏi sau: (1) chi phí rẻ và dễ vận hành, (2) nhanh chóng và ổn định, (3) đưa ra những quyết định nhất quán dựa trên các thông tin khách quan không phụ thuộc vào cảm xúc và tình cảm chủ quan của con người, và (4) hiệu quả của hệ phương pháp xếp hạng tín dụng có thể dễ dàng kiểm tra, điều chỉnh ở bất kì thời điểm nào nhằm điều chỉnh kịp thời với những thay đổi về chính sách hoặc điều kiện của nền kinh tế.

Đối với vấn đề phân loại tín dụng, cách tiếp cận truyền thống là dựa vào các phương pháp thống kê thuần túy như hồi quy tuyến tính đa biến (Meyer & Pifer, 1970), phân tích khác biệt (Altman, 1968; Banasik, Crook, & Thomas, 2003), và hồi quy Logistic (Desai, Crook, & Overstreet, 1996; Dimitras, Zanakis, & Zopounidis, 1996; Elliott & Filinkov, 2008; Lee, Chiu, Lu, & Chen, 2002). Tuy nhiên những yêu cầu của hội đồng Basel về giám sát hoạt động ngân hàng (the Basel Committee on Banking Supervision) ban hành năm 2004 đòi hỏi các ngân hàng cũng như các tổ chức tài chính phải sử dụng những mô hình phân loại tín dụng tin cậy hơn nhằm nâng cao hiệu quả của việc phân bổ vốn. Nhằm đáp ứng những đòi hỏi trên, trong những năm gần đây đã xuất hiện một số mô hình phân loại tín dụng mới theo cách tiếp cận của học máy (Machine Learning) và trí thông minh nhân tạo (Artificial Intelligence). Không giống như các tiếp cận trước đây, các phương pháp mới này không đưa ra bất kì giả thiết chặt chẽ nào như đòi hỏi của các cách tiếp cận theo phương pháp thống kê. Thay vào đó, các tiếp cận mới này cố gắng khai thác và đưa ra các kiến thức, các thông tin đầu ra chỉ dựa vào các thông tin đầu vào là các quan sát, các thông tin trong quá khứ. Với bài toán phân loại tín dụng, một số mô hình thuộc học máy như mạng trí tuệ nhân tạo ANN (Artificial Neural Network), Máy Hỗ Trợ Véctơ SVM (Support Vector Machines), K láng giềng gần nhất KNN (K-Nearest Neighbors), rừng ngẫu nhiên RF (Random Forest), cây quyết định DT (Decision Tree) chẳng hạn đã chứng tỏ nhiều ưu thế về mức độ chính xác cũng như tin cậy so với một số mô hình phân loại truyền thống (Chi & Hsu, 2012; Huang et.all, 2004; Huang, Chen, & Wang, 2007; Ince & Aktan, 2009; Martens và et al., 2010).

Kết quả nghiên cứu của một số tác giả với bộ dữ liệu German Credit

German Credit là bộ số liệu được sử dụng bởi nhiều nghiên cứu trên thế giới được cung cấp bởi giáo sư Hans Hofmann. Bộ dữ liệu này có thể download (cũng như tham khảo các thông tin khác) ở đây.

Nghiên cứu có tên Deep Learning for Credit Scoring in the Era of Big Data của nhóm tác giả đến từ Học Viện Ngân Hàng sử dụng bộ dữ liệu German Credit và mô hình có mức độ chính xác khi phân loại cao nhất là 76% thuộc về Convolutional Neural Network.Nhóm tác giả sử dụng gói Keras (gói này cũng sử dụng được với R và Python) và con số 76% đó là con số trung bình của 10 lần chạy mẫu bằng kiểm tra chéo (10-fold cross validation).

Một nghiên cứu khác cũng của nhóm tác giả của Học Viện Ngân Hàng cho một kết quả Accuracy cao hơn đáng kể là 81.42% (dù chưa rõ con số này là thử nghiệm trên một mẫu hay k-fold cross validatio) và AUC lớn nhất là 77.37%.

Nghiên cứu của nhóm tác giả đến từ University of Tasmania có tên Investigation and improvement of multi-layer perceptron neural networks for credit scoring cũng sử dụng cùng cách tiếp cận (Neural Networks) và cùng bộ số liệu German Credit thì mức độ chính xác đạt được là 87%.

Ngoài ra mức độ chính xác khi phân loại của một số cách tiếp cận khác cho bộ số liệu German Credit của một số tác giả khác là như sau:

Như vậy kết quả 76% của nhóm nghiên cứu đến từ Học Viện Ngân Hàng là một con số khiêm tốn và cách tiếp cận cho nghiên cứu cũng chưa có điểm gì mới. Ngoài ra nghiên cứu này chưa giải quyết hai vấn đề quan trọng sau khi lựa chọn và sử dụng mô hình phân loại cho bối cảnh đặc thù là các ngân hàng thương mại cũng như các tổ chức tài chính:

  1. Nhóm tác giả sử dụng đồng thời 6 cách tiếp cận (mô hình) cho phân loại nhưng có tới 4 trong số chúng có mức độ chính xác thấp hơn 70%. Vì thực tế chúng ta chẳng cần mô hình gì, bằng cách đoán ngẫu nhiên chúng ta cũng đạt mức chính xác 70% - chính là nhãn có tần suất xuất hiện cao nhất của cột biến cần phân loại (tỉ lệ Good/Bad là 70/30). Vì rằng không cần mô hình gì, bằng cách dán nhãn cho tất cả các cases là “Good” thì chúng ta đã có một “mô hình không gì cả” có độ chính xác 70%. Một mô hình gọi là có thể sử dụng được cho mục đích phân loại thì Accuracy của nó ít nhất cũng nên cao hơn tỉ lệ của nhãn chiếm ưu thế.

  2. Một tổ chức hoạt động vì lợi nhuận như ngân hàng thì mức độ chính xác không phải là căn cứ để chọn mô hình. Mà chúng căn cứ, trước hết, vào hệ quả kinh tế (lãi hay lỗ, và bao nhiêu) của việc sử dụng mô hình. Điều này đã được đề cập trong bài viết sau.

Deep Learning Model

Sử dụng 10-fold cross validatio như là một kĩ thuật kiểm định và đánh giá moo hình, chúng ta có thể xây dựng một mô hình có mức độ chính xác là 80.61% như sau:

# Load dữ liệu: 

rm(list = ls())
library(tidyverse)
library(magrittr)
library(caret)
data("GermanCredit")

sub_data <- GermanCredit %>% 
  mutate_if(is.numeric, function(x) {(x - min(x)) / (max(x) - min(x))})

# Load package H2o: 
library(h2o)
h2o.init(nthreads = 6, max_mem_size = "8g")
## 
## H2O is not running yet, starting it now...
## 
## Note:  In case of errors look at the following log files:
##     C:\Users\Zbook\AppData\Local\Temp\RtmpMjNC4Q/h2o_Zbook_started_from_r.out
##     C:\Users\Zbook\AppData\Local\Temp\RtmpMjNC4Q/h2o_Zbook_started_from_r.err
## 
## 
## Starting H2O JVM and connecting: . Connection successful!
## 
## R is connected to the H2O cluster: 
##     H2O cluster uptime:         2 seconds 728 milliseconds 
##     H2O cluster timezone:       Asia/Bangkok 
##     H2O data parsing timezone:  UTC 
##     H2O cluster version:        3.22.1.1 
##     H2O cluster version age:    3 months and 20 days !!! 
##     H2O cluster name:           H2O_started_from_R_Zbook_lik256 
##     H2O cluster total nodes:    1 
##     H2O cluster total memory:   7.11 GB 
##     H2O cluster total cores:    8 
##     H2O cluster allowed cores:  6 
##     H2O cluster healthy:        TRUE 
##     H2O Connection ip:          localhost 
##     H2O Connection port:        54321 
##     H2O Connection proxy:       NA 
##     H2O Internal Security:      FALSE 
##     H2O API Extensions:         Algos, AutoML, Core V3, Core V4 
##     R Version:                  R version 3.5.2 (2018-12-20)
h2o.no_progress()

# Chuẩn  bị dữ liệu: 
y <- "Class" 
x <- setdiff(colnames(sub_data), y)

# Phân chưa dữ liệu (chú ý em này là list) theo tỉ lệ 70 - 30:  
sub_data %<>% as.h2o()
id <- h2o.splitFrame(sub_data, 
                     ratios = 0.7, 
                     seed = 29)


# Tách ra dữ liệu  huấn luyện và kiếm định: 
train <- id[[1]]
test <- id[[2]]

dep_ln <- h2o.deeplearning (x,
                            y, 
                            model_id = "Deep_learning", 
                            training_frame = train, 
                            nfolds = 10, 
                            hidden = c(400, 400, 400, 400), 
                            balance_classes = TRUE,
                            stopping_metric = "AUC", 
                            replicate_training_data = TRUE, 
                            stopping_tolerance = 0.001, 
                            stopping_rounds = 5, 
                            overwrite_with_best_model = TRUE, 
                            fold_assignment = "Stratified", 
                            epochs = 500, 
                            activation = "TanhWithDropout", 
                            keep_cross_validation_fold_assignment = TRUE,
                            keep_cross_validation_predictions = FALSE, 
                            score_each_iteration = TRUE, 
                            variable_importances = TRUE, 
                            reproducible = TRUE,
                            seed = 123)


# Viết hàm lấy ra các kết quả chủ yếu cho lớp mô hình phân loại: 

results_df <- function(h2o_model) {
  h2o_model@model$cross_validation_metrics_summary %>% 
    as.data.frame() %>% 
    select(-mean, -sd) %>% 
    t() %>% 
    as.data.frame() %>% 
    mutate_all(as.character) %>% 
    mutate_all(as.numeric) -> k
  
  k %>% 
    select(Accuracy = accuracy, 
           AUC = auc, 
           Precision = precision, 
           Specificity = specificity, 
           Recall = recall, 
           Logloss = logloss) %>% 
    return()
}

# Sử dụng hàm: 
results_df(dep_ln) -> ket_qua


# Các thống kê về những tiêu chí này: 
ket_qua %>% 
  gather(Metrics, Values) %>% 
  group_by(Metrics) %>% 
  summarise_each(funs(mean, median, min, max, sd, n()), Values) %>% 
  mutate_if(is.numeric, function(x) {round(100*x, 2)}) %>% 
  mutate(n = n / 100) %>% 
  knitr::kable(col.names = c("Criterion", "Mean", "Median", "Min", "Max", "SD", "N"), 
               caption = "Table 1: Model Performance by some Criteria")
Table 1: Model Performance by some Criteria
Criterion Mean Median Min Max SD N
Accuracy 80.61 81.99 72.97 85.45 4.35 10
AUC 82.37 82.26 76.09 87.67 3.49 10
Logloss 54.83 54.32 42.64 74.04 10.57 10
Precision 82.01 84.04 69.49 88.89 6.89 10
Recall 93.18 94.01 84.48 100.00 4.55 10
Specificity 52.09 51.08 35.71 73.08 11.23 10

Các kết quả trên có thể được hình ảnh hóa để đánh giá chi tiết hơn nữa (như phân phối):

theme_set(theme_minimal())

ket_qua %>% 
  gather(Metrics, Values) %>% 
  ggplot(aes(Metrics, Values, fill = Metrics, color = Metrics)) +
  geom_boxplot(alpha = 0.3, show.legend = FALSE) + 
  facet_wrap(~ Metrics, scales = "free") + 
  scale_y_continuous(labels = scales::percent) + 
  labs(title = "Figure 1: Model Performance by Some Criteria", 
       subtitle = "Data Used: German Credit provided by Center for Machine Learning and Intelligent Systems", 
       x = NULL, y = NULL)

Lựa chọn và sử dụng mô hình dựa trên tiêu chuẩn lợi nhuận

Sử dụng lợi nhuận để lựa chọn mô hình với các giả thiết sau:

  1. Lãi là 30% trên số tiền cho vay.

  2. Phân phối của số tiền cho vay (đối với các hồ sơ được duyệt vay) dựa trên dữ liệu lịch sử cho vay của ngân hàng.

  3. Khi cho các hồ sơ vốn là hồ sơ xấu (Bad) nhưng mô hình phân loại sai thành tốt (Good) thì ngân hàng sẽ mất vốn hoàn toàn.

Ngoài ra, để nghiên cứu chi tiết hơn nữa về hậu quả kinh tế cũng như có thể đưa ra bằng chứng thông kê thuyết phục hơn thì kết quả sẽ được kiểm tra cho 1000 lần chọn mẫu.

Trước hết huấn luyện và so sánh sơ bộ một loạt các mô hình Machine Learning. Để thuận lợi cho việc so sánh chúng ta nên sử dụng gói caretEnsemble cho việc so sánh và đánh giá:

# Chuẩn hóa dữ liệu và loại một số cột biến không cần thiết: 

df_for_ml <- GermanCredit %>% 
  mutate_if(is.numeric, function(x) {(x - min(x)) / (max(x) - min(x))}) %>% 
  select(-Personal.Female.Single, -Purpose.Vacation)

# Split data: 

set.seed(1)
id <- createDataPartition(y = df_for_ml$Class, p = 0.7, list = FALSE)
df_train_ml <- df_for_ml[id, ]
df_test_ml <- df_for_ml[-id, ]

# Set conditions for training model and cross-validation: 

set.seed(1)
number <- 5
repeats <- 5
control <- trainControl(method = "repeatedcv", 
                        number = number , 
                        repeats = repeats, 
                        classProbs = TRUE, 
                        savePredictions = "final", 
                        index = createResample(df_train_ml$Class, repeats*number), 
                        summaryFunction = multiClassSummary, 
                        allowParallel = TRUE)

# Use Parallel computing: 
library(doParallel)
registerDoParallel(cores = detectCores() - 1)

# 7 models selected: 

my_models <- c("glm", "rf", "adaboost", "svmRadial", "knn", "xgbTree", "C5.0")

# Train these ML Models: 
library(caretEnsemble)
set.seed(1)
system.time(model_list1 <- caretList(Class ~., 
                                     data = df_train_ml,
                                     trControl = control,
                                     metric = "Accuracy", 
                                     methodList = my_models))
##    user  system elapsed 
##   32.80    1.39  538.74
# Extract results for comparing: 

list_of_results <- lapply(my_models, function(x) {model_list1[[x]]$resample})

# Convert to data frame: 
total_df <- do.call("bind_rows", list_of_results)
total_df %<>% mutate(Model = lapply(my_models, 
                                    function(x) {rep(x, number*repeats)}) %>% unlist())

# Average Accuracy based on 25 samples for these models: 

total_df %>% 
  group_by(Model) %>% 
  summarise_each(funs(mean), Accuracy, AUC, Sensitivity, Specificity, F1, Kappa) %>% 
  ungroup() %>% 
  arrange(-Accuracy) %>% 
  mutate_if(is.numeric, function(x) {round(100*x, 2)}) %>% 
  knitr::kable(caption = "Table 2: A Coparision of Model Performance by some Criteria")
Table 2: A Coparision of Model Performance by some Criteria
Model Accuracy AUC Sensitivity Specificity F1 Kappa
xgbTree 75.67 79.99 52.32 85.66 55.88 39.33
svmRadial 75.28 79.87 53.06 84.74 55.93 38.90
rf 75.15 78.74 45.91 87.71 52.09 35.98
adaboost 74.92 53.77 30.19 94.01 41.37 28.60
glm 74.23 78.14 51.33 84.00 54.07 36.34
C5.0 73.79 78.05 54.86 81.90 55.26 36.85
knn 71.18 70.19 37.10 85.81 42.94 24.77

Table 2 mang lại ấn tượng rằng XgbTree là mô hình nên được lựa chọn vì đây là cách tiếp cận có Accuracy cao nhất. Tuy nhiên, với các tổ chức vì lợi nhuận thì mô hình có mức độ chính xác cao nhất chưa chắc đã là mô hình được lựa chọn để phân loại hồ sơ. Cụ thể hơn, XgbTre không phải là mô hình mang lại nhiều lợi nhuận nhất mà là C5.0 như chúng ta có thể thấy ngay sau đây dù mô hình này không phải có Accuracy cao nhất:

# Viết hàm đánh giá kết quả với đầu vào là: (1) tỉ lệ mẫu được chọn, 
# (2) số lần lặp, và (3)  model được chọn + bộ dữ liệu mà từ đó
# chúng ta chọn mẫu: 


get_result <- function(ti_le, N, model_selected, df_test_selected) {
  my_vec <- c()
  
  for (i in 1:N) {
    set.seed(i) 
    df_test <- df_test_selected %>% 
      group_by(Class) %>% 
      sample_frac(ti_le) %>% 
      ungroup()
    
    pred <- predict(model_selected, df_test %>% select(-Class))
    cm <- confusionMatrix(df_test$Class, pred)
    cm$table %>% 
      as.vector() -> u
    my_vec <- c(my_vec, u)
  }
  
  my_vec %>% 
    matrix(ncol = 4, byrow = TRUE) %>% 
    as.data.frame() %>% 
    rename(BB = V1, 
           GB = V2,
           BG = V3,
           GG = V4) %>% 
    return()
}


# Kết quả phân loại của các mô hình này: 

loan_xgbtree <- get_result(0.5, 100, model_list1$xgbTree, df_test_ml)
loan_svm <- get_result(0.5, 100, model_list1$svmRadial, df_test_ml)
loan_rf <- get_result(0.5, 100, model_list1$rf, df_test_ml)
loan_adaboost <- get_result(0.5, 100, model_list1$adaboost, df_test_ml)
loan_logit <- get_result(0.5, 100, model_list1$glm, df_test_ml)
loan_c50 <- get_result(0.5, 100, model_list1$C5.0, df_test_ml)
loan_knn <- get_result(0.5, 100, model_list1$knn, df_test_ml)


# Tổng hợp các Data Frame này và tạo ra cột Accuracy: 

total_df_result <- bind_rows(loan_xgbtree %>% mutate(Model = "XgbTree"), 
                             loan_svm %>% mutate(Model = "SVM"), 
                             loan_rf %>% mutate(Model = "RF"), 
                             loan_knn %>% mutate(Model = "KNN"), 
                             loan_logit %>% mutate(Model = "Logistic"), 
                             loan_c50 %>% mutate(Model = "C5.0"), 
                             loan_adaboost %>% mutate(Model = "AdaBoost")) %>% 
  mutate(Accuracy = (BB + GG) / (BB + GG + GB + BG))

# Accuracy trung bình trên 100 mẫu được thử nghiệm: 

total_df_result %>% 
  group_by(Model) %>% 
  summarise_each(funs(mean), Accuracy, GG, BB, BG) %>% 
  ungroup() %>% 
  arrange(-Accuracy) %>% 
  mutate_at(.vars = c("Accuracy"), function(x) {round(100*x, 2)}) %>% 
  knitr::kable(caption = "Table 3: A Coparision of Model Performance by some Criteria, 100 samples")
Table 3: A Coparision of Model Performance by some Criteria, 100 samples
Model Accuracy GG BB BG
RF 76.96 97.06 18.38 26.62
AdaBoost 76.61 99.45 15.47 29.53
KNN 74.55 95.05 16.78 28.22
C5.0 73.07 86.96 22.64 22.36
Logistic 72.15 87.70 20.52 24.48
XgbTree 72.03 88.98 19.07 25.93
SVM 71.83 87.26 20.48 24.52
# Viết hàm mô phỏng lợi nhuận với các giả thiết đã nêu ở trên: 

profit_simu <- function(df_result, rate, N) {

  khoan_vay <- GermanCredit$Amount
  so_khoan_vay_tot <- sum(df_result$GG)
  so_khoan_vay_xau <- sum(df_result$BG)
  
  my_prof <- c()
  
  for (i in 1:N) {
    set.seed(i)
    prof <- rate*sample(khoan_vay, size = so_khoan_vay_tot, replace = TRUE) %>% sum() - 
      sum(sample(khoan_vay, size = so_khoan_vay_xau, replace = TRUE))
    my_prof <- c(prof, my_prof)
  }
  return(my_prof)
}

# Lợi nhuận của tổ chức tài chính tương ứng với việc
# sử dụng các mô hình dựa trên mô phỏng 1000 lần: 


profit <- c(loan_xgbtree %>% profit_simu(0.3, 1000), 
            loan_svm %>% profit_simu(0.3, 1000), 
            loan_rf %>% profit_simu(0.3, 1000), 
            loan_knn %>% profit_simu(0.3, 1000), 
            loan_logit %>% profit_simu(0.3, 1000), 
            loan_c50 %>% profit_simu(0.3, 1000), 
            loan_adaboost %>% profit_simu(0.3, 1000))


profit_df <- data.frame(Profit = profit, 
                        Model = c(rep("XgbTree", 1000), 
                                  rep("SVM", 1000), 
                                  rep("RF", 1000), 
                                  rep("KNN", 1000), 
                                  rep("Logistic", 1000),
                                  rep("C5.0", 1000), 
                                  rep("AdaBoost", 1000)))


# Các thống kê chi tiết về lợi nhuận này tương ứng với các mô hình: 

profit_df %>% 
  group_by(Model) %>% 
  summarise_each(funs(mean, median, min, max, sd), Profit) %>% 
  ungroup() %>% 
  arrange(-mean) %>% 
  mutate_if(is.numeric, function(x) {round(x, 0)}) %>% 
  knitr::kable(caption = "Table 4: Simulated Profit Based Monte Carlo Method\nwith Interest Rate is 30% for Test Data Sets", 
               col.names = c("Model", "Mean", "Median", "Min", "Max", "SD"))
Table 4: Simulated Profit Based Monte Carlo Method with Interest Rate is 30% for Test Data Sets
Model Mean Median Min Max SD
C5.0 1220940 1224864 777290 1682442 152549
RF 821424 824390 302273 1303387 165424
Logistic 600134 601024 94491 1146187 157444
SVM 544602 547606 74599 1065523 158888
XgbTree 251178 254245 -252344 706301 160084
AdaBoost 105167 108447 -471154 717252 168513
KNN 101694 103692 -433281 583161 166045

Chúng ta có thể hình ảnh hóa phân phối của lợi nhuận tương ứng với các mô hình được lựa chọn:

profit_df %>% 
  mutate(Profit = Profit / 1000000) %>% 
  ggplot(aes(Profit)) + 
  geom_density(fill = "red", color = "red", alpha = 0.3) + 
  geom_histogram(aes(y = ..density..), color = "blue", fill = "blue", alpha = 0.3) + 
  facet_wrap(~ Model, scales = "free") + 
  labs(x = NULL, y = NULL, 
       title = "Figure 2: Simulated Profit Based on Monte Carlo Method\nwith Interest Rate of 30% and 1000 Samples (unit: millions)", 
       caption = "Data Used: German Credit provided by Center for Machine Learning and Intelligent Systems")

Với dữ liệu ở Figure 2 chúng ta cũng có thể tính toán xác suất mà ngân hàng có lợi nhuận âm với một ngưỡng xác suất chọn trước nào đó bằng VaR (Value at Risk).

Vài kết luận

Trong thực tế thì những giả thiết sau đây cần phải được nới lỏng:

  1. Không phải mọi hồ sơ tốt khi được vay đều có mức độ hoàn vốn và lãi cho ngân hàng với xác suất 100%. ĐIều đó cũng đúng với các hồ sơ xấu (nhưng theo hướng ngược lại). Xác suất của các sự kiện này có thể được ước lượng từ dữ liệu lịch sử của ngân hàng hoặc sử dụng các phương pháp mô phỏng.

  2. Không chỉ Profit mà còn nhiều khía cạnh khác mà tổ chức sử dụng mô hình phân loại quan tâm. Chẳng hạn mức độ ổn định khi phân loại của mô hình.

  3. Khả năng phân loại chính xác các lớp hồ sơ (nhãn Bad phân loại đúng thành Bad - BB, nhãn Good phân loại đúng thành Good - GG) phụ thuộc vào ngưỡng được lựa chọn (cutoff) cho Probability of Default khi phân loại và do đó ngưỡng này có ảnh hưởng đến Profit. Hiện tại khảo sát ảnh hưởng của ngưỡng lên Profit chưa được khảo sát và đánh giá trong bài viết này.

References

  1. Martens, D., B. Baesens, T. Van Gestel, and J. Vanthienen. 2007. “Comprehensible Credit Scoring Models Using Rule Extraction from Support Vector Machines.” European Journal of Operational Research 183:1466–1476.

  2. Baesens, B., Roesch, D., & Scheule, H. (2016). Credit risk analytics: Measurement techniques, applications, and examples in SAS. John Wiley & Sons.

  3. Siddiqi, N. (2012). Credit risk scorecards: developing and implementing intelligent credit scoring. John Wiley & Sons.

  4. Anderson R (2007): The Credit Scoring Toolkit: Theory and Practice for Retail Credit Risk Management and Decision Automation. Oxford, Oxford University Press.

  5. Hand DJ, Henley WE (1997): Statistical Classification Methods in Consumer Credit Scoring: a review. Journal. of the Royal Statistical Society, Series A, 160(3):523–541.

  6. Thomas LC (2000): A survey of credit and behavioural scoring: forecasting financial risk of lending to consumers. International Journal of Forecasting, 16(2):149–172 .

  7. Thomas LC (2009): Consumer Credit Models: Pricing, Profit, and Portfolio. Oxford, Oxford University Press.

  8. Crook JN, Edelman DB, Thomas LC (2007): Recent developments in consumer credit risk assessment. European Journal of Operational Research, 183(3):1447–1465.

  9. Van Gestel, T., B. Baesens, P. Van Dijcke, J. Suykens, J. Garcia, and T. Alderweireld. 2005. “Linear and Nonlinear Credit Scoring by Combining Logistic Regression and Support Vector Machines.” Journal of Credit Risk 1, no. 4.

  10. Ben-David, A., & Frank, E. (2009). Accuracy of machine learning models versus “hand crafted” expert systems–a credit scoring case study. Expert Systems with Applications, 36(3), 5264-5271.

  11. Molinaro A (2005). “Prediction Error Estimation: A Comparison of Resampling Methods.” Bioinformatics, 21(15), 3301–3307.

  12. Kim JH (2009). “Estimating Classification Error Rate: Repeated Cross– Validation, Repeated Hold–Out and Bootstrap.” Computational Statistics & Data Analysis, 53(11), 3735–3745.

---
title: "Deep Learning for Credit Scoring in the Era of Big Data (Adapted from a research conducted by MIS, Banking Academy of Vietnam)" 
subtitle: "R for Pleasure"
author: "Nguyen Chi Dung"
output:
  html_document: 
    code_download: true
    code_folding: hide
    highlight: pygments
    # number_sections: yes
    theme: "flatly"
    toc: TRUE
    toc_float: TRUE
---

```{r setup,include=FALSE}
knitr::opts_chunk$set(echo = TRUE, warning = FALSE, message = FALSE)
```


# Nhu cầu về các mô hình phân loại ở các tổ chức tài chính - tín dụng


Xếp hạng tín dụng đóng một vai trò quan trọng đối với lợi nhuận và phát triển bền vững của ngân hàng nói riêng cũng như các tổ chức tài chính khác. Hiện nay cách tiếp cận theo phương pháp học máy (Machine Learning) đã chứng tỏ nhiều ưu thế về mức độ chính xác cũng như tin cậy so với một số mô hình phân loại truyền thống.

Sự kiện cuộc khủng hoảng tài chính dẫn đến sự sụp đổ của một loạt các định chế tài chính nói chung và ngân hàng nói riêng đã thức tỉnh các tổ chức này chú trọng hơn đến vai trò của thẩm định tín dụng trong hoạt động của mình. Hầu hết lợi nhuận của các ngân hàng đến từ hoạt động cấp tín dụng và cho vay. Cấp tín dụng là một trong những hoạt động tạo ra một tỉ trọng lớn về doanh thu và lợi nhuận cho ngân hàng nhưng cũng tiềm ẩn rất nhiều rủi ro (Zakrzewska, 2007). Rủi ro chính của ngân hàng là khả năng khách hàng không có khả năng hoàn trả lại khoản vay mà ngân hàng đã cấp. Mặt khác, quyết định có hay không cung cấp một khoản vay cho khách hàng thường phụ thuộc nhiều vào trình độ cũng như kinh nghiệm của cán nhân viên thẩm định tín dụng (Thomas, 2000). Ngoài ra, căn cứ để cấp tín dụng cho một khách hàng còn căn cứ vào một số tiêu chí xếp hạng mà một số trong số đó là rất khó đo lường, hoặc khó có thể đo lường chính xác. Chẳng hạn tiêu chuẩn 5C khi cấp tín dụng là dựa trên những đánh giá của ngân hàng về tư cách, năng lực, vốn, tài sản thế chấp, và điều kiện của người xin vay (Abrahams & Zhang, 2008). Rõ ràng một số tiêu chí, chẳng hạn như tư cách và năng lực của người vay là một nhân tố khó đánh giá và do vậy có thể dẫn đến các sai sót khi quyết định cho vay. Ngoài ra phương pháp đánh giá xếp hạng tín dụng dựa trên tiêu chuẩn 5C là có chi phí cao và có thể xẩy ra sự không nhất quán về việc cho vay hay không giữa những nhân viên thẩm định tín dụng khác nhau đối với cùng một hồ sơ xin vay. Vì những hạn chế này, các ngân hàng cũng như các tổ chức tài chính cần sử dụng các phương pháp thẩm định và xếp hạng tín dụng tin cậy, khách quan và chi phí thấp nhằm giúp những tổ chức này quyết định có hay không cấp tín dụng cho các hồ sơ xin vay (Akhavein, Frame, & White, 2005; Chye, Chin, & Peng, 2004). Hơn nữa, theo Thomas và ctg (2002), các ngân hàng cần một phương pháp xếp hạng tín dụng mà thỏa mãn những đòi hỏi sau: (1) chi phí rẻ và dễ vận hành, (2) nhanh chóng và ổn định, (3) đưa ra những quyết định nhất quán dựa trên các thông tin khách quan không phụ thuộc vào cảm xúc và tình cảm chủ quan của con người, và (4) hiệu quả của hệ phương pháp xếp hạng tín dụng có thể dễ dàng kiểm tra, điều chỉnh ở bất kì thời điểm nào nhằm điều chỉnh kịp thời với những thay đổi về chính sách hoặc điều kiện của nền kinh tế.

Đối với vấn đề phân loại tín dụng, cách tiếp cận truyền thống là dựa vào các phương pháp thống kê thuần túy như hồi quy tuyến tính đa biến (Meyer & Pifer, 1970), phân tích khác biệt (Altman, 1968; Banasik, Crook, & Thomas, 2003), và hồi quy Logistic (Desai, Crook, & Overstreet, 1996; Dimitras, Zanakis, & Zopounidis, 1996; Elliott & Filinkov, 2008; Lee, Chiu, Lu, & Chen, 2002). Tuy nhiên những yêu cầu của hội đồng Basel về giám sát hoạt động ngân hàng (the Basel Committee on Banking Supervision) ban hành năm 2004 đòi hỏi các ngân hàng cũng như các tổ chức tài chính phải sử dụng những mô hình phân loại tín dụng tin cậy hơn nhằm nâng cao hiệu quả của việc phân bổ vốn. Nhằm đáp ứng những đòi hỏi trên, trong những năm gần đây đã xuất hiện một số mô hình phân loại tín dụng mới theo cách tiếp cận của học máy (Machine Learning) và trí thông minh nhân tạo (Artificial Intelligence). Không giống như các tiếp cận trước đây, các phương pháp mới này không đưa ra bất kì giả thiết chặt chẽ nào như đòi hỏi của các cách tiếp cận theo phương pháp thống kê. Thay vào đó, các tiếp cận mới này cố gắng khai thác và đưa ra các kiến thức, các thông tin đầu ra chỉ dựa vào các thông tin đầu vào là các quan sát, các thông tin trong quá khứ. Với bài toán phân loại tín dụng, một số mô hình thuộc học máy như mạng trí tuệ nhân tạo ANN (Artificial Neural Network), Máy Hỗ Trợ Véctơ SVM (Support Vector Machines), K láng giềng gần nhất KNN (K-Nearest Neighbors), rừng ngẫu nhiên RF (Random Forest), cây quyết định DT (Decision Tree) chẳng hạn đã chứng tỏ nhiều ưu thế về mức độ chính xác cũng như tin cậy so với một số mô hình phân loại truyền thống (Chi & Hsu, 2012; Huang et.all, 2004; Huang, Chen, & Wang, 2007; Ince & Aktan, 2009; Martens và et al., 2010).

# Kết quả nghiên cứu của một số tác giả với bộ dữ liệu German Credit

German Credit là bộ số liệu được sử dụng bởi nhiều nghiên cứu trên thế giới được cung cấp bởi giáo sư Hans Hofmann. Bộ dữ liệu này có thể download (cũng như tham khảo các thông tin khác) [ở đây](http://archive.ics.uci.edu/ml/datasets/statlog+(german+credit+data)). 

Nghiên cứu có tên [Deep Learning for Credit Scoring in the Era of Big Data](https://businessdocbox.com/Business_Software/68878733-State-bank-of-vietnam-banking-academy-international-conference-bdbf-2017-hanoi-vietnam-june-15-th-2017-proceedings.html) của nhóm tác giả đến từ Học Viện Ngân Hàng sử dụng bộ dữ liệu German Credit và mô hình có mức độ chính xác khi phân loại cao nhất là 76% thuộc về Convolutional Neural Network.Nhóm tác giả sử dụng gói Keras (gói này cũng sử dụng được với R và Python) và con số  76% đó là con số trung bình của 10 lần chạy mẫu bằng kiểm tra chéo (10-fold cross validation).

Một [nghiên cứu khác](http://mis.hvnh.edu.vn/upload/170/20170103/Ap%20dung%20AI%20trong%20cham%20diem%20tin%20dung-Hue&Thuy-tapchiTinhocNH.pdf) cũng của nhóm tác giả của Học Viện Ngân Hàng cho một kết quả  Accuracy cao hơn đáng kể là 81.42% (dù chưa rõ con số này là thử nghiệm trên **một** mẫu hay k-fold  cross validatio) và AUC lớn nhất là 77.37%. 

Nghiên cứu của nhóm tác giả đến từ University of Tasmania có tên [Investigation and improvement of multi-layer perceptron neural networks for credit scoring](https://www.sciencedirect.com/science/article/pii/S0957417414007726) cũng sử dụng cùng cách tiếp cận (Neural Networks) và cùng bộ số liệu German Credit thì mức độ chính xác đạt được là 87%.

Ngoài ra mức độ chính xác khi phân loại của một số cách tiếp cận khác cho bộ số liệu German Credit của một số tác giả khác là như sau: 

![](C:\\Users\\Zbook\\Desktop\\pic\\pic2.png)

Như vậy kết quả 76% của nhóm nghiên cứu đến từ Học Viện Ngân Hàng là một con số khiêm tốn và cách tiếp cận cho nghiên cứu cũng chưa có điểm gì mới. Ngoài ra nghiên cứu này chưa giải quyết hai vấn đề quan trọng sau khi lựa chọn và sử dụng mô hình phân loại cho bối cảnh đặc thù là các ngân hàng thương mại cũng như các tổ chức tài chính: 

1. Nhóm tác giả sử dụng đồng thời 6 cách tiếp cận (mô hình) cho phân loại nhưng có tới 4 trong số chúng có mức độ chính xác thấp hơn 70%. Vì thực tế chúng ta chẳng cần mô hình gì, bằng cách đoán ngẫu nhiên chúng ta cũng đạt mức chính xác 70% - chính là nhãn có tần suất xuất hiện cao nhất của cột biến cần phân loại (tỉ lệ Good/Bad là 70/30). Vì rằng không cần mô hình gì, bằng cách dán nhãn cho tất cả các cases là "Good" thì chúng ta đã có một "mô hình không gì cả" có độ chính xác 70%. Một mô hình gọi là có thể sử dụng được cho mục đích phân loại thì Accuracy của nó ít nhất cũng nên cao hơn tỉ lệ của nhãn chiếm ưu thế. 

2. Một tổ chức hoạt động vì lợi nhuận như ngân hàng thì mức độ chính xác không phải là căn cứ để chọn mô hình. Mà chúng căn cứ, trước hết, vào hệ quả kinh tế (lãi hay lỗ, và bao nhiêu) của việc sử dụng mô hình. Điều này đã được đề cập trong [bài viết sau](http://rpubs.com/chidungkt/297825). 


# Deep Learning Model

Sử dụng 10-fold cross validatio như là một kĩ thuật kiểm định và đánh giá moo hình, chúng ta có thể xây dựng một mô hình có mức độ chính xác là 80.61% như sau: 


```{r}
# Load dữ liệu: 

rm(list = ls())
library(tidyverse)
library(magrittr)
library(caret)
data("GermanCredit")

sub_data <- GermanCredit %>% 
  mutate_if(is.numeric, function(x) {(x - min(x)) / (max(x) - min(x))})

# Load package H2o: 
library(h2o)
h2o.init(nthreads = 6, max_mem_size = "8g")
h2o.no_progress()

# Chuẩn  bị dữ liệu: 
y <- "Class" 
x <- setdiff(colnames(sub_data), y)

# Phân chưa dữ liệu (chú ý em này là list) theo tỉ lệ 70 - 30:  
sub_data %<>% as.h2o()
id <- h2o.splitFrame(sub_data, 
                     ratios = 0.7, 
                     seed = 29)


# Tách ra dữ liệu  huấn luyện và kiếm định: 
train <- id[[1]]
test <- id[[2]]

dep_ln <- h2o.deeplearning (x,
                            y, 
                            model_id = "Deep_learning", 
                            training_frame = train, 
                            nfolds = 10, 
                            hidden = c(400, 400, 400, 400), 
                            balance_classes = TRUE,
                            stopping_metric = "AUC", 
                            replicate_training_data = TRUE, 
                            stopping_tolerance = 0.001, 
                            stopping_rounds = 5, 
                            overwrite_with_best_model = TRUE, 
                            fold_assignment = "Stratified", 
                            epochs = 500, 
                            activation = "TanhWithDropout", 
                            keep_cross_validation_fold_assignment = TRUE,
                            keep_cross_validation_predictions = FALSE, 
                            score_each_iteration = TRUE, 
                            variable_importances = TRUE, 
                            reproducible = TRUE,
                            seed = 123)


# Viết hàm lấy ra các kết quả chủ yếu cho lớp mô hình phân loại: 

results_df <- function(h2o_model) {
  h2o_model@model$cross_validation_metrics_summary %>% 
    as.data.frame() %>% 
    select(-mean, -sd) %>% 
    t() %>% 
    as.data.frame() %>% 
    mutate_all(as.character) %>% 
    mutate_all(as.numeric) -> k
  
  k %>% 
    select(Accuracy = accuracy, 
           AUC = auc, 
           Precision = precision, 
           Specificity = specificity, 
           Recall = recall, 
           Logloss = logloss) %>% 
    return()
}

# Sử dụng hàm: 
results_df(dep_ln) -> ket_qua


# Các thống kê về những tiêu chí này: 
ket_qua %>% 
  gather(Metrics, Values) %>% 
  group_by(Metrics) %>% 
  summarise_each(funs(mean, median, min, max, sd, n()), Values) %>% 
  mutate_if(is.numeric, function(x) {round(100*x, 2)}) %>% 
  mutate(n = n / 100) %>% 
  knitr::kable(col.names = c("Criterion", "Mean", "Median", "Min", "Max", "SD", "N"), 
               caption = "Table 1: Model Performance by some Criteria")


```

Các kết quả trên có thể được hình ảnh hóa để đánh giá chi tiết hơn nữa (như phân phối): 

```{r}
theme_set(theme_minimal())

ket_qua %>% 
  gather(Metrics, Values) %>% 
  ggplot(aes(Metrics, Values, fill = Metrics, color = Metrics)) +
  geom_boxplot(alpha = 0.3, show.legend = FALSE) + 
  facet_wrap(~ Metrics, scales = "free") + 
  scale_y_continuous(labels = scales::percent) + 
  labs(title = "Figure 1: Model Performance by Some Criteria", 
       subtitle = "Data Used: German Credit provided by Center for Machine Learning and Intelligent Systems", 
       x = NULL, y = NULL)
```


# Lựa chọn và sử dụng mô hình dựa trên tiêu chuẩn lợi nhuận


Sử dụng lợi nhuận để lựa chọn mô hình với các giả thiết sau:

1. Lãi là 30% trên số tiền cho vay. 

2. Phân phối của số tiền cho vay (đối với các hồ sơ được  duyệt vay) dựa trên dữ liệu lịch sử cho vay của ngân hàng.

3. Khi cho các hồ sơ vốn là hồ sơ xấu (Bad) nhưng mô hình phân loại sai thành tốt (Good) thì ngân hàng sẽ mất vốn hoàn toàn. 

Ngoài ra, để nghiên cứu chi tiết hơn nữa về hậu quả kinh tế cũng như có thể đưa ra bằng chứng thông kê thuyết phục hơn thì kết quả sẽ được kiểm tra cho 1000 lần chọn mẫu. 

Trước hết huấn luyện và so sánh sơ bộ một loạt các mô hình Machine Learning. Để thuận lợi cho việc so sánh chúng ta nên sử dụng gói **caretEnsemble** cho việc so sánh và đánh giá: 

```{r}

# Chuẩn hóa dữ liệu và loại một số cột biến không cần thiết: 

df_for_ml <- GermanCredit %>% 
  mutate_if(is.numeric, function(x) {(x - min(x)) / (max(x) - min(x))}) %>% 
  select(-Personal.Female.Single, -Purpose.Vacation)

# Split data: 

set.seed(1)
id <- createDataPartition(y = df_for_ml$Class, p = 0.7, list = FALSE)
df_train_ml <- df_for_ml[id, ]
df_test_ml <- df_for_ml[-id, ]

# Set conditions for training model and cross-validation: 

set.seed(1)
number <- 5
repeats <- 5
control <- trainControl(method = "repeatedcv", 
                        number = number , 
                        repeats = repeats, 
                        classProbs = TRUE, 
                        savePredictions = "final", 
                        index = createResample(df_train_ml$Class, repeats*number), 
                        summaryFunction = multiClassSummary, 
                        allowParallel = TRUE)

# Use Parallel computing: 
library(doParallel)
registerDoParallel(cores = detectCores() - 1)

# 7 models selected: 

my_models <- c("glm", "rf", "adaboost", "svmRadial", "knn", "xgbTree", "C5.0")

# Train these ML Models: 
library(caretEnsemble)
set.seed(1)
system.time(model_list1 <- caretList(Class ~., 
                                     data = df_train_ml,
                                     trControl = control,
                                     metric = "Accuracy", 
                                     methodList = my_models))

# Extract results for comparing: 

list_of_results <- lapply(my_models, function(x) {model_list1[[x]]$resample})

# Convert to data frame: 
total_df <- do.call("bind_rows", list_of_results)
total_df %<>% mutate(Model = lapply(my_models, 
                                    function(x) {rep(x, number*repeats)}) %>% unlist())

# Average Accuracy based on 25 samples for these models: 

total_df %>% 
  group_by(Model) %>% 
  summarise_each(funs(mean), Accuracy, AUC, Sensitivity, Specificity, F1, Kappa) %>% 
  ungroup() %>% 
  arrange(-Accuracy) %>% 
  mutate_if(is.numeric, function(x) {round(100*x, 2)}) %>% 
  knitr::kable(caption = "Table 2: A Coparision of Model Performance by some Criteria")

```


Table 2 mang lại ấn tượng rằng XgbTree là mô hình nên được lựa chọn vì đây là cách tiếp cận có Accuracy cao nhất. Tuy nhiên, với các tổ chức vì lợi nhuận thì mô hình có mức độ chính xác cao nhất chưa chắc đã là mô hình được lựa chọn để phân loại hồ sơ. Cụ thể hơn, XgbTre không phải là mô hình mang lại nhiều lợi nhuận nhất mà là C5.0  như chúng ta có thể thấy ngay sau đây dù mô hình này không phải có Accuracy cao nhất: 


```{r}
# Viết hàm đánh giá kết quả với đầu vào là: (1) tỉ lệ mẫu được chọn, 
# (2) số lần lặp, và (3)  model được chọn + bộ dữ liệu mà từ đó
# chúng ta chọn mẫu: 


get_result <- function(ti_le, N, model_selected, df_test_selected) {
  my_vec <- c()
  
  for (i in 1:N) {
    set.seed(i) 
    df_test <- df_test_selected %>% 
      group_by(Class) %>% 
      sample_frac(ti_le) %>% 
      ungroup()
    
    pred <- predict(model_selected, df_test %>% select(-Class))
    cm <- confusionMatrix(df_test$Class, pred)
    cm$table %>% 
      as.vector() -> u
    my_vec <- c(my_vec, u)
  }
  
  my_vec %>% 
    matrix(ncol = 4, byrow = TRUE) %>% 
    as.data.frame() %>% 
    rename(BB = V1, 
           GB = V2,
           BG = V3,
           GG = V4) %>% 
    return()
}


# Kết quả phân loại của các mô hình này: 

loan_xgbtree <- get_result(0.5, 100, model_list1$xgbTree, df_test_ml)
loan_svm <- get_result(0.5, 100, model_list1$svmRadial, df_test_ml)
loan_rf <- get_result(0.5, 100, model_list1$rf, df_test_ml)
loan_adaboost <- get_result(0.5, 100, model_list1$adaboost, df_test_ml)
loan_logit <- get_result(0.5, 100, model_list1$glm, df_test_ml)
loan_c50 <- get_result(0.5, 100, model_list1$C5.0, df_test_ml)
loan_knn <- get_result(0.5, 100, model_list1$knn, df_test_ml)


# Tổng hợp các Data Frame này và tạo ra cột Accuracy: 

total_df_result <- bind_rows(loan_xgbtree %>% mutate(Model = "XgbTree"), 
                             loan_svm %>% mutate(Model = "SVM"), 
                             loan_rf %>% mutate(Model = "RF"), 
                             loan_knn %>% mutate(Model = "KNN"), 
                             loan_logit %>% mutate(Model = "Logistic"), 
                             loan_c50 %>% mutate(Model = "C5.0"), 
                             loan_adaboost %>% mutate(Model = "AdaBoost")) %>% 
  mutate(Accuracy = (BB + GG) / (BB + GG + GB + BG))

# Accuracy trung bình trên 100 mẫu được thử nghiệm: 

total_df_result %>% 
  group_by(Model) %>% 
  summarise_each(funs(mean), Accuracy, GG, BB, BG) %>% 
  ungroup() %>% 
  arrange(-Accuracy) %>% 
  mutate_at(.vars = c("Accuracy"), function(x) {round(100*x, 2)}) %>% 
  knitr::kable(caption = "Table 3: A Coparision of Model Performance by some Criteria, 100 samples")


```


```{r}
# Viết hàm mô phỏng lợi nhuận với các giả thiết đã nêu ở trên: 

profit_simu <- function(df_result, rate, N) {

  khoan_vay <- GermanCredit$Amount
  so_khoan_vay_tot <- sum(df_result$GG)
  so_khoan_vay_xau <- sum(df_result$BG)
  
  my_prof <- c()
  
  for (i in 1:N) {
    set.seed(i)
    prof <- rate*sample(khoan_vay, size = so_khoan_vay_tot, replace = TRUE) %>% sum() - 
      sum(sample(khoan_vay, size = so_khoan_vay_xau, replace = TRUE))
    my_prof <- c(prof, my_prof)
  }
  return(my_prof)
}

# Lợi nhuận của tổ chức tài chính tương ứng với việc
# sử dụng các mô hình dựa trên mô phỏng 1000 lần: 


profit <- c(loan_xgbtree %>% profit_simu(0.3, 1000), 
            loan_svm %>% profit_simu(0.3, 1000), 
            loan_rf %>% profit_simu(0.3, 1000), 
            loan_knn %>% profit_simu(0.3, 1000), 
            loan_logit %>% profit_simu(0.3, 1000), 
            loan_c50 %>% profit_simu(0.3, 1000), 
            loan_adaboost %>% profit_simu(0.3, 1000))


profit_df <- data.frame(Profit = profit, 
                        Model = c(rep("XgbTree", 1000), 
                                  rep("SVM", 1000), 
                                  rep("RF", 1000), 
                                  rep("KNN", 1000), 
                                  rep("Logistic", 1000),
                                  rep("C5.0", 1000), 
                                  rep("AdaBoost", 1000)))


# Các thống kê chi tiết về lợi nhuận này tương ứng với các mô hình: 

profit_df %>% 
  group_by(Model) %>% 
  summarise_each(funs(mean, median, min, max, sd), Profit) %>% 
  ungroup() %>% 
  arrange(-mean) %>% 
  mutate_if(is.numeric, function(x) {round(x, 0)}) %>% 
  knitr::kable(caption = "Table 4: Simulated Profit Based Monte Carlo Method\nwith Interest Rate is 30% for Test Data Sets", 
               col.names = c("Model", "Mean", "Median", "Min", "Max", "SD"))
```

Chúng ta có thể hình ảnh hóa phân phối của lợi nhuận tương ứng với các mô hình được lựa chọn: 

```{r}
profit_df %>% 
  mutate(Profit = Profit / 1000000) %>% 
  ggplot(aes(Profit)) + 
  geom_density(fill = "red", color = "red", alpha = 0.3) + 
  geom_histogram(aes(y = ..density..), color = "blue", fill = "blue", alpha = 0.3) + 
  facet_wrap(~ Model, scales = "free") + 
  labs(x = NULL, y = NULL, 
       title = "Figure 2: Simulated Profit Based on Monte Carlo Method\nwith Interest Rate of 30% and 1000 Samples (unit: millions)", 
       caption = "Data Used: German Credit provided by Center for Machine Learning and Intelligent Systems")
```

Với dữ liệu ở Figure 2 chúng ta cũng có thể tính toán xác suất mà ngân hàng có lợi nhuận âm với một ngưỡng xác suất chọn trước nào đó bằng [VaR (Value at Risk)](https://en.wikipedia.org/wiki/Value_at_risk). 

# Vài kết luận

Trong thực tế thì những giả thiết sau đây cần phải được nới lỏng: 

1. Không phải mọi hồ sơ tốt khi được vay đều có mức độ hoàn vốn và lãi cho ngân hàng với xác suất 100%. ĐIều đó cũng đúng với các hồ sơ xấu (nhưng theo hướng ngược lại). Xác suất của các sự kiện này có thể được ước lượng từ dữ liệu lịch sử của ngân hàng hoặc sử dụng các phương pháp mô phỏng.

2. Không chỉ Profit mà còn nhiều khía cạnh khác mà tổ chức sử dụng mô hình phân loại quan tâm. Chẳng hạn mức độ ổn định khi phân loại của mô hình.

3. Khả năng phân loại chính xác các lớp hồ sơ (nhãn Bad phân loại đúng thành Bad - BB, nhãn Good phân loại đúng thành Good - GG) phụ thuộc vào ngưỡng được lựa chọn (cutoff) cho Probability of Default khi phân loại và do đó ngưỡng này có ảnh hưởng đến Profit. Hiện tại khảo sát ảnh hưởng của ngưỡng lên Profit chưa được khảo sát và đánh giá trong bài viết này. 

# References

1. Martens, D., B. Baesens, T. Van Gestel, and J. Vanthienen. 2007. “Comprehensible Credit Scoring Models Using Rule Extraction from Support Vector Machines.” European Journal of Operational Research 183:1466–1476.

2. Baesens, B., Roesch, D., & Scheule, H. (2016). Credit risk analytics: Measurement techniques, applications, and examples in SAS. John Wiley & Sons.

3. Siddiqi, N. (2012). Credit risk scorecards: developing and implementing intelligent credit scoring. John Wiley & Sons.

4. Anderson R (2007): The Credit Scoring Toolkit: Theory and Practice for Retail Credit Risk Management and Decision Automation. Oxford, Oxford University Press.

5. Hand DJ, Henley WE (1997): Statistical Classification Methods in Consumer Credit Scoring: a review. Journal. of the Royal Statistical Society, Series A, 160(3):523–541.

6. Thomas LC (2000): A survey of credit and behavioural scoring: forecasting financial risk of lending to consumers. International Journal of Forecasting, 16(2):149–172 .

7. Thomas LC (2009): Consumer Credit Models: Pricing, Profit, and Portfolio. Oxford, Oxford University Press.

8. Crook JN, Edelman DB, Thomas LC (2007): Recent developments in consumer credit risk assessment. European Journal of Operational Research, 183(3):1447–1465.

9. Van Gestel, T., B. Baesens, P. Van Dijcke, J. Suykens, J. Garcia, and T. Alderweireld. 2005. “Linear and Nonlinear Credit Scoring by Combining Logistic Regression and Support Vector Machines.” Journal of Credit Risk 1, no. 4.

10. Ben-David, A., & Frank, E. (2009). Accuracy of machine learning models versus “hand crafted” expert systems–a credit scoring case study. Expert Systems with Applications, 36(3), 5264-5271.

11. Molinaro A (2005). “Prediction Error Estimation: A Comparison of Resampling Methods.” Bioinformatics, 21(15), 3301–3307.

12. Kim JH (2009). “Estimating Classification Error Rate: Repeated Cross– Validation, Repeated Hold–Out and Bootstrap.” Computational Statistics & Data Analysis, 53(11), 3735–3745.








