Motivation

Dự báo phá sản của các doanh nghiệp (Corporate Bankruptancy) bao gồm cả các tổ chức tài chính đã có nhiều tác giả nghiên cứu. Tại Việt Nam thì có luận văn Tiến Sĩ của tác giả Đặng Huy Ngân với đề tài Xây dựng mô hình cảnh báo nguy cơ vỡ nợ đối với các ngân hàng thương mại cổ phần Việt Nam (bạn đọc quan tâm có thể download toàn văn nghiên cứu này tại đây). Nghiên cứu này so sánh khả năng dự báo phá sản cho các ngân hàng từ ba mô hình: Logistic - một mô hình thống kê điển hình và hai mô hình phi tham số là mạng noron (Neural Network) và cây quyết định (Decision Trees). Tác giả sử dụng bộ dữ liệu train (có 114 quan sát) để huấn luyện ba mô hình hình sau đó sử dụng lại chính bộ dữ liệu này để kiểm tra và đánh giá chất lượng phân loại - dự báo và so sánh ba mô hình.

Đây là cách tiếp cận chưa phù hợp. Mặc dù tác giả cũng có nói đến sử dụng dữ liệu của năm 2015 để “…kiểm tra hiệu suất ngoài mẫu của mô hình” - tức là test data. Việc so sánh hiệu quả của các mô hình khác nhau sẽ được đánh giá trên test data chứ không phải là train data và được mô tả kĩ ở đây.

Ngoài ra ở luận văn này việc so sánh khả năng dự báo - phân loại của ba mô hình tác giả dựa vào ma trận nhầm lẫn (Confusion Matrix). Việc dán nhãn cho Y là 0 hay 1 hoàn toàn phụ thuộc vào: (1) xác xuất dự báo từ mô hình, và (2) ngưỡng được chọn để dán nhãn - phân loại. Nhưng ở đây tác giả mặc định sử dụng ngưỡng 0.5 (xem trang 105 của luận văn) là một thiếu sót. Kết quả của ma trận nhầm lẫn là phụ thuộc vào ngưỡng được chọn và điều này được giải thích chi tiết ở đây. Với một mô hình đã chọn hoàn toàn có thể tìm được một ngưỡng tối ưu tương ứng để, ví dụ, cực đại hóa Accuracy. Do vậy hợp lí hơn sẽ là khảo sát sự biến đổi của Accuracy theo ngưỡng phân loại để đánh giá đúng, chính xác và toàn diện hơn khả năng phân loại của ba mô hình chứ không phải là đánh giá chỉ tại một ngưỡng. Chưa kể việc sử dụng Accuracy làm tiêu chuẩn so sánh - đánh giá và lựa chọn mô hình trong trường hợp này là không phù hợp vì cái giá phải trả của Type I Error khác Type II Error (bạn đọc quan tâm có thể tìm hiểu thêm tại đây).

Mặt khác bộ dữ liệu sử dụng cho luận văn này có số lượng quan sát quá ít. Do vậy trong post này sẽ thay thế bằng bộ dữ liệu đã được sử dụng cho nghiên cứu có tên Financial Ratios and Corporate Governance Indicators in Bankruptcy Prediction: A Comprehensive Study đăng trên European Journal of Operational Research. Bộ dữ liệu này có 6819 quan sát và 3.2% trong số đó được xác định là phá sản. Bộ dữ liệu này được sử dụng cho cuộc thi Corporate Bankruptcy Prediction 2021 bởi Phòng nghiên cứu khai phá dữ liệu thuộc Chubu University. Bộ dữ liệu này có thể download tại đây. Tiêu chuẩn được lựa chọn để đánh giá khả năng dự báo và phân loại của các mô hình là AUC trong đó 70% dữ liệu ban đầu sử dụng làm test data và phần còn lại 30% được sử dụng để đánh giá mô hình và do vậy là được sử dụng để đánh giá thứ hại của các đội tham gia dự thi. Dưới đây là Private Score (AUC) và thứ hạng của một số đội có thứ hạng cao nhất:

Trước hết load bộ dữ liệu này và thực hiện một số bước xử lí dữ liệu đơn giản:

# Clear our R environment: 
rm(list = ls())

# Load tidyverse package: 
library(tidyverse)

# Load data: 
read_csv("F:/data.csv/data.csv") -> data

# Rename for all columns: 

old_names <- names(data)

old_names %>% str_replace_all("[^a-z|^A-Z]", "") -> new_names

names(data) <- new_names

# Remove NetIncomeFlag and relabel for Bankrupt column: 
data %>% 
  select(-NetIncomeFlag) %>% 
  mutate(Bankrupt = case_when(Bankrupt == 1 ~ "Bankrupt", TRUE ~ "NonBankrupt")) %>% 
  mutate(Bankrupt = as.factor(Bankrupt)) -> df

# Set response and predictors: 

response <- "Bankrupt"

predictors <- names(df %>% select(-response))

Do thời hạn cuộc thi đã hết nên chúng ta có thể phân chia dữ liệu theo tỉ lệ 70-30 như đã mô tả và sử dụng như là proxy để so sánh kết quả của những mô hình phân loại mà chúng ta xây dựng với kết quả của những đội đã tham gia cuộc thi:

# Split our data: 

library(caret)

set.seed(1)

id <- createDataPartition(y = df %>% pull(response), p = 0.7, list = FALSE)

# 70% data for training models: 
train <- df[id, ] 

# 30% data will be used for comparision and evaluating model performance: 
test <- df[-id, ] 

AUC for Feature Selection

Logistic là một cách tiếp cận của thống kê truyền thống nhưng tương đối hiệu quả. Vấn đề là có đến 94 chỉ số tài chính (Financial Ratios) và cũng là 94 features và không phải mọi feature đều tốt và có hiệu quả như nhau khi sử dụng cho mô hình Logistic. Trong post này tôi không sử dụng cách thức lựa chọn biến số như các tác giả của nghiên cứu Financial Ratios and Corporate Governance Indicators in Bankruptcy Prediction: A Comprehensive Study mà sử dụng AUC như là tiêu chuẩn để lựa chọn biến số.

Trước hết huấn luyện 94 mô hình Logistic đơn biến (tương ứng với 94 biến) và tính AUC tương ứng trên test data (Stage 1). Sau đó chọn ra mộ tổ hợp các biến số dựa trên ngưỡng AUC sao cho AUC trên Test Data là lớn nhất (Stage 2). Dưới đây là R codes:

#-----------------------
#        Stage 1
#-----------------------

# Function extracts ROC/AUC for a predictor selected: 

library(pROC) # For calculating AUC. 

actual_labels <- test$Bankrupt

returnROC_AUC <- function(predictor_selected) {
  
  f <- as.formula(paste0(response, " ~ ", predictor_selected))
  logit <- glm(f, family = "binomial", data = train)
  prob_pred <- predict(logit, test, type = "response")
  my_auc <- roc(actual_labels, prob_pred)$auc %>% as.numeric()
  return(tibble(predictor = predictor_selected, auc = my_auc))
  
}


# ROC/AUC by a given predictor: 

do.call("bind_rows", lapply(predictors, returnROC_AUC)) %>% 
  arrange(-auc) -> df_auc

# Some Results:

head(df_auc)
## # A tibble: 6 x 2
##   predictor                                   auc
##   <chr>                                     <dbl>
## 1 PersistentEPSintheLastFourSeasons         0.881
## 2 NetIncometoTotalAssets                    0.880
## 3 NetprofitbeforetaxPaidincapital           0.872
## 4 PerShareNetprofitbeforetaxYuan            0.872
## 5 ROABbeforeinterestanddepreciationaftertax 0.866
## 6 TotalincomeTotalexpense                   0.865

Như vậy nếu chỉ sử dụng biến số NetIncometoTotalAssets thì AUC trên Test Data là 0.880 - một con số khá cao. Thông tin này được sử dụng để lựa chọn ra các biến cho mô hình Logistic. Chẳng hạn tiêu chuẩn đặt ra có thể là chỉ chọn các biến nào mà mô hình Logistic đơn biến tương ứng lớn hơn 0.7.

Để hỗ trợ cho Stage 2 chúng ta viết hàm có tên returnROC_AUCTestData tính toán AUC trên Test Data khi biết trước các biến được lựa chọn cho mô hình Logistic:

# Function extracts ROC/AUC on test data: 

returnROC_AUCTestData <- function(predictor_selected) {
  f <- as.formula(paste0(response, " ~ ", paste(predictor_selected, collapse = " + ")))
  logit <- glm(f, family = "binomial", data = train)
  prob_pred <- predict(logit, test, type = "response")
  my_auc <- roc(actual_labels, prob_pred)$auc %>% as.numeric()
  return(my_auc)
  
}

Sử dụng hàm này để tính AUC trên Test Data tương ứng cho các mô hình Logistic khi biết ngưỡng AUC để lựa chọn biến cho mô hình:

# Set a sequence of thresholds: 

auc_thresholds <- seq(min(df_auc$auc), max(df_auc$auc), 0.01)

auc_space <- NULL

# AUC by threshold: 

for (j in auc_thresholds) {
  
  df_auc %>% 
    filter(auc >= j) %>% 
    pull(predictor) -> predictors_for_modelling
  
  returnROC_AUCTestData(predictors_for_modelling) -> my_auc
  
  auc_space <- c(auc_space, my_auc)
  
}


tibble(auc_thresholds = auc_thresholds, auc = auc_space) -> df_auc_threshold

# Features create max AUC on test data: 

auc_max <- df_auc_threshold %>% slice(which.max(auc))

auc_max
## # A tibble: 1 x 2
##   auc_thresholds   auc
##            <dbl> <dbl>
## 1          0.828 0.903

Kết quả này cho thấy khi lựa chọn các biến có ngưỡng AUC = 0.828 thì sẽ đặt được AUC tối ưu trên Test Data và AUC đạt được trên Test Data sẽ là 0.903. Kết quả khiêm tốn này cao hơn vị trí thứ 7 với AUC = 0.8754 (Team NguyenHuu BaoLong).

Dưới đây là 18 biến số được lựa chọn cho mô hình Logistic:

# Features >= 0.828: 

df_auc %>% 
  filter(auc >= auc_max$auc_thresholds) %>% 
  pull(predictor) -> var_auc_0903

# 18 features selected for Logistic Model: 
var_auc_0903
##  [1] "PersistentEPSintheLastFourSeasons"              
##  [2] "NetIncometoTotalAssets"                         
##  [3] "NetprofitbeforetaxPaidincapital"                
##  [4] "PerShareNetprofitbeforetaxYuan"                 
##  [5] "ROABbeforeinterestanddepreciationaftertax"      
##  [6] "TotalincomeTotalexpense"                        
##  [7] "RetainedEarningstoTotalAssets"                  
##  [8] "ROACbeforeinterestanddepreciationbeforeinterest"
##  [9] "ROAAbeforeinterestandaftertax"                  
## [10] "AftertaxnetInterestRate"                        
## [11] "Continuousinterestrateaftertax"                 
## [12] "PretaxnetInterestRate"                          
## [13] "Nonindustryincomeandexpenditurerevenue"         
## [14] "Debtratio"                                      
## [15] "NetworthAssets"                                 
## [16] "EquitytoLiability"                              
## [17] "NetValueGrowthRate"                             
## [18] "TotaldebtTotalnetworth"

Chúng ta có thể khảo sát AUC trên Test Data (Figure 1) với điểm màu đỏ là max AUC:

df_auc_threshold %>% 
  ggplot(aes(auc_thresholds, auc)) + 
  geom_line(size = 1, color = "blue") + 
  geom_point(data = auc_max, aes(auc_thresholds, auc), color = "red", size = 2) + 
    labs(x = "AUC Threshold", 
         y = "AUC on Test Data", 
         title = "Figure 1: AU on Test Data by AUC Threshold for Feature Selection")

Chúng ta có thể khảo sát sâu và kĩ hơn nữa chất lượng phân loại cũng như các đặc điểm của hai cách tiếp cận như sau:

# Logistic with 0903-features: 

f_0903 <- as.formula(paste0(response, " ~ ", paste(var_auc_0903, collapse = " + ")))

# Logistic with all features: 

f_all <- as.formula(paste0(response, " ~ ", paste(predictors, collapse = " + ")))

# New metric and sampling technique for searching optimal parameters:  

sampling_new <- trainControl(method = "repeatedcv", 
                             classProbs = TRUE,
                             summaryFunction = twoClassSummary, 
                             number = 3, 
                             repeats = 3)

# Train and turn RF which ROC-AUC used for searching optimal parameters: 

set.seed(29)

train(f_0903, 
      data = train, 
      method = "glm", 
      trControl = sampling_new) -> logit_0903

set.seed(29)

train(f_all, 
      data = train, 
      method = "glm", 
      trControl = sampling_new) -> logit_all

pd_0903 <- predict(logit_0903, test, type = "prob") %>% pull(response) 

pd_all <- predict(logit_all, test, type = "prob") %>% pull(response) 

roc(actual_labels, pd_0903) -> roc_0903

roc(actual_labels, pd_all) -> roc_all

sen_spec_0903 <- tibble(TPR = roc_0903$sensitivities, FPR = 1 - roc_0903$specificities)

sen_spec_all <- tibble(TPR = roc_all$sensitivities, FPR = 1 - roc_all$specificities)

df_roc <- bind_rows(sen_spec_0903 %>% mutate(Model = "903"), sen_spec_all %>% mutate(Model = "All"))

df_roc %>% 
  ggplot(aes(x = FPR, ymin = 0, ymax = TPR, color = Model, fill = Model))+
  geom_polygon(aes(y = TPR), alpha = 0.2)+
  geom_path(aes(y = TPR), size = 1.2) +
  geom_abline(intercept = 0, slope = 1, color = "gray37", size = 1, linetype = "dashed") + 
  theme_bw() +
  coord_equal() + 
  labs(x = "FPR (1 - Specificity)", 
       y = "TPR (Sensitivity)", 
       title = "Figure 2: Model Comparision by AUC-ROC on Test Data", 
       subtitle = "052-Predictor Logistic = 0.903, All-Predictor Logistic = 0.436")

Figure 2 cho thấy nếu sử dụng tất cả 94 features thì AUC trên Test Data chỉ là 0.436 - một kết quả rất thấp.

Automated Machine Learning

Với cố gắng đạt được kết quả cao hơn nữa một giải pháp đơn giản có thể áp dụng là sử dụng cách tiếp cận Automated Machine Learning (có thể đọc thêm tại đây). Dưới đây là R codes thực hiện Automated Machine Learning với chú ý rằng ở đây sử dụng tất cả 94 features (do có nhiều mô hình ML có khả năng tự động lựa chọn biến tối ưu):

# Load h2o package: 

library(h2o)
h2o.init(nthreads = 2, max_mem_size = "8g")
## 
## H2O is not running yet, starting it now...
## 
## Note:  In case of errors look at the following log files:
##     C:\Users\Admin\AppData\Local\Temp\RtmpoFMqqN\file2848213c6f7c/h2o_Admin_started_from_r.out
##     C:\Users\Admin\AppData\Local\Temp\RtmpoFMqqN\file284835dd2172/h2o_Admin_started_from_r.err
## 
## 
## Starting H2O JVM and connecting:  Connection successful!
## 
## R is connected to the H2O cluster: 
##     H2O cluster uptime:         2 seconds 745 milliseconds 
##     H2O cluster timezone:       Asia/Bangkok 
##     H2O data parsing timezone:  UTC 
##     H2O cluster version:        3.36.0.2 
##     H2O cluster version age:    22 days  
##     H2O cluster name:           H2O_started_from_R_Admin_apa530 
##     H2O cluster total nodes:    1 
##     H2O cluster total memory:   7.10 GB 
##     H2O cluster total cores:    4 
##     H2O cluster allowed cores:  2 
##     H2O cluster healthy:        TRUE 
##     H2O Connection ip:          localhost 
##     H2O Connection port:        54321 
##     H2O Connection proxy:       NA 
##     H2O Internal Security:      FALSE 
##     H2O API Extensions:         Amazon S3, Algos, Infogram, AutoML, Core V3, TargetEncoder, Core V4 
##     R Version:                  R version 4.1.2 (2021-11-01)
h2o.no_progress()

# Prepare data: 

as.h2o(train) -> h2o_frame

splits <- h2o.splitFrame(h2o_frame, ratios = nrow(test) / nrow(train), seed = 29)

train_h2o <- splits[[2]] # Train data. 

valid_h2o <- splits[[1]] # Validation data. 

test_h2o <- as.h2o(test) # Convert test data to h2o frame. 

#===================================
#  Training Auto Machine Learning
#===================================

# Train Auto Machine Learning: 

autoML <- h2o.automl(x = predictors, 
                     y = response, 
                     training_frame = train_h2o, 
                     leaderboard_frame = valid_h2o, 
                     stopping_metric = "AUC", 
                     stopping_rounds = 10, 
                     stopping_tolerance = 0.025, 
                     max_models = 15, 
                     max_runtime_secs = 60*60, 
                     seed = 1, 
                     sort_metric = "AUC")
## 
## 16:14:24.250: Project: AutoML_1_20220217_161424
## 16:14:24.251: 5-fold cross-validation will be used.
## 16:14:24.254: Stopping tolerance set by the user: 0.025
## 16:14:24.254: Build control seed: 1
## 16:14:24.254: training frame: Frame key: AutoML_1_20220217_161424_training_RTMP_sid_9f5c_5    cols: 95    rows: 2726  chunks: 2    size: 2035771  checksum: 490792892629137952
## 16:14:24.254: validation frame: NULL
## 16:14:24.260: leaderboard frame: Frame key: RTMP_sid_9f5c_7    cols: 95    rows: 2048  chunks: 2    size: 1529451  checksum: -8244253284601612160
## 16:14:24.260: blending frame: NULL
## 16:14:24.260: response column: Bankrupt
## 16:14:24.260: fold column: null
## 16:14:24.260: weights column: null
## 16:14:24.266: AutoML: XGBoost is not available; skipping it.
## 16:14:24.267: Loading execution steps: [{XGBoost : [def_2 (1g, 10w), def_1 (2g, 10w), def_3 (3g, 10w), grid_1 (4g, 90w), lr_search (6g, 30w)]}, {GLM : [def_1 (1g, 10w)]}, {DRF : [def_1 (2g, 10w), XRT (3g, 10w)]}, {GBM : [def_5 (1g, 10w), def_2 (2g, 10w), def_3 (2g, 10w), def_4 (2g, 10w), def_1 (3g, 10w), grid_1 (4g, 60w), lr_annealing (6g, 10w)]}, {DeepLearning : [def_1 (3g, 10w), grid_1 (4g, 30w), grid_2 (5g, 30w), grid_3 (5g, 30w)]}, {completion : [resume_best_grids (10g, 60w)]}, {StackedEnsemble : [best_of_family_1 (1g, 5w), best_of_family_2 (2g, 5w), best_of_family_3 (3g, 5w), best_of_family_4 (4g, 5w), best_of_family_5 (5g, 5w), all_2 (2g, 10w), all_3 (3g, 10w), all_4 (4g, 10w), all_5 (5g, 10w), monotonic (6g, 10w), best_of_family_xgboost (6g, 10w), best_of_family_gbm (6g, 10w), all_xgboost (7g, 10w), all_gbm (7g, 10w), best_of_family_xglm (8g, 10w), all_xglm (8g, 10w), best_of_family (10g, 10w), best_N (10g, 10w)]}]
## 16:14:24.285: Step 'best_of_family_xgboost' not defined in provider 'StackedEnsemble': skipping it.
## 16:14:24.285: Step 'all_xgboost' not defined in provider 'StackedEnsemble': skipping it.
## 16:14:24.286: Disabling Algo: XGBoost as requested by the user.
## 16:14:24.286: Defined work allocations: [Work{def_1, GLM, ModelBuild, group=1, weight=10}, Work{def_5, GBM, ModelBuild, group=1, weight=10}, Work{best_of_family_1, StackedEnsemble, ModelBuild, group=1, weight=5}, Work{def_1, DRF, ModelBuild, group=2, weight=10}, Work{def_2, GBM, ModelBuild, group=2, weight=10}, Work{def_3, GBM, ModelBuild, group=2, weight=10}, Work{def_4, GBM, ModelBuild, group=2, weight=10}, Work{best_of_family_2, StackedEnsemble, ModelBuild, group=2, weight=5}, Work{all_2, StackedEnsemble, ModelBuild, group=2, weight=10}, Work{XRT, DRF, ModelBuild, group=3, weight=10}, Work{def_1, GBM, ModelBuild, group=3, weight=10}, Work{def_1, DeepLearning, ModelBuild, group=3, weight=10}, Work{best_of_family_3, StackedEnsemble, ModelBuild, group=3, weight=5}, Work{all_3, StackedEnsemble, ModelBuild, group=3, weight=10}, Work{grid_1, GBM, HyperparamSearch, group=4, weight=60}, Work{grid_1, DeepLearning, HyperparamSearch, group=4, weight=30}, Work{best_of_family_4, StackedEnsemble, ModelBuild, group=4, weight=5}, Work{all_4, StackedEnsemble, ModelBuild, group=4, weight=10}, Work{grid_2, DeepLearning, HyperparamSearch, group=5, weight=30}, Work{grid_3, DeepLearning, HyperparamSearch, group=5, weight=30}, Work{best_of_family_5, StackedEnsemble, ModelBuild, group=5, weight=5}, Work{all_5, StackedEnsemble, ModelBuild, group=5, weight=10}, Work{lr_annealing, GBM, Selection, group=6, weight=10}, Work{monotonic, StackedEnsemble, ModelBuild, group=6, weight=10}, Work{best_of_family_gbm, StackedEnsemble, ModelBuild, group=6, weight=10}, Work{all_gbm, StackedEnsemble, ModelBuild, group=7, weight=10}, Work{best_of_family_xglm, StackedEnsemble, ModelBuild, group=8, weight=10}, Work{all_xglm, StackedEnsemble, ModelBuild, group=8, weight=10}, Work{resume_best_grids, virtual, Dynamic, group=10, weight=60}, Work{best_of_family, StackedEnsemble, ModelBuild, group=10, weight=10}, Work{best_N, StackedEnsemble, ModelBuild, group=10, weight=10}]
## 16:14:24.286: Actual work allocations: [Work{def_1, GLM, ModelBuild, group=1, weight=10}, Work{def_5, GBM, ModelBuild, group=1, weight=10}, Work{best_of_family_1, StackedEnsemble, ModelBuild, group=1, weight=5}, Work{def_1, DRF, ModelBuild, group=2, weight=10}, Work{def_2, GBM, ModelBuild, group=2, weight=10}, Work{def_3, GBM, ModelBuild, group=2, weight=10}, Work{def_4, GBM, ModelBuild, group=2, weight=10}, Work{best_of_family_2, StackedEnsemble, ModelBuild, group=2, weight=5}, Work{all_2, StackedEnsemble, ModelBuild, group=2, weight=10}, Work{XRT, DRF, ModelBuild, group=3, weight=10}, Work{def_1, GBM, ModelBuild, group=3, weight=10}, Work{def_1, DeepLearning, ModelBuild, group=3, weight=10}, Work{best_of_family_3, StackedEnsemble, ModelBuild, group=3, weight=5}, Work{all_3, StackedEnsemble, ModelBuild, group=3, weight=10}, Work{grid_1, GBM, HyperparamSearch, group=4, weight=60}, Work{grid_1, DeepLearning, HyperparamSearch, group=4, weight=30}, Work{best_of_family_4, StackedEnsemble, ModelBuild, group=4, weight=5}, Work{all_4, StackedEnsemble, ModelBuild, group=4, weight=10}, Work{grid_2, DeepLearning, HyperparamSearch, group=5, weight=30}, Work{grid_3, DeepLearning, HyperparamSearch, group=5, weight=30}, Work{best_of_family_5, StackedEnsemble, ModelBuild, group=5, weight=5}, Work{all_5, StackedEnsemble, ModelBuild, group=5, weight=10}, Work{lr_annealing, GBM, Selection, group=6, weight=10}, Work{monotonic, StackedEnsemble, ModelBuild, group=6, weight=10}, Work{best_of_family_gbm, StackedEnsemble, ModelBuild, group=6, weight=10}, Work{all_gbm, StackedEnsemble, ModelBuild, group=7, weight=10}, Work{best_of_family_xglm, StackedEnsemble, ModelBuild, group=8, weight=10}, Work{all_xglm, StackedEnsemble, ModelBuild, group=8, weight=10}, Work{resume_best_grids, virtual, Dynamic, group=10, weight=60}, Work{best_of_family, StackedEnsemble, ModelBuild, group=10, weight=10}, Work{best_N, StackedEnsemble, ModelBuild, group=10, weight=10}]
## 16:14:24.287: AutoML job created: 2022.02.17 16:14:24.231
## 16:14:24.288: AutoML build started: 2022.02.17 16:14:24.287
## 16:14:24.291: Time assigned for GLM_1_AutoML_1_20220217_161424: 1439.998375s
## 16:14:24.294: AutoML: starting GLM_1_AutoML_1_20220217_161424 model training
## 16:14:24.311: GLM_1_AutoML_1_20220217_161424 [GLM def_1] started
## 16:14:28.397: GLM_1_AutoML_1_20220217_161424 [GLM def_1] complete
## 16:14:28.397: Adding model GLM_1_AutoML_1_20220217_161424 to leaderboard Leaderboard_AutoML_1_20220217_161424@@Bankrupt. Training time: model=0s, total=3s
## 16:14:28.424: New leader: GLM_1_AutoML_1_20220217_161424, auc: 0.8896306402884708
## 16:14:28.424: Time assigned for GBM_1_AutoML_1_20220217_161424: 2397.242s
## 16:14:28.427: AutoML: starting GBM_1_AutoML_1_20220217_161424 model training
## 16:14:28.430: GBM_1_AutoML_1_20220217_161424 [GBM def_5] started
## 16:14:37.564: GBM_1_AutoML_1_20220217_161424 [GBM def_5] complete
## 16:14:37.564: Adding model GBM_1_AutoML_1_20220217_161424 to leaderboard Leaderboard_AutoML_1_20220217_161424@@Bankrupt. Training time: model=1s, total=8s
## 16:14:37.590: New leader: GBM_1_AutoML_1_20220217_161424, auc: 0.9253849527336517
## 16:14:37.594: Time assigned for StackedEnsemble_BestOfFamily_1_AutoML_1_20220217_161424: 3586.693s
## 16:14:37.595: AutoML: starting StackedEnsemble_BestOfFamily_1_AutoML_1_20220217_161424 model training
## 16:14:37.597: StackedEnsemble_BestOfFamily_1_AutoML_1_20220217_161424 [StackedEnsemble best_of_family_1 (built with AUTO metalearner, using top model from each algorithm type)] started
## 16:14:38.606: StackedEnsemble_BestOfFamily_1_AutoML_1_20220217_161424 [StackedEnsemble best_of_family_1 (built with AUTO metalearner, using top model from each algorithm type)] complete
## 16:14:38.606: Adding model StackedEnsemble_BestOfFamily_1_AutoML_1_20220217_161424 to leaderboard Leaderboard_AutoML_1_20220217_161424@@Bankrupt. Training time: model=0s, total=0s
## 16:14:38.636: New leader: StackedEnsemble_BestOfFamily_1_AutoML_1_20220217_161424, auc: 0.9261564824740928
## 16:14:38.636: Time assigned for DRF_1_AutoML_1_20220217_161424: 651.9365625s
## 16:14:38.637: AutoML: starting DRF_1_AutoML_1_20220217_161424 model training
## 16:14:38.638: DRF_1_AutoML_1_20220217_161424 [DRF def_1] started
## 16:14:41.663: DRF_1_AutoML_1_20220217_161424 [DRF def_1] complete
## 16:14:41.663: Adding model DRF_1_AutoML_1_20220217_161424 to leaderboard Leaderboard_AutoML_1_20220217_161424@@Bankrupt. Training time: model=0s, total=2s
## 16:14:41.678: Time assigned for GBM_2_AutoML_1_20220217_161424: 796.1353125s
## 16:14:41.678: AutoML: starting GBM_2_AutoML_1_20220217_161424 model training
## 16:14:41.679: GBM_2_AutoML_1_20220217_161424 [GBM def_2] started
## 16:14:47.705: GBM_2_AutoML_1_20220217_161424 [GBM def_2] complete
## 16:14:47.705: Adding model GBM_2_AutoML_1_20220217_161424 to leaderboard Leaderboard_AutoML_1_20220217_161424@@Bankrupt. Training time: model=0s, total=5s
## 16:14:47.733: New leader: GBM_2_AutoML_1_20220217_161424, auc: 0.9278497872202189
## 16:14:47.734: Time assigned for GBM_3_AutoML_1_20220217_161424: 1021.872625s
## 16:14:47.734: AutoML: starting GBM_3_AutoML_1_20220217_161424 model training
## 16:14:47.734: GBM_3_AutoML_1_20220217_161424 [GBM def_3] started
## 16:14:53.772: GBM_3_AutoML_1_20220217_161424 [GBM def_3] complete
## 16:14:53.772: Adding model GBM_3_AutoML_1_20220217_161424 to leaderboard Leaderboard_AutoML_1_20220217_161424@@Bankrupt. Training time: model=0s, total=5s
## 16:14:53.799: Time assigned for GBM_4_AutoML_1_20220217_161424: 1428.19525s
## 16:14:53.799: AutoML: starting GBM_4_AutoML_1_20220217_161424 model training
## 16:14:53.799: GBM_4_AutoML_1_20220217_161424 [GBM def_4] started
## 16:15:00.817: GBM_4_AutoML_1_20220217_161424 [GBM def_4] complete
## 16:15:00.817: Adding model GBM_4_AutoML_1_20220217_161424 to leaderboard Leaderboard_AutoML_1_20220217_161424@@Bankrupt. Training time: model=0s, total=6s
## 16:15:00.842: Time assigned for StackedEnsemble_BestOfFamily_2_AutoML_1_20220217_161424: 1187.815s
## 16:15:00.842: AutoML: starting StackedEnsemble_BestOfFamily_2_AutoML_1_20220217_161424 model training
## 16:15:00.842: StackedEnsemble_BestOfFamily_2_AutoML_1_20220217_161424 [StackedEnsemble best_of_family_2 (built with AUTO metalearner, using top model from each algorithm type)] started
## 16:15:01.855: StackedEnsemble_BestOfFamily_2_AutoML_1_20220217_161424 [StackedEnsemble best_of_family_2 (built with AUTO metalearner, using top model from each algorithm type)] complete
## 16:15:01.855: Adding model StackedEnsemble_BestOfFamily_2_AutoML_1_20220217_161424 to leaderboard Leaderboard_AutoML_1_20220217_161424@@Bankrupt. Training time: model=0s, total=0s
## 16:15:01.913: Time assigned for StackedEnsemble_AllModels_1_AutoML_1_20220217_161424: 3562.374s
## 16:15:01.913: AutoML: starting StackedEnsemble_AllModels_1_AutoML_1_20220217_161424 model training
## 16:15:01.914: StackedEnsemble_AllModels_1_AutoML_1_20220217_161424 [StackedEnsemble all_2 (built with AUTO metalearner, using all AutoML models)] started
## 16:15:02.925: StackedEnsemble_AllModels_1_AutoML_1_20220217_161424 [StackedEnsemble all_2 (built with AUTO metalearner, using all AutoML models)] complete
## 16:15:02.925: Adding model StackedEnsemble_AllModels_1_AutoML_1_20220217_161424 to leaderboard Leaderboard_AutoML_1_20220217_161424@@Bankrupt. Training time: model=0s, total=0s
## 16:15:02.993: Time assigned for XRT_1_AutoML_1_20220217_161424: 791.3986875s
## 16:15:02.993: AutoML: starting XRT_1_AutoML_1_20220217_161424 model training
## 16:15:02.993: XRT_1_AutoML_1_20220217_161424 [DRF XRT (Extremely Randomized Trees)] started
## 16:15:07.13: XRT_1_AutoML_1_20220217_161424 [DRF XRT (Extremely Randomized Trees)] complete
## 16:15:07.13: Adding model XRT_1_AutoML_1_20220217_161424 to leaderboard Leaderboard_AutoML_1_20220217_161424@@Bankrupt. Training time: model=0s, total=3s
## 16:15:07.31: Time assigned for GBM_5_AutoML_1_20220217_161424: 1016.358875s
## 16:15:07.31: AutoML: starting GBM_5_AutoML_1_20220217_161424 model training
## 16:15:07.32: GBM_5_AutoML_1_20220217_161424 [GBM def_1] started
## 16:15:13.89: GBM_5_AutoML_1_20220217_161424 [GBM def_1] complete
## 16:15:13.89: Adding model GBM_5_AutoML_1_20220217_161424 to leaderboard Leaderboard_AutoML_1_20220217_161424@@Bankrupt. Training time: model=0s, total=5s
## 16:15:13.112: Time assigned for DeepLearning_1_AutoML_1_20220217_161424: 1420.47s
## 16:15:13.115: AutoML: starting DeepLearning_1_AutoML_1_20220217_161424 model training
## 16:15:13.116: DeepLearning_1_AutoML_1_20220217_161424 [DeepLearning def_1] started
## 16:15:16.129: DeepLearning_1_AutoML_1_20220217_161424 [DeepLearning def_1] complete
## 16:15:16.129: Adding model DeepLearning_1_AutoML_1_20220217_161424 to leaderboard Leaderboard_AutoML_1_20220217_161424@@Bankrupt. Training time: model=0s, total=2s
## 16:15:16.147: Time assigned for StackedEnsemble_BestOfFamily_3_AutoML_1_20220217_161424: 1182.713375s
## 16:15:16.147: AutoML: starting StackedEnsemble_BestOfFamily_3_AutoML_1_20220217_161424 model training
## 16:15:16.148: StackedEnsemble_BestOfFamily_3_AutoML_1_20220217_161424 [StackedEnsemble best_of_family_3 (built with AUTO metalearner, using top model from each algorithm type)] started
## 16:15:17.153: StackedEnsemble_BestOfFamily_3_AutoML_1_20220217_161424 [StackedEnsemble best_of_family_3 (built with AUTO metalearner, using top model from each algorithm type)] complete
## 16:15:17.153: Adding model StackedEnsemble_BestOfFamily_3_AutoML_1_20220217_161424 to leaderboard Leaderboard_AutoML_1_20220217_161424@@Bankrupt. Training time: model=0s, total=0s
## 16:15:17.205: Time assigned for StackedEnsemble_AllModels_2_AutoML_1_20220217_161424: 3547.082s
## 16:15:17.205: AutoML: starting StackedEnsemble_AllModels_2_AutoML_1_20220217_161424 model training
## 16:15:17.206: StackedEnsemble_AllModels_2_AutoML_1_20220217_161424 [StackedEnsemble all_3 (built with AUTO metalearner, using all AutoML models)] started
## 16:15:18.210: StackedEnsemble_AllModels_2_AutoML_1_20220217_161424 [StackedEnsemble all_3 (built with AUTO metalearner, using all AutoML models)] complete
## 16:15:18.210: Adding model StackedEnsemble_AllModels_2_AutoML_1_20220217_161424 to leaderboard Leaderboard_AutoML_1_20220217_161424@@Bankrupt. Training time: model=0s, total=0s
## 16:15:18.302: Time assigned for GBM_grid_1_AutoML_1_20220217_161424: 2026.27775s
## 16:15:18.302: AutoML: starting GBM_grid_1_AutoML_1_20220217_161424 hyperparameter search
## 16:15:18.312: GBM_grid_1_AutoML_1_20220217_161424 [GBM Grid Search] started
## 16:15:24.345: Built: 1 models for HyperparamSearch : GBM_grid_1_AutoML_1_20220217_161424 [GBM Grid Search]
## 16:15:24.345: Adding model GBM_grid_1_AutoML_1_20220217_161424_model_1 to leaderboard Leaderboard_AutoML_1_20220217_161424@@Bankrupt. Training time: model=0s, total=5s
## 16:15:28.396: Built: 2 models for HyperparamSearch : GBM_grid_1_AutoML_1_20220217_161424 [GBM Grid Search]
## 16:15:28.396: Adding model GBM_grid_1_AutoML_1_20220217_161424_model_2 to leaderboard Leaderboard_AutoML_1_20220217_161424@@Bankrupt. Training time: model=0s, total=4s
## 16:15:31.455: GBM_grid_1_AutoML_1_20220217_161424 [GBM Grid Search] complete
## 16:15:31.455: Built: 3 models for HyperparamSearch : GBM_grid_1_AutoML_1_20220217_161424 [GBM Grid Search]
## 16:15:31.455: Adding model GBM_grid_1_AutoML_1_20220217_161424_model_3 to leaderboard Leaderboard_AutoML_1_20220217_161424@@Bankrupt. Training time: model=0s, total=2s
## 16:15:31.476: Time assigned for DeepLearning_grid_1_AutoML_1_20220217_161424: 2355.2075s
## 16:15:31.477: AutoML: starting DeepLearning_grid_1_AutoML_1_20220217_161424 hyperparameter search
## 16:15:31.477: DeepLearning_grid_1_AutoML_1_20220217_161424 [DeepLearning Grid Search] started
## 16:26:10.647: DeepLearning_grid_1_AutoML_1_20220217_161424 [DeepLearning Grid Search] complete
## 16:26:10.647: Built: 1 models for HyperparamSearch : DeepLearning_grid_1_AutoML_1_20220217_161424 [DeepLearning Grid Search]
## 16:26:10.647: Adding model DeepLearning_grid_1_AutoML_1_20220217_161424_model_1 to leaderboard Leaderboard_AutoML_1_20220217_161424@@Bankrupt. Training time: model=127s, total=639s
## 16:26:10.684: Time assigned for StackedEnsemble_AllModels_3_AutoML_1_20220217_161424: 2893.603s
## 16:26:10.684: AutoML: starting StackedEnsemble_AllModels_3_AutoML_1_20220217_161424 model training
## 16:26:10.685: StackedEnsemble_AllModels_3_AutoML_1_20220217_161424 [StackedEnsemble all_4 (built with AUTO metalearner, using all AutoML models)] started
## 16:26:11.688: StackedEnsemble_AllModels_3_AutoML_1_20220217_161424 [StackedEnsemble all_4 (built with AUTO metalearner, using all AutoML models)] complete
## 16:26:11.688: Adding model StackedEnsemble_AllModels_3_AutoML_1_20220217_161424 to leaderboard Leaderboard_AutoML_1_20220217_161424@@Bankrupt. Training time: model=0s, total=0s
## 16:26:11.788: Time assigned for DeepLearning_grid_2_AutoML_1_20220217_161424: 1156.999625s
## 16:26:11.788: AutoML: starting DeepLearning_grid_2_AutoML_1_20220217_161424 hyperparameter search
## 16:26:11.789: DeepLearning_grid_2_AutoML_1_20220217_161424 [DeepLearning Grid Search] started
## 16:37:26.377: DeepLearning_grid_2_AutoML_1_20220217_161424 [DeepLearning Grid Search] complete
## 16:37:26.379: Built: 1 models for HyperparamSearch : DeepLearning_grid_2_AutoML_1_20220217_161424 [DeepLearning Grid Search]
## 16:37:26.379: Adding model DeepLearning_grid_2_AutoML_1_20220217_161424_model_1 to leaderboard Leaderboard_AutoML_1_20220217_161424@@Bankrupt. Training time: model=132s, total=673s
## 16:37:26.422: Time assigned for DeepLearning_grid_3_AutoML_1_20220217_161424: 1478.57675s
## 16:37:26.422: AutoML: starting DeepLearning_grid_3_AutoML_1_20220217_161424 hyperparameter search
## 16:37:26.422: DeepLearning_grid_3_AutoML_1_20220217_161424 [DeepLearning Grid Search] started
## 16:49:23.692: DeepLearning_grid_3_AutoML_1_20220217_161424 [DeepLearning Grid Search] complete
## 16:49:23.692: Built: 1 models for HyperparamSearch : DeepLearning_grid_3_AutoML_1_20220217_161424 [DeepLearning Grid Search]
## 16:49:23.692: Adding model DeepLearning_grid_3_AutoML_1_20220217_161424_model_1 to leaderboard Leaderboard_AutoML_1_20220217_161424@@Bankrupt. Training time: model=141s, total=716s
## 16:49:23.749: Time assigned for StackedEnsemble_AllModels_4_AutoML_1_20220217_161424: 1500.538s
## 16:49:23.749: AutoML: starting StackedEnsemble_AllModels_4_AutoML_1_20220217_161424 model training
## 16:49:23.751: StackedEnsemble_AllModels_4_AutoML_1_20220217_161424 [StackedEnsemble all_5 (built with AUTO metalearner, using all AutoML models)] started
## 16:49:24.766: StackedEnsemble_AllModels_4_AutoML_1_20220217_161424 [StackedEnsemble all_5 (built with AUTO metalearner, using all AutoML models)] complete
## 16:49:24.766: Adding model StackedEnsemble_AllModels_4_AutoML_1_20220217_161424 to leaderboard Leaderboard_AutoML_1_20220217_161424@@Bankrupt. Training time: model=0s, total=0s
## 16:49:24.915: AutoML: hit the max_models limit; skipping GBM lr_annealing
## 16:49:24.916: No base models, due to timeouts or the exclude_algos option. Skipping StackedEnsemble 'monotonic'.
## 16:49:24.916: Time assigned for StackedEnsemble_BestOfFamily_4_AutoML_1_20220217_161424: 749.6855s
## 16:49:24.916: AutoML: starting StackedEnsemble_BestOfFamily_4_AutoML_1_20220217_161424 model training
## 16:49:24.917: StackedEnsemble_BestOfFamily_4_AutoML_1_20220217_161424 [StackedEnsemble best_of_family_gbm (built with gbm metalearner, using top model from each algorithm type)] started
## 16:49:26.930: StackedEnsemble_BestOfFamily_4_AutoML_1_20220217_161424 [StackedEnsemble best_of_family_gbm (built with gbm metalearner, using top model from each algorithm type)] complete
## 16:49:26.930: Adding model StackedEnsemble_BestOfFamily_4_AutoML_1_20220217_161424 to leaderboard Leaderboard_AutoML_1_20220217_161424@@Bankrupt. Training time: model=1s, total=1s
## 16:49:26.990: Time assigned for StackedEnsemble_AllModels_5_AutoML_1_20220217_161424: 1497.297s
## 16:49:26.991: AutoML: starting StackedEnsemble_AllModels_5_AutoML_1_20220217_161424 model training
## 16:49:26.991: StackedEnsemble_AllModels_5_AutoML_1_20220217_161424 [StackedEnsemble all_gbm (built with gbm metalearner, using all AutoML models)] started
## 16:49:30.19: StackedEnsemble_AllModels_5_AutoML_1_20220217_161424 [StackedEnsemble all_gbm (built with gbm metalearner, using all AutoML models)] complete
## 16:49:30.19: Adding model StackedEnsemble_AllModels_5_AutoML_1_20220217_161424 to leaderboard Leaderboard_AutoML_1_20220217_161424@@Bankrupt. Training time: model=2s, total=2s
## 16:49:30.238: Time assigned for StackedEnsemble_BestOfFamily_5_AutoML_1_20220217_161424: 747.0245s
## 16:49:30.238: AutoML: starting StackedEnsemble_BestOfFamily_5_AutoML_1_20220217_161424 model training
## 16:49:30.239: StackedEnsemble_BestOfFamily_5_AutoML_1_20220217_161424 [StackedEnsemble best_of_family_xglm (built with AUTO metalearner, using top model from each algorithm type)] started
## 16:49:32.256: StackedEnsemble_BestOfFamily_5_AutoML_1_20220217_161424 [StackedEnsemble best_of_family_xglm (built with AUTO metalearner, using top model from each algorithm type)] complete
## 16:49:32.256: Adding model StackedEnsemble_BestOfFamily_5_AutoML_1_20220217_161424 to leaderboard Leaderboard_AutoML_1_20220217_161424@@Bankrupt. Training time: model=1s, total=1s
## 16:49:32.338: Time assigned for StackedEnsemble_AllModels_6_AutoML_1_20220217_161424: 1491.949s
## 16:49:32.339: AutoML: starting StackedEnsemble_AllModels_6_AutoML_1_20220217_161424 model training
## 16:49:32.339: StackedEnsemble_AllModels_6_AutoML_1_20220217_161424 [StackedEnsemble all_xglm (built with AUTO metalearner, using all AutoML models)] started
## 16:49:35.365: StackedEnsemble_AllModels_6_AutoML_1_20220217_161424 [StackedEnsemble all_xglm (built with AUTO metalearner, using all AutoML models)] complete
## 16:49:35.365: Adding model StackedEnsemble_AllModels_6_AutoML_1_20220217_161424 to leaderboard Leaderboard_AutoML_1_20220217_161424@@Bankrupt. Training time: model=2s, total=2s
## 16:49:35.558: AutoML: hit the max_models limit; skipping completion resume_best_grids
## 16:49:35.561: Actual modeling steps: [{GLM : [def_1 (1g, 10w)]}, {GBM : [def_5 (1g, 10w)]}, {StackedEnsemble : [best_of_family_1 (1g, 5w)]}, {DRF : [def_1 (2g, 10w)]}, {GBM : [def_2 (2g, 10w), def_3 (2g, 10w), def_4 (2g, 10w)]}, {StackedEnsemble : [best_of_family_2 (2g, 5w), all_2 (2g, 10w)]}, {DRF : [XRT (3g, 10w)]}, {GBM : [def_1 (3g, 10w)]}, {DeepLearning : [def_1 (3g, 10w)]}, {StackedEnsemble : [best_of_family_3 (3g, 5w), all_3 (3g, 10w)]}, {GBM : [grid_1 (4g, 60w)]}, {DeepLearning : [grid_1 (4g, 30w)]}, {StackedEnsemble : [all_4 (4g, 10w)]}, {DeepLearning : [grid_2 (5g, 30w), grid_3 (5g, 30w)]}, {StackedEnsemble : [all_5 (5g, 10w), best_of_family_gbm (6g, 10w), all_gbm (7g, 10w), best_of_family_xglm (8g, 10w), all_xglm (8g, 10w)]}]
## 16:49:35.561: AutoML build stopped: 2022.02.17 16:49:35.561
## 16:49:35.561: AutoML build done: built 15 models
## 16:49:35.561: AutoML duration: 35 min 11.274 sec
## 16:49:35.568: Verifying training frame immutability. . .
## 16:49:35.568: Training frame was not mutated (as expected).

Như vậy AUC trên Validation Data cho mô hình tốt nhất là 0.9278 trên validation data như chúng ta có thể thấy ở Table 1:

autoML@leaderboard %>% 
  as.data.frame() %>% 
  select(model_id, auc) %>% 
  mutate(Rank = 1:nrow(.), auc = round(auc, 4)) %>% 
  rename(AUC_Val = auc) -> df_results

df_results %>% 
  knitr::kable(caption = "Table 1: AUC on Validation Data")
Table 1: AUC on Validation Data
model_id AUC_Val Rank
GBM_2_AutoML_1_20220217_161424 0.9278 1
StackedEnsemble_BestOfFamily_1_AutoML_1_20220217_161424 0.9262 2
GBM_1_AutoML_1_20220217_161424 0.9254 3
StackedEnsemble_AllModels_2_AutoML_1_20220217_161424 0.9248 4
StackedEnsemble_BestOfFamily_3_AutoML_1_20220217_161424 0.9240 5
StackedEnsemble_AllModels_3_AutoML_1_20220217_161424 0.9234 6
StackedEnsemble_AllModels_4_AutoML_1_20220217_161424 0.9227 7
StackedEnsemble_AllModels_1_AutoML_1_20220217_161424 0.9220 8
StackedEnsemble_BestOfFamily_5_AutoML_1_20220217_161424 0.9220 9
StackedEnsemble_BestOfFamily_2_AutoML_1_20220217_161424 0.9195 10
StackedEnsemble_AllModels_6_AutoML_1_20220217_161424 0.9193 11
GBM_grid_1_AutoML_1_20220217_161424_model_1 0.9141 12
StackedEnsemble_BestOfFamily_4_AutoML_1_20220217_161424 0.9137 13
GBM_5_AutoML_1_20220217_161424 0.9110 14
GBM_grid_1_AutoML_1_20220217_161424_model_2 0.9100 15
GBM_3_AutoML_1_20220217_161424 0.9091 16
GBM_4_AutoML_1_20220217_161424 0.9059 17
XRT_1_AutoML_1_20220217_161424 0.9030 18
StackedEnsemble_AllModels_5_AutoML_1_20220217_161424 0.8973 19
GBM_grid_1_AutoML_1_20220217_161424_model_3 0.8908 20
GLM_1_AutoML_1_20220217_161424 0.8896 21
DeepLearning_1_AutoML_1_20220217_161424 0.8830 22
DRF_1_AutoML_1_20220217_161424 0.8746 23
DeepLearning_grid_3_AutoML_1_20220217_161424_model_1 0.8266 24
DeepLearning_grid_2_AutoML_1_20220217_161424_model_1 0.8133 25
DeepLearning_grid_1_AutoML_1_20220217_161424_model_1 0.8045 26

Chúng ta có thể tính luôn AUC tương ứng với tất cả các mô hình ML trên Test Data (Table 2):

# AUC on test data by i-th model: 

getAUC_onTestData <- function(i) {
  
  # Extract i-th model: 
  h2o.getModel(autoML@leaderboard[i, 1]) -> best_ith
  
  # Model performance by ith model by AUC on Test data:  
  h2o.performance(model = best_ith, newdata = test_h2o) -> metrics_ith
  
  # Return output: 
  return(data.frame(AUC_Test = metrics_ith@metrics$AUC, model_id = best_ith@model_id))
  
}

# Calculate AUC for all models: 

lapply(1:nrow(df_results), getAUC_onTestData) -> auc_on_testData
do.call("bind_rows", auc_on_testData) -> auc_on_testData

# AUC by all models on test data: 
auc_on_testData %>% 
  select(model_id, AUC_Test) %>% 
  arrange(-AUC_Test) %>% 
  mutate(AUC_Test = round(AUC_Test, 4), Rank = 1:nrow(.)) %>% 
  knitr::kable(caption = "Table 2: AUC on Test Data")
Table 2: AUC on Test Data
model_id AUC_Test Rank
GBM_2_AutoML_1_20220217_161424 0.9181 1
StackedEnsemble_BestOfFamily_2_AutoML_1_20220217_161424 0.9175 2
StackedEnsemble_AllModels_2_AutoML_1_20220217_161424 0.9173 3
StackedEnsemble_AllModels_1_AutoML_1_20220217_161424 0.9168 4
StackedEnsemble_AllModels_3_AutoML_1_20220217_161424 0.9168 5
GBM_1_AutoML_1_20220217_161424 0.9162 6
StackedEnsemble_BestOfFamily_1_AutoML_1_20220217_161424 0.9160 7
StackedEnsemble_BestOfFamily_3_AutoML_1_20220217_161424 0.9147 8
GBM_3_AutoML_1_20220217_161424 0.9146 9
StackedEnsemble_AllModels_4_AutoML_1_20220217_161424 0.9142 10
StackedEnsemble_BestOfFamily_5_AutoML_1_20220217_161424 0.9133 11
GBM_grid_1_AutoML_1_20220217_161424_model_1 0.9118 12
StackedEnsemble_AllModels_6_AutoML_1_20220217_161424 0.9093 13
StackedEnsemble_AllModels_5_AutoML_1_20220217_161424 0.9023 14
GBM_grid_1_AutoML_1_20220217_161424_model_3 0.9011 15
StackedEnsemble_BestOfFamily_4_AutoML_1_20220217_161424 0.8999 16
GBM_4_AutoML_1_20220217_161424 0.8947 17
XRT_1_AutoML_1_20220217_161424 0.8945 18
DRF_1_AutoML_1_20220217_161424 0.8921 19
GBM_grid_1_AutoML_1_20220217_161424_model_2 0.8905 20
GBM_5_AutoML_1_20220217_161424 0.8889 21
GLM_1_AutoML_1_20220217_161424 0.8734 22
DeepLearning_1_AutoML_1_20220217_161424 0.8466 23
DeepLearning_grid_2_AutoML_1_20220217_161424_model_1 0.7950 24
DeepLearning_grid_1_AutoML_1_20220217_161424_model_1 0.7948 25
DeepLearning_grid_3_AutoML_1_20220217_161424_model_1 0.7554 26

Với kết quả AUC trên Test Data là 0.9181 (khi sử dụng mô hình ML tốt nhất) thì kết quả này cao hơn team ở vị trí thứ 5 (Ochiai) với AUC = 0.9165.

Key Notes

  1. Sử dụng AUC như là một tiêu chuẩn cho lựa chọn biến số cho mô hình Logistic và sử dụng Test Data để đánh giá lại mô hình thì AUC đạt 0.903. Đây là một kết quả không quá tệ và cách thức lựa chọn biến số này dễ thực hiện và không quá mất thời gian. Việc sử dụng AUC như là một tiêu chuẩn lựa chọn biến số cũng có nhiều paper đề cập bạn đọc có thể tự tìm hiểu thêm.

  2. Cách tiếp cận Automated Machine Learning có thể được sử dụng để nâng cao hơn nữa khả năng dự báo và phân loại phá sản của doanh nghiệp. Kết quả thực nghiệm chỉ ra rằng nếu sử dụng cách tiếp cận này thì AUC tăng (so với mô hình Logistic tốt nhất) và đạt 0.9181 trên Test Data.

  3. Chúng ta có thể đi xa hơn bằng cách sử dụng Automated Machine Learning với danh sách 18 biến số đã được sử dụng cho mô hình Logistic tối ưu như sau:

autoML0903 <- h2o.automl(x = var_auc_0903, 
                         y = response, 
                         training_frame = train_h2o, 
                         leaderboard_frame = valid_h2o, 
                         stopping_metric = "AUC", 
                         stopping_rounds = 10, 
                         stopping_tolerance = 0.025, 
                         max_models = 15, 
                         max_runtime_secs = 60*60, 
                         seed = 1, 
                         sort_metric = "AUC")
  1. Đây là dữ liệu bất cân bằng rất cao (chỉ có 3.2% các quan sát là Bankrupt) nên có thể cần xem xét đến khả năng sử dụng các giải pháp resampling dữ liệu như SMOTE, upsampling - downsampling.

R Environment and OS

sessionInfo()
## R version 4.1.2 (2021-11-01)
## Platform: x86_64-w64-mingw32/x64 (64-bit)
## Running under: Windows 10 x64 (build 19043)
## 
## Matrix products: default
## 
## locale:
## [1] LC_COLLATE=English_United States.1252 
## [2] LC_CTYPE=English_United States.1252   
## [3] LC_MONETARY=English_United States.1252
## [4] LC_NUMERIC=C                          
## [5] LC_TIME=English_United States.1252    
## 
## attached base packages:
## [1] stats     graphics  grDevices utils     datasets  methods   base     
## 
## other attached packages:
##  [1] h2o_3.36.0.2    pROC_1.18.0     caret_6.0-90    lattice_0.20-45
##  [5] forcats_0.5.1   stringr_1.4.0   dplyr_1.0.7     purrr_0.3.4    
##  [9] readr_2.1.0     tidyr_1.1.4     tibble_3.1.6    ggplot2_3.3.5  
## [13] tidyverse_1.3.1
## 
## loaded via a namespace (and not attached):
##  [1] nlme_3.1-153         bitops_1.0-7         fs_1.5.0            
##  [4] lubridate_1.8.0      bit64_4.0.5          httr_1.4.2          
##  [7] tools_4.1.2          backports_1.3.0      bslib_0.3.1         
## [10] utf8_1.2.2           R6_2.5.1             rpart_4.1-15        
## [13] DBI_1.1.1            colorspace_2.0-2     nnet_7.3-16         
## [16] withr_2.4.3          tidyselect_1.1.1     bit_4.0.4           
## [19] compiler_4.1.2       cli_3.1.0            rvest_1.0.2         
## [22] xml2_1.3.2           labeling_0.4.2       sass_0.4.0          
## [25] scales_1.1.1         digest_0.6.28        rmarkdown_2.11      
## [28] pkgconfig_2.0.3      htmltools_0.5.2      parallelly_1.30.0   
## [31] highr_0.9            dbplyr_2.1.1         fastmap_1.1.0       
## [34] rlang_0.4.12         readxl_1.3.1         rstudioapi_0.13     
## [37] farver_2.1.0         jquerylib_0.1.4      generics_0.1.1      
## [40] jsonlite_1.7.3       vroom_1.5.6          ModelMetrics_1.2.2.2
## [43] RCurl_1.98-1.6       magrittr_2.0.1       Matrix_1.3-4        
## [46] Rcpp_1.0.7           munsell_0.5.0        fansi_0.5.0         
## [49] lifecycle_1.0.1      stringi_1.7.6        yaml_2.2.1          
## [52] MASS_7.3-54          plyr_1.8.6           recipes_0.1.17      
## [55] grid_4.1.2           parallel_4.1.2       listenv_0.8.0       
## [58] crayon_1.4.2         haven_2.4.3          splines_4.1.2       
## [61] hms_1.1.1            knitr_1.36           pillar_1.6.4        
## [64] stats4_4.1.2         future.apply_1.8.1   reshape2_1.4.4      
## [67] codetools_0.2-18     reprex_2.0.1         glue_1.5.0          
## [70] evaluate_0.14        data.table_1.14.2    modelr_0.1.8        
## [73] vctrs_0.3.8          tzdb_0.2.0           foreach_1.5.1       
## [76] cellranger_1.1.0     gtable_0.3.0         future_1.23.0       
## [79] assertthat_0.2.1     xfun_0.28            gower_0.2.2         
## [82] prodlim_2019.11.13   broom_0.7.10         class_7.3-19        
## [85] survival_3.2-13      timeDate_3043.102    iterators_1.0.13    
## [88] lava_1.6.10          globals_0.14.0       ellipsis_0.3.2      
## [91] ipred_0.9-12
---
title: "Corporate Bankruptcy Prediction Competition 2021"
author: 'Author: Nguyen Chi Dung'
subtitle: "R Machine Learning Series"
output:
  html_document: 
    code_download: true
    # code_folding: hide
    highlight: zenburn
    # number_sections: yes
    theme: "flatly"
    toc: TRUE
    toc_float: TRUE
---

```{r setup,include=FALSE}
knitr::opts_chunk$set(echo = TRUE, warning = FALSE, message = FALSE, cache = TRUE)

```

![](C:\Users\\Admin\\Documents\\bankrup.jpg)

# Motivation 

Dự báo phá sản của các doanh nghiệp (Corporate Bankruptancy) bao gồm cả các tổ chức tài chính đã có nhiều tác giả nghiên cứu. Tại Việt Nam thì có luận văn Tiến Sĩ của tác giả [Đặng Huy Ngân](https://mfe.edu.vn/danghuyngan/) với đề tài *Xây dựng mô hình cảnh báo nguy cơ vỡ nợ đối với các ngân hàng thương mại cổ phần Việt Nam* (bạn đọc quan tâm có thể download toàn văn nghiên cứu này [tại đây](https://sdh.neu.edu.vn/xem-tai-lieu/Nghien-cuu-sinh-Dang-Huy-Ngan-bao-ve-luan-an-tien-si__19136.html)). Nghiên cứu này so sánh khả năng dự báo phá sản cho các ngân hàng từ ba mô hình: Logistic - một mô hình thống kê điển hình và hai mô hình phi tham số là mạng noron (Neural Network) và cây quyết định (Decision Trees). Tác giả sử dụng bộ dữ liệu train (có 114 quan sát) để huấn luyện ba mô hình hình sau đó **sử dụng lại** chính bộ dữ liệu này để kiểm tra và đánh giá chất lượng phân loại - dự báo và so sánh ba mô hình. 

Đây là cách tiếp cận chưa phù hợp. Mặc dù tác giả cũng có nói đến sử dụng dữ liệu của năm 2015 để "...kiểm tra hiệu suất ngoài mẫu của mô hình" - tức là test data. Việc so sánh hiệu quả của các mô hình khác nhau sẽ được đánh giá trên test data chứ không phải là train data và được mô tả kĩ [ở đây](https://en.wikipedia.org/wiki/Training,_validation,_and_test_sets). 

Ngoài ra ở luận văn này việc so sánh khả năng dự báo - phân loại của ba mô hình tác giả dựa vào ma trận nhầm lẫn (Confusion Matrix). Việc dán nhãn cho Y là 0 hay 1 hoàn toàn phụ thuộc vào: (1) xác xuất dự báo từ mô hình, và (2) ngưỡng được chọn để dán nhãn - phân loại. Nhưng ở đây tác giả mặc định sử dụng ngưỡng 0.5 (xem trang 105 của luận văn) là một thiếu sót. Kết quả của ma trận nhầm lẫn là phụ thuộc vào ngưỡng được chọn và điều này được giải thích chi tiết [ở đây](https://rpubs.com/chidungkt/447989). Với một mô hình đã chọn hoàn toàn có thể tìm được một ngưỡng tối ưu tương ứng để, ví dụ, cực đại hóa Accuracy. Do vậy hợp lí hơn sẽ là khảo sát sự biến đổi của Accuracy theo ngưỡng phân loại để đánh giá đúng, chính xác và toàn diện hơn khả năng phân loại của ba mô hình chứ không phải là đánh giá *chỉ tại một ngưỡng*. Chưa kể việc sử dụng Accuracy làm tiêu chuẩn so sánh - đánh giá và lựa chọn mô hình trong trường hợp này là không phù hợp vì cái giá phải trả của Type I Error khác Type II Error (bạn đọc quan tâm có thể tìm hiểu thêm [tại đây](https://mlr.mlr-org.com/articles/tutorial/cost_sensitive_classif.html)). 

Mặt khác bộ dữ liệu sử dụng cho luận văn này có số lượng quan sát quá ít. Do vậy trong post này sẽ thay thế bằng bộ dữ liệu đã được sử dụng cho nghiên cứu có tên [Financial Ratios and Corporate Governance Indicators in Bankruptcy Prediction: A Comprehensive Study](https://www.sciencedirect.com/science/article/abs/pii/S0377221716000412?via%3Dihub) đăng trên European Journal of Operational Research. Bộ dữ liệu này có 6819 quan sát và 3.2% trong số đó được xác định là phá sản. Bộ dữ liệu này được sử dụng cho cuộc thi [Corporate Bankruptcy Prediction 2021](https://www.kaggle.com/c/1056lab-corporate-bankruptcy-prediction-2021/overview) bởi Phòng nghiên cứu khai phá dữ liệu thuộc Chubu University. Bộ dữ liệu này có thể download [tại đây](https://www.kaggle.com/fedesoriano/company-bankruptcy-prediction). Tiêu chuẩn được lựa chọn để đánh giá khả năng dự báo và phân loại của các mô hình là AUC trong đó 70% dữ liệu ban đầu sử dụng làm test data và phần còn lại 30% được sử dụng để đánh giá mô hình và do vậy là được sử dụng để đánh giá thứ hại của các đội tham gia dự thi. Dưới đây là Private Score (AUC) và thứ hạng của một số đội có thứ hạng cao nhất: 

![](C:\Users\\Admin\\Documents\\bankrup_result.jpg)
Trước hết load bộ dữ liệu này và thực hiện một số bước xử lí dữ liệu đơn giản: 

```{r, warning = FALSE, message = FALSE, cache = TRUE}
# Clear our R environment: 
rm(list = ls())

# Load tidyverse package: 
library(tidyverse)

# Load data: 
read_csv("F:/data.csv/data.csv") -> data

# Rename for all columns: 

old_names <- names(data)

old_names %>% str_replace_all("[^a-z|^A-Z]", "") -> new_names

names(data) <- new_names

# Remove NetIncomeFlag and relabel for Bankrupt column: 
data %>% 
  select(-NetIncomeFlag) %>% 
  mutate(Bankrupt = case_when(Bankrupt == 1 ~ "Bankrupt", TRUE ~ "NonBankrupt")) %>% 
  mutate(Bankrupt = as.factor(Bankrupt)) -> df

# Set response and predictors: 

response <- "Bankrupt"

predictors <- names(df %>% select(-response))
```

Do thời hạn cuộc thi đã hết nên chúng ta có thể phân chia dữ liệu theo tỉ lệ 70-30 như đã mô tả và sử dụng như là proxy để so sánh kết quả của những mô hình phân loại mà chúng ta xây dựng với kết quả của những đội đã tham gia cuộc thi: 

```{r}
# Split our data: 

library(caret)

set.seed(1)

id <- createDataPartition(y = df %>% pull(response), p = 0.7, list = FALSE)

# 70% data for training models: 
train <- df[id, ] 

# 30% data will be used for comparision and evaluating model performance: 
test <- df[-id, ] 
```


# AUC for Feature Selection 

Logistic là một cách tiếp cận của thống kê truyền thống nhưng tương đối hiệu quả. Vấn đề là có đến 94 chỉ số tài chính (Financial Ratios) và cũng là 94 features và không phải mọi feature đều tốt và có hiệu quả như nhau khi sử dụng cho mô hình Logistic. Trong post này tôi không sử dụng cách thức lựa chọn biến số như các tác giả của nghiên cứu *Financial Ratios and Corporate Governance Indicators in Bankruptcy Prediction: A Comprehensive Study* mà sử dụng AUC như là tiêu chuẩn để lựa chọn biến số. 

Trước hết huấn luyện 94 mô hình Logistic đơn biến (tương ứng với 94 biến) và tính AUC tương ứng trên test data (Stage 1). Sau đó chọn ra mộ tổ hợp các biến số dựa trên ngưỡng AUC sao cho AUC trên Test Data là lớn nhất (Stage 2). Dưới đây là R codes:   


```{r, warning = FALSE, message = FALSE, cache = TRUE}
#-----------------------
#        Stage 1
#-----------------------

# Function extracts ROC/AUC for a predictor selected: 

library(pROC) # For calculating AUC. 

actual_labels <- test$Bankrupt

returnROC_AUC <- function(predictor_selected) {
  
  f <- as.formula(paste0(response, " ~ ", predictor_selected))
  logit <- glm(f, family = "binomial", data = train)
  prob_pred <- predict(logit, test, type = "response")
  my_auc <- roc(actual_labels, prob_pred)$auc %>% as.numeric()
  return(tibble(predictor = predictor_selected, auc = my_auc))
  
}


# ROC/AUC by a given predictor: 

do.call("bind_rows", lapply(predictors, returnROC_AUC)) %>% 
  arrange(-auc) -> df_auc

# Some Results:

head(df_auc)
```

Như vậy nếu chỉ sử dụng biến số NetIncometoTotalAssets thì AUC trên Test Data là 0.880 - một con số khá cao. Thông tin này được sử dụng để lựa chọn ra các biến cho mô hình Logistic. Chẳng hạn tiêu chuẩn đặt ra có thể là *chỉ chọn các biến nào mà mô hình Logistic đơn biến tương ứng lớn hơn 0.7*. 

Để hỗ trợ cho Stage 2 chúng ta viết hàm có tên **returnROC_AUCTestData** tính toán AUC trên Test Data khi biết trước các biến được lựa chọn cho mô hình Logistic: 

```{r}
# Function extracts ROC/AUC on test data: 

returnROC_AUCTestData <- function(predictor_selected) {
  f <- as.formula(paste0(response, " ~ ", paste(predictor_selected, collapse = " + ")))
  logit <- glm(f, family = "binomial", data = train)
  prob_pred <- predict(logit, test, type = "response")
  my_auc <- roc(actual_labels, prob_pred)$auc %>% as.numeric()
  return(my_auc)
  
}
```

Sử dụng hàm này để tính AUC trên Test Data tương ứng cho các mô hình Logistic khi biết ngưỡng AUC để lựa chọn biến cho mô hình: 

```{r}
# Set a sequence of thresholds: 

auc_thresholds <- seq(min(df_auc$auc), max(df_auc$auc), 0.01)

auc_space <- NULL

# AUC by threshold: 

for (j in auc_thresholds) {
  
  df_auc %>% 
    filter(auc >= j) %>% 
    pull(predictor) -> predictors_for_modelling
  
  returnROC_AUCTestData(predictors_for_modelling) -> my_auc
  
  auc_space <- c(auc_space, my_auc)
  
}


tibble(auc_thresholds = auc_thresholds, auc = auc_space) -> df_auc_threshold

# Features create max AUC on test data: 

auc_max <- df_auc_threshold %>% slice(which.max(auc))

auc_max
```

Kết quả này cho thấy khi lựa chọn các biến có ngưỡng AUC = 0.828 thì sẽ đặt được AUC tối ưu trên Test Data và AUC đạt được trên Test Data sẽ là 0.903. Kết quả khiêm tốn này cao hơn vị trí thứ 7 với AUC = 0.8754 (Team NguyenHuu BaoLong). 

Dưới đây là 18 biến số được lựa chọn cho mô hình Logistic: 

```{r}
# Features >= 0.828: 

df_auc %>% 
  filter(auc >= auc_max$auc_thresholds) %>% 
  pull(predictor) -> var_auc_0903

# 18 features selected for Logistic Model: 
var_auc_0903
```

Chúng ta có thể khảo sát AUC trên Test Data (Figure 1) với điểm màu đỏ là max AUC: 

```{r}
df_auc_threshold %>% 
  ggplot(aes(auc_thresholds, auc)) + 
  geom_line(size = 1, color = "blue") + 
  geom_point(data = auc_max, aes(auc_thresholds, auc), color = "red", size = 2) + 
    labs(x = "AUC Threshold", 
         y = "AUC on Test Data", 
         title = "Figure 1: AU on Test Data by AUC Threshold for Feature Selection")
```


Chúng ta có thể khảo sát sâu và kĩ hơn nữa chất lượng phân loại cũng như các đặc điểm của hai cách tiếp cận như sau: 

```{r}
# Logistic with 0903-features: 

f_0903 <- as.formula(paste0(response, " ~ ", paste(var_auc_0903, collapse = " + ")))

# Logistic with all features: 

f_all <- as.formula(paste0(response, " ~ ", paste(predictors, collapse = " + ")))

# New metric and sampling technique for searching optimal parameters:  

sampling_new <- trainControl(method = "repeatedcv", 
                             classProbs = TRUE,
                             summaryFunction = twoClassSummary, 
                             number = 3, 
                             repeats = 3)

# Train and turn RF which ROC-AUC used for searching optimal parameters: 

set.seed(29)

train(f_0903, 
      data = train, 
      method = "glm", 
      trControl = sampling_new) -> logit_0903

set.seed(29)

train(f_all, 
      data = train, 
      method = "glm", 
      trControl = sampling_new) -> logit_all

pd_0903 <- predict(logit_0903, test, type = "prob") %>% pull(response) 

pd_all <- predict(logit_all, test, type = "prob") %>% pull(response) 

roc(actual_labels, pd_0903) -> roc_0903

roc(actual_labels, pd_all) -> roc_all

sen_spec_0903 <- tibble(TPR = roc_0903$sensitivities, FPR = 1 - roc_0903$specificities)

sen_spec_all <- tibble(TPR = roc_all$sensitivities, FPR = 1 - roc_all$specificities)

df_roc <- bind_rows(sen_spec_0903 %>% mutate(Model = "903"), sen_spec_all %>% mutate(Model = "All"))

df_roc %>% 
  ggplot(aes(x = FPR, ymin = 0, ymax = TPR, color = Model, fill = Model))+
  geom_polygon(aes(y = TPR), alpha = 0.2)+
  geom_path(aes(y = TPR), size = 1.2) +
  geom_abline(intercept = 0, slope = 1, color = "gray37", size = 1, linetype = "dashed") + 
  theme_bw() +
  coord_equal() + 
  labs(x = "FPR (1 - Specificity)", 
       y = "TPR (Sensitivity)", 
       title = "Figure 2: Model Comparision by AUC-ROC on Test Data", 
       subtitle = "052-Predictor Logistic = 0.903, All-Predictor Logistic = 0.436")
```

Figure 2 cho thấy nếu sử dụng tất cả 94 features thì AUC trên Test Data chỉ là 0.436 - một kết quả rất thấp. 


# Automated Machine Learning

Với cố gắng đạt được kết quả cao hơn nữa một giải pháp đơn giản có thể áp dụng là sử dụng cách tiếp cận Automated Machine Learning (có thể đọc thêm [tại đây](https://rpubs.com/chidungkt/580005)). Dưới đây là R codes thực hiện Automated Machine Learning với chú ý rằng ở đây sử dụng tất cả 94 features (do có nhiều mô hình ML có khả năng tự động lựa chọn biến tối ưu): 

```{r, warning = FALSE, message = FALSE, cache = TRUE}
# Load h2o package: 

library(h2o)
h2o.init(nthreads = 2, max_mem_size = "8g")
h2o.no_progress()

# Prepare data: 

as.h2o(train) -> h2o_frame

splits <- h2o.splitFrame(h2o_frame, ratios = nrow(test) / nrow(train), seed = 29)

train_h2o <- splits[[2]] # Train data. 

valid_h2o <- splits[[1]] # Validation data. 

test_h2o <- as.h2o(test) # Convert test data to h2o frame. 

#===================================
#  Training Auto Machine Learning
#===================================

# Train Auto Machine Learning: 

autoML <- h2o.automl(x = predictors, 
                     y = response, 
                     training_frame = train_h2o, 
                     leaderboard_frame = valid_h2o, 
                     stopping_metric = "AUC", 
                     stopping_rounds = 10, 
                     stopping_tolerance = 0.025, 
                     max_models = 15, 
                     max_runtime_secs = 60*60, 
                     seed = 1, 
                     sort_metric = "AUC")
```

Như vậy AUC trên Validation Data cho mô hình tốt nhất là 0.9278 trên validation data như chúng ta có thể thấy ở Table 1: 

```{r}
autoML@leaderboard %>% 
  as.data.frame() %>% 
  select(model_id, auc) %>% 
  mutate(Rank = 1:nrow(.), auc = round(auc, 4)) %>% 
  rename(AUC_Val = auc) -> df_results

df_results %>% 
  knitr::kable(caption = "Table 1: AUC on Validation Data")
```

Chúng ta có thể tính luôn AUC tương ứng với tất cả các mô hình ML trên Test Data (Table 2): 

```{r}
# AUC on test data by i-th model: 

getAUC_onTestData <- function(i) {
  
  # Extract i-th model: 
  h2o.getModel(autoML@leaderboard[i, 1]) -> best_ith
  
  # Model performance by ith model by AUC on Test data:  
  h2o.performance(model = best_ith, newdata = test_h2o) -> metrics_ith
  
  # Return output: 
  return(data.frame(AUC_Test = metrics_ith@metrics$AUC, model_id = best_ith@model_id))
  
}

# Calculate AUC for all models: 

lapply(1:nrow(df_results), getAUC_onTestData) -> auc_on_testData
do.call("bind_rows", auc_on_testData) -> auc_on_testData

# AUC by all models on test data: 
auc_on_testData %>% 
  select(model_id, AUC_Test) %>% 
  arrange(-AUC_Test) %>% 
  mutate(AUC_Test = round(AUC_Test, 4), Rank = 1:nrow(.)) %>% 
  knitr::kable(caption = "Table 2: AUC on Test Data")

```

Với kết quả AUC trên Test Data là  0.9181 (khi sử dụng mô hình ML tốt nhất) thì kết quả này cao hơn team ở vị trí thứ 5 (Ochiai) với AUC = 0.9165. 

# Key Notes

1. Sử dụng AUC như là một tiêu chuẩn cho lựa chọn biến số cho mô hình Logistic và sử dụng Test Data để đánh giá lại mô hình thì AUC đạt 0.903. Đây là một kết quả không quá tệ và cách thức lựa chọn biến số này dễ thực hiện và không quá mất thời gian. Việc sử dụng AUC như là một tiêu chuẩn lựa chọn biến số cũng có nhiều paper đề cập bạn đọc có thể tự tìm hiểu thêm. 

2. Cách tiếp cận Automated Machine Learning có thể được sử dụng để nâng cao hơn nữa khả năng dự báo và phân loại phá sản của doanh nghiệp. Kết quả thực nghiệm chỉ ra rằng nếu sử dụng cách tiếp cận này thì AUC tăng (so với mô hình Logistic tốt nhất) và đạt 0.9181 trên Test Data. 

3. Chúng ta có thể đi xa hơn bằng cách sử dụng Automated Machine Learning với danh sách 18 biến số đã được sử dụng cho mô hình Logistic tối ưu như sau: 

```{r, eval=FALSE}

autoML0903 <- h2o.automl(x = var_auc_0903, 
                         y = response, 
                         training_frame = train_h2o, 
                         leaderboard_frame = valid_h2o, 
                         stopping_metric = "AUC", 
                         stopping_rounds = 10, 
                         stopping_tolerance = 0.025, 
                         max_models = 15, 
                         max_runtime_secs = 60*60, 
                         seed = 1, 
                         sort_metric = "AUC")


```

4. Đây là dữ liệu bất cân bằng rất cao (chỉ có 3.2% các quan sát là Bankrupt) nên có thể cần xem xét đến khả năng sử dụng các giải pháp resampling dữ liệu như SMOTE, upsampling - downsampling. 

# References

1. [Corporate Bankruptcy Prediction: International Trends and Local Experience](https://www.google.com/url?sa=i&url=https%3A%2F%2Fwww.mdpi.com%2Fbooks%2Fpdfdownload%2Fbook%2F2373&psig=AOvVaw2TKuMDBqisHG8ouiTtl5op&ust=1645153612242000&source=images&cd=vfe&ved=2ahUKEwjb-MT24IX2AhUTI6YKHZQOD54Qjhx6BAgAEAo). 

2. [Advances in Credit Risk Modelling and Corporate Bankruptcy Prediction](https://www.cambridge.org/core/books/advances-in-credit-risk-modelling-and-corporate-bankruptcy-prediction/AE7DEA9884238795F42C744B0C6AC368). 

3. [Liang, D., Lu, C.-C., Tsai, C.-F., and Shih, G.-A. (2016) Financial Ratios and Corporate Governance Indicators in Bankruptcy Prediction: A Comprehensive Study. European Journal of Operational Research, vol. 252, no. 2, pp. 561-572.](https://www.sciencedirect.com/science/article/abs/pii/S0377221716000412?via%3Dihub).

4. [Zieba, M., Tomczak, S. K., & Tomczak, J. M. (2016). Ensemble Boosted Trees with Synthetic Features Generation in Application to Bankruptcy Prediction. Expert Systems with Applications, 58:93–101.](https://www.sciencedirect.com/science/article/abs/pii/S0957417416301592?via%3Dihub)

# R Environment and OS


```{r}
sessionInfo()
```






