Introduction

Bộ số liệu German Credit đã được sử dụng trong nhiều reseach paper. Một số kết quả thực nghiệm với bộ số liệu này được nhắc lại trong nghiên cứu có tên Investigation and improvement of multi-layer perceptron neural networks for credit scoring như sau:

Với các thuật toán Machine Learning thì khối lượng tính toán là rất lớn và các thuật toán có thể cần hàng giờ đến hàng chục giờ để chạy. Con số này có thể lớn hơn rất nhiều nếu bộ số liệu có kích thước lớn và nhiều biến số đầu vào. Vì lí do này, lựa chọn các biến đầu vào phù hợp hoặc sử dụng các kĩ thuật cho Feature Engineering có thể hướng đến đồng thời cả hai mục đích: (1) giảm số lượng biến đầu vào cần thiết để xây dựng mô hình và dẫn đến giảm thời gian tính toán, và (2) đồng thời cải thiện chất lượng dự báo của mô hình hoặc đảm bảo rằng chất lượng dự báo của mô hình giảm không đáng kể trong khi số lượng biến sử dụng lại giảm đi rất nhiều.

Với bộ số liệu German Credit ở trên kết quả chỉ ra rằng:

  1. Mức độ chính xác trung bình cho 10 lần thử nghiệm bằng Cross - Validation là 79% (một kết quả thuộc loại khá nếu chúng ta so sánh với các kết quả ở các nghiên cứu khác) bằng cách sử dụng Random Forest (RF) không tinh chỉnh gì. Kết quả này có thể cải thiện hơn nữa nếu chúng ta tinh chỉnh các tham số cho RF.

  2. Autoencoder có thể được sử dụng hiệu quả như là một phương pháp cho Feature Engineering.

Default Random Forest

R codes dưới đây thực hiện huấn luyện RF không tinh chỉnh đồng thời khảo sát kết quả thu được trên 10 mẫu bằng kĩ thuật Cross-Validation:

##  Connection successful!
## 
## R is connected to the H2O cluster: 
##     H2O cluster uptime:         27 minutes 58 seconds 
##     H2O cluster timezone:       Asia/Bangkok 
##     H2O data parsing timezone:  UTC 
##     H2O cluster version:        3.20.0.2 
##     H2O cluster version age:    5 months and 26 days !!! 
##     H2O cluster name:           H2O_started_from_R_Zbook_waz726 
##     H2O cluster total nodes:    1 
##     H2O cluster total memory:   13.84 GB 
##     H2O cluster total cores:    8 
##     H2O cluster allowed cores:  8 
##     H2O cluster healthy:        TRUE 
##     H2O Connection ip:          localhost 
##     H2O Connection port:        54321 
##     H2O Connection proxy:       NA 
##     H2O Internal Security:      FALSE 
##     H2O API Extensions:         Algos, AutoML, Core V3, Core V4 
##     R Version:                  R version 3.5.1 (2018-07-02)
##     Accuracy           AUC           Precision       Specificity    
##  Min.   :0.6857   Min.   :0.7067   Min.   :0.6667   Min.   :0.1538  
##  1st Qu.:0.7605   1st Qu.:0.7664   1st Qu.:0.7794   1st Qu.:0.3750  
##  Median :0.7887   Median :0.7805   Median :0.8038   Median :0.4603  
##  Mean   :0.7896   Mean   :0.7963   Mean   :0.8008   Mean   :0.4546  
##  3rd Qu.:0.8194   3rd Qu.:0.8404   3rd Qu.:0.8468   3rd Qu.:0.5395  
##  Max.   :0.8659   Max.   :0.8645   Max.   :0.8750   Max.   :0.6857  
##      Recall          Logloss      
##  Min.   :0.7843   Min.   :0.4048  
##  1st Qu.:0.9216   1st Qu.:0.4304  
##  Median :0.9382   Median :0.5425  
##  Mean   :0.9324   Mean   :0.6132  
##  3rd Qu.:0.9673   3rd Qu.:0.7855  
##  Max.   :1.0000   Max.   :0.9896

Nếu chọn Accuracy làm tiêu chí đánh giá thì mô hình RF không tinh chỉnh như trên có trung bình Accuracy là xấp xỉ 79%.

Autoencoder as a Feature Engineering Technique

Sử dụng Autoencoder cho mục đích Feature Engineering với bộ số liệu German Credit cho kết quả như sau:

# Buil a autoencoder: 

autoencoder <- h2o.deeplearning(x = x,
                                training_frame = train, 
                                autoencoder = TRUE, 
                                seed = 29, 
                                hidden = c(10, 20, 61), 
                                epochs = 30, 
                                activation = "Tanh")

#============================================================
#  Use Autoencoder as Feature Engineering Method (Version 1)
#============================================================


train_autoen <- h2o.predict(autoencoder, train) %>% 
  as.data.frame() %>% 
  mutate(Class = df_train$Class) %>% 
  as.h2o()

test_autoen <- h2o.predict(autoencoder, test) %>% 
  as.data.frame() %>% 
  mutate(Class = df_test$Class) %>% 
  as.h2o()


nn_autoen_layers1 <- h2o.randomForest(x = setdiff(colnames(train_autoen), "Class"), 
                                      y = y, 
                                      training_frame = train_autoen,
                                      nfolds = 10, 
                                      stopping_rounds = 5, 
                                      stopping_metric = "AUC", 
                                      seed = 29)



#============================================================
#  Use Autoencoder as Feature Engineering Method (Version 2)
#============================================================

train_features_l2 <- h2o.deepfeatures(autoencoder, train, layer = 2) %>%
  as.data.frame() %>%
  mutate(Class = df_train$Class) %>% 
  as.h2o()


test_features_l2 <- h2o.deepfeatures(autoencoder, test, layer = 2) %>%
  as.data.frame() %>%
  mutate(Class = df_test$Class) %>% 
  as.h2o()   


nn_autoen_layers2 <- h2o.randomForest(x = setdiff(colnames(train_features_l2), "Class"), 
                                      y = y, 
                                      training_frame = train_features_l2,
                                      nfolds = 10, 
                                      stopping_rounds = 5, 
                                      stopping_metric = "AUC", 
                                      seed = 29)


#============================================================
#  Use Autoencoder as Feature Engineering Method (Version 3)
#============================================================

train_features_l3 <- h2o.deepfeatures(autoencoder, train, layer = 3) %>%
  as.data.frame() %>%
  mutate(Class = df_train$Class) %>% 
  as.h2o()


test_features_l3 <- h2o.deepfeatures(autoencoder, test, layer = 3) %>%
  as.data.frame() %>%
  mutate(Class = df_test$Class) %>% 
  as.h2o()


nn_autoen_layers3 <- h2o.randomForest(x = setdiff(colnames(train_features_l3), "Class"), 
                                      y = y, 
                                      training_frame = train_features_l3,
                                      nfolds = 10, 
                                      stopping_rounds = 5, 
                                      stopping_metric = "AUC", 
                                      seed = 29)

#==========================
#  Compare between models
#==========================

do.call("bind_rows", 
        lapply(list(pure_nn, 
                    nn_autoen_layers1, 
                    nn_autoen_layers2, 
                    nn_autoen_layers3), results_df)) -> df_com


df_com %<>% mutate(Model = rep(c("Original", "Layer1", "20Var", "61Var"), each = 10, time = 1))

theme_set(theme_minimal())
df_com %>% 
  gather(a, b, -Model) %>% 
  ggplot(aes(Model, b, fill = Model, color = Model)) + 
  geom_boxplot(alpha = 0.3) + 
  scale_y_continuous(labels = scales::percent) + 
  facet_wrap(~ a, scales = "free") + 
  labs(x = NULL, y = NULL, title = "Model Performance")

Model Accuracy AUC Logloss Precision Recall Specificity
Original 0.790 0.796 0.613 0.801 0.932 0.455
Layer1 0.756 0.737 0.879 0.758 0.964 0.278
61Var 0.743 0.732 0.621 0.751 0.950 0.236
20Var 0.726 0.696 0.837 0.724 0.987 0.124

Kết quả này chỉ ra rằng: Autoencoder có thể được sử dụng hiệu quả như là một kĩ thuật cho Feature Engineering.

Optimal Threshold

RF sử dụng toàn bộ 61 biến số nguyên bản là mô hình cho Accuracy cao nhất. Chúng ta có thể khảo sát sự biến đổi các tiêu chí đánh giá chất lượng mô hình phân loại khi ngưỡng được lựa chọn dán nhãn (Bad hay Good) thay đổi như sau:

##    user  system elapsed 
##   94.45    3.05  138.31

Chúng ta có thể thấy rõ sự đánh đổi ở đây: khẳ năng phân loại cho nhãn Bad càng cao (Sensitivity) càng cao thì khả năng phân loại cho nhãn Good (Specificity) càng thấp. Điều này dẫn đến Accuracy có dạng hình chữ U ngược với mức cực đại đạt được khi ngưỡng được chọn là 0.7.

Chúng ta có thể hình ảnh hóa khả năng phân loại của mô hình cho hai loại hồ sơ như sau:

---
title: "Use Autoencoder as a Feature Engineering Technique" 
subtitle: "For Killing Time at the Hospital"
author: "Nguyen Chi Dung"
output:
  html_document: 
    code_download: true
    # code_folding: hide
    highlight: pygments
    # number_sections: yes
    theme: "flatly"
    toc: TRUE
    toc_float: TRUE
---

```{r setup,include=FALSE}
knitr::opts_chunk$set(echo = TRUE, warning = FALSE, message = FALSE)
```

# Introduction

Bộ số liệu **German Credit** đã được sử dụng trong nhiều reseach paper. Một số kết quả thực nghiệm với bộ số liệu này được nhắc lại trong nghiên cứu có tên [Investigation and improvement of multi-layer perceptron neural networks for credit scoring](https://www.sciencedirect.com/science/article/pii/S0957417414007726) như sau: 

![](C:/Users/Zbook/Documents/result_german.png)

Với các thuật toán Machine Learning thì khối lượng tính toán là rất lớn và các thuật toán có thể cần hàng giờ đến hàng chục giờ để chạy. Con số này có thể lớn hơn rất nhiều nếu bộ số liệu có kích thước lớn và nhiều biến số đầu vào. Vì lí do này, lựa chọn các biến đầu vào phù hợp hoặc sử dụng các kĩ thuật cho Feature Engineering có thể hướng đến đồng thời cả hai mục đích: (1) giảm số lượng biến đầu vào cần thiết để xây dựng mô hình và dẫn đến giảm thời gian tính toán, và (2) đồng thời cải thiện chất lượng dự báo của mô hình hoặc đảm bảo rằng chất lượng dự báo của mô hình giảm không đáng kể trong khi số lượng biến sử dụng lại giảm đi rất nhiều. 

Với bộ số liệu German Credit ở trên kết quả chỉ ra rằng: 

1. Mức độ chính xác trung bình cho 10 lần thử nghiệm bằng Cross - Validation là 79% (một kết quả thuộc loại khá nếu chúng ta so sánh với các kết quả ở các nghiên cứu khác) bằng cách sử dụng Random Forest (RF) không tinh chỉnh gì. Kết quả này có thể cải thiện hơn nữa nếu chúng ta tinh chỉnh các tham số cho RF. 


2. Autoencoder có thể được sử dụng hiệu quả như là một phương pháp cho Feature Engineering. 

# Default Random Forest

R codes dưới đây thực hiện huấn luyện RF không tinh chỉnh đồng thời khảo sát kết quả thu được trên 10 mẫu bằng kĩ thuật Cross-Validation: 


```{r, fig.fullwidth = TRUE, fig.height=8, fig.width=12}
#=================================
#  Stage 1: Data Pre-processing
#=================================

# Clear workspace: 
rm(list = ls())

# Load packages and data: 
library(tidyverse)
library(magrittr)
library(caret)
data("GermanCredit")

# Split data: 
set.seed(1)
id <- createDataPartition(y = GermanCredit$Class, p = 0.8, list = FALSE)
df_train <- GermanCredit[id, ] # For training
df_test <- GermanCredit[-id, ] # For testing


# Activate h2o package for deep learning: 
library(h2o)
h2o.init(nthreads = -1, max_mem_size = "16g")
h2o.no_progress()

# Convert to H2o Frame:
train <- as.h2o(df_train)
test <- as.h2o(df_test)

# Identify inputput and output: 
y <- "Class"
x <- setdiff(names(train), y)

# Train Default Random Forest: 
pure_nn <- h2o.randomForest(x = x, y = y, 
                            training_frame = train,
                            nfolds = 10, 
                            stopping_rounds = 5, 
                            stopping_metric = "AUC", 
                            seed = 29)


# Function collects results from cross-validation: 

results_df <- function(h2o_model) {
  h2o_model@model$cross_validation_metrics_summary %>% 
    as.data.frame() %>% 
    select(-mean, -sd) %>% 
    t() %>% 
    as.data.frame() %>% 
    mutate_all(as.character) %>% 
    mutate_all(as.numeric) %>% 
    select(Accuracy = accuracy, 
           AUC = auc, 
           Precision = precision, 
           Specificity = specificity, 
           Recall = recall, 
           Logloss = logloss) %>% 
    return()
  }


# Function presents results by graph: 

vis_results <- function(df_results) {
  df_results %>% 
    gather(Metrics, Values) %>% 
    ggplot(aes(Metrics, Values, fill = Metrics, color = Metrics)) +
    geom_boxplot(alpha = 0.3, show.legend = FALSE) + 
    facet_wrap(~ Metrics, scales = "free") + 
    scale_y_continuous(labels = scales::percent) + 
    theme_minimal() + 
    labs(x = NULL, y = NULL, 
         title = "Model Performance Based on Cross Validation")
}


pure_nn %>% results_df() %>% summary()
pure_nn %>% results_df() %>% vis_results()

```

Nếu chọn Accuracy làm tiêu chí đánh giá thì mô hình RF không tinh chỉnh như trên có trung bình Accuracy là xấp xỉ 79%. 


# Autoencoder as a Feature Engineering Technique

Sử dụng Autoencoder cho mục đích Feature Engineering với bộ số liệu German Credit cho kết quả như sau: 

```{r, fig.fullwidth = TRUE, fig.height=8, fig.width=12}

# Buil a autoencoder: 

autoencoder <- h2o.deeplearning(x = x,
                                training_frame = train, 
                                autoencoder = TRUE, 
                                seed = 29, 
                                hidden = c(10, 20, 61), 
                                epochs = 30, 
                                activation = "Tanh")

#============================================================
#  Use Autoencoder as Feature Engineering Method (Version 1)
#============================================================


train_autoen <- h2o.predict(autoencoder, train) %>% 
  as.data.frame() %>% 
  mutate(Class = df_train$Class) %>% 
  as.h2o()

test_autoen <- h2o.predict(autoencoder, test) %>% 
  as.data.frame() %>% 
  mutate(Class = df_test$Class) %>% 
  as.h2o()


nn_autoen_layers1 <- h2o.randomForest(x = setdiff(colnames(train_autoen), "Class"), 
                                      y = y, 
                                      training_frame = train_autoen,
                                      nfolds = 10, 
                                      stopping_rounds = 5, 
                                      stopping_metric = "AUC", 
                                      seed = 29)



#============================================================
#  Use Autoencoder as Feature Engineering Method (Version 2)
#============================================================

train_features_l2 <- h2o.deepfeatures(autoencoder, train, layer = 2) %>%
  as.data.frame() %>%
  mutate(Class = df_train$Class) %>% 
  as.h2o()


test_features_l2 <- h2o.deepfeatures(autoencoder, test, layer = 2) %>%
  as.data.frame() %>%
  mutate(Class = df_test$Class) %>% 
  as.h2o()   


nn_autoen_layers2 <- h2o.randomForest(x = setdiff(colnames(train_features_l2), "Class"), 
                                      y = y, 
                                      training_frame = train_features_l2,
                                      nfolds = 10, 
                                      stopping_rounds = 5, 
                                      stopping_metric = "AUC", 
                                      seed = 29)


#============================================================
#  Use Autoencoder as Feature Engineering Method (Version 3)
#============================================================

train_features_l3 <- h2o.deepfeatures(autoencoder, train, layer = 3) %>%
  as.data.frame() %>%
  mutate(Class = df_train$Class) %>% 
  as.h2o()


test_features_l3 <- h2o.deepfeatures(autoencoder, test, layer = 3) %>%
  as.data.frame() %>%
  mutate(Class = df_test$Class) %>% 
  as.h2o()


nn_autoen_layers3 <- h2o.randomForest(x = setdiff(colnames(train_features_l3), "Class"), 
                                      y = y, 
                                      training_frame = train_features_l3,
                                      nfolds = 10, 
                                      stopping_rounds = 5, 
                                      stopping_metric = "AUC", 
                                      seed = 29)

#==========================
#  Compare between models
#==========================

do.call("bind_rows", 
        lapply(list(pure_nn, 
                    nn_autoen_layers1, 
                    nn_autoen_layers2, 
                    nn_autoen_layers3), results_df)) -> df_com


df_com %<>% mutate(Model = rep(c("Original", "Layer1", "20Var", "61Var"), each = 10, time = 1))

theme_set(theme_minimal())
df_com %>% 
  gather(a, b, -Model) %>% 
  ggplot(aes(Model, b, fill = Model, color = Model)) + 
  geom_boxplot(alpha = 0.3) + 
  scale_y_continuous(labels = scales::percent) + 
  facet_wrap(~ a, scales = "free") + 
  labs(x = NULL, y = NULL, title = "Model Performance")


df_com %>% 
  group_by(Model) %>% 
  summarise_each(funs(mean), Accuracy, AUC, Logloss, Precision, Recall, Specificity) %>% 
  arrange(-Accuracy) %>% 
  mutate_if(is.numeric, function(x) {round(x, 3)}) %>% 
  knitr::kable()

```

Kết quả này chỉ ra rằng: Autoencoder có thể được sử dụng hiệu quả như là một kĩ thuật cho Feature Engineering. 

# Optimal Threshold

RF sử dụng toàn bộ 61 biến số nguyên bản là mô hình cho Accuracy cao nhất. Chúng ta có thể khảo sát sự biến đổi các tiêu chí đánh giá chất lượng mô hình phân loại khi ngưỡng được lựa chọn dán nhãn (Bad hay Good) thay đổi như sau: 

```{r, fig.fullwidth = TRUE, fig.height=8, fig.width=12}
eval_fun <- function(thre) {
  lapply(1:10, function(x) {
    
    set.seed(x)
    id <- createDataPartition(y = df_test$Class, p = 0.5, list = FALSE)
    test_df <- df_test[id, ]
  
    du_bao_prob <- h2o.predict(pure_nn, test_df %>% as.h2o()) %>% 
      as.data.frame() %>% 
      pull(Bad)
    
    du_bao <- case_when(du_bao_prob >= thre ~ "Bad", 
                        du_bao_prob < thre ~ "Good") %>% as.factor()
    cm <- confusionMatrix(du_bao, test_df$Class, positive = "Bad")
    
    bg_gg <- cm$table %>% 
      as.vector() %>% 
      matrix(ncol = 4) %>% 
      as.data.frame() %>% 
      rename(TP = V1, FN = V2, FP = V3, TN = V4)
  
    
    kq <- c(cm$overall, cm$byClass) 
    ten <- kq %>% as.data.frame() %>% row.names()
    
    kq %>% 
      as.vector() %>% 
      matrix(ncol = 18) %>% 
      as.data.frame() -> all_df
    
    names(all_df) <- ten
    all_df <- bind_cols(all_df, bg_gg)
    return(all_df)
  })
}



# Đánh giá sự biến đổi theo một loạt ngưỡng: 

system.time(so_sanh_list <- lapply(seq(0.05, 0.8, by = 0.05), eval_fun))

so_sanh_df <- do.call("bind_rows", so_sanh_list) 

so_sanh_df %<>% 
  mutate(Threshold = lapply(seq(0.05, 0.8, by = 0.05), function(x) {rep(x, 10)}) %>% unlist())

theme_set(theme_minimal())
so_sanh_df %>% 
  group_by(Threshold) %>% 
  summarise_each(funs(median), Accuracy, Kappa, Sensitivity, Specificity) %>% 
  gather(Metric, b, -Threshold) %>% 
  ggplot(aes(Threshold, b, color = Metric)) + 
  geom_line() + 
  geom_point(size = 3) + 
  scale_y_continuous(labels = scales::percent) + 
  theme(panel.grid.minor = element_blank()) + 
  scale_x_continuous(breaks = seq(0.05, 0.8, by = 0.05)) + 
  labs(y = "Accuracy Rate", 
       title = "Variation of Classifier's Metrics by Threshold")
```

Chúng ta có thể thấy rõ sự đánh đổi ở đây: khẳ năng phân loại cho nhãn Bad càng cao (Sensitivity) càng cao thì khả năng phân loại cho nhãn Good (Specificity) càng thấp. Điều này dẫn đến Accuracy có dạng hình chữ U ngược với mức cực đại đạt được khi ngưỡng được chọn là 0.7. 


Chúng ta có thể hình ảnh hóa khả năng phân loại của mô hình cho hai loại hồ sơ như sau: 

```{r, fig.fullwidth = TRUE, fig.height=8, fig.width=12}
my_cm_com_dl <- function(thre) {
  du_bao_prob <- h2o.predict(pure_nn, test) %>% as.data.frame() %>% pull(Bad)
  du_bao <- case_when(du_bao_prob >= thre ~ "Bad", 
                      du_bao_prob < thre ~ "Good") %>% as.factor()
  cm <- confusionMatrix(du_bao, df_test$Class, positive = "Bad")
  return(cm)
  
}

my_threshold <- c(0.10, 0.25, 0.5, 0.7)
results_list_dl <- lapply(my_threshold, my_cm_com_dl)


vis_detection_rate_dl <- function(x) {
  
  results_list_dl[[x]]$table %>% as.data.frame() -> m
  rate <- round(100*m$Freq[1] / sum(m$Freq[c(1, 2)]), 2)
  acc <- round(100*sum(m$Freq[c(1, 4)]) / sum(m$Freq), 2)
  acc <- paste0(acc, "%")
  
  m %>% 
    ggplot(aes(Reference, Freq, fill = Prediction)) +
    geom_col(position = "fill") + 
    scale_fill_manual(values = c("#e41a1c", "#377eb8"), name = "") + 
    theme(panel.grid.minor.y = element_blank()) + 
    theme(panel.grid.minor.x = element_blank()) + 
    scale_y_continuous(labels = scales::percent) + 
    labs(x = NULL, y = NULL, 
         title = paste0("Detecting Bad Cases when Threshold = ", my_threshold[x]), 
         subtitle = paste0("Detecting Rate for Bad Cases: ", rate, "%", ", ", "Accuracy: ", acc))
  }


gridExtra::grid.arrange(vis_detection_rate_dl(1), 
                        vis_detection_rate_dl(2), 
                        vis_detection_rate_dl(3), 
                        vis_detection_rate_dl(4))

```






