Introduction
Bộ số liệu German Credit đã được sử dụng trong nhiều reseach paper. Một số kết quả thực nghiệm với bộ số liệu này được nhắc lại trong nghiên cứu có tên Investigation and improvement of multi-layer perceptron neural networks for credit scoring như sau:

Với các thuật toán Machine Learning thì khối lượng tính toán là rất lớn và các thuật toán có thể cần hàng giờ đến hàng chục giờ để chạy. Con số này có thể lớn hơn rất nhiều nếu bộ số liệu có kích thước lớn và nhiều biến số đầu vào. Vì lí do này, lựa chọn các biến đầu vào phù hợp hoặc sử dụng các kĩ thuật cho Feature Engineering có thể hướng đến đồng thời cả hai mục đích: (1) giảm số lượng biến đầu vào cần thiết để xây dựng mô hình và dẫn đến giảm thời gian tính toán, và (2) đồng thời cải thiện chất lượng dự báo của mô hình hoặc đảm bảo rằng chất lượng dự báo của mô hình giảm không đáng kể trong khi số lượng biến sử dụng lại giảm đi rất nhiều.
Với bộ số liệu German Credit ở trên kết quả chỉ ra rằng:
Mức độ chính xác trung bình cho 10 lần thử nghiệm bằng Cross - Validation là 79% (một kết quả thuộc loại khá nếu chúng ta so sánh với các kết quả ở các nghiên cứu khác) bằng cách sử dụng Random Forest (RF) không tinh chỉnh gì. Kết quả này có thể cải thiện hơn nữa nếu chúng ta tinh chỉnh các tham số cho RF.
Autoencoder có thể được sử dụng hiệu quả như là một phương pháp cho Feature Engineering.
Default Random Forest
R codes dưới đây thực hiện huấn luyện RF không tinh chỉnh đồng thời khảo sát kết quả thu được trên 10 mẫu bằng kĩ thuật Cross-Validation:
## Connection successful!
##
## R is connected to the H2O cluster:
## H2O cluster uptime: 27 minutes 58 seconds
## H2O cluster timezone: Asia/Bangkok
## H2O data parsing timezone: UTC
## H2O cluster version: 3.20.0.2
## H2O cluster version age: 5 months and 26 days !!!
## H2O cluster name: H2O_started_from_R_Zbook_waz726
## H2O cluster total nodes: 1
## H2O cluster total memory: 13.84 GB
## H2O cluster total cores: 8
## H2O cluster allowed cores: 8
## H2O cluster healthy: TRUE
## H2O Connection ip: localhost
## H2O Connection port: 54321
## H2O Connection proxy: NA
## H2O Internal Security: FALSE
## H2O API Extensions: Algos, AutoML, Core V3, Core V4
## R Version: R version 3.5.1 (2018-07-02)
h2o.no_progress()
# Convert to H2o Frame:
train <- as.h2o(df_train)
test <- as.h2o(df_test)
# Identify inputput and output:
y <- "Class"
x <- setdiff(names(train), y)
# Train Default Random Forest:
pure_nn <- h2o.randomForest(x = x, y = y,
training_frame = train,
nfolds = 10,
stopping_rounds = 5,
stopping_metric = "AUC",
seed = 29)
# Function collects results from cross-validation:
results_df <- function(h2o_model) {
h2o_model@model$cross_validation_metrics_summary %>%
as.data.frame() %>%
select(-mean, -sd) %>%
t() %>%
as.data.frame() %>%
mutate_all(as.character) %>%
mutate_all(as.numeric) %>%
select(Accuracy = accuracy,
AUC = auc,
Precision = precision,
Specificity = specificity,
Recall = recall,
Logloss = logloss) %>%
return()
}
# Function presents results by graph:
vis_results <- function(df_results) {
df_results %>%
gather(Metrics, Values) %>%
ggplot(aes(Metrics, Values, fill = Metrics, color = Metrics)) +
geom_boxplot(alpha = 0.3, show.legend = FALSE) +
facet_wrap(~ Metrics, scales = "free") +
scale_y_continuous(labels = scales::percent) +
theme_minimal() +
labs(x = NULL, y = NULL,
title = "Model Performance Based on Cross Validation")
}
pure_nn %>% results_df() %>% summary()
## Accuracy AUC Precision Specificity
## Min. :0.6857 Min. :0.7067 Min. :0.6667 Min. :0.1538
## 1st Qu.:0.7605 1st Qu.:0.7664 1st Qu.:0.7794 1st Qu.:0.3750
## Median :0.7887 Median :0.7805 Median :0.8038 Median :0.4603
## Mean :0.7896 Mean :0.7963 Mean :0.8008 Mean :0.4546
## 3rd Qu.:0.8194 3rd Qu.:0.8404 3rd Qu.:0.8468 3rd Qu.:0.5395
## Max. :0.8659 Max. :0.8645 Max. :0.8750 Max. :0.6857
## Recall Logloss
## Min. :0.7843 Min. :0.4048
## 1st Qu.:0.9216 1st Qu.:0.4304
## Median :0.9382 Median :0.5425
## Mean :0.9324 Mean :0.6132
## 3rd Qu.:0.9673 3rd Qu.:0.7855
## Max. :1.0000 Max. :0.9896

Nếu chọn Accuracy làm tiêu chí đánh giá thì mô hình RF không tinh chỉnh như trên có trung bình Accuracy là xấp xỉ 79%.
Autoencoder as a Feature Engineering Technique
Sử dụng Autoencoder cho mục đích Feature Engineering với bộ số liệu German Credit cho kết quả như sau:
# Buil a autoencoder:
autoencoder <- h2o.deeplearning(x = x,
training_frame = train,
autoencoder = TRUE,
seed = 29,
hidden = c(10, 20, 61),
epochs = 30,
activation = "Tanh")
#============================================================
# Use Autoencoder as Feature Engineering Method (Version 1)
#============================================================
train_autoen <- h2o.predict(autoencoder, train) %>%
as.data.frame() %>%
mutate(Class = df_train$Class) %>%
as.h2o()
test_autoen <- h2o.predict(autoencoder, test) %>%
as.data.frame() %>%
mutate(Class = df_test$Class) %>%
as.h2o()
nn_autoen_layers1 <- h2o.randomForest(x = setdiff(colnames(train_autoen), "Class"),
y = y,
training_frame = train_autoen,
nfolds = 10,
stopping_rounds = 5,
stopping_metric = "AUC",
seed = 29)
#============================================================
# Use Autoencoder as Feature Engineering Method (Version 2)
#============================================================
train_features_l2 <- h2o.deepfeatures(autoencoder, train, layer = 2) %>%
as.data.frame() %>%
mutate(Class = df_train$Class) %>%
as.h2o()
test_features_l2 <- h2o.deepfeatures(autoencoder, test, layer = 2) %>%
as.data.frame() %>%
mutate(Class = df_test$Class) %>%
as.h2o()
nn_autoen_layers2 <- h2o.randomForest(x = setdiff(colnames(train_features_l2), "Class"),
y = y,
training_frame = train_features_l2,
nfolds = 10,
stopping_rounds = 5,
stopping_metric = "AUC",
seed = 29)
#============================================================
# Use Autoencoder as Feature Engineering Method (Version 3)
#============================================================
train_features_l3 <- h2o.deepfeatures(autoencoder, train, layer = 3) %>%
as.data.frame() %>%
mutate(Class = df_train$Class) %>%
as.h2o()
test_features_l3 <- h2o.deepfeatures(autoencoder, test, layer = 3) %>%
as.data.frame() %>%
mutate(Class = df_test$Class) %>%
as.h2o()
nn_autoen_layers3 <- h2o.randomForest(x = setdiff(colnames(train_features_l3), "Class"),
y = y,
training_frame = train_features_l3,
nfolds = 10,
stopping_rounds = 5,
stopping_metric = "AUC",
seed = 29)
#==========================
# Compare between models
#==========================
do.call("bind_rows",
lapply(list(pure_nn,
nn_autoen_layers1,
nn_autoen_layers2,
nn_autoen_layers3), results_df)) -> df_com
df_com %<>% mutate(Model = rep(c("Original", "Layer1", "20Var", "61Var"), each = 10, time = 1))
theme_set(theme_minimal())
df_com %>%
gather(a, b, -Model) %>%
ggplot(aes(Model, b, fill = Model, color = Model)) +
geom_boxplot(alpha = 0.3) +
scale_y_continuous(labels = scales::percent) +
facet_wrap(~ a, scales = "free") +
labs(x = NULL, y = NULL, title = "Model Performance")

Original |
0.790 |
0.796 |
0.613 |
0.801 |
0.932 |
0.455 |
Layer1 |
0.756 |
0.737 |
0.879 |
0.758 |
0.964 |
0.278 |
61Var |
0.743 |
0.732 |
0.621 |
0.751 |
0.950 |
0.236 |
20Var |
0.726 |
0.696 |
0.837 |
0.724 |
0.987 |
0.124 |
Kết quả này chỉ ra rằng: Autoencoder có thể được sử dụng hiệu quả như là một kĩ thuật cho Feature Engineering.
Optimal Threshold
RF sử dụng toàn bộ 61 biến số nguyên bản là mô hình cho Accuracy cao nhất. Chúng ta có thể khảo sát sự biến đổi các tiêu chí đánh giá chất lượng mô hình phân loại khi ngưỡng được lựa chọn dán nhãn (Bad hay Good) thay đổi như sau:
eval_fun <- function(thre) {
lapply(1:10, function(x) {
set.seed(x)
id <- createDataPartition(y = df_test$Class, p = 0.5, list = FALSE)
test_df <- df_test[id, ]
du_bao_prob <- h2o.predict(pure_nn, test_df %>% as.h2o()) %>%
as.data.frame() %>%
pull(Bad)
du_bao <- case_when(du_bao_prob >= thre ~ "Bad",
du_bao_prob < thre ~ "Good") %>% as.factor()
cm <- confusionMatrix(du_bao, test_df$Class, positive = "Bad")
bg_gg <- cm$table %>%
as.vector() %>%
matrix(ncol = 4) %>%
as.data.frame() %>%
rename(TP = V1, FN = V2, FP = V3, TN = V4)
kq <- c(cm$overall, cm$byClass)
ten <- kq %>% as.data.frame() %>% row.names()
kq %>%
as.vector() %>%
matrix(ncol = 18) %>%
as.data.frame() -> all_df
names(all_df) <- ten
all_df <- bind_cols(all_df, bg_gg)
return(all_df)
})
}
# Đánh giá sự biến đổi theo một loạt ngưỡng:
system.time(so_sanh_list <- lapply(seq(0.05, 0.8, by = 0.05), eval_fun))
## user system elapsed
## 94.45 3.05 138.31
so_sanh_df <- do.call("bind_rows", so_sanh_list)
so_sanh_df %<>%
mutate(Threshold = lapply(seq(0.05, 0.8, by = 0.05), function(x) {rep(x, 10)}) %>% unlist())
theme_set(theme_minimal())
so_sanh_df %>%
group_by(Threshold) %>%
summarise_each(funs(median), Accuracy, Kappa, Sensitivity, Specificity) %>%
gather(Metric, b, -Threshold) %>%
ggplot(aes(Threshold, b, color = Metric)) +
geom_line() +
geom_point(size = 3) +
scale_y_continuous(labels = scales::percent) +
theme(panel.grid.minor = element_blank()) +
scale_x_continuous(breaks = seq(0.05, 0.8, by = 0.05)) +
labs(y = "Accuracy Rate",
title = "Variation of Classifier's Metrics by Threshold")

Chúng ta có thể thấy rõ sự đánh đổi ở đây: khẳ năng phân loại cho nhãn Bad càng cao (Sensitivity) càng cao thì khả năng phân loại cho nhãn Good (Specificity) càng thấp. Điều này dẫn đến Accuracy có dạng hình chữ U ngược với mức cực đại đạt được khi ngưỡng được chọn là 0.7.
Chúng ta có thể hình ảnh hóa khả năng phân loại của mô hình cho hai loại hồ sơ như sau:
my_cm_com_dl <- function(thre) {
du_bao_prob <- h2o.predict(pure_nn, test) %>% as.data.frame() %>% pull(Bad)
du_bao <- case_when(du_bao_prob >= thre ~ "Bad",
du_bao_prob < thre ~ "Good") %>% as.factor()
cm <- confusionMatrix(du_bao, df_test$Class, positive = "Bad")
return(cm)
}
my_threshold <- c(0.10, 0.25, 0.5, 0.7)
results_list_dl <- lapply(my_threshold, my_cm_com_dl)
vis_detection_rate_dl <- function(x) {
results_list_dl[[x]]$table %>% as.data.frame() -> m
rate <- round(100*m$Freq[1] / sum(m$Freq[c(1, 2)]), 2)
acc <- round(100*sum(m$Freq[c(1, 4)]) / sum(m$Freq), 2)
acc <- paste0(acc, "%")
m %>%
ggplot(aes(Reference, Freq, fill = Prediction)) +
geom_col(position = "fill") +
scale_fill_manual(values = c("#e41a1c", "#377eb8"), name = "") +
theme(panel.grid.minor.y = element_blank()) +
theme(panel.grid.minor.x = element_blank()) +
scale_y_continuous(labels = scales::percent) +
labs(x = NULL, y = NULL,
title = paste0("Detecting Bad Cases when Threshold = ", my_threshold[x]),
subtitle = paste0("Detecting Rate for Bad Cases: ", rate, "%", ", ", "Accuracy: ", acc))
}
gridExtra::grid.arrange(vis_detection_rate_dl(1),
vis_detection_rate_dl(2),
vis_detection_rate_dl(3),
vis_detection_rate_dl(4))

