Introduction
Mục tiêu của post này là:
- Khảo sát chất lượng phân loại của các thuật toán Machine Learning (ML) khác nhau.
- Đánh giá tác động của AUC lên Sensitivity và Specificity.
- Đánh giá mối liên hệ giữa Specificity và Sensitivity.
Để so sánh, 14 cách tiếp cận của ML được sử dụng cùng với Logistic - một cách tiếp cận của thống kê truyền thống. Kết quả của mô hình Logistic (kí hiệu glm) được sử dụng như chuẩn (base line) so sánh và đánh giá 14 cách tiếp cận còn lại. Dữ liệu có thể download ở đây.
Results and Discussion
Kết quả thử nghiệm trên chạy 15 lần mẫu ngẫu nghiên cho thấy:
- Random Forest (ranger, rf) có AUC cao nhất nhưng phân biệt chính xác nhất nhãn Bad thì C5.0. Cách tiếp cận truyền thống là Logistic - một cách tiếp cận thường được sử dụng cho kết quả không khả quan so với các cách tiếp cận khác của ML:

- AUC có ảnh hưởng mạnh đến khả năng phân biệt nhãn Bad và có tương quan rất chặt (R2 = 81%):

- AUC ảnh hưởng rất yếu đến khả năng phân biệt nhãn Good (R2 chỉ 1%):

- Một lần nữa chúng ta có thể xác nhận nguyên lí đánh đổi “khả năng phân biệt càng tốt nhãn Bad thì phân biệt càng tệ nhãn Good (và ngược lại)” (hệ số hồi quy là -3.25):

R Codes
R codes cho các kết quả trên được trình bày dưới đây:
#------------------------------------
# Perform some data pre-processing
#------------------------------------
rm(list = ls())
# Load some packages:
library(tidyverse)
library(magrittr)
# Import data:
hmeq <- read.csv("http://www.creditriskanalytics.net/uploads/1/9/5/1/19511601/hmeq.csv")
# Function replaces NA by mean:
replace_by_mean <- function(x) {
x[is.na(x)] <- mean(x, na.rm = TRUE)
return(x)
}
# A function imputes NA observations for categorical variables:
replace_na_categorical <- function(x) {
x %>%
table() %>%
as.data.frame() %>%
arrange(-Freq) ->> my_df
n_obs <- sum(my_df$Freq)
pop <- my_df$. %>% as.character()
set.seed(29)
x[is.na(x)] <- sample(pop, sum(is.na(x)), replace = TRUE, prob = my_df$Freq)
return(x)
}
# Use the two functions:
df <- hmeq %>%
mutate_if(is.factor, as.character) %>%
mutate(REASON = case_when(REASON == "" ~ NA_character_, TRUE ~ REASON),
JOB = case_when(JOB == "" ~ NA_character_, TRUE ~ JOB)) %>%
mutate_if(is_character, as.factor) %>%
mutate_if(is.numeric, replace_by_mean) %>%
mutate_if(is.factor, replace_na_categorical)
# Convert BAD to factor and scale 0 -1 data set:
df_for_ml <- df %>%
mutate(BAD = case_when(BAD == 1 ~ "Bad", TRUE ~ "Good") %>% as.factor()) %>%
mutate_if(is.numeric, function(x) {(x - min(x)) / (max(x) - min(x))})
#-----------------------------------
# Simultaneously Train 10 Models
#-----------------------------------
# Split data:
library(caret)
set.seed(1)
id <- createDataPartition(y = df_for_ml$BAD, p = 0.7, list = FALSE)
df_train_ml <- df_for_ml[id, ]
df_test_ml <- df_for_ml[-id, ]
# Set conditions for training model and cross-validation:
set.seed(1)
number <- 3
repeats <- 5
control <- trainControl(method = "repeatedcv",
number = number ,
repeats = repeats,
classProbs = TRUE,
savePredictions = "final",
index = createResample(df_train_ml$BAD, repeats*number),
summaryFunction = twoClassSummary,
allowParallel = TRUE)
# Use Parallel computing:
library(doParallel)
registerDoParallel(cores = detectCores() - 1)
# 16 models selected:
my_models <- c("adaboost", "xgbTree", "svmRadial",
"knn", "gbm", "C5.0", "ranger",
"rf", "nnet", "glm", "lda", "treebag",
"bagFDA", "glmboost", "cforest")
# Train these ML Models:
library(caretEnsemble)
set.seed(1)
system.time(model_list1 <- caretList(BAD ~.,
data = df_train_ml,
trControl = control,
metric = "ROC",
methodList = my_models))
# Extract results:
list_of_results <- lapply(my_models, function(x) {model_list1[[x]]$resample})
# Convert to data frame:
total_df <- do.call("bind_rows", list_of_results)
total_df %<>% mutate(Model = lapply(my_models, function(x) {rep(x, number*repeats)}) %>% unlist())
total_df %>%
dplyr::select(-Resample) %>%
group_by(Model) %>%
summarise(avg_auc = mean(ROC), avg_sen = mean(Sens), avg_spec = mean(Spec)) %>%
ungroup() -> df_results
# Visualize Model Performance:
library(hrbrthemes)
my_bar <- function(metric_name) {
metric_name <- noquote(metric_name)
my_colors <- c("#3E606F")
df_results %>%
dplyr::select(Model, metric_name) -> df
names(df) <- c("Model", "value")
df %>%
arrange(value) %>%
mutate(Model = factor(Model, levels = Model)) %>%
mutate(label = paste0(round(100*value, 1), "%")) -> m
m %>%
ggplot(aes(Model, value)) +
geom_col(fill = my_colors, color = my_colors) +
coord_flip() +
geom_text(data = m, aes(label = label), hjust = 1.1, color = "white", size = 4) +
theme_ft_rc() +
theme(panel.grid = element_blank()) +
theme(axis.text.x = element_blank()) +
theme(axis.text.y = element_text(color = "white", size = 12)) +
scale_y_discrete(expand = c(0.01, 0)) +
labs(x = NULL, y = NULL)
}
gridExtra::grid.arrange(my_bar("avg_auc") + labs(title = "AUC/ROC"),
my_bar("avg_sen") + labs(title = "Sensitivity"),
my_bar("avg_spec") + labs(title = "Specificity"),
nrow = 1, padding = unit(99, "line"))
r1 <- lm(avg_sen ~ avg_auc, data = df_results) %>% summary()
r2 <- lm(avg_spec ~ avg_auc, data = df_results) %>% summary()
r3 <- lm(avg_sen ~ avg_spec, data = df_results) %>% summary()
extract_r <- function(object_ols) {
r <- object_ols$r.squared %>% round(2)
beta <- object_ols$coefficients %>% as.vector() %>% .[2] %>% round(2)
return(list(r = r, beta = beta))
}
extract_r(r1)
extract_r(r2)
extract_r(r3)
library(ggrepel)
# Figure 1:
df_results %>%
ggplot(aes(avg_auc, avg_sen)) +
geom_point(color = "firebrick", size = 4) +
geom_text_repel(aes(label = Model), color = "white", size = 4.5, force = 10) +
geom_smooth(method = "lm", color = "orange", se = FALSE) +
theme_ft_rc(axis_title_size = 12) +
theme(panel.grid.minor = element_blank()) +
scale_x_continuous(labels = scales::percent) +
scale_y_continuous(labels = scales::percent) +
annotate("text", x = 0.82, y = 0.66, label = "R^2 == 0.81", color = "white", parse = T, size = 5) +
annotate("text", x = 0.82, y = 0.66 - 0.03, label = "beta == 2.18", color = "white", parse = T, size = 5) +
labs(x = "AUC/ROC", y = "Sensitivity",
title = "Figure 1: The Relationship between AUC/ROC and Sensitivity",
caption = "Data Source: http://www.creditriskanalytics.net/")
# Figure 2:
df_results %>%
ggplot(aes(avg_auc, avg_spec)) +
geom_point(color = "firebrick", size = 4) +
geom_text_repel(aes(label = Model), color = "white", size = 4.5, force = 10) +
geom_smooth(method = "lm", color = "orange", se = FALSE) +
theme_ft_rc(axis_title_size = 12) +
theme(panel.grid.minor = element_blank()) +
scale_x_continuous(labels = scales::percent) +
scale_y_continuous(labels = scales::percent) +
annotate("text", x = 0.82, y = 0.99, label = "R^2 == 0.01", color = "white", parse = T, size = 5) +
annotate("text", x = 0.82, y = 0.99 - 0.004, label = "beta == 0.02", color = "white", parse = T, size = 5) +
labs(x = "AUC/ROC", y = "Specificity",
title = "Figure 2: The Relationship between AUC/ROC and Specificity",
caption = "Data Source: http://www.creditriskanalytics.net/")
# Figure 3:
df_results %>%
ggplot(aes(avg_sen, avg_spec)) +
geom_point(color = "firebrick", size = 4) +
geom_text_repel(aes(label = Model), color = "white", size = 4.5, force = 10) +
geom_smooth(method = "lm", color = "orange", se = FALSE) +
theme_ft_rc(axis_title_size = 12) +
theme(panel.grid.minor = element_blank()) +
scale_x_continuous(labels = scales::percent) +
scale_y_continuous(labels = scales::percent) +
annotate("text", x = 0.35, y = 0.99, label = "R^2 == 0.09", color = "white", parse = T, size = 5) +
annotate("text", x = 0.35, y = 0.99 - 0.004, label = "beta == -3.25", color = "white", parse = T, size = 5) +
labs(x = "Sensitivity", y = "Specificity",
title = "Figure 3: The Relationship between Sensitivity and Specificity",
caption = "Data Source: http://www.creditriskanalytics.net/")
