Introduction
Dữ liệu bất đối xứng (Unbalanced Data / Imbalanced Data) là một thực tế phổ biến và trong những tình huống này thì các tiêu chí đánh giá mô hình như Accuracy là không thể sử dụng được để so sánh và đánh giá chất lượng phân loại của mô hình. Trong những tình huống như vậy, sử dụng các kĩ thuật “tái cân bằng” - giữa các nhãn bằng các kĩ thuật chọn mẫu sau có thể được sử dụng:
- Upsampling
- Downsampling
- SMOTE.
Data and Preprocessing Technique Used
Nhằm đánh giá tác động của các kĩ thuật chọn mẫu áp dụng cho tình huống dữ liệu là bất đối xứng, bộ dữ liệu Caravan được sử dụng và tiêu chí được sử dụng để đánh giá chất lượng phân loại của các thuật toán là AUC.
Dữ liệu được phân chia thành tỉ lệ 70 - 30 (70% cho Training Data) trong đó các biến Near-zeros không được sử dụng và các biến tương quan cao trên 0.9 được loại bỏ theo thuật toán trình bày ở Chapter 3 cuốn Applied Predictive Modelling (Springer Publisher, 2013).
Method Comparison
Ứng với một phương pháp chọn mẫu và một thuật toán được được lựa chọn, 15 bộ dữ liệu Validation được sử dụng để đánh giá AUC. Average AUC của 15 lần chọn mẫu sẽ được sử dụng để đánh giá tác động của các phương pháp chọn mẫu ứng với một thuật toán được chọn.
Kết quả chi ra rằng ảnh hưởng của các phương pháp chọn mẫu lên chất lượng phân loại của mô hình (theo tiêu chí AUC) là không nhất quán với mỗi một thuật toán được sử dụng (hình 1):

Kết quả này chỉ ra rằng, ví dụ, với AdaBoost và Support Vector Machine thì Downsapling làm tăng đáng kể AUC nhưng Naive Bayes Classifier thì gần như “trơ” với các phương pháp chọn mẫu.
Kết quả này là có chút khác biệt so với những kết luận của Win-Vector Blog.
R Codes cho kết quả thu được ở hình 1:
# Load packages and Caravan data set:
rm(list = ls())
library(ISLR)
library(tidyverse)
library(magrittr)
library(caret)
data("Caravan")
# Function for data processing:
processingData <- function(...) {
Purchase <- Caravan$Purchase
df_num <- Caravan %>% select(-Purchase)
near_zeros <- nearZeroVar(df_num)
df_num_s1 <- df_num %>% select(-near_zeros)
highCorrs <- findCorrelation(cor(df_num_s1), cutoff = 0.9)
df_num_s1 %>%
select(-highCorrs) %>%
mutate(Purchase = Purchase) %>%
return()
}
# Use the function:
df <- processingData()
# Split data:
set.seed(1)
id <- createDataPartition(y = df$Purchase, p = 0.7, list = FALSE)
df_train_ml <- df[id, ]
df_test_ml <- df[-id, ]
# Set conditions for training model and cross-validation:
set.seed(1)
number <- 3
repeats <- 5
control <- trainControl(method = "repeatedcv",
number = number ,
repeats = repeats,
classProbs = TRUE,
savePredictions = "final",
index = createResample(df_train_ml$Purchase, repeats*number),
summaryFunction = multiClassSummary,
allowParallel = TRUE)
# Use Parallel computing:
library(doParallel)
registerDoParallel(cores = detectCores() - 1)
# 6 models selected:
my_models <- c("rf", "adaboost", "knn", "svmRadial", "glm", "nb")
# Train these ML Models:
library(caretEnsemble)
set.seed(1)
system.time(model_list1 <- caretList(Purchase ~.,
data = df_train_ml,
trControl = control,
metric = "Accuracy",
methodList = my_models))
# Function for collecting results:
getResults <- function(list_models) {
list_of_results <- lapply(my_models, function(x) {list_models[[x]]$resample})
total_df <- do.call("bind_rows", list_of_results)
total_df %<>% mutate(Model = lapply(my_models, function(x) {rep(x, number*repeats)}) %>% unlist())
return(total_df)
}
# Function for comparing Average Accuracy based on 15 samples for these models:
comparingAUC <- function(df_selected) {
df_selected %>%
group_by(Model) %>%
summarise(avg_acc = mean(AUC)) %>%
ungroup() %>%
arrange(-avg_acc) %>%
mutate_if(is.numeric, function(x) {round(x, 3)}) %>%
return()
}
# Resampling techniques:
re_sampling <- c("up", "down", "smote")
# Function for training model by resampling technique:
my_trainBySampling <- function(sampling) {
control$sampling <- sampling
model_list <- caretList(Purchase ~.,
data = df_train_ml,
trControl = control,
metric = "Accuracy",
methodList = my_models)
return(model_list)
}
# Train models by resampling technique:
lapply(re_sampling, my_trainBySampling) -> all_models
# Compare AUC:
model_list1 %>%
getResults() %>%
comparingAUC() %>%
mutate(Method = "None") %>%
bind_rows(all_models[[1]] %>% getResults() %>% comparingAUC() %>% mutate(Method = "Up")) %>%
bind_rows(all_models[[2]] %>% getResults() %>% comparingAUC() %>% mutate(Method = "Down")) %>%
bind_rows(all_models[[3]] %>% getResults() %>% comparingAUC() %>% mutate(Method = "SMOTE")) -> df_auc_com
df_auc_com %>%
ggplot(aes(Model, avg_acc, fill = Method)) +
geom_col(position = "dodge") +
scale_fill_manual(values = c('#e41a1c','#377eb8','#4daf4a','#984ea3')) +
theme_minimal() +
scale_y_continuous(labels = scales::percent, limits = c(0, 0.75), breaks = seq(0, 0.75, by = 0.1)) +
scale_x_discrete(labels = c("AdaBoost", "GLM", "KNN", "NB", "RF", "SVM")) +
theme(panel.grid.major.x = element_blank()) +
labs(x = NULL, y = "Average AUC",
subtitle = "Data Source: The Insurance Company Data Provided by Sentient Machine Research",
title = "Figure 1: Model Performance by Resample Method Used for Some ML Approaches")
---
title: "Does Balancing Classes Improve Classifier Performance?" 
subtitle: "R for Pleasere"
author: "Nguyen Chi Dung"
output:
  html_document: 
    code_download: true
    # code_folding: hide
    highlight: pygments
    # number_sections: yes
    theme: "flatly"
    toc: TRUE
    toc_float: TRUE
---

```{r setup,include=FALSE}
knitr::opts_chunk$set(echo = TRUE, warning = FALSE, message = FALSE)
```

# Introduction

Dữ liệu bất đối xứng (Unbalanced Data / Imbalanced Data) là một thực tế phổ biến và trong những tình huống này thì các tiêu chí đánh giá mô hình như Accuracy là không thể sử dụng được để so sánh và đánh giá chất lượng phân loại của mô hình. Trong những tình huống như vậy, sử dụng các kĩ thuật "tái cân bằng" - giữa các nhãn bằng các kĩ thuật chọn mẫu sau có thể được sử dụng: 

1. Upsampling
2. Downsampling
3. SMOTE. 

# Data and Preprocessing Technique Used

Nhằm đánh giá tác động của các kĩ thuật chọn mẫu áp dụng cho tình huống dữ liệu là bất đối xứng, bộ dữ liệu Caravan được sử dụng và tiêu chí được sử dụng để đánh giá chất lượng phân loại của các thuật toán là AUC. 

Dữ liệu được phân chia thành tỉ lệ 70 - 30 (70% cho Training Data) trong đó các biến Near-zeros không được sử dụng và các biến tương quan cao trên 0.9 được loại bỏ theo thuật toán trình bày ở Chapter 3 cuốn Applied Predictive Modelling (Springer Publisher, 2013). 

# Method Comparison

Ứng với một phương pháp chọn mẫu và một thuật toán được được lựa chọn, 15 bộ dữ liệu Validation được sử dụng để đánh giá AUC. Average AUC của 15 lần chọn mẫu sẽ được sử dụng để đánh giá tác động của các phương pháp chọn mẫu ứng với một thuật toán được chọn. 

Kết quả chi ra rằng ảnh hưởng của các phương pháp chọn mẫu lên chất lượng phân loại của mô hình (theo tiêu chí AUC) là không nhất quán với mỗi một thuật toán được sử dụng (hình 1): 

![](C:\\Users\\ADMIN\\Desktop\\pic1.jpg)

Kết quả này chỉ ra rằng, ví dụ, với AdaBoost và Support Vector Machine thì Downsapling làm tăng đáng kể AUC nhưng Naive Bayes Classifier thì gần như "trơ" với các phương pháp chọn mẫu. 

Kết quả này là có chút khác biệt so với những kết luận của [Win-Vector Blog](http://www.win-vector.com/blog/2015/02/does-balancing-classes-improve-classifier-performance/). 

R Codes cho kết quả thu được ở hình 1: 


```{r, eval=FALSE}

# Load packages and Caravan data set: 
rm(list = ls())
library(ISLR)
library(tidyverse)
library(magrittr)
library(caret)
data("Caravan")

# Function for data processing: 

processingData <- function(...) {
  
  Purchase <- Caravan$Purchase
  df_num <- Caravan %>% select(-Purchase)
  near_zeros <- nearZeroVar(df_num)
  df_num_s1 <- df_num %>% select(-near_zeros)
  highCorrs <- findCorrelation(cor(df_num_s1), cutoff = 0.9)
  df_num_s1 %>% 
    select(-highCorrs) %>% 
    mutate(Purchase = Purchase) %>% 
    return()
}


# Use the function: 

df <- processingData()

# Split data: 
set.seed(1)
id <- createDataPartition(y = df$Purchase, p = 0.7, list = FALSE)
df_train_ml <- df[id, ]
df_test_ml <- df[-id, ]

# Set conditions for training model and cross-validation: 

set.seed(1)
number <- 3
repeats <- 5
control <- trainControl(method = "repeatedcv", 
                        number = number , 
                        repeats = repeats, 
                        classProbs = TRUE, 
                        savePredictions = "final", 
                        index = createResample(df_train_ml$Purchase, repeats*number), 
                        summaryFunction = multiClassSummary, 
                        allowParallel = TRUE)



# Use Parallel computing: 
library(doParallel)
registerDoParallel(cores = detectCores() - 1)

# 6 models selected: 

my_models <- c("rf", "adaboost", "knn", "svmRadial", "glm", "nb")

# Train these ML Models: 
library(caretEnsemble)
set.seed(1)
system.time(model_list1 <- caretList(Purchase ~., 
                                     data = df_train_ml,
                                     trControl = control,
                                     metric = "Accuracy", 
                                     methodList = my_models))


# Function for collecting results: 
getResults <- function(list_models) {
  
  list_of_results <- lapply(my_models, function(x) {list_models[[x]]$resample})
  total_df <- do.call("bind_rows", list_of_results)
  total_df %<>% mutate(Model = lapply(my_models, function(x) {rep(x, number*repeats)}) %>% unlist())
  return(total_df)
}


# Function for comparing Average Accuracy based on 15 samples for these models: 

comparingAUC <- function(df_selected) {
  
  df_selected %>% 
    group_by(Model) %>% 
    summarise(avg_acc = mean(AUC)) %>% 
    ungroup() %>% 
    arrange(-avg_acc) %>% 
    mutate_if(is.numeric, function(x) {round(x, 3)}) %>% 
    return()
}



# Resampling techniques: 

re_sampling <- c("up", "down", "smote")

# Function for training model by resampling technique: 

my_trainBySampling <- function(sampling) {
  control$sampling <- sampling
  model_list <- caretList(Purchase ~., 
                          data = df_train_ml,
                          trControl = control,
                          metric = "Accuracy", 
                          methodList = my_models)
  return(model_list)
}

# Train models by resampling technique: 

lapply(re_sampling, my_trainBySampling) -> all_models


# Compare AUC: 


model_list1 %>% 
  getResults() %>% 
  comparingAUC() %>% 
  mutate(Method = "None") %>% 
  bind_rows(all_models[[1]] %>% getResults() %>% comparingAUC() %>% mutate(Method = "Up")) %>% 
  bind_rows(all_models[[2]] %>% getResults() %>% comparingAUC() %>% mutate(Method = "Down")) %>% 
  bind_rows(all_models[[3]] %>% getResults() %>% comparingAUC() %>% mutate(Method = "SMOTE")) -> df_auc_com


df_auc_com %>% 
  ggplot(aes(Model, avg_acc, fill = Method)) + 
  geom_col(position = "dodge") + 
  scale_fill_manual(values = c('#e41a1c','#377eb8','#4daf4a','#984ea3')) + 
  theme_minimal() + 
  scale_y_continuous(labels = scales::percent, limits = c(0, 0.75), breaks = seq(0, 0.75, by = 0.1)) + 
  scale_x_discrete(labels = c("AdaBoost", "GLM", "KNN", "NB", "RF", "SVM")) + 
  theme(panel.grid.major.x = element_blank()) + 
  labs(x = NULL, y = "Average AUC", 
       subtitle = "Data Source: The Insurance Company Data Provided by Sentient Machine Research", 
       title = "Figure 1: Model Performance by Resample Method Used for Some ML Approaches")
```

