Motivations
Tiền xử lí số liệu (Pre-processing) là một khâu chiếm nhiều thời gian và công sức nhất. Một trong những vấn đề thường phải đối mặt ở bước này chính là xử lí số liệu trống (Missing Data Problem). Dữ liệu của cuộc thi Home Credit Default Risk cũng không ngoại lệ khi hầu hết các features đều có missing ở những mức độ khác nhau (có feature thì tỉ lệ missing có thể lên đến 70%). Hầu hết (nếu không nói là tất cả) các thuật toán Machine Learning đều đòi hỏi phải xử lí missing data bằng một quá trình gọi là data imputation.
Trong post này trình bày một cách tiếp cận đơn giản cho bước tiền xử lí số liệu cho missing data để đạt được AUC = 0.74081 trên test data (một kết quả không quá tồi nếu như các bạn để ý rằng top 1 có AUC 0.80570) với ba điểm đáng chú ý sau:
- Chỉ sử dụng các features ở application_train.csv để train mô hình chứ chưa sử dụng đến các dữ liệu / features khác.
- Missing data được xử lí bằng thuật toán Random Forest với hàm missRanger().
- Sử dụng Automated Machine Learning của thư viện h2o để train mô hình. Thư viện này có thể được chạy trên Python lẫn R (cũng như một số ngôn ngữ khác).
Dưới đây là R codes:
#============
# Load data
#============
# Clear workspace:
rm(list = ls())
# Import data:
library(tidyverse)
df_train <- read_csv("application_train.csv")
df_test <- read_csv("application_test.csv")
# Combine train and test data:
df_total <- bind_rows(df_train, df_test)
# Check missing rate:
lapply(df_total, function(x) {sum(is.na(x)) / length(x)})
# Replace space and - in character columns and convert to factor:
df_total %>%
select(-SK_ID_CURR) %>%
mutate_if(is.character, function(x) {x %>% str_to_upper()}) %>%
mutate_if(is.character, function(x) {x %>% str_replace_all(" ", "")}) %>%
mutate_if(is.character, function(x) {x %>% str_replace_all("\\,", "_")}) %>%
mutate_if(is.character, function(x) {x %>% str_replace_all("-", "_")}) %>%
mutate_if(is.character, as.factor) -> df_total
#====================================
# Data Imputation for Missing Data
#====================================
# Target variable:
target_var <- df_total$TARGET
# Input variables:
df_total %>% select(-TARGET) -> df_inputs
# Conduct data imputation:
library(missRanger)
missRanger(df_inputs, seed = 29) -> df_imputed
# Add targer variable and scale 0-1 for numeric features:
df_imputed %>%
mutate(TARGET = target_var) %>%
mutate_if(is.numeric, function(x) {(x - min(x)) / (max(x) - min(x))}) -> df_imputed
# Split data to train and test:
df_imputed %>%
filter(!is.na(TARGET)) %>%
mutate(TARGET = case_when(TARGET == 1 ~ "Bad", TRUE ~ "Good")) %>%
mutate(TARGET = as.factor(TARGET)) -> train_df
df_imputed %>% filter(is.na(TARGET)) -> test_df
#====================================
# Train Automated Machine Learning
#====================================
# Load h2o package and prepare data for training Auto ML:
library(h2o)
h2o.init(nthreads = 36, max_mem_size = "32g")
h2o.no_progress()
# Convert to h2o frame:
as.h2o(train_df) -> h2o_frame
as.h2o(test_df) -> test
# Split train data:
splits <- h2o.splitFrame(h2o_frame, ratios = c(0.7), seed = 29)
train <- splits[[1]]
valid <- splits[[2]]
# Define predictors and target:
y <- "TARGET"
x <- setdiff(names(train), y)
# Train Auto ML:
autoML <- h2o.automl(x = x,
y = y,
training_frame = train,
leaderboard_frame = valid,
stopping_metric = "AUC",
stopping_rounds = 15,
stopping_tolerance = 0.05,
max_models = 50,
max_runtime_secs = 60*60,
seed = 1,
sort_metric = "AUC")
# Use best model for predict probability of default:
predictions <- predict(autoML@leader, test)
predictions %>% as.data.frame() %>% pull(Bad) -> pd
# Save result for submission:
data.frame(SK_ID_CURR = df_test$SK_ID_CURR, TARGET = pd) -> df_submission
write_csv(df_submission, "submission.csv")
Brief Conclusion
Chỉ bằng cách tiếp cận đơn giản khi xử lí missing data (và cũng chỉ mới sử dụng các features trên train data) chúng ta đã có được Kết quả AUC = 0.74081 trên tập application_test.csv. Đây là một kết quả không quá thấp. Kết quả này có thể được nâng cao hơn nếu:
- Thực hiện tiền xử lí số liệu tinh vi hơn trước khi làm data imputation.
- Tạo thêm features mới từ các bảng dữ liệu được cung cấp. Lưu ý rằng ở đây chúng ta mới chỉ sử dụng các features từ application_train.csv chứ chưa tận dụng các features khác.
- Tinh chỉnh tham số cho mô hình hoặc sử dụng một cách tiếp cận nào khác như LightGBM, XGBoost chẳng hạn (đây là các Classifier mạnh thường đạt thứ hạng cao trong các cuộc thi).
Điều này cũng ngụ ý rằng AUC = 0.74081 nên đóng vai trò như là base line để so sánh/đánh giá các cách tiếp cận/mô hình khác. Nếu hì hục làm cả mấy tuần cho khâu Pre-processing + Feature Engineering mà kết quả thấp hơn 0.74081 coi như thất bại.
---
title: 'Data Imputation: A case from Kaggle Competition (Part 1)'
author: 'Author: Nguyen Chi Dung'
subtitle: "R Machine Learning Series"
output:
  html_document: 
    code_download: true
    # code_folding: hide
    highlight: zenburn
    # number_sections: yes
    theme: "flatly"
    toc: TRUE
    toc_float: TRUE
---

```{r setup,include=FALSE}
knitr::opts_chunk$set(echo = TRUE, warning = FALSE, message = FALSE, fig.width = 10, fig.height = 6)
```


# Motivations

Tiền xử lí số liệu (Pre-processing) là một khâu chiếm nhiều thời gian và công sức nhất. Một trong những vấn đề thường phải đối mặt ở bước này chính là xử lí số liệu trống (Missing Data Problem). Dữ liệu của cuộc thi [Home Credit Default Risk](https://www.kaggle.com/c/home-credit-default-risk) cũng không ngoại lệ khi hầu hết các features đều có missing ở những mức độ khác nhau (có feature thì tỉ lệ missing có thể lên đến 70%). Hầu hết (nếu không nói là tất cả) các thuật toán Machine Learning đều đòi hỏi phải xử lí missing data bằng một quá trình gọi là data imputation. 

Trong post này trình bày một cách tiếp cận đơn giản cho bước tiền xử lí số liệu cho missing data để đạt được AUC = 0.74081 trên test data (một kết quả không quá tồi nếu như các bạn để ý rằng top 1 có AUC 0.80570) với ba điểm đáng chú ý sau:

- Chỉ sử dụng các features ở application_train.csv để train mô hình chứ chưa sử dụng đến các dữ liệu / features khác.
- Missing data được xử lí bằng thuật toán **Random Forest** với hàm missRanger().
- Sử dụng Automated Machine Learning của thư viện h2o để train mô hình. Thư viện này có thể được chạy trên Python lẫn R (cũng như một số ngôn ngữ khác).

Dưới đây là R codes:

```{r, eval=FALSE}
#============
#  Load data 
#============

# Clear workspace: 
rm(list = ls())

# Import data: 
library(tidyverse)
df_train <- read_csv("application_train.csv")
df_test <- read_csv("application_test.csv")

# Combine train and test data: 
df_total <- bind_rows(df_train, df_test)

# Check missing rate: 

lapply(df_total, function(x) {sum(is.na(x)) / length(x)})

# Replace space and - in character columns and convert to factor: 

df_total %>% 
  select(-SK_ID_CURR) %>% 
  mutate_if(is.character, function(x) {x %>% str_to_upper()}) %>% 
  mutate_if(is.character, function(x) {x %>% str_replace_all(" ", "")}) %>% 
  mutate_if(is.character, function(x) {x %>% str_replace_all("\\,", "_")}) %>% 
  mutate_if(is.character, function(x) {x %>% str_replace_all("-", "_")}) %>% 
  mutate_if(is.character, as.factor) -> df_total

#====================================
#  Data Imputation for Missing Data
#====================================

# Target variable: 

target_var <- df_total$TARGET

# Input variables: 
df_total %>% select(-TARGET) -> df_inputs


# Conduct data imputation: 

library(missRanger)
missRanger(df_inputs, seed = 29) -> df_imputed

# Add targer variable and scale 0-1 for numeric features:

df_imputed %>%
  mutate(TARGET = target_var) %>% 
  mutate_if(is.numeric, function(x) {(x - min(x)) / (max(x) - min(x))}) -> df_imputed

# Split data to train and test: 

df_imputed %>%
  filter(!is.na(TARGET)) %>%
  mutate(TARGET = case_when(TARGET == 1 ~ "Bad", TRUE ~ "Good")) %>%
  mutate(TARGET = as.factor(TARGET)) -> train_df

df_imputed %>% filter(is.na(TARGET)) -> test_df


#====================================
#  Train Automated Machine Learning
#====================================

# Load h2o package and prepare data for training Auto ML: 

library(h2o)
h2o.init(nthreads = 36, max_mem_size = "32g")
h2o.no_progress()

# Convert to h2o frame: 

as.h2o(train_df) -> h2o_frame
as.h2o(test_df) -> test

# Split train data: 

splits <- h2o.splitFrame(h2o_frame, ratios = c(0.7), seed = 29)
train <- splits[[1]]
valid <- splits[[2]]

# Define predictors and target:
y <- "TARGET"
x <- setdiff(names(train), y)

# Train Auto ML: 

autoML <- h2o.automl(x = x,
                     y = y,
                     training_frame = train,
                     leaderboard_frame = valid,
                     stopping_metric = "AUC",
                     stopping_rounds = 15,
                     stopping_tolerance = 0.05,
                     max_models = 50,
                     max_runtime_secs = 60*60,
                     seed = 1,
                     sort_metric = "AUC")

# Use best model for predict probability of default: 

predictions <- predict(autoML@leader, test)
predictions %>% as.data.frame() %>% pull(Bad) -> pd

# Save result for submission: 
data.frame(SK_ID_CURR = df_test$SK_ID_CURR, TARGET = pd) -> df_submission
write_csv(df_submission, "submission.csv")

```

# Brief Conclusion

Chỉ bằng cách tiếp cận đơn giản khi xử lí missing data (và cũng chỉ mới sử dụng các features trên train data) chúng ta đã có được Kết quả AUC = 0.74081 trên tập *application_test.csv*. Đây là một kết quả không quá thấp. Kết quả này có thể được nâng cao hơn nếu:

- Thực hiện tiền xử lí số liệu tinh vi hơn trước khi làm data imputation. 
- Tạo thêm features mới từ các bảng dữ liệu được cung cấp. Lưu ý rằng ở đây chúng ta *mới chỉ sử dụng các features từ application_train.csv* chứ chưa tận dụng các features khác. 
- Tinh chỉnh tham số cho mô hình hoặc sử dụng một cách tiếp cận nào khác như LightGBM, XGBoost chẳng hạn (đây là các Classifier mạnh thường đạt thứ hạng cao trong các cuộc thi). 

Điều này cũng ngụ ý rằng AUC = 0.74081 nên đóng vai trò như là base line để so sánh/đánh giá các cách tiếp cận/mô hình khác. Nếu hì hục làm cả mấy tuần cho 
khâu Pre-processing + Feature Engineering mà kết quả thấp hơn 0.74081 coi như thất bại. 


