Introduction to caret

Nếu Python có thư viện scikit-learn cho các thuật toán Machine Learning thì R có caret - viết tắt của Classification And REgression Training. Có chừng không ít hơn 40 đầu sách về Machine Learning/Data Science sử dụng caret được bán trên Amazon. Một trong số đó là Applied Predictive Modeling của Max Kuhn và Kjell Johnson. Trong hai tác giả này thì Max Kuhn là tác giả của caret.

Trong series 6.0.86 là phiên bản được sử dụng của caret:

# Load caret package: 
library(caret)

# Check version: 
packageVersion("caret")
## [1] '6.0.86'

Hiên tại có 238 thuật toán phân loại và hồi quy được gói này hỗ trợ. Danh sách các thuật toán này cũng như các tham số có thể tinh chỉnh được có thể đọc tại đây hoặc sử dụng R codes dưới đây:

# List all algorithms (or methods) supported by the caret: 

getModelInfo() -> model_info

names(model_info) -> all_ML_models

# Show some ML models: 

tail(all_ML_models)
## [1] "WM"        "wsrf"      "xgbDART"   "xgbLinear" "xgbTree"   "xyf"

Chẳng chạn chúng ta muốn có thêm thông tin và mô tả về thuật toán có “kí hiệu” (hay method) là xgbTree thì sử dụng R codes như sau:

# Extract description about xgbTree: 
getModelInfo("xgbTree") -> xgbTree_info

# Full name of algorithm: 
xgbTree_info$xgbTree$label
## [1] "eXtreme Gradient Boosting"

Như vậy thuật toán có kí hiệu là xgbTree tên đầy đủ là eXtreme Gradient Boosting.

Các thuật toán ML thường có nhiều hơn 1 tham số (Hyper-parameters hay Parameters) mà giá trị của chúng ảnh hưởng đến khả năng phân loại - dự báo của thuật toán và công việc trọng tâm của việc huấn luyện một thuật toán ML là tìm ra những giá trị tối ưu cho tham số - được hiểu là giá trị mà tại đó khả năng phân loại - dự báo của thuật toán ML là cao nhất. Chúng ta sẽ tìm hiểu kĩ quá trình tìm kiếm tham số tối ưu trong các mục sau. Trước hết với mỗi thuật toán ML đã chọn chúng ta cần biết những tham số nào của thuật toán có thể tinh chỉnh (bởi caret). R codes để list ra danh sách các tham số có thể tinh chỉnh của, ví dụ,

# Parameters can be turned by the caret: 
xgbTree_info$xgbTree$parameters
##          parameter   class                          label
## 1          nrounds numeric          # Boosting Iterations
## 2        max_depth numeric                 Max Tree Depth
## 3              eta numeric                      Shrinkage
## 4            gamma numeric         Minimum Loss Reduction
## 5 colsample_bytree numeric     Subsample Ratio of Columns
## 6 min_child_weight numeric Minimum Sum of Instance Weight
## 7        subsample numeric           Subsample Percentage

Như vậy xgbTree có 7 tham số có thể được tinh chỉnh là nrounds, max_depth, eta, gamma, colsample_bytree, in_child_weight và subsample.

Motivation and Approach

Số textbook viết về Machine Learning nói chung và sử dụng caret cho Machine Learning nói riêng là rất nhiều và hầu hết chúng được viết bằng tiếng Anh. Đây cũng là một rào cản đáng kể vì không phải ai cũng có vốn tiếng Anh đủ tốt để nghiên cứu hay đọc chúng. Mặt khác những người trước hết là muốn tìm hiểu, rồi sau đó là việc sử dụng/áp dụng Machine Learning không phải ai cũng có background về khoa học máy tính, khoa học dữ liệu, và background về thuật toán cho nên việc tự học/nghiên cứu những textbook này là một thách thức không nhỏ và cần nhiều thời gian. Đó là lí do series này về Machine Learning sử dụng caret được viết với cách tiếp cận như sau:

  • Giải thích trực quan quy trình thực hiện huấn luyện, đánh giá và tinh chỉnh các thuật toán Machine Learning.
  • ….
  • ….

Mặc định rằng người theo dõi series này đã nắm vững tương đối những thứ dưới đây:

  • Sử dụng ngôn ngữ R, R programming cũng như hai thư viện ggplot2dplyr. Đây lần lượt là hai thư viện cho hình ảnh hóa và biến đổi dữ liệu.

  • Toán - Thống Kê.

Train A Machine Learning: A Short Illutration

Để minh họa quá trình huấn luyện một thuật toán Machine Learning bằng thư viện caret chúng ta xét một thuật toán đơn giản nhất là hồi quy tuyến tính OLS để dự báo Volume theo Height với bộ dữ liệu trees có tất cả 31 quan sát. Đây là bộ dữ liệu luôn thường trực trong R Environment và chúng ta có thể xem qua bộ dữ liệu này:

# Use trees data set: 
head(trees)
##   Girth Height Volume
## 1   8.3     70   10.3
## 2   8.6     65   10.3
## 3   8.8     63   10.2
## 4  10.5     72   16.4
## 5  10.7     81   18.8
## 6  10.8     83   19.7

Để huấn luyện, tinh chỉnh tham số và đánh giá chất lượng của mô hình OLS cũng như bất kì mô hình ML nào thì chúng ta luôn chia bộ dữ liệu ban đầu (Original Data) thành hai phần. Phần thứ nhất màu xám và được gọi là Training + Validation Data. Phần thứ hai là Holdout Data màu da cam như Figure 1 dưới đây:

Giả sử 31 quan sát ban đầu này được chia thành 6 phần bằng (hoặc xấp xỉ nhau) trong đó training + validation chiếm 5/6, còn holdout chiếm 1/6. Cụ thể, các quan sát từ 1 đến 6 là holdout còn phần còn lại là training + validation data. Để làm việc này chúng ta có thể sử dụng hàm slice() của dplyr:

# Load tidyverse package: 
library(tidyverse)

# Remove Girth column: 

trees %>% select(-Girth) -> trees

# Holdout data: 
id <- 1:6 # Observations belong to holdout. 

trees %>% slice(id) -> holdout_data

# Testing + validation data: 
trees %>% slice(-id) -> train_valid_data

Ở đây phần dữ liệu train_valid_data được sử dụng để huấn luyện và tinh chỉnh các tham số của mô hình OLS còn phần dữ liệu holdout_data để kiểm tra ngược lại chất lượng dự báo của mô hình.

Để huấn luyện và đánh giá/tinh chỉnh mô hình OLS (hay bất kì mô hình ML nào) chúng ta sử dụng hàm train() theo cú pháp sau:

# Set conditions for train model: 
ols_controls <- trainControl(method = "repeatedcv", 
                             repeats = 1, 
                             number = 5)


# Train OLS: 
set.seed(1) # For reproduct results. 

train(Volume ~ Height, 
      data = train_valid_data, 
      method = "lm", # this option for training OLS 
      metric = "Rsquared", # indicator selected for training and turning model
      trControl = ols_controls) -> ols_model

Đến đây có thể xem qua kết quả:

ols_model
## Linear Regression 
## 
## 25 samples
##  1 predictor
## 
## No pre-processing
## Resampling: Cross-Validated (5 fold, repeated 1 times) 
## Summary of sample sizes: 19, 20, 21, 19, 21 
## Resampling results:
## 
##   RMSE     Rsquared   MAE     
##   12.4594  0.3965534  11.36471
## 
## Tuning parameter 'intercept' was held constant at a value of TRUE

Hoặc khai thác thêm thông tin về mô hình như sau:

# Extract more information about OLS trained: 
ols_model$resample -> more_info

# Print: 

library(kableExtra) # For presenting table. 

more_info %>% 
  kbl(caption = "Table 1: Model Performance, OLS", escape = TRUE) %>%
  kable_classic(full_width = FALSE, html_font = "Cambria")
Table 1: Model Performance, OLS
RMSE Rsquared MAE Resample
15.643662 0.0522900 15.017649 Fold1.Rep1
6.562818 0.6168795 4.539174 Fold2.Rep1
17.178930 0.4415682 15.731343 Fold3.Rep1
11.110220 0.3838955 9.920240 Fold4.Rep1
11.801394 0.4881338 11.615160 Fold5.Rep1

Những kết quả này, ví dụ, Rsquared = 0.3965534 đến từ đâu? Nếu để ý có thể kiểm tra rằng 0.3965534 chính là trung bình cộng của cột biến Rsquared ở Table 1:

more_info %>% 
  pull(Rsquared) %>% 
  mean()
## [1] 0.3965534

5 giá trị khác nhau của Rsquared trong Table 1 chính là tương ứng vơi các Performance1 cho đến Performance5 trong Figure 1. Performance có thể là bất kì tiêu chí nào được chọn để đánh giá chất lượng của mô hình/thuật toán. Với bài toán hồi quy thì đó có thể là Rsquared, RMSE hoặc MAE.

Giá trị Rsquared = 0.3965534 cũng như mối liên hệ của nó với các kết quả khác sẽ được giải thích chi tiết hơn ở mục dưới đây.

An Short Explanation of Training a Machine Learning Algorithm

Phần dữ liệu train_valid_data có 25 quan sát sẽ được phân chia tiếp thành hai phần nhỏ hơn nữa là training data (màu xám) và validation (màu xanh) mà ở đó training và validation data lần lượt chiếm 4/5 và 1/5. Như vậy train_valid_data được chia thành 5 phần bằng nhau (hoặc xấp xỉ bằng) và cách thức phân chia dữ liệu như vậy được gọi là 5-Fold Cross-Validation. Như vậy sẽ có 5 bộ training và 5 bộ validation data tương ứng. Lúc này OLS sẽ được huấn luyện trên bộ training thứ nhất còn bộ validation tương ứng sẽ được sử dụng để đánh giá ngược lại mô hình và thu được Rsquared = 0.05228999. Kế tiếp OLS lại được huấn luyện trên bộ training thứ hai còn bộ validation tương ứng được sử dụng để đánh giá ngược lại mô hình và thu được Rsquared = 0.61687945. Lặp lại quá trình này cho ba cặp training/validation còn lại chúng ta sẽ có kết quả là cột Rsquared ở Table 1.

Việc thiết lập 5-Fold Cross-Validation có mô tả như trên được thể hiện bằng number = 5 trong code sau:

ols_controls <- trainControl(method = "repeatedcv", 
                             repeats = 1, 
                             number = 5)

Đến đây phát sinh câu hỏi quan trọng sau: Nếu quá trình huấn luyện, đánh giá và tinh chỉnh bằng 5-Fold Cross-Validation như trên thì mô hình OLS cuối cùng được sử dụng cho dự báo sẽ là mô hình OLS nào?.

Câu trả lời là: Đó chính là mô hình OLS được huấn luyện trên toàn bộ 25 quan sát của bộ train_valid_data. Chúng ta có thể sử dụng mô hình OLS “cuối cùng” này để, ví dụ, thự hiện dự báo cho Volume nếu biết các giá trị của Height:

# Use model for predicting Volume: 
predicted_values <- predict(ols_model, holdout_data)

# Show predicted values: 
predicted_values
##        1        2        3        4        5        6 
## 22.78851 14.65225 11.39775 26.04301 40.68828 43.94278

Nếu muốn chúng ta có thể so sánh các giá trị dự báo này với giá trị thực tế:

holdout_data %>% 
  mutate(Volume_predicted = predicted_values)
##   Height Volume Volume_predicted
## 1     70   10.3         22.78851
## 2     65   10.3         14.65225
## 3     63   10.2         11.39775
## 4     72   16.4         26.04301
## 5     81   18.8         40.68828
## 6     83   19.7         43.94278

Quá trình huần luyện, đánh giá và tinh chỉnh có mô tả như ở trên được áp dụng cho mọi thuật toán ML chứ không chỉ riêng cho OLS và sẽ được mô tả ở phần kế tiếp ngay sau đây.

Sampling Techiques for Turning Hyper-parameter

Phần trên đã giới thiệu sơ bộ về Cross-Validation. Mục này chúng ta sẽ tìm hiểu kĩ hơn hai kĩ thuật lấy mẫu (Sampling Techniques) là Cross-Validation và Boostrap được minh họa dưới đây:

Cross-Validation

Theo phương pháp này thì từ bộ dữ liệu ban đầu (đây là bộ dữ liệu sử dụng cho huấn luyện và tinh chỉnh) có 12 quan sát sẽ lấy ra, ví dụ, ba mẫu con khác nhau đều có 8 quan sát gọi là Sampele 1, Sample 2 và Sample 3 (các mẫu con này chính là Training Data) khác nhau và tương ứng với ba mẫu con này là ba mẫu Validation Data đều có 4 quan sát. Thuật toán ML sẽ được huấn luyện, tinh chỉnh và đánh giá trên các bộ dữ liệu con này theo quá trình được mô tả ở trên mà chúng ta đã biết.

Quá trình huấn luyện, tinh chỉnh và đánh giá mô hinh bằng Cross-Validation (chính xác là K-Fold Cross-Validation, với K = 3) như trên được hiện thực hóa bằng R codes như sau với gói caret:

controls_cv3 <- trainControl(method = "repeatedcv", 
                             number = 3, 
                             repeats = 1)

Nếu quá trình này được lặp lại, ví dụ, 5 lần thì được gọi là Repeating K-Fold Cross-Validation và được thực hiện với R codes như sau:

controls_cv3_repeat5 <- trainControl(method = "repeatedcv", 
                                     number = 3, 
                                     repeats = 5)

Một trường hợp đặc biệt của K-Fold Cross-Validation là K bằng số lượng các quan sát của bộ dữ liệu được sử dụng. Lúc này dễ dàng suy ra rằng Validation Data chỉ còn lại đúng 1 quan sát. Tình huống đặc biệt này được gọi là Leave One Out Cross-Validation (thường viết tắt là LOOCV). K càng lớn chúng ta càng mất nhiều gánh nặng tính toán (more computationally burdensome) và do vậy trong thực tiễn thì K = 5 hoặc K = 10 thường được lựa chọn. Molinaro (2005) chỉ ra rằng Cross-Validation khi K = 10 tạo ra kết quả tương tự như LOOCV. Ngoài ra Molinaro (2005) và Kim (2009) cũng cho rằng Repeating K-Fold Cross-Validation có thể làm tăng hiệu quả dự báo của thuật toán trong khi vẫn duy trì được bias nhỏ.

The Boostrap

Chọn mẫu ngẫu nhiên theo phương pháp Boostrap là cách thức lấy mẫu có hoàn lại (Efron và Tibshirani, 1986). Điều này có nghĩa là: không giống như Cross-Validation, các quan sát của mẫu lấy theo phương pháp Boostrap có thể trùng lặp - tức là một quan sát có thể được chọn nhiều hơn 1 lần. Chẳng hạn như Sample 3 thì quan sát hình tròn màu đỏ và hình vuông màu xanh được đều xuất hiện hai lần trong mẫu.

Nhìn chung error rate (khác biệt giữa giá trị thực tế và dự báo) sẽ ít biến động hơn K-Fold Cross-Validation (Efron, 1983). Tuy nhiên, về trung bình thì xấp xỉ 62.3% các quan sát sẽ được chọn lặp lại ít nhất 1 lần nên phương pháp chọn mẫu này là tương tự như K-Fold Cross-Validation khi K = 2. Nếu dữ liệu ban đầu là quá bé thì bias có thể là lớn và do vậy phương pháp chọn mẫu này chỉ nên được sử dụng khi dữ liệu đủ lớn. Efron (1983), Efron và Tibshirani (1997) sau đó đã đề xuất cái gọi là 632 method632+ method nhằm giải quyết các nhược điểm của Boostrap trong một số trường hợp nhưng hai nhánh chọn mẫu Boostrap này không được giải thích và sử dụng trong series bài giảng này. Nếu muốn sử dụng bạn đọc có thể tham khảo thêm bằng cách thay đổi các lựa chọn của hàm trainControl() tại đây.

Bất kể kĩ thuật lấy mẫu là gì chúng ta cũng dễ thấy rằng, ví dụ, có hàng chục ngàn (thậm chí là hàng tỉ) khả năng khác nhau để lấy ra 8 trong số 12 quan sát. Mặt khác, quá trình huấn luyện và tinh chỉnh các thuật toán ML còn liên quan đến nhiều quá trình ngẫu nhiên khác nữa mà không đề cập được trong series này. Do vậy khi huấn luyện và tinh chỉnh các thuật toán ML, để đảm bảo việc tái tạo lại kết quả chúng ta sẽ sử dụng lựa chọn set.seed(1) khi huấn luyện OLS như đã biết dưới đây:

set.seed(1) # For reproduct results. 

train(Volume ~ Height, 
      data = train_valid_data, 
      method = "lm", # this option for training OLS 
      metric = "Rsquared", # indicator selected for training and turning model
      trControl = ols_controls) -> ols_model

Tất nhiên chúng ta có thể thay 1 bằng một số nguyên bất kì nào khác và đương nhiên kết quả sẽ khác. Bạn có thể tự kiểm nghiệm điều này. Số 29 được chọn vì đó là ngày sinh nhật của người viết series này.

Process of Training and Turning a ML Algorithm

Quá trình huấn luyện, tinh chỉnh và thậm chí là lựa chọn giữa các thuật toán ML khác nhau sẽ, nhìn chung, theo các bước có thứ tự dưới đây:

Stage 1: Exploratory Data Analysis (EDA). Bước EDA luôn được thực hiện đầu tiên bất nhằm xác định những đặc điểm của bộ dữ liệu, dạng dữ liệu (Integer, Categorical, Numeric…), dữ liệu thiếu (Missing Data) và mức độ nghiêm trọng của dữ liệu thiếu.

Stage 2: Data pre-processing/Feature Engineering. Đây thường là bước mất nhiều thời gian nhất của mộ dự án và tập trung vào xử lí một số (hoặc tất cả) vấn đề sau:

  • Xử lí Missing Data. Các thuật toán ML đòi hỏi rằng data đầu vào không được phép có dữ liệu thiếu (Missing Data). Vì vậy trước khi data được sử dụng cho một thuật toán ML nào đó thì cần phải xử lí missing data.

  • Nhiều thuật toán ML đòi hỏi rằng data đầu vào tất cả đều phải ở dạng numeric. Do vậy các biến định tính (Categorical Data/Feature) hoặc những kiểu dữ liệu tương tự cần phải được chuyển đổi về numeric. Quá trình này được gọi là Encoding Categorical Data.

  • Xử lí vấn đề các biến tương quan cao.

  • Các phương pháp biến đổi dữ liệu sao cho thuật toán ML có khả năng dự báo cao nhất trên Holdout Data. Gọi chung là Data Transformation.

  • Tạo ra các biến mới từ các biến thuộc bộ dữ liệu nguyên bản. Hoặc ngược lại, chỉ chọn ra một số biến số từ bộ dữ liệu nguyên bản sao cho thuật toán ML có khả năng dự báo cao nhất trên tập Holdout Data. Việc này thường được gọi chung là Feature Engineering/Feature Selection.

Stage 2 là bước quan trọng và thường là chiếm một tỉ lệ đáng kể về thời gian. Do vậy bước này sẽ được tách hẳn thành một mục riêng và sẽ được thảo luận chi tiết hơn trong series bài giảng này.

Stage 3: Spliting Data. Bước này bộ dữ liệu nguyên bản (có thể là đã được xử lí sau khi hoàn thành Stage 2) được phân chia thành hai phần riêng biệt mà chúng ta đã biết: phần để huấn luyện và tinh chỉnh tham số (Training + Validation Data), phần còn lại để đánh giá ngược lại thuật toán ML - thường gọi là Holdout Data (một số tài liệu - sách gọi là Test Data). Không có quy tắc cố định nào về tỉ lệ giữa hai phần này mà tùy vào quy mô của dữ liệu cũng như một số yếu tố khác. Thông thường thì phần training/validation là 70% (hoặc 80%), còn holdout là 30% (hoặc 20%).

Stage 4: Select sampling method for training and turning hyper-parameters. Bước này sẽ xác định/chỉ định phương pháp chọn mẫu để huấn luyện và tinh chỉnh tham số cũng như phương pháp tìm kiếm tham số tối ưu cho thuật toán ML.

Stage 5: Training/Turning ML Algorithm. Bước này được thực hiện để tìm kiếm tham số tối ưu cũng như huấn luyện thuật toán ML với bộ tham số tối ưu tìm được dựa trên phương pháp chọn mẫu và tìm kiếm được xác định ở Stage 4.

Stage 6: Evaluating/Comparing and Selecting. Với các tham số tối ưu tìm được ở Stage 5 thì chất lượng dự báo của thuật toán (gọi là Model Performance) phải được đánh giá và kiểm tra lại trên Holdout/Test Data.

Stage 7: Deployment. Giả sử chúng ta đã tinh chỉnh và huấn luyện được một thuật toán chấm điểm và xếp hạng tín dụng cho các khách hàng có nhu cầu vay tiêu dùng dựa trên các inputs đầu vào là: (1) thu nhập hàng tháng, (2) độ tuổi, và (3) nghề nghiệp. Thế thì chúng ta cần triển khai thuật toán này bằng một cách thức nào đó để, ví dụ, có thể triển khai thuật toán này trên iPhone hoặc các máy tính để bàn khác. Để nhân viên sale của một ngân hàng hay một công ti tài chính nào đó chỉ cần nhập ba thông tin của người muốn vay tiêu dùng là thu nhập, tuổi và nghề nghiệp vào thì sẽ phải nhận được câu trả lời là người đó có được vay hay không. Việc triển khai thuật toán đã được huấn luyện từ trước (Pre-trained Model/Algorithm) thành các App (gọi tắt của Application) trên các thiết bị như iPhone có thể thông qua các dịch vụ tính toán đám mây của một đối tác/công ti khác (Cloud Services) hoặc tự triển khai. Nội dung của Stage 7 này nằm ngoài phạm vi của series bài giảng này nên sẽ không được đề cập chi tiết.

Stage 1 và 2 trong thực tế thường là khâu mất nhiều thời gian nhất của một dự án dữ liệu trong thực tế. Và cũng vì tầm quan trọng của khâu này (đặc biệt là Stage 2) nên khâu này sẽ được tách riêng thành các mục riêng trong series bài giảng này. Các bước còn lại của quá trình huấn luyện - tinh chỉnh một thuật toán ML sẽ được minh họa bằng hai task điển hình của việc áp dụng các thuật toán ML là Regression và Classification dưới đây.

Regression Task: Case of Predicting Housing Value in Boston

Dự báo một đại lượng liên tục (numeric) như giá cổ phiếu, giá nhà được gọi chung là Regression Task. Với nhóm công việc này thì các tiêu chí (Metrics) thường được sử dụng để huấn luyện, tinh chỉnh tham số và lựa chọn các thuật toán khác nhau là MAE (Mean Absolute Error), MSE (Mean Squared Error), RMSE (Root Mean Squared Error) và Rsquared (Coefficient of determination). Các tiêu chí này có thể tìm trong bất kì giáo trình thống kê nhập môn nào và có công thức như sau:

Có nhiều gói của R (R packages) có sẵn những hàm để thực hiện tính toán những metrics này nếu biết đồng thời cả hai thứ: (1) giá trị được dự báo, và (2) giá trị thực tế. Tuy nhiên chúng ta nên tự viết, ví dụ, hàm tính MAE theo công thức mô tả ở trên và đặt tên cho hàm này là calculate_MAE:

# Function calculates MAE: 

calculate_MAE <- function(predicted_values, actuals) {
  
  errors <- actuals - predicted_values
  
  errors_abs <- abs(errors)
  
  n <- length(predicted_values)
  
  mae <- sum(errors_abs) / n
  
  return(mae)
  
}

Chúng ta có thể sử dụng hàm này để tính MAE của mô hình OLS khi sử dụng mô hình này để dự báo như sau:

# Define actual values: 
actual_volumes <- holdout_data %>% pull(Volume)

# Calculate MAE: 
calculate_MAE(predicted_values = predicted_values, actuals = actual_volumes)
## [1] 12.3021

Kết quả này đương nhiên là giống so với việc sử dụng hàm MAE() sẵn có của gói caret như chúng ta có thể thấy:

MAE(pred = predicted_values, obs = actual_volumes)
## [1] 12.3021

Việc tự viết hàm là kĩ năng cần thiết vì rằng có nhiều tình huống chúng ta sẽ không có sẵn hàm để làm một công việc cụ thể nào đó và do vậy cần phải viết hàm.

Để minh họa các bước huấn luyện và tinh chỉnh các thuật toán ML cho nhóm công việc Regression Task chúng ta sẽ sử dụng bộ số liệu Boston gồm 506 quan sát được tích hợp sẵn ở gói MASS (cài đặt bằng lệnh install.packages("MASS")):

# Clear our R environment: 
rm(list = ls()) # This command should be done at the beginning of any data project. 

# Load Boston data: 
data("Boston", package = "MASS")

Bộ dữ liệu này có 14 cột biến (features) sau:

  • crim: per capita crime rate by town.

  • zn proportion of residential land zoned for lots over 25,000 sq.ft.

  • indus proportion of non-retail business acres per town.

  • chas Charles River dummy variable (= 1 if tract bounds river; 0 otherwise).

  • nox nitrogen oxides concentration (parts per 10 million).

  • rm average number of rooms per dwelling.

  • age proportion of owner-occupied units built prior to 1940.

  • dis weighted mean of distances to five Boston employment centres.

  • rad index of accessibility to radial highways.

  • tax full-value property-tax rate per $10,000.

  • ptratio pupil-teacher ratio by town.

  • black the proportion of blacks by town.

  • lstat lower status of the population (percent).

  • medv median value of owner-occupied homes in $1000s.

Mục tiêu của chúng ta là dự báo medv (gọi là target variable hay outcome variable) nếu biết giá trị của 13 features còn lại. Có thể xem qua bộ dữ liệu này:

# Show some observations: 
head(Boston)
##      crim zn indus chas   nox    rm  age    dis rad tax ptratio  black lstat
## 1 0.00632 18  2.31    0 0.538 6.575 65.2 4.0900   1 296    15.3 396.90  4.98
## 2 0.02731  0  7.07    0 0.469 6.421 78.9 4.9671   2 242    17.8 396.90  9.14
## 3 0.02729  0  7.07    0 0.469 7.185 61.1 4.9671   2 242    17.8 392.83  4.03
## 4 0.03237  0  2.18    0 0.458 6.998 45.8 6.0622   3 222    18.7 394.63  2.94
## 5 0.06905  0  2.18    0 0.458 7.147 54.2 6.0622   3 222    18.7 396.90  5.33
## 6 0.02985  0  2.18    0 0.458 6.430 58.7 6.0622   3 222    18.7 394.12  5.21
##   medv
## 1 24.0
## 2 21.6
## 3 34.7
## 4 33.4
## 5 36.2
## 6 28.7

Boosted Tree đã biết ở mục trên được chọn để minh họa cho các bước huấn luyện và tinh chỉnh một thuật toán ML. Chú ý rằng chúng ta tạm bỏ qua Stage 1 và Stage 2 và bắt đầu luôn từ Stage 3 - bước phân chia dữ liệu. Cụ thể chúng sẽ lấy ra ngẫu nhiên 400 quan sát để huấn luyện và tinh chỉnh mô hình (phần này gọi chung là Training + Validation Data như ta đã biết). Phần còn lại 106 quan sát là Holdout Data (còn gọi là Test Data).

Ở ví dụ mở đầu chúng ta sử dụng hàm slice() để thực hiện phân chia dữ liệu. Tuy nhiên khi huấn luyện và tính chỉnh các thuật toán ML chúng ta nên sử dụng hàm createDataPartition() của gói caret để phân chia dữ liệu (tìm hiểu thêm về ham này tại đây). Hàm này sẽ bảo toàn tốt nhất có thể được rằng các bộ dữ liệu được phân chia có các đặc điểm thống kê giống như bộ dữ liệu ban đầu, đặc biệt là phân phối của outcome variable:

#==========================
#  Stage 3: Spliting Data
#==========================

# Observations for training + validation data: 

n_obs <- 400

# Total observations of original data: 

n <- nrow(Boston)

# Define the percentage of data that goes to training and validation: 

p <- n_obs / n

# Positions (by row) belong to training + validation data: 

id_for_train <- createDataPartition(y = Boston$medv, p = p, list = FALSE, times = 1)

# Training + validation data: 
data_train_valid <- Boston %>% slice(id_for_train)

# Holdout data: 
data_test <- Boston %>% slice(-id_for_train)

Bước kế tiếp chỉ định/lựa chọn kĩ thuật chọn mẫu để huấn luyện và tinh chỉnh thuật toán, cụ thể là Repeating K-Fold Cross-Validation, K = 4 và lặp lại 5 lần:

#============================================================================
#  Stage 4: Select sampling method for training and turning hyper-parameters
#============================================================================

my_sampling <- trainControl(method = "repeatedcv", 
                            number = 4, 
                            repeats = 5)

Sử dụng hàm train() để huấn luyện Boosted Tree ở chế độ mặc định. Chú ý rằng dấu chấm ở medv ~ . đại diện cho tất cả 13 features còn lại của bộ dữ liệu trừ medv còn metric = “Rsquared” nghĩa là sử dụng tiêu chuẩn Rsquared để tinh chỉnh và lựa chọn tham số tối ưu:

#========================================================
#  Stage 5: Train and turn Boosted Tree (using default)
#========================================================

# Train Boosted Tree: 

set.seed(29)
train(medv ~ ., 
      data = data_train_valid, 
      method = "bstTree", 
      metric = "Rsquared", 
      trControl = my_sampling) -> default_bstTree

# Show results: 

default_bstTree
## Boosted Tree 
## 
## 402 samples
##  13 predictor
## 
## No pre-processing
## Resampling: Cross-Validated (4 fold, repeated 5 times) 
## Summary of sample sizes: 301, 302, 301, 302, 302, 301, ... 
## Resampling results across tuning parameters:
## 
##   maxdepth  mstop  RMSE      Rsquared   MAE     
##   1          50    4.149816  0.8055344  2.876232
##   1         100    3.943440  0.8159765  2.666701
##   1         150    3.868146  0.8219291  2.601253
##   2          50    3.750711  0.8339411  2.558583
##   2         100    3.575665  0.8466390  2.406693
##   2         150    3.506693  0.8518664  2.344259
##   3          50    3.651287  0.8423931  2.450433
##   3         100    3.541706  0.8510007  2.342021
##   3         150    3.510699  0.8534981  2.310569
## 
## Tuning parameter 'nu' was held constant at a value of 0.1
## Rsquared was used to select the optimal model using the largest value.
## The final values used for the model were mstop = 150, maxdepth = 3 and nu = 0.1.

Một số thông báo đáng chú ý có thể thấy là:

  • Resampling: Cross-Validated (4 fold, repeated 5 times) –> Đây chính là thông tin về kĩ thuật chọn mẫu đã sử dụng.

  • Summary of sample sizes: 300, 302, 301, 303, 300, 302, … –> Dòng thông báo này có nghĩa là tham số tối ưu được tìm dựa trên huấn luyện Boosted Tree trên các mẫu training data có số lượng 300, 302, 301.. và được đánh giá ngược lại trên các mẫu validation data có chừng 100 quan sát. Có tất cả 4×5 = 20 cặp training/validation data với số lượng quan sát tương ứng xấp xỉ là 300 - 100 vì bộ dữ liệu data_train_valid có 402 quan sát.

  • Tuning parameter ‘nu’ was held constant at a value of 0.1 –> Boosted Tree có ba tham số có thể tinh chỉnh. Nhưng sử dụng chế độ mặc định cho huấn luyện và tìm kiếm tham số tối ưu thì tham số nu được cố định là 0.1. Với tham số maxdepth thì các giá trị ứng viên là 1, 2 và 3 còn mstop thì các giá trị ứng viên là 50, 100 và 150. Có thể hiểu là có tất cả 1×3×3×4×5 + 1 = 181 mô hình Boosted Tree đã được huấn luyện.

  • Rsquared was used to select the optimal model using the largest value.The final values used for the model were mstop = 150, maxdepth = 3 and nu = 0.1. –> Dòng thông báo này có nghĩa là Rsquared được sử dụng làm tiêu chí tìm các kiếm tham số tối ưu và bộ tham số tối ưu đó là mstop = 150, maxdepth = 3 và nu = 0.1. Với bộ tham số này thì giá trị bình quân của Rsquared trên 20 lần chọn mẫu, mỗi mẫu có số quan sát xấp xỉ 100 (là số lượng của validation data) sẽ là 0.8534981. Bộ tham số tối ưu này có thể được tìm bằng cách khai thác default_bstTree (gọi là caret object) như sau:

default_bstTree$bestTune
##   mstop maxdepth  nu
## 9   150        3 0.1

Chúng ta có thể khảo sát sự thay đổi khả năng dự báo của Boosted Tree theo tiêu chuẩn Rsquared khi các tham số của thuật toán này thay đổi (Figure 3):

ggplot(default_bstTree) + 
  labs(title = "Figure 3: Model Performance by Parameters", 
       subtitle = "Default Search, nu = 0.1") + 
  theme(legend.position = "top")

Figure 3 chỉ ra rằng có định nu = 0.1, với mọi giá trị của maxdepth thì khả năng dự báo của mô hình tăng khi mstop (Boosting Interations) tăng. Bộ giá trị tham số tối ưu tìm được theo chế độ mặc định này sẽ được sử dụng làm cơ sở để xây dựng Grid Search. Cụ thể, Grid Search - danh sách các ứng viên của tham số sẽ chứa bộ giá trị mstop = 150, maxdepth = 3 và nu = 0.1:

# Define Grid Search for search optimal hyper-parameters: 

grid_bstTree <- expand.grid(nu = seq(0.025, 0.15, by = 0.025), 
                            mstop = seq(25, 200, by = 25), 
                            maxdepth = seq(1, 6, by = 1))

Có thể kiểm tra rằng có tất cả 288 bộ tham số khác nhau:

nrow(grid_bstTree)
## [1] 288

Và chúng ta phải tìm ra trong số 288 này bộ tham số tối ưu cho Boosted Tree bằng việc huấn luyện lại. Vì quá trình này có thể mất khá nhiều thời gian nên chúng ta lồng vào hàm system.time() để ước lượng thời gian mà máy tính cần sử dụng. Vì quá trình tìm kiếm tham số tối ưu theo Full Grid Search có thể mất nhiều thời gian nên chúng ta sử dụng lựa chọn allowParallel = TRUE để tận dụng khả năng tính toán song song đối với những máy tính mà bộ vi xử lí có nhiều nhân (core):

# Reset coditions for searching optimal hyper-parameters: 

my_sampling_full_grid <- trainControl(method = "repeatedcv", 
                                      search = "grid", 
                                      allowParallel = TRUE, 
                                      repeats = 5, 
                                      number = 4)

# Search optimal parameter (and train) for Boosted Tree using Full Grid Search Method: 
set.seed(29)

system.time(
  
  train(medv ~ ., 
      data = data_train_valid, 
      method = "bstTree", 
      metric = "Rsquared", 
      tuneGrid = grid_bstTree, 
      trControl = my_sampling_full_grid) -> fullGrid_bstTree
)
##    user  system elapsed 
## 1087.13    2.58 1158.83

Mất chừng 18 phút để huấn luyện và tinh chỉnh Boosted Tree. Bộ tham số tối ưu tìm được theo Full Grid Search là mstop = 200, maxdepth = 3 và nu = 0.075:

# Show optimal parameters: 
fullGrid_bstTree$bestTune
##     mstop maxdepth    nu
## 120   200        3 0.075

Chúng ta có thể sử dụng Boosted Tree với bộ tham số tối ưu này cho dự báo khi biết 13 features đầu vào:

# Features used for predicting: 
features_input <- data_test %>% select(-medv)

# Actuals: 
actual_medv <- data_test %>% pull(medv)

# Use Boosted Tree for predicting: 
pred_medv <- predict(fullGrid_bstTree, features_input)

# Show some predicted values: 
head(pred_medv)
##        1        2        3        4        5        6 
## 22.65765 35.24177 35.89192 17.74258 18.01212 14.75015

Cho đến lúc này có thể coi là đang có hai mô hình cạnh tranh nhau: Boosted Tree mặc định và Boosted Tree với tham số tối ưu được tìm kiếm dựa trên phương pháp Full Grid Search. Lấy căn cứ gì để chọn mô hình này cho dự báo medv chứ không phải là mô hình còn lại?. Để đánh giá, so sánh hai (hay nhiều) mô hình, thuật toán/cách tiếp cận khác nhau thì trước hết cần lựa chọn một tiêu chí để đánh giá và so sánh. Chúng ta có thể chọn tiêu chí đó là Rsquared. Vì đã có cặp giá trị dự báo và giá trị thực tế nên chúng ta có thể tính chỉ số này bằng cách viết hàm có tên calculate_R2 theo mô tả của James et al. (2018, p70) như sau:

#=========================================================================
#  Stage 6: Evaluate/compare/select ML models/ or alternative approaches
#=========================================================================

# Function calculates Rsquared: 
calculate_R2 <- function(predicted_values, actuals) {
  
  my_cor <- cor(predicted_values, actuals)
  
  r_squared <- my_cor^2
  
  return(r_squared)
}

Sử dụng hàm này cho cặp thực tế - dự báo bởi Boosted Tree:

calculate_R2(pred_medv, actual_medv)
## [1] 0.8742157

Nghĩa là khi sử dụng 13 features đầu vào để dự báo medv bằng Boosted Tree thì 13 features này giải thích được 87.42% biến động của medv.

Khảo sát sự thay đổi khả năng dự báo của Boosted Tree theo tiêu chuẩn Rsquared khi các tham số của thuật toán này thay đổi (Figure 4):

ggplot(fullGrid_bstTree) + 
  labs(title = "Figure 4: Model Performance by Parameters", 
       subtitle = "Full Grid Search") + 
  theme(legend.position = "top", legend.box = "horizontal") + 
  guides(color = guide_legend(nrow = 1))

Từ Figure 4 có thể nhận định rằng nếu chúng ta nới rộng mstop lên nữa thì có thể khả năng dự báo của mô hình còn tăng nữa. Nhận định này là cơ sở cho việc, ví dụ, tập trung tinh chỉnh mstop trong khi cố định maxdepth = 3 và nu = 0.075. Chúng ta thiết lập Grid Search mới như sau:

new_grid <- expand.grid(maxdepth = 3, 
                        nu = 0.075, 
                        mstop = seq(175, 400, by = 25))

Huấn luyện và tinh chỉnh với Grid Search mới này:

# Train Boosted Tree again: 
set.seed(29)

system.time(
  
  train(medv ~ ., 
      data = data_train_valid, 
      method = "bstTree", 
      metric = "Rsquared", 
      tuneGrid = new_grid, 
      trControl = my_sampling_full_grid) -> newGrid_bstTree
)
##    user  system elapsed 
##   78.74    0.28   83.01
# Show new results: 

newGrid_bstTree
## Boosted Tree 
## 
## 402 samples
##  13 predictor
## 
## No pre-processing
## Resampling: Cross-Validated (4 fold, repeated 5 times) 
## Summary of sample sizes: 301, 302, 301, 302, 302, 301, ... 
## Resampling results across tuning parameters:
## 
##   mstop  RMSE      Rsquared   MAE     
##   175    3.501024  0.8544505  2.307081
##   200    3.493025  0.8551059  2.298754
##   225    3.486846  0.8556573  2.290906
##   250    3.486626  0.8556679  2.289137
##   275    3.487163  0.8556620  2.287614
##   300    3.486518  0.8557657  2.286558
##   325    3.488498  0.8556345  2.287563
##   350    3.489499  0.8555137  2.288650
##   375    3.490238  0.8554706  2.289494
##   400    3.493669  0.8551839  2.292134
## 
## Tuning parameter 'maxdepth' was held constant at a value of 3
## Tuning
##  parameter 'nu' was held constant at a value of 0.075
## Rsquared was used to select the optimal model using the largest value.
## The final values used for the model were mstop = 300, maxdepth = 3 and nu
##  = 0.075.

Khảo sát khả năng dự báo của Boosted Tree khi mstop (Boosting Iterations) thay đổi với chú ý rằng hai tham số còn lại được cố định:

ggplot(newGrid_bstTree) + 
  labs(title = "Figure 5: Model Performance by mstop", 
       subtitle = "New Grid Search") + 
  theme(legend.position = "top")

Figure 5 chỉ ra rằng nhìn chung, mstop tăng thì khả năng dự báo của thuật toán tăng nhưng đến một ngưỡng nào đó thì khả năng dự báo của thuật toán lại giảm. Như vậy tham số tối ưu mới sẽ là mstop = 300, maxdepth = 3 và nu = 0.075:

newGrid_bstTree$bestTune
##   mstop maxdepth    nu
## 6   300        3 0.075

Chúng ta có thể sử dụng Boosted Tree tối ưu hơn này cho dự báo và tính Rsquared:

# Predict with new Boosted Tree: 
pred_medv_better <- predict(newGrid_bstTree, features_input)

# Calculate Rsquared and compare: 
calculate_R2(pred_medv_better, actual_medv)
## [1] 0.8786574

Rsquared = 87.86% cao hơn 87.42% - nói cách khác Boosted Tree với bộ tham số mstop = 300, maxdepth = 3 và nu = 0.075 có khả năng dự báo tốt hơn so với Boosted Tree với bộ tham số mstop = 200, maxdepth = 3 và nu = 0.075. Câu hỏi là bằng cách nào chứng minh được rằng điều này không phải là sự ngẫu nhiên do “tình cờ” chọn được bộ dữ liệu features_input mà “ưu tiên” cho Boosted Tree có mstop = 300, maxdepth = 3 và nu = 0.075 dẫn đến kết quả dự báo sát hơn so với giá trị thực của medv? Cách đơn giản nhất để có thể trả lời câu hỏi này là chúng ta có thể so sánh giá trị trung bình của Rsquared trên 20 bộ Validation Data và những thông tin này có thể được khai thác từ các caret objects như chúng ta đã biết:

# Extract results from fullGrid_bstTree: 
fullGrid_bstTree$results %>% 
  slice(which.max(Rsquared)) %>% 
  select(-MAE, -RMSESD, -MAESD, -RMSE) %>% 
  mutate(Approach = "FullGridSearch") -> df_fullGrid

# Extract results from newGrid_bstTree: 
newGrid_bstTree$results %>% 
  slice(which.max(Rsquared)) %>% 
  select(-MAE, -RMSESD, -MAESD, -RMSE) %>% 
  mutate(Approach = "FocusOn_mstop") -> df_betterGrid

#  Combine the two data frames and show results: 
bind_rows(df_fullGrid, df_betterGrid)
##   maxdepth    nu mstop  Rsquared RsquaredSD       Approach
## 1        3 0.075   200 0.8550911 0.04184562 FullGridSearch
## 2        3 0.075   300 0.8557657 0.04118040  FocusOn_mstop

Giá trị trung bình của Rsquared từ 20 bộ Validation Data khi sử dụng Boosted Tree với bộ tham số mstop = 300, maxdepth = 3 và nu = 0.075 là 0.8557657. Còn giá trị trung bình này của Boosted Tree với bộ tham số mstop = 200, maxdepth = 3 và nu = 0.075 là 0.8550911. Nghĩa là, việc sử dụng Boosted Tree với bộ tham số mstop = 300, maxdepth = 3 và nu = 0.075 tạo ra kết quả dự báo chính xác hơn không phải là ngẫu nhiên. Cũng cần phải nói thêm rằng Boosted Tree với bộ tham số mstop = 300, maxdepth = 3 và nu = 0.075 không những dự báo chính xác hơn mà kết quả dự báo còn ít biến động hơn. Vì độ lệch chuẩn (cột RsquaredSD) thấp hơn.

Cũng có thể kiểm tra rằng nếu sử dụng Boosted Tree mặc định thì Rsquared trên Test Data là cao nhất, lên đến 88% như có thể thấy:

predict(default_bstTree, features_input) -> pred_by_default

calculate_R2(pred_by_default, actual_medv)
## [1] 0.8800521

Nhưng có thể thấy rằng kết quả 88% này trên Test Data không mang tính quy luật vì giá trị trung bình của Rsquared trên 20 bộ Validation là 0.8534981 - thấp nhất trong bộ ba Boosted Tree:

default_bstTree$results %>% 
  slice(which.max(Rsquared)) %>% 
  select(-MAE, -RMSESD, -MAESD, -RMSE) %>% 
  mutate(Approach = "Default") 
##   maxdepth  nu mstop  Rsquared RsquaredSD Approach
## 1        3 0.1   150 0.8534981 0.04435447  Default

Ngoài việc lựa chọn một tiêu chí để huấn luyện và tinh chỉnh thuật toán ML chúng ta cũng có thể lựa chọn một thuật toán/cách tiếp cận làm cơ sở so sánh (Base Line). Giả sử chúng ta chọn thuật toán hồi quy tuyến tính truyền thống Linear Regression (OLS) của thống kê truyền thống làm base line. Như đã biết chúng ta có thể huấn luyện Linear Regression bằng R codes dưới đây:

# Train Linear Regression - OLS: 
set.seed(29)
train(medv ~ ., 
      data = data_train_valid, 
      method = "lm", 
      metric = "Rsquared", 
      trControl = my_sampling_full_grid) -> lr_model

# Show results: 

lr_model
## Linear Regression 
## 
## 402 samples
##  13 predictor
## 
## No pre-processing
## Resampling: Cross-Validated (4 fold, repeated 5 times) 
## Summary of sample sizes: 301, 302, 301, 302, 302, 301, ... 
## Resampling results:
## 
##   RMSE      Rsquared   MAE     
##   4.713283  0.7377736  3.295485
## 
## Tuning parameter 'intercept' was held constant at a value of TRUE

Giá trị bình quân của Rsquared trên 20 bộ Validation Data là 73.77%. Tất nhiên chúng ta cũng có thể sử dụng cho dự báo medv và tính Rsquared trên Test Data:

# Use Linear Regression for predicting: 
pred_fromOLS <- predict(lr_model, features_input)

# Calculate Rsquared: 
calculate_R2(pred_fromOLS, actual_medv)
## [1] 0.6563089

Rsquared của Linear Regression trên Test Data chỉ là 65.63% - một kết quả thấp hơn đáng kể so với ngay cả Boosted Tree mặc định. Như vậy có thể kết luận là giữa các mô hình/cách tiếp cận cạnh tranh nhau chúng ta thấy rằng Boosted Tree với bộ tham số mstop = 300, maxdepth = 3 và nu = 0.075 nên được sử dụng cho mục đích dự báo medv.

Classification Task: Credit Classification and Scoring

Nếu Tagret Variable là biến kiểu nhị phân (Binomial Data hay Binary Response) - tức là kiểu biến số định tính mà giá trị của biến chỉ thuộc về một trong hai loại và chúng ta cần dự báo một quan sát thuộc loại này hay loại kia thì chúng ta đang có bài toán phân loại (Classification Task). Để minh họa chúng ta lấy ví dụ là bộ dữ liệu GermanCredit (được cung cấp bởi GS Hans Hofmann, Universit”at Hamburg) có 1000 quan sát với Target Variable là Class chỉ nhận một trong hai giá trị là Bad (với ý nghĩa là sẽ không được cấp tín dụng) và Good (với ý nghĩa là sẽ được cấp tín dụng) tại một ngân hàng ở Đức. Bộ dữ liệu này được lưu trữ bởi Center for Machine Learning and Intelligent Systems thuộc University of California Irvine. Bạn đọc quan tâm đến bộ dữ liệu gốc (cũng như download) + các thông tin mô tả về các features có thể tìm thấy ở đây. Tuy nhiên trong mục này chúng ta sẽ sử dụng một phiên bản của bộ dữ liệu này được tích hợp cùng gói caret:

# Clear our R environment: 
rm(list = ls())

# Load GermanCredit data set: 
data("GermanCredit")

# Show some columns + observations: 
GermanCredit %>% 
  select(8:11) %>% 
  head()
##   Telephone ForeignWorker Class CheckingAccountStatus.lt.0
## 1         0             1  Good                          1
## 2         1             1   Bad                          0
## 3         1             1  Good                          0
## 4         1             1  Good                          1
## 5         1             1   Bad                          1
## 6         0             1  Good                          0

Bộ dữ liệu này đã được sử dụng trong nhiều nghiên cứu về ML áp dụng cho bài toán phân loại và xếp hạng tín dụng bởi nhiều tác giả khác nhau. Mức độ chính xác (Accuracy) được lựa chọn làm tiêu chuẩn để so sánh - đánh giá các thuật toán ML khác nhau được cho ở bảng dưới đây:

Random Forest (RF) - một thuật toán thuộc nhóm Ensemble là một thuật toán ML mạnh cho cả bài toán hồi quy lẫn phân loại. Chúng ta sẽ sử dụng thuật toán này cho mục đích phân loại và xếp hạng tín dụng. Trước hết chúng ta cần RF có những tham số nào có thể tinh chỉnh bởi caret:

# Extract description about Random Forest: 
getModelInfo("rf") -> rf_info

# Parameters can be turned by the caret package: 
rf_info$rf$parameters
##   parameter   class                         label
## 1      mtry numeric #Randomly Selected Predictors

Như vậy Randomly Selected Predictors - kí hiệu mtry là tham số có thể được tinh chỉnh. Như đã nói, chúng ta tạm bỏ qua stage 1 và 3 và thực hiện luôn stage 3 là phân chia bộ dữ liệu thành hai phần theo tỉ lệ 80 - 20:

#==========================
#  Stage 3: Spliting Data
#==========================

set.seed(29)
id <- createDataPartition(y = GermanCredit$Class, p = 0.8, list = FALSE, times = 1)

# Training + validation data: 
train_validCreditData <- GermanCredit %>% slice(id)

# Holdout data: 
testCreditData <- GermanCredit %>% slice(-id)

Dưới đây là R codes cho các bước còn lại của quá trình tinh chỉnh - huấn luyện RF mặc định:

#============================================================================
#  Stage 4: Select sampling method for training and turning hyper-parameters
#============================================================================

sampling_status <- trainControl(method = "repeatedcv", 
                                number = 4, 
                                repeats = 5)


#========================================================
#  Stage 5: Train and turn Boosted Tree (using default)
#========================================================

# Train Random Forest with default status: 

set.seed(29)

train(Class ~ ., 
      data = train_validCreditData, 
      method = "rf", 
      metric = "Accuracy", 
      trControl = sampling_status) -> default_rf

# Show results: 

default_rf
## Random Forest 
## 
## 800 samples
##  61 predictor
##   2 classes: 'Bad', 'Good' 
## 
## No pre-processing
## Resampling: Cross-Validated (4 fold, repeated 5 times) 
## Summary of sample sizes: 600, 600, 600, 600, 600, 600, ... 
## Resampling results across tuning parameters:
## 
##   mtry  Accuracy  Kappa     
##    2    0.71425   0.08001213
##   31    0.75700   0.36127304
##   61    0.74950   0.35449671
## 
## Accuracy was used to select the optimal model using the largest value.
## The final value used for the model was mtry = 31.

Như vậy khi tinh chỉnh tham số ở chế độ mặc định thì giá trị tối ưu của tham số là mtry = 31 và trung bình Accuracy trên 20 bộ Validation data là 74.95% - một kết quả cũng không quá kém so với kết quả của những tác giả đi trước được list trong bảng ở trên. Nhưng cần lưu ý rằng Accuracy phụ thuộc vào ngưỡng xác suất (Threshold) để phân loại. Kết quả 74.95% là tương ứng với ngưỡng mặc định 0.5. Chúng ta sẽ tìm hiểu kĩ thêm về ảnh hưởng của ngưỡng phân loại lên Accuracy ngay sau đây. Trước hết sử dụng thuật toán đã được tinh chỉnh - huấn luyện để tính xác suất vỡ nợ PF (Probability of Default) với bộ dữ liệu test:

# Actual labels from test data: 
actual_labels <- testCreditData %>% pull(Class)

# Inputs: 
inputs <- testCreditData %>% select(-Class)

# Calculate PD on test data: 

predict(default_rf, inputs, type = "prob") -> df_PD_predicted

# Vector of PD predicted by Random Forest: 
pd_predicted <- df_PD_predicted %>% pull(Bad)

Chúng ta có thể xem qua một số kết quả:

# Show some probability of default for some cases: 
head(df_PD_predicted)
##     Bad  Good
## 1 0.636 0.364
## 2 0.016 0.984
## 3 0.356 0.644
## 4 0.712 0.288
## 5 0.808 0.192
## 6 0.060 0.940

Kết qủa này có nghĩa là với case đầu tiên thì xác suất dự báo cho sự kiện “Bad” là 0.636 và Good là 0.364. Chú ý rằng tổng của hai con số luôn là 1 nhưng chúng ta đã biết từ các giáo trình xác suất thống kê. Dựa trên PD dự báo bởi RF chúng ta có thể, ví dụ, phân loại các hồ sơ xin cấp tín dụng với ngưỡng được chọn cho phân loại là 0.5 như sau:

# Label for cases from PD predicted: 
labels_when_0.5 <- case_when(pd_predicted >= 0.5 ~ "Bad", TRUE ~ "Good")

# Compare with actual labels: 

tibble(actual = actual_labels, predicted = labels_when_0.5, PD = pd_predicted) -> df_labels_0.5

head(df_labels_0.5)
## # A tibble: 6 x 3
##   actual predicted    PD
##   <fct>  <chr>     <dbl>
## 1 Good   Bad       0.636
## 2 Good   Good      0.016
## 3 Good   Good      0.356
## 4 Bad    Bad       0.712
## 5 Bad    Bad       0.808
## 6 Good   Good      0.06

Như vậy với ngưỡng xác suất được chọn cho phân loại là 0.5 thì case đầu tiên có PD = 0.636 sẽ được dán nhãn là Bad còn case thứ hai sẽ có nhãn là Good. Tương tự chúng ta có thể xem kết quả phân loại nếu ngưỡng được chọn là, ví dụ, 0.35 như sau:

labels_when_0.35 <- case_when(pd_predicted >= 0.35 ~ "Bad", TRUE ~ "Good")

tibble(actual = actual_labels, predicted = labels_when_0.35, PD = pd_predicted) -> df_labels_0.35

head(df_labels_0.35)
## # A tibble: 6 x 3
##   actual predicted    PD
##   <fct>  <chr>     <dbl>
## 1 Good   Bad       0.636
## 2 Good   Good      0.016
## 3 Good   Bad       0.356
## 4 Bad    Bad       0.712
## 5 Bad    Bad       0.808
## 6 Good   Good      0.06

Chúng ta cũng có thể tính Accuracy tương ứng với hai ngưỡng được chọn cho phân loại này:

# Accurary when threshold = 0.5: 
sum(df_labels_0.5$actual == df_labels_0.5$predicted) / nrow(df_labels_0.5)
## [1] 0.77
# Accuracy when threshold = 0.35: 
sum(df_labels_0.35$actual == df_labels_0.35$predicted) / nrow(df_labels_0.35)
## [1] 0.745

Như vậy tại các ngưỡng khác nhau thì Accuracy sẽ khác nhau. Tiêu chí Accuracy này cùng với các metrics khác cũng còn được báo cáo trong Ma Trận Nhầm Lẫn (kí hiệu CM) bằng cách sử dụng hàm confusionMatrix() như sau:

# Convert to factor: 
labels_when_0.5 <- factor(labels_when_0.5)

# CM when threshold = 0.5: 
confusionMatrix(labels_when_0.5, actual_labels, positive = "Bad")
## Confusion Matrix and Statistics
## 
##           Reference
## Prediction Bad Good
##       Bad   28   14
##       Good  32  126
##                                           
##                Accuracy : 0.77            
##                  95% CI : (0.7054, 0.8264)
##     No Information Rate : 0.7             
##     P-Value [Acc > NIR] : 0.01687         
##                                           
##                   Kappa : 0.401           
##                                           
##  Mcnemar's Test P-Value : 0.01219         
##                                           
##             Sensitivity : 0.4667          
##             Specificity : 0.9000          
##          Pos Pred Value : 0.6667          
##          Neg Pred Value : 0.7975          
##              Prevalence : 0.3000          
##          Detection Rate : 0.1400          
##    Detection Prevalence : 0.2100          
##       Balanced Accuracy : 0.6833          
##                                           
##        'Positive' Class : Bad             
## 

Tương tự là CM khi ngưỡng được chọn cho phân loại là 0.35:

# Convert to factor: 
labels_when_0.35 <- factor(labels_when_0.35)

# CM when threshold = 0.5: 
confusionMatrix(labels_when_0.35, actual_labels, positive = "Bad")
## Confusion Matrix and Statistics
## 
##           Reference
## Prediction Bad Good
##       Bad   43   34
##       Good  17  106
##                                           
##                Accuracy : 0.745           
##                  95% CI : (0.6787, 0.8039)
##     No Information Rate : 0.7             
##     P-Value [Acc > NIR] : 0.09344         
##                                           
##                   Kappa : 0.4383          
##                                           
##  Mcnemar's Test P-Value : 0.02506         
##                                           
##             Sensitivity : 0.7167          
##             Specificity : 0.7571          
##          Pos Pred Value : 0.5584          
##          Neg Pred Value : 0.8618          
##              Prevalence : 0.3000          
##          Detection Rate : 0.2150          
##    Detection Prevalence : 0.3850          
##       Balanced Accuracy : 0.7369          
##                                           
##        'Positive' Class : Bad             
## 

Chọn ngưỡng phân loại là 0.35 thì RF phân loại đúng 43 cases là Bad (trong tổng số 60 cases là Bad được kiểm tra). So với 28 Bad được phân loại đúng (khi Threshold = 0.5) thì số cases được phân loại đúng là tăng hơn 53%.

Ngoài Accuracy, để đọc hiểu một số kết quả quan trọng khác từ CM chúng ta cần hiểu một số tiêu chí đánh giá - so sánh chất lượng/khả năng phân loại của thuật toán ML dưới đây:

  • Dương Tính Giả (False Positive, FP). Đây là những cases là Good nhưng bị dán nhãn sai thành Bad. Bạn không bị nhiễm Covid 19 nhưng bác sĩ kết luận bạn bị nhiễm loại virus này bằng kết luận chính thức là bạn “có kết quả dương tính”. Dương tính giả là như vậy cho dễ nhớ. Trong tình huống của chúng ta thì FN = 14. Tức là có 14 cases thực tế là Good nhưng bị xếp hạng nhầm thành Bad.

  • Âm tính giả (False Negative, FN). Đây là những cases là Bad nhưng bị dán nhãn sai thành Good. Trong tình huống của chúng ta thì FN = 32. Cả FP và FN đều là phân loại sai nhưng hậu quả của FN là nghiêm trọng hơn FP rất nhiều. Bạn bị nhiễm Covid 19 nhưng bác sĩ lại phân loại bạn khỏe mạnh, không bị nhiễm Covid 19 và sẽ lại tiếp tục lây nhiễm thêm cho rất nhiều người. Với các tổ chức tài chính - ngân hàng thì việc phân loại sai một case thực sự là Good thành Bad chỉ làm mất đi của họ cơ hội kiếm lãi trên số vốn cho vay. Nhưng nếu một case là Bad mà bị phân loại sai thành Good thì tổ chức gần như mất hoàn toàn số tiền đã cho vay.

  • Accuracy. Là tổng số cases được phân loại đúng (bao gồm cả nhãn Bad và Good) chia cho tổng số cases được phân loại/xếp hạng. Trong tình huống của chúng ta thì RF phân loại đúng 28 cases có nhãn Bad và 126 cases có nhãn Good. Trong khi đó tổng số cases được xếp hạng là 200. Do vậy mà Accuracy = (28 + 126) / 200 = 0.77 mà chúng ta đã biết.

  • Sensitivity. Là tỉ lệ chính xác khi phân loại nhãn Bad. RF (với ngưỡng 0.5) xác định chính xác 28 cases là Bad. Trong khi thực tế có 28 + 32 = 60 cases là Bad. Do vậy Sensitivity = 28 / 60 = 0.4667. Con số này có thể thấy ngay trên CM.

  • Specificity. Là tỉ lệ chính xác khi phân loại nhãn Good. RF (với ngưỡng 0.5) xác định chính xác 126 cases là Good trong tổng số 140. Do vậy Specificity = 126 / 140 = 0.9. Như vậy thì thuật toán RF của chúng ta với Threshold = 0.5 thì mô hình có khả năng phân loại hồ sơ có nhãn Good với độ chính xác rất cao nhưng lại khá kém khi phân loại hồ sơ có nhãn Bad. Với một tổ chức hoạt động vì lợi nhuận và e ngại rủi ro như ngân hàng thì rõ ràng nó quan tâm hơn đến việc lựa chọn một mô hình có năng lực đủ tốt khi phân loại nhãn Bad - tức Sensitivity.

Ngoài 5 metrics thường được sử dụng khi đánh giá mô hình phân loại như trên thì cũng còn nhiều tiêu chí khác được mô tả chi tiết tại đây. Một lần nữa nhắc lại rằng cả 5 tiêu chí này, nếu các thứ khác không đổi, thì đều phụ thuộc vào ngưỡng được lựa chọn khi phân loại - dán nhãn.

Để khảo sát sự phụ thuộc của Accuracy, Sensitivity và Specificity chẳng hạn vào ngưỡng xác suất được chọn chúng ta viết hàm có tên metrics_with_threshold tính toán ba metrics này khi biết Threshold được chọn:

metrics_with_threshold <- function(threshold) {
  
  # Label for cases from PD: 
  case_when(pd_predicted >= threshold ~ "Bad", TRUE ~ "Good") -> labels_predicted
  
  # Create actual - predicted data frame for purpose of comparision: 
  tibble(actual = actual_labels, predicted = labels_predicted) -> df_compared
  
  # Calculate Accuracy metric: 
  acc_metric <- sum(labels_predicted == actual_labels) / length(labels_predicted)
  
  # Calculate Sensitiviy metric: 
  df_compared %>% filter(actual == "Bad") -> df_bad_sen
  
  df_bad_sen %>% 
    filter(predicted == "Bad") %>% 
    nrow() / nrow(df_bad_sen) -> sen_metric
  
  # Calculate Specificity metric: 
  
  df_compared %>% filter(actual == "Good") -> df_good_spec
  
  df_good_spec %>% 
    filter(predicted == "Good") %>% 
    nrow() / nrow(df_good_spec) -> spec_metric
  
  # Final results in DF form: 
  
  tibble(Accuracy = acc_metric, 
         Sensitiviy = sen_metric,
         Specificity = spec_metric, 
         Threshold = threshold) -> df_report
  
  # Return final outputs: 
  
  return(df_report)
}

Đương nhiên nếu Threshold = 0.5 thì chúng ta sẽ có những kết quả đã biết (Accuracy, Sensitivity, Specificity) như sau:

metrics_with_threshold(threshold = 0.5)
## # A tibble: 1 x 4
##   Accuracy Sensitiviy Specificity Threshold
##      <dbl>      <dbl>       <dbl>     <dbl>
## 1     0.77      0.467         0.9       0.5

Chúng ta sẽ khảo sát sự phụ thuộc của ba tiêu chí này vào Threshold như sau:

# Create some thresholds: 
some_thresholds <- seq(0.1, 0.9, by = 0.05)

# Classification metrics by threshold: 
lapply(some_thresholds, metrics_with_threshold) -> list_of_df

# Convert to DF from list: 
do.call("bind_rows", list_of_df) -> df_results

# Threshold that maximizes Accuracy: 
df_results %>% slice(which.max(Accuracy)) -> max_acc

# Threshold that maximizes Sensitivity: 
df_results %>% slice(which.max(Sensitiviy)) -> max_sen

# Threshold that maximizes Specificity: 
df_results %>% slice(which.max(Specificity)) -> max_spec

Nếu lựa chọn Accuracy làm tiêu chí đánh giá và so sánh các thuật toán ML khác nhau thì chúng ta có thể chỉ ra khi Threshold = 0.45 thì Accuracy là lớn nhất:

max_acc
## # A tibble: 1 x 4
##   Accuracy Sensitiviy Specificity Threshold
##      <dbl>      <dbl>       <dbl>     <dbl>
## 1    0.785      0.567       0.879      0.45

Kết quả 78.5% này, so với các tác giả đi trước ở trên, có thể được coi là cao hơn so với mô hình phân loại của Setiono, Baesens và Mues (2011) với Accuracy = 78.47%. Chúng ta có thể khảo sát sự phụ thuộc của ba metrics này khi ngưỡng phân loại được chọn thay đổi ở Figure 6 dưới đây:

# Convert to long form: 

df_results %>% 
  gather(key = "Metric", value = "Value", -Threshold) -> df_long

# Plot classification metrics vs threshold selected: 

ggplot() + 
  geom_line(data = df_long, aes(Threshold, Value, color = Metric), size = 1) +  
  geom_point(data = max_acc, aes(Threshold, Accuracy), color = "firebrick", size = 2) + 
  scale_x_continuous(breaks = some_thresholds) + 
  theme(legend.position = "top") + 
  labs(y = "Rate", 
       title = "Figure 6: Some Classification Metrics by Threshold, Default RF")

Từ Figure 6 có thể rút ra một số nhận định quan trọng sau:

  • Accuracy có dạng hình chữ U ngược. Nghĩa là ban đầu Threshold tăng thì Accuracy tăng nhưng đến một ngưỡng nào đó (điểm màu đỏ trên Figure 6) thì sẽ lại giảm dần. Pattern này cũng lặp lại nếu ngân hàng lựa chọn lợi nhuận (Profit) chứ không phải Accuracy. Vấn đề này sẽ được đề cập chi tiết trong phần sau.

  • Có sự đánh đổi giữa các metrics. Chúng ta có thể thấy Sensitivity và Specificity tuân theo những patterns ngược chiều nhau: khi threshold tăng thì Sensitivity giảm nhưng Specificity lại tăng (và ngược lại). Điều này hàm ý rõ ràng rằng nếu ngân hàng e ngại rủi ro (có thể là do nền kinh tế bị đình đốn do Covid 19) thì nó sẽ phải điều chỉnh Threshold sao cho mô hình phân loại đạt được mức chính xác cao hơn, ví dụ, trên 70% khi phân loại các cases thực sự là Bad với cái giá phải trả là sẽ bỏ lỡ một số cơ hội kiếm lời khi cấp tín dụng cho các cases Good (nhưng bị phân loại sai thành Bad) do FP tăng. Từ Figure 6 thì có thể thấy nếu đòi hỏi là phân loại đúng các cases là Bad với tỉ lệ chính xác tối thiểu 0.7 thì threshold sẽ khoảng chừng 0.35.

Chúng ta có thể thấy rằng các chỉ số đánh giá chất lượng phân loại của thuật toán được báo cáo trên CM sẽ phụ thuộc ngưỡng được lựa chọn cho phân loại. Điều này có thể tạo ra những khó khăn khi so sánh và lựa chọn giữa các thuật toán ML khác nhau. Chính vì vậy với bài toán phân loại Binary Response thì ROC-AUC là tiêu chí phù hợp hơn làm căn cứ để so sánh và lựa chọn giữa các mô hình ML khác nhau. Chi tiết hơn về tiêu chí này bạn đọc có thể tìm hiểu ở đây. Đây là tiêu chí chỉ phụ thuộc vào PD dự báo từ thuật toán mà thôi.

Với PD đã có chúng ta có thể sử dụng hàm roc() của gói pROC để tính toán chỉ số này:

# Calculate ROC-AUC metric: 

library(pROC)

my_roc <- roc(actual_labels, pd_predicted)

my_roc
## 
## Call:
## roc.default(response = actual_labels, predictor = pd_predicted)
## 
## Data: pd_predicted in 60 controls (actual_labels Bad) > 140 cases (actual_labels Good).
## Area under the curve: 0.8124

Thông báo Area under the curve: 0.8124 có nghĩa là ROC-AUC = 0.8124. Ngoài giá trị của ROC-AUC thì hình dạng của đường cong này cũng là một yếu tố được quan tâm. Chúng ta có thể vẽ đường cong ROC-AUC (Figure 7) như sau:

sen_spec_df <- tibble(TPR = my_roc$sensitivities, FPR = 1 - my_roc$specificities)

sen_spec_df %>% 
  ggplot(aes(x = FPR, ymin = 0, ymax = TPR))+
  geom_polygon(aes(y = TPR), fill = "red", alpha = 0.3)+
  geom_path(aes(y = TPR), col = "firebrick", size = 1.2) +
  geom_abline(intercept = 0, slope = 1, color = "gray37", size = 1, linetype = "dashed") + 
  theme_bw() +
  coord_equal() +
  labs(x = "FPR (1 - Specificity)", 
       y = "TPR (Sensitivity)", 
       title = "Figure 7: Model Performance based on Test Data", 
       subtitle = paste0("AUC Value: ", my_roc$auc %>% round(2)))

Một công cụ hình ảnh tương tự ROC được sử dụng để đánh giá chất lượng của mô hình phân loại là lift chart. Bạn đọc quan tâm có thể tham khảo thêm tại đây hoặc tại đây.

Chúng ta có thể huấn luyện và tinh chỉnh lại RF với tiêu chuẩn ROC-AUC ở chế độ mặc định như sau:

# New metric and sampling technique for searching optimal parameters:  

sampling_new <- trainControl(method = "repeatedcv", 
                             classProbs = TRUE,
                             summaryFunction = twoClassSummary,  # For Binary Response/Classification Task. 
                             number = 4, 
                             repeats = 5)

# Train and turn RF which ROC-AUC used for searching optimal parameters: 

set.seed(29)

train(Class ~ ., 
      data = train_validCreditData, 
      method = "rf", 
      metric = "ROC", # Metric selected for searching optimal parameters. 
      trControl = sampling_new) -> default_rf_auc

# Show results: 

default_rf_auc
## Random Forest 
## 
## 800 samples
##  61 predictor
##   2 classes: 'Bad', 'Good' 
## 
## No pre-processing
## Resampling: Cross-Validated (4 fold, repeated 5 times) 
## Summary of sample sizes: 600, 600, 600, 600, 600, 600, ... 
## Resampling results across tuning parameters:
## 
##   mtry  ROC        Sens        Spec     
##    2    0.7841667  0.06833333  0.9910714
##   31    0.7715625  0.43083333  0.8967857
##   61    0.7683958  0.44833333  0.8785714
## 
## ROC was used to select the optimal model using the largest value.
## The final value used for the model was mtry = 2.

Với tiêu chuẩn mới là ROC-AUC thì tham số tối ưu tìm được là mtry = 2. Sử dụng RF với tham số tối ưu này để tính ROC-AUC trên tập dữ liệu test như sau:

# Use RF for predicting PD: 
pd_new <- predict(default_rf_auc, inputs, type = "prob")

pd_new %>% pull(Bad) -> pd_new

# ROC-AUC: 
my_roc_new <- roc(actual_labels, pd_new)

my_roc_new
## 
## Call:
## roc.default(response = actual_labels, predictor = pd_new)
## 
## Data: pd_new in 60 controls (actual_labels Bad) > 140 cases (actual_labels Good).
## Area under the curve: 0.8111

ROC-AUC = 0.8111 không có nghĩa là RF với tham số tối ưu theo tiêu chuẩn ROC-AUC (mtry = 2) có khả năng phân loại kém hơn RF với tham số tối ưu được tìm kiếm theo tiêu chuẩn Accuracy (mtry = 31). Vì chúng ta chưa thể bắc bỏ được tình huống rằng kết quả 0.8111 này chỉ là tình cờ do mẫu dữ liệu Test Data bất lợi cho ROC-AUC ứng với tham số tinh chỉnh theo tiêu chuẩn ROC-AUC.

Dựa trên tham số tối ưu tìm được ở chế độ mặc định chúng ta có thể sử dụng giá trị mtry = 2 này để tìm ra tham số tối ưu mới bằng phương pháp Full Grid Search với R codes như sau:

# List all potential paramter (mtry) for Random Forest: 
grid_for_RF <- expand.grid(mtry = seq(2, 11, by = 1))

# Search optimal parameter (and train) for RF using Full Grid Search Method: 

set.seed(29)

system.time(
  
  train(Class ~ ., 
        data = train_validCreditData, 
        method = "rf", 
        metric = "ROC", # Metric selected for search optimal parameters. 
        tuneGrid = grid_for_RF, 
        trControl = sampling_new) -> rf_fullGrid
  )
##    user  system elapsed 
##  174.84    3.02  182.74
# Show results: 
rf_fullGrid
## Random Forest 
## 
## 800 samples
##  61 predictor
##   2 classes: 'Bad', 'Good' 
## 
## No pre-processing
## Resampling: Cross-Validated (4 fold, repeated 5 times) 
## Summary of sample sizes: 600, 600, 600, 600, 600, 600, ... 
## Resampling results across tuning parameters:
## 
##   mtry  ROC        Sens        Spec     
##    2    0.7843839  0.06916667  0.9914286
##    3    0.7853810  0.25666667  0.9589286
##    4    0.7891845  0.32916667  0.9446429
##    5    0.7883839  0.36166667  0.9375000
##    6    0.7849613  0.37750000  0.9314286
##    7    0.7873810  0.39333333  0.9282143
##    8    0.7846845  0.40166667  0.9221429
##    9    0.7850476  0.40833333  0.9203571
##   10    0.7832798  0.40333333  0.9171429
##   11    0.7832083  0.41083333  0.9150000
## 
## ROC was used to select the optimal model using the largest value.
## The final value used for the model was mtry = 4.

Tham số tối ưu tìm được là mtry = 4 và giá trị trung bình của ROC-AUC trên 20 bộ Validation Data là 0.7891845 - một kết quả cao hơn nếu so với RF được tinh chỉnh mặc định có mtry = 2 với trung bình ROC-AUC là 0.7841667. Sự thay đổi của ROC-AUC trung bình (trên 20 bộ Validation) theo mtry có thể thấy trên Figure 9 dưới đây:

ggplot(rf_fullGrid) + 
  scale_x_continuous(breaks = seq(2, 11, 1)) + 
  labs(title = "Figure 9: Model Performance by mtry", 
       subtitle = "Full Grid Search for Random Forest") + 
  theme(legend.position = "top")

Figure 9 chỉ ra rằng mtry = 4 là giá trị tối ưu của tham số cho RF với tiêu chuẩn tinh chỉnh và lựa chọn là ROC-AUC.

Với nhóm công việc Classification thì còn có một cách tiếp cận phổ biến (và lâu đời) là hồi quy Logistic (gọi là hồi quy nhưng đây là thuật toán phân loại dựa trên xác suất dự báo). Chúng ta sẽ sử dụng cách thuận toán/mô hình này làm Base Line để so sánh các thuật toán khác. R codes để “huấn luyện” mô hình Logistic như sau:

set.seed(29)

train(Class ~ ., 
      data = train_validCreditData, 
      method = "glm", # This option for Logistic Regression. 
      metric = "ROC", # Metric selected for searching optimal parameters. 
      trControl = sampling_new) -> logistic

# Show results: 

logistic
## Generalized Linear Model 
## 
## 800 samples
##  61 predictor
##   2 classes: 'Bad', 'Good' 
## 
## No pre-processing
## Resampling: Cross-Validated (4 fold, repeated 5 times) 
## Summary of sample sizes: 600, 600, 600, 600, 600, 600, ... 
## Resampling results:
## 
##   ROC        Sens   Spec     
##   0.7722143  0.485  0.8596429

Giá trị trung bình trên 20 bộ Validation Data của Logistic Regression là 0.772381 - thấp hơn so với 0.7841667 của RF được tinh chỉnh theo tiêu chuẩn ROC-ACU ở chế độ mặc định (mtry tối ưu là 2). Sử dụng Logistic Regression để tính toán PD trên bộ dữ liệu Test:

# Use Logistic Regrression for predicting PD: 
pd_from_logistic <- predict(logistic, inputs, type = "prob")

pd_from_logistic %>% pull(Bad) -> pd_from_logistic

# Some PD predicted by LR: 
head(pd_from_logistic)
## [1] 0.22283317 0.10531536 0.35150209 0.46525952 0.56023603 0.06383618

PD này có thể được sử dụng cho, ví dụ, so sánh và đánh giá ảnh hưởng của việc sử dụng mô hình LR lên lợi nhuận của ngân hàng so với cách cách tiếp/thuật toán khác để từ đó làm căn cứ cho việc lựa chọn mô hình/thuật toán nào để phân loại - xếp hạng tín dụng.

Select ML Model by Profit Metric

Các tiêu chuẩn (hay metric) được đề cập ở trên, nhất là ROC-AUC thường được sử dụng như là các tiêu chuẩn để đánh giá - so sánh các thuật toán ML khác nhau và chúng thường xuất hiện trên các papers. Nhưng với các tổ chức hoạt động vì lợi nhuận như ngân hàng thì thứ mà chúng quan tâm hơn là: khi mọi thứ như nhau (Ceteris paribus) thì, ví dụ, việc sử dụng phương án A có mang lại lợi ích kinh tế cao hơn so với dùng phương án B hay không?.

Nếu coi thuật toán hồi quy Logistic là phương án A còn RF là phương án B, và lựa chọn lợi nhuận (Profit) thì chúng ta cần đánh giá xem phương án A hay B sẽ mang lại lợi nhuận cao hơn cho ngân hàng. Chúng ta sẽ sử dụng cách tiếp cận thường được gọi là A/B Test để so sánh nhằm tìm ra câu trả lời cho câu hỏi này. Trước hết chúng ta định nghĩa tiêu chí lợi nhuận một cách đơn giản dựa trên hai giả thuyết sau:

  • Lãi là 30% trên số tiền cho vay đố với các cases là Good và được phân loại đúng là Good.

  • Khi cho các hồ sơ vốn là hồ sơ xấu (Bad) nhưng mô hình phân loại sai thành tốt (Good) thì ngân hàng sẽ mất vốn hoàn toàn.

Vì rằng kết quả phân loại sẽ thay đổi nếu ngưỡng được chọn cho dán nhãn (Bad hay Good) thay đổi nên chúng ta sẽ viết hàm tính toán lợi nhuận tương ứng với một ngưỡng cụ thể. Mặt khác để loại bỏ, hoặc ít nhất là giảm thiểu tối đa ảnh hưởng của yếu tố ngẫu nhiên, thì ứng với mỗi ngưỡng được lựa chọn chúng ta sẽ tính toán lợi nhuận này trên 1000 lần chọn mẫu ngẫu nhiên bằng cách lấy ra 100 quan sát bất kì trong số 200 quan sát của Test Data.

Để minh họa chúng ta xét một tình huống cụ thể với PD dự báo từ RF (với mtry = 31) và threshold được chọn cho dán nhãn, ví dụ, là 0.35. Trước hết tạo data frame chứa hai ba thông tin cơ bản là nhãn thực tế (actual), nhãn dự báo (predicted_class) và số tiền được duyệt vay do người xin cấp tín dụng đề xuất (Amount):

# Select threshold for classification from PD predicted: 
threshold <- 0.35

# Use threshold for labelling: 

labels_predicted <- case_when(pd_new >= threshold ~ "Bad", TRUE ~ "Good")

# Create data frame that contains actual and predicted lablels:   
tibble(actual = actual_labels, predicted_class = labels_predicted) -> df_for_com

# Add amount of loans and interest of rate 30%: 
  
df_for_com %>% 
  mutate(Amount = testCreditData$Amount) %>% 
  mutate(r = 0.3) -> df_for_calculating_profit

# Calculate profit: 
df_for_calculating_profit %>% 
  mutate(profit = case_when(actual == "Good" & predicted_class == "Good" ~ Amount*r, 
                            actual == "Bad" & predicted_class == "Good" ~ -1*Amount, 
                            TRUE ~ 0)) -> df_profit

# Some first observations: 
head(df_profit)
## # A tibble: 6 x 5
##   actual predicted_class Amount     r profit
##   <fct>  <chr>            <int> <dbl>  <dbl>
## 1 Good   Bad               7882   0.3     0 
## 2 Good   Good              2835   0.3   850.
## 3 Good   Good              6948   0.3  2084.
## 4 Bad    Good              1282   0.3 -1282 
## 5 Bad    Bad              12579   0.3     0 
## 6 Good   Good              3430   0.3  1029

Từ kết quả này có thể thấy, ví dụ, với case đầu tiên thì do mô hình phân loại là Bad (dù trong thực tế là Good) nên ngân hàng sẽ bỏ lỡ cô hội kiếm lãi 30%. Case thứ hai mô hình phân loại đúng là Good và ngân hàng sẽ kiếm được lãi là 850 = 2835×0.3. Case thứ 4 thì mô hình phân loại là Good nhưng thực tế lại là Bad nên ngân hàng sẽ mất toàn bộ số tiền cho vay là 1283 (hãy lãi là -1282). Như vậy lãi sẽ là tổng của cột profit:

# Profit for all cases classified as Good by model:  
df_profit %>% 
  pull(profit) %>% 
  sum() -> total_profit

print(total_profit)
## [1] 18531.4

Tổng tiền lãi thu được sẽ là 18531. Sử dụng kết quả này chúng ta có thể tính lợi nhuận tính trên mỗi một đồng vốn cho vay:

# Profit per 1$: 
df_profit %>% 
  filter(predicted_class == "Good") %>% 
  pull(Amount) %>% 
  sum() -> total_money_out

total_profit / total_money_out
## [1] 0.03821664

Như vậy cứ mỗi một đồng vốn cho vay thì ngân hàng sẽ thu về 0.038 đồng lãi. Nếu muốn chúng ta cũng có thể xem các thước đo đánh giá chất lượng phân loại khác của mô hình nếu ngưỡng được chọn là 0.35 như đã biết:

# Convert to factor: 
factor(labels_predicted ) -> labels_predicted

# Some metrics at threshold 0.35: 
confusionMatrix(labels_predicted, actual_labels, positive = "Bad")
## Confusion Matrix and Statistics
## 
##           Reference
## Prediction Bad Good
##       Bad   20   13
##       Good  40  127
##                                           
##                Accuracy : 0.735           
##                  95% CI : (0.6681, 0.7948)
##     No Information Rate : 0.7             
##     P-Value [Acc > NIR] : 0.1578863       
##                                           
##                   Kappa : 0.276           
##                                           
##  Mcnemar's Test P-Value : 0.0003551       
##                                           
##             Sensitivity : 0.3333          
##             Specificity : 0.9071          
##          Pos Pred Value : 0.6061          
##          Neg Pred Value : 0.7605          
##              Prevalence : 0.3000          
##          Detection Rate : 0.1000          
##    Detection Prevalence : 0.1650          
##       Balanced Accuracy : 0.6202          
##                                           
##        'Positive' Class : Bad             
## 

Để khảo sát sự biến đổi của profit (và một số metrics khác) khi ngưỡng được chọn thay đổi chúng ta viết hàm có tên some_metrics_with_threshold nhận inputs đầu vào là: (1) mô hình/thuật toán được chọn, và (2) ngưỡng threshold cho phân loại được chọn và tính toán outputs là các metrics:

# Function calculates some metrics (including profit) at given threshold and model selected: 
some_metrics_with_threshold <- function(model_selected, threshold) {
  
  # Calculate PD by model selected: 
  
  df_pd <- predict(model_selected, inputs, type = "prob")
  
  df_pd %>% pull(Bad) -> pd
   
  # Create data frame that contains actual and predicted lablels: 
  labels_predicted <- case_when(pd >= threshold ~ "Bad", TRUE ~ "Good")
  
  # Create actual - predicted data frame for purpose of comparision: 
  tibble(actual = actual_labels, predicted = labels_predicted) -> df_compared
  
  # Calculate Accuracy metric: 
  acc_metric <- sum(labels_predicted == actual_labels) / length(labels_predicted)
  
  # Calculate Sensitiviy metric: 
  df_compared %>% filter(actual == "Bad") -> df_bad_sen
  
  df_bad_sen %>% 
    filter(predicted == "Bad") %>% 
    nrow() / nrow(df_bad_sen) -> sen_metric
  
  # Calculate Specificity metric: 
  
  df_compared %>% filter(actual == "Good") -> df_good_spec
  
  df_good_spec %>% 
    filter(predicted == "Good") %>% 
    nrow() / nrow(df_good_spec) -> spec_metric
  
  # Calculate profit and some metrics at given threshold: 
  
  df_compared %>% 
    mutate(Amount = testCreditData$Amount) %>% 
    mutate(r = 0.3) %>% 
    mutate(profit = case_when(actual == "Good" & predicted == "Good" ~ Amount*r, 
                              actual == "Bad" & predicted == "Good" ~ -1*Amount, 
                              TRUE ~ 0)) -> df_profit
  
  df_profit %>% 
    pull(profit) %>% 
    sum() -> prof
  
  # Final results in DF form: 
  
  tibble(Accuracy = acc_metric, 
         Sensitiviy = sen_metric,
         Specificity = spec_metric, 
         Profit = prof, 
         Threshold = threshold) -> df_report
  
  # Return final outputs: 
  
  return(df_report)
}

Chúng ta có thể test sự vận hành của hàm này với threshold = 0.35 và mô hình được chọn là RF với mtry = 31 (tinh chỉnh theo tiêu chuẩn ROC-ACU ở chế độ mặc định):

some_metrics_with_threshold(default_rf_auc, 0.35)
## # A tibble: 1 x 5
##   Accuracy Sensitiviy Specificity Profit Threshold
##      <dbl>      <dbl>       <dbl>  <dbl>     <dbl>
## 1    0.735      0.333       0.907 18531.      0.35

Chúng ta khảo sát sự biến đổi model performance (bao gồm cả profit) cho cả bốn mô hình/thuật toán/cách tiếp cận khi threshold thay đổi như sau:

# For LR: 
lapply(some_thresholds, function(x) {some_metrics_with_threshold(logistic, x)}) -> results_logistic_list

do.call("bind_rows", results_logistic_list) -> df_results_lr

df_results_lr %>% mutate(Model = "Logistic") -> df_results_lr

# For RF by accuracy metric: 

lapply(some_thresholds, function(x) {some_metrics_with_threshold(default_rf, x)}) -> results_rf_acc

do.call("bind_rows", results_rf_acc) -> df_results_rf_acc

df_results_rf_acc %>% mutate(Model = "RF-Accuracy") -> df_results_rf_acc

# For RF by ROC-ACU default search: 

lapply(some_thresholds, function(x) {some_metrics_with_threshold(default_rf_auc, x)}) -> results_rf_auc

do.call("bind_rows", results_rf_auc) -> df_results_rf_auc

df_results_rf_auc %>% mutate(Model = "RF-AUC") -> df_results_rf_auc

# For RF by ROC-AUC full grid search: 

lapply(some_thresholds, function(x) {some_metrics_with_threshold(rf_fullGrid, x)}) -> results_rf_aucFull

do.call("bind_rows", results_rf_aucFull) -> df_results_rf_aucFull

df_results_rf_aucFull %>% mutate(Model = "RF-Full") -> df_results_rf_aucFull

So sánh các phương án:

# Combine results: 
df_results_lr %>% 
  bind_rows(df_results_rf_acc) %>% 
  bind_rows(df_results_rf_auc) %>% 
  bind_rows(df_results_rf_aucFull) -> df_big

# Convert to long form: 
df_big %>% 
  gather(Metric, Value, -Model, -Threshold) -> df_big_long

# Threshold tha maximizes Accuracy by model/ML algorithm: 
df_big_long %>% 
  filter(Metric == "Accuracy") %>% 
  group_by(Model) %>% 
  ungroup() %>% 
  slice(which.max(Value)) -> df_max_acc

# Threshold tha maximizes profit by model/ML algorithm: 
df_big_long %>% 
  filter(Metric == "Profit") %>% 
  group_by(Model) %>% 
  slice(which.max(Value)) -> df_max_profit

Như vậy với kịch bản sử dụng LR làm mô hình xếp hạng và phân loại tín dụng thì ngưỡng tối ưu để đạt tối đa hóa profit là 0.4 và lúc này profit là 56730:

df_max_profit
## # A tibble: 4 x 4
## # Groups:   Model [4]
##   Threshold Model       Metric  Value
##       <dbl> <chr>       <chr>   <dbl>
## 1      0.4  Logistic    Profit 56730.
## 2      0.25 RF-Accuracy Profit 52787.
## 3      0.3  RF-AUC      Profit 48331.
## 4      0.25 RF-Full     Profit 51082.

Chúng ta có thể khảo sát sự thay đổi của profit khi threshold thay đổi cho cả 4 mô hình/thuật toán (Figure 9):

df_big_long %>% 
  ggplot(aes(Threshold, Value, color = Model)) + 
  geom_line(size = 1) + 
  geom_point(data = df_max_profit %>% ungroup() %>% slice(which.max(Value)), 
             aes(Threshold, Value), shape = 18, size = 2.5, color = "firebrick") + 
  facet_wrap(~ Metric, scales = "free") + 
  scale_x_continuous(breaks = some_thresholds) + 
  theme(panel.grid.minor = element_blank()) + 
  theme(legend.position = "top") + 
  labs(y = NULL, 
       x = NULL, 
       title = "Figure 9: Threshold that maximizes Profit by Model")

Figure 9 cho thấy:

  • Nếu chọn profit làm tiêu chuẩn so sánh và lựa chọn mô hình/thuật toán thì LR sẽ là mô hình mang lại lợi nhuận lớn nhất so với 3 mô hình/thuật toán còn lại. Ngưỡng phân loại để tối ưu hóa profit khi sử dụng LR là 0.4 và khi đó Max Profit = 56730.

  • RF có tham số tinh chỉnh theo tiêu chuẩn Accuracy, và tại ngưỡng tối ưu tương ứng là 0.25 là mô hình/thuật toán tốt thứ hai căn cứ theo tiêu chuẩn profit (đường RF-Accuracy).

  • RF có tham số tinh chỉnh theo tiêu chuẩn tối đa ROC-AUC ở chế độ mặc định (đường RF-AUC), và tại ngưỡng tối ưu tương ứng là 0.3 sẽ tạo ra profit lớn nhất là 48331 nhưng ngay sau ngưỡng tối ưu này thì profit giảm rất nhanh. Nói cách khác, profit có biến động rất lớn xung quanh ngưỡng tối ưu tương ứng của mô hình/thuật toán này.

  • Accuracy và Profit có dạng hình chữ U ngược bất kể mô hình/thuật toán là gì. Điều này hàm ý rằng: với mỗi một mô hình/thuật toán thì tồn tại một ngưỡng mà Accuracy/Profit là lớn nhất và vượt qua ngưỡng này thì hai tiêu chí này bắt đầu giảm. Điều đáng chú ý và giá trị hơn là với một mô hình/thuật toán thì ngưỡng mà tại đó Accurcy lớn nhất không phải là ngưỡng làm cho Profit lớn nhất.

  • Có sự đánh đổi giữa các tiêu chí, đặc biệt là Sensitivity và Specificity. Tùy bối cảnh và đòi hỏi người làm mô hình có thể chọn ngưỡng sao cho phù hợp với các mục tiêu. Chẳng hạn trong đại dịch Covid 19 vừa rồi, một hệ thống test nhằm xét nghiệm nhanh ai bị hay không bị nhiễm loại virus này có lẽ nên được thiết kế sao cho nó phát hiện ra TP (dương tính thật) - hay Sensitivity cao nhất có thể bất chấp cái giá phải trả là có thể phân loại sai những người không bị nhiễm Covid 19 thành bị nhiễm bằng cách điều chỉnh ngưỡng phân loại.

Từ kết quả thực nghiệm với bộ dữ liệu GermanCredit ở trên chúng ta rút ra một số kết quả quan trọng sau:

  • Các nhà thống kê hoặc người làm mô hình có thể quan tâm đến các chỉ tiêu thuần thống kê để đánh giá và lựa chọn các mô hình khác nhau. Nhưng với một tổ chức hoạt động vì lợi nhuận thì các tiêu chí đó (như Accuracy, thậm chí là ROC-AUC) chỉ có giá trị tham khảo mà thôi. Lợi nhuận hoặc là rủi ro (hoặc cả hai) mới là quan tâm chính của những tổ chức hoạt động vì lợi nhuận.

  • Một mô hình/thuật toán có ROC-AUC trung bình (trên 20 bộ Validation Data) cao hơn, thậm chí là ROC-AUC cao hơn trên Test Data chưa chưa phải là mô hình/thuật toán mang lại lợi nhuận cao nhất cho ngân hàng.

Sensitivity for Searching Optimal Parameters

Ngoài tinh chỉnh và tìm kiếm tham số tối ưu theo Accuracy hoặc ROC-AUC như đã biết thì caret cũng cho phép tinh chỉnh và tìm kiếm tham số tối ưu theo Sensitivity tại ngưỡng 0.5 (Kuhn và Johnson, 2013) với lựa chọn metric = "Sens" như sau:

# Search optimal parameters for RF using Sensitivity metric: 
set.seed(29)

system.time(
  
  train(Class ~ ., 
        data = train_validCreditData, 
        method = "rf", 
        metric = "Sens", # Sensitivity selected for searching optimal parameters. 
        tuneGrid = expand.grid(mtry = 30:61), 
        trControl = sampling_new) -> rf_fullGrid_sen
  )
##    user  system elapsed 
##  635.40    9.56  671.46
# Show best paramter by Sensitivity metric: 
rf_fullGrid_sen$bestTune
##    mtry
## 29   58

Như vậy tinh chỉnh theo tiêu chuẩn Sensitivity thì tham số tối ưu cho RF là mtry = 58. Chúng ta có thể khảo sát sự thay đổi trung bình của Sensitivity (trên 20 bộ Validation Data) khi mtry thay đổi ở Figure 10 dưới đây:

ggplot(rf_fullGrid_sen) + 
  labs(title = "Figure 10: Model Performance, Random Forest", 
       subtitle = "Sensitivity selected for searching optimal mtry") + 
  theme(legend.position = "top")

Chúng ta có thể sử dụng RF (với mtry = 58) này để chỉ ra ngưỡng phân loại mà tối đa hóa lợi nhuận theo cách thức đã biết như sau:

# Calculate profit at range of thresholds for RF with mtry = 58: 
lapply(some_thresholds, function(x) {some_metrics_with_threshold(rf_fullGrid_sen, x)}) -> results_rf_sen

do.call("bind_rows", results_rf_sen) -> df_results_rf_sen

# Threshold that maximizes profit: 

df_results_rf_sen %>% mutate(Model = "RF-Sen") -> df_results_rf_sen

df_results_rf_sen %>% 
  slice(which.max(Profit))
## # A tibble: 1 x 6
##   Accuracy Sensitiviy Specificity Profit Threshold Model 
##      <dbl>      <dbl>       <dbl>  <dbl>     <dbl> <chr> 
## 1     0.65      0.917       0.536 55577.       0.2 RF-Sen

Như vậy ngưỡng tối ưu là 0.2 nhưng profit tại ngưỡng tối ưu này là 55577 - một con số tuy có tăng so với 52787 nhưng vẫn thấp hơn nếu so với sử dụng LR với ngưỡng tối ưu 0.4.

Feature Engineering

  • Missing Data

  • Encoding Categorical Data

  • Numeric Data

  • Feature Selection

  • Correlation

To be continued…

Capstone Project: Financial Fraud Detection

To be continued…

Capstone Project: HomeCredit Contest

References

http://www.feat.engineering/greedy-simple-filters.html

Efron B (1983). Estimating the Error Rate of a Prediction Rule: Improvement on Cross–Validation. Journal of the American Statistical Association, pp. 316–331.

Efron B, Tibshirani R (1986). Bootstrap Methods for Standard Errors, Confidence Intervals, and Other Measures of Statistical Accuracy. Statistical Science, pp. 54–75.

Efron B, Tibshirani R (1997). Improvements on Cross–Validation: The 632+ Bootstrap Method. Journal of the American Statistical Association, 92(438), 548–560.

Molinaro A (2005). Prediction Error Estimation: A Comparison of Resampling Methods. Bioinformatics, 21(15), 3301–3307.

James, G., Witten, D., Hastie, T., & Tibshirani, R. (2013). An introduction to statistical learning. New York: Springer.

Kim JH (2009). Estimating Classification Error Rate: Repeated Cross– Validation, Repeated Hold–Out and Bootstrap. Computational Statistics & Data Analysis, 53(11), 3735–3745.

