Motivation

Cuộc thi Zillow’s Home Value Prediction có tổng giải thưởng lên đến $1,200,000. Bộ dữ liệu này ngay cả khi đã nén có dung lượng 1.37 GB. Để test khả năng dự báo của các mô hình khác nhau chúng ta có thể sử dụng bộ dữ liệu bé hơn và đơn giản hơn là Boston Housing Dataset trước khi “chơi” với bộ dữ liệu siêu lớn của cuộc thi.

Trước hết load và xử lí qua data:

# Clear R environment: 

rm(list = ls())

# Load data: 

read.table("https://raw.githubusercontent.com/rupakc/UCI-Data-Analysis/master/Boston%20Housing%20Dataset/Boston%20Housing/housing.data", header = FALSE) -> bostonData


# Load some R packages: 

library(dplyr) # R package for data wrangling. 
library(viridis)
library(ggpmisc)
library(ggplot2)
library(caret) # For training ML models. 
library(caretEnsemble) # For training and comparing ML models. 

# Rename for all features (https://search.r-project.org/CRAN/refmans/A3/html/housing.html): 

names(bostonData) <- c("CRIM", "ZN", "INDUS", "CHAS", "NOX", "RM", "AGE", "DIS", 
                       "RAD", "TAX", "PTRATIO", "B", "LSTAT", "MEDV")

Experimental Design

Để đánh giá và so sánh khả năng dự báo, 12 mô hình Machine Learning (ML) khác nhau được chọn để thử nghiệm. Bộ dữ liệu ban đầu được chia thành tỉ lệ 80 - 20 trong đó 80% dữ liệu là training + validation, 20% còn lại là test data để đánh giá ngược lại khả năng dự báo của 12 mô hình ML khác nhau. Dưới đây là R codes:

# Select some ML models for predicting housing price: 

my_models <- c("lm", 
               "knn", 
               "bam", 
               "gam", 
               "treebag",
               "gbm",
               "rf", 
               "ranger", 
               "ridge", 
               "glmStepAIC", 
               "gamSpline",
               "xgbLinear")
# Split data: 

n_total <- nrow(bostonData)

set.seed(29)

id <- sample(1:n_total, size = 0.8*n_total, replace = FALSE)

dfTrain <- bostonData[id, ] # 80% for training.  

dfTest <- bostonData[-id, ] # 20% for evaluating and comparing ML models.

Sử dụng K-fold Cross-Validation với K = 4, lặp lại 10 lần để đánh giá và so sánh khả năng dự báo của 12 mô hình ML khác nhau căn cứ vào tiêu chuẩn R-Squared. Dưới đây là R codes:

# Define configuration for training and comparing ML models: 

set.seed(29)
number <- 4
repeats <- 10
control <- trainControl(method = "repeatedcv", 
                        number = number , 
                        repeats = repeats, 
                        savePredictions = "final", 
                        index = createResample(dfTrain$MEDV, repeats*number),
                        allowParallel = TRUE)


# Train these ML Models: 

set.seed(1)
system.time(model_list1 <- caretList(MEDV ~., 
                                     data = dfTrain,
                                     trControl = control,
                                     metric = "Rsquared",
                                     methodList = my_models))

# Extract results for comparing among ML models: 

list_of_results <- lapply(my_models, function(x) {model_list1[[x]]$resample})

total_df <- do.call("bind_rows", list_of_results)

total_df %>% mutate(Model = lapply(my_models, function(x) {rep(x, number*repeats)}) %>% unlist()) -> total_df

Empirical Results

Random Forest là mô hình có khả năng dự báo chính xác nhất với trung bình R-Squared (trên 40 mẫu dữ liệu validation) là 85.9% (Table 1). Với mô hình hồi quy tuyến tính cổ điển thì con số này là 70.4%. Dưới đây là R codes:

total_df %>% 
  group_by(Model) %>% 
  summarise(avg.R2 = mean(Rsquared, na.rm = TRUE), SD = sd(Rsquared, na.rm = TRUE), MIN = min(Rsquared, na.rm = TRUE), 
            MAX = max(Rsquared, na.rm = TRUE), MED = median(Rsquared, na.rm = TRUE), 
            N = n()) %>% 
  ungroup() %>% 
  arrange(-avg.R2) %>% 
  mutate_if(is.numeric, function(x) {round(x, 3)}) %>% 
  knitr::kable(caption = "Table 1: Model Performance in decreasing order of R2", 
               col.names = c("Model", "Ave.R2", "StdDev", "Min", "Max", "Med", "N"))
Table 1: Model Performance in decreasing order of R2
Model Ave.R2 StdDev Min Max Med N
ranger 0.859 0.039 0.723 0.917 0.865 40
rf 0.856 0.041 0.714 0.897 0.869 40
gbm 0.832 0.037 0.733 0.891 0.834 40
xgbLinear 0.826 0.055 0.684 0.906 0.845 40
gamSpline 0.813 0.033 0.697 0.865 0.818 40
treebag 0.788 0.055 0.608 0.867 0.799 40
bam 0.783 0.057 0.620 0.856 0.799 40
gam 0.782 0.058 0.627 0.856 0.798 40
ridge 0.705 0.049 0.570 0.785 0.711 40
lm 0.704 0.044 0.588 0.786 0.709 40
glmStepAIC 0.703 0.046 0.579 0.789 0.707 40
knn 0.392 0.090 0.173 0.620 0.388 40

Sử dụng 12 mô hình ML đã có để thực hiện dự báo trên test data. Dưới đây là R codes:

# Funtion predicts house price on test data for a selected ML model: 

pred_fun <- function(x) {
  
  sp_model <- model_list1[[my_models[x]]]
  
  predict(sp_model, dfTest) -> predi
  
  data.frame(predicted = predi, actual = dfTest$MEDV, Model = my_models[x]) -> finalDF
  
  return(finalDF)
  
  
}


# Use the function and extract results: 

lapply(1:length(my_models), pred_fun) -> list_predictions

do.call("bind_rows", list_predictions) -> df_predictions_on_testData

Trên test data, Random Forest có R-squared là 91% và đây là mô hình dự báo chính xác nhất trong số 12 thuật toán ML (Figure 1). Kết quả này là nhất quán với trend đã được chỉ ra trong Table 1 ở trên. Dưới đây là R codes:

# Rank model performance: 

spaceDF <- data.frame()

for (model in my_models) {
  
  df_predictions_on_testData %>% 
    filter(Model == model) %>% 
    select(-Model) %>% 
    cor() %>% 
    as.data.frame() %>% 
    .[1, 2] -> myCorr
  
  data.frame(myRsquared = myCorr^2, Model = model) -> df_i
  
  bind_rows(df_i, spaceDF) -> spaceDF
  
}


spaceDF %>% 
  arrange(-myRsquared) %>% 
  pull(Model) -> modelsOrdered

# Visualize predicted values and actuals: 

df_predictions_on_testData %>% 
  mutate(Model = factor(Model, levels = modelsOrdered)) %>% 
  ggplot(aes(actual, predicted, color = predicted)) + 
  geom_point(alpha = 0.25) + 
  facet_wrap(~ Model) + 
  stat_smooth(method = "lm", formula = y ~ x, geom = "smooth", 
              color = "red", size = 0.4) + 
  theme(legend.position = "top") + 
  stat_poly_eq() + 
  scale_color_viridis(direction = -1, 
                      option = "D", 
                      name = "Price", 
                      guide = guide_colourbar(direction = "horizontal",
                                              barheight = unit(2, units = "mm"),
                                              barwidth = unit(35, units = "mm"),
                                              title.hjust = 0.5,
                                              label.hjust = 0.5, 
                                              title.position = "top")) + 
  labs(x = "Actual", y = "Predicted", 
       title = "Figure 1: Actual and Predicted by ML Models on Test Data", 
       caption = "Source: https://archive.ics.uci.edu/datasets")

Summary

Thử nghiệm 12 thuật toán cho dự báo giá nhà ở với bộ số liệu Boston Housing Dataset cho thấy Random Forest là nhóm mô hình ML có khả năng dự báo chính xác nhất. Việc thử nghiệm 12 thuật toán ML này trên bộ dữ liệu này có thể cung cấp một vài insights và gợi ý để đề ra phương án phù hợp cho cuộc thi Zillow’s Home Value Prediction.

