1 Giới thiệu

Trong năm 2017, ta có thể chứng kiến một phong trào sôi nổi liên quan đến đề tài “Diễn giải nội dung của các mô hình Statistical learning” trong cộng đồng R. Hàng loạt package mới được phát triển nhằm diễn giải cho từng algorithm chuyên biệt như hồi quy tuyến tính (GLM), Random Forest (RF) và Extreme Gradient boosting (XGB). Do phương pháp Statistical learning (tức Machine learning) ngày càng phổ biến trong nghiên cứu y học, nhu cầu diễn giải các mô hình Machine learning trở thành nhu cầu thiết yếu. Do đó, Nhi sẽ lần lượt chuyển đến các bạ hướng dẫn sử dụng những packages mới này. Bài đầu tiên này sẽ là package « randomForestExplainer » , chuyên dụng cho mô hình Random Forest.

Đây là một package vừa được công bố vào cuối tháng 7 năm 2017 bởi tác giả Aleksandra Paluszyńska. Công dụng của package này cho phép khảo sát nội dung bên trong một mô hình Random Forest.

Như chúng ta biết, Random Forest là một tập hợp mô hình (ensemble). Mô hình Random Forest rất hiệu quả cho các bài toán phân loại vì nó huy động cùng lúc hàng trăm mô hình nhỏ hơn bên trong với quy luật khác nhau để đưa ra quyết định cuối cùng. Mỗi mô hình con có thể mạnh yếu khác nhau, nhưng theo nguyên tắc « wisdom of the crowd », ta sẽ có cơ hội phân loại chính xác hơn so với khi sử dụng bất kì một mô hình đơn lẻ nào.

Như tên gọi của nó, Random Forest (RF) dựa trên cơ sở :

  1. Random = Tính ngẫu nhiên ;

  2. Forest = nhiều cây quyết định (decision tree).

Đơn vị của RF là thuật toán cây quyết định, với số lượng hàng trăm. Mỗi cây quyết định được tạo ra một cách ngẫu nhiên từ việc : Tái chọn mẫu (bootstrap, random sampling) và chỉ dùng một phần nhỏ tập biến ngẫu nhiên (random features) từ toàn bộ các biến trong dữ liệu. Ở trạng thái sau cùng, mô hình RF thường hoạt động rất chính xác, nhưng đổi lại, ta không thể nào hiểu được cơ chế hoạt động bên trong mô hình vì cấu trúc quá phức tạp. RF do đó là một trong số những mô hình hộp đen (black box).

Trong quá khứ, chúng ta thường chấp nhận đánh đổi tính tường minh để đạt được tính chính xác. Từ mô hình Random Forest, chúng ta chỉ có thể làm một số khảo sát hạn chế, bao gồm vai trò tương đối của các biến (features) và vẽ các biểu đồ 2 chiều thể hiện ranh giới các vùng phân loại. Tuy nhiên, như Nhi đã giải thích trong bài về package Lime, nghiên cứu y học có yêu cầu cao hơn về khả năng diễn giải nội dung và cấu trúc mô hình.

2 Thí dụ minh họa:

Trong bài, Nhi sẽ minh họa bằng một mô hình RF với mục tiêu phân loại khối U lành tính/ác tính dựa vào 9 biến là các chỉ số tế bào học (dataset Biopsy).Dataset này đã được sử dụng nhiều lần trong các bài thực hành trước kia của project Machine learning applied to Medicine.

Đầu tiên, ta chuẩn bị một số theme ggplot2 để vẽ biểu đồ và tải data vào R, sau đó Nhi chia ngẫu nhiên dữ liệu gốc thành 2 tập: Trainset dùng để xây dựng model RF (638 cases) và Testset (100 cases) dùng kiểm định model.

library(tidyverse)

my_theme <- function(base_size =5, base_family = "sans"){
  theme_bw(base_size = base_size, base_family = base_family) +
    theme(
      panel.grid.major = element_line(color = "gray"),
      panel.grid.minor = element_blank(),
      panel.background = element_rect(fill = NA),
      strip.background = element_rect(fill = "#001d60", color = "#00113a", size =0.5),
      strip.text = element_text(face = "bold", size = 5, color = "white"),
      legend.position = "bottom",
      legend.justification = "center",
      legend.background = element_blank()
    )
}


theme_set(my_theme())


theme_bare <- function(base_size=8,base_family="sans"){theme_bw(base_size = base_size, base_family = base_family)+
    theme(
      axis.line = element_blank(), 
      axis.text.x = element_blank(), 
      axis.text.y = element_blank(),
      axis.ticks = element_blank(), 
      axis.title.x = element_blank(), 
      axis.title.y = element_blank(), 
      legend.position = "bottom", 
      panel.background = element_rect(fill = NA), 
      panel.border = element_blank(), 
      panel.grid.major = element_blank(), 
      panel.grid.minor = element_blank(), 
      plot.margin = unit(c(0,0,0,0), "lines")
    )
}
df=read.csv("http://vincentarelbundock.github.io/Rdatasets/csv/MASS/biopsy.csv")%>%as_tibble()%>%.[,c(3:12)]%>%na.omit()

names(df)=c("clumpthickness",
            "SizeUniformity",
            "ShapeUniformity",
            "Margin_adhesion",
            "EpiCellSize",
            "Barenuclei",
            "BlandChromatin",
            "NormalNucleoli",
            "Mitoses",
            "Class"
)

library(caret)

set.seed(1234)
idtest=caret::createDataPartition(y=df$Class, p=99/683,list=FALSE)

trainset=df[-idtest,]
testset=df[idtest,]

3 Dựng model Random Forest

Ta sẽ dựng model bằng package randomForerst, với đặc tính mô hình như sau: Tổng số cây = 500, mỗi cây sẽ dùng ngẫu nhiên 3/9 biến, chế độ tái chọn mẫu có replace. Lưu ý: tùy chỉnh localImp phải được chuyển sang “TRUE” để có thể thực hiện các phép tính liên quan đến variable importance sau này.

Nguyên nhân của việc tạo ra một rừng cây lớn như vậy, vì ta muốn phân biệt những nhóm biến số quan trọng và tương tác có thể giữa chúng.

Mô hình được tạo ra khá nhanh chóng: Khi kiểm định mô hình trên chính tập Trainset: độ chính xác của nó rất cao, với tỉ lệ sai lầm chỉ có 2.6% cho U lành tính và 3.9% cho U ác tính.

Khi kiểm tra lại trên dữ liệu độc lập (Testset), mô hình đạt độ chính xác rất cao với BAC=95.6%, Fscore=94.3%.

library(randomForest)

rfmod=randomForest(Class~.,
                   data=trainset,
                   ntree=500,
                   mtry=sqrt(9),
                   replace=TRUE,
                   localImp=TRUE
                   )

rfmod
## 
## Call:
##  randomForest(formula = Class ~ ., data = trainset, ntree = 500,      mtry = sqrt(9), replace = TRUE, localImp = TRUE) 
##                Type of random forest: classification
##                      Number of trees: 500
## No. of variables tried at each split: 3
## 
##         OOB estimate of  error rate: 3.09%
## Confusion matrix:
##           benign malignant class.error
## benign       370         9  0.02374670
## malignant      9       195  0.04411765
testpred=predict(rfmod,testset)

confusionMatrix(as.vector(testpred),
                reference=testset$Class,
                positive ="malignant",
                mode="everything")
## Confusion Matrix and Statistics
## 
##            Reference
## Prediction  benign malignant
##   benign        63         2
##   malignant      2        33
##                                          
##                Accuracy : 0.96           
##                  95% CI : (0.9007, 0.989)
##     No Information Rate : 0.65           
##     P-Value [Acc > NIR] : 6.97e-14       
##                                          
##                   Kappa : 0.9121         
##  Mcnemar's Test P-Value : 1              
##                                          
##             Sensitivity : 0.9429         
##             Specificity : 0.9692         
##          Pos Pred Value : 0.9429         
##          Neg Pred Value : 0.9692         
##               Precision : 0.9429         
##                  Recall : 0.9429         
##                      F1 : 0.9429         
##              Prevalence : 0.3500         
##          Detection Rate : 0.3300         
##    Detection Prevalence : 0.3500         
##       Balanced Accuracy : 0.9560         
##                                          
##        'Positive' Class : malignant      
## 

Sau đây là sự dao động của độ chính xác mô hình khi tăng kích thước từ 0 đến 500 cây. Mô hình bắt đầu ổn định kể từ 300 cây trở lên:

# Learning curve

plot(rfmod, 
     main = "RF Learning curve")
legend("topright", 
       c("error for 'malignant class'", 
         "misclassification error", 
         "error for 'benign class'"), 
       lty = c(1,1,1), 
       col = c("green", "black", "red"))

Package caret cho phép khảo sát vai trò của từng biến trong mô hình (variable Importance), như sau:

varImpPlot(rfmod)

varImp(rfmod)%>%as.data.frame()%>%
  mutate(Feature=rownames(.))%>%
  gather(benign,malignant,key="Label",value="Importance")%>%
  mutate(Importance=100*Importance/max(.$Importance))%>%
  ggplot(aes(x=reorder(Feature,Importance),
             y=Importance,
             fill=Importance,
             color=Importance))+
  geom_segment(aes(x=reorder(Feature,Importance),
               xend=Feature,
               y=0,
               yend=Importance),
               size=1,
               show.legend = F)+
  geom_point(size=2,show.legend = F)+
  scale_x_discrete("Features")+
  coord_flip()+
  scale_fill_gradient(low="blue",high="red")+
  scale_color_gradient(low="blue",high="red")+
  geom_text(aes(label = round(Importance,1)),
            vjust=-0.5,size=3)+
  facet_wrap(~Label,ncol=2,scales="free")+
  theme_bw(base_family = "mono",8)

Một biến số tốt (có vai trò quan trọng, đóng góp đáng kể vào việc phân loại) sẽ có tần suất hiện diện cao hơn trong mô hình (xuất hiện trong những cây tốt nhất, và tương ứng với nhiều nodes).Biểu đồ trên cho thấy: Biến Barenuclei là quan trọng nhất, còn biến Mitoses ít quan trọng nhất. Tuy nhiên đây là việc duy nhất ta có thể làm trước kia.

4 Package randomForestExplainer

4.1 Vai trò của biến trong mô hình

Package randomForestExplainer cho phép khảo sát sâu hơn về vai trò của từng biến trong mô hình RF. Đầu tiên là kết quả định danh, ta có thể lọc ra danh sách K biến quan trọng nhất đã tham gia vào mô hình:

library(randomForestExplainer)

# 5 most Imp var

rfmod%>%
  important_variables(k=5,ties_action = "draw")
## [1] "Barenuclei"      "ShapeUniformity" "SizeUniformity"  "clumpthickness" 
## [5] "NormalNucleoli"

Thí dụ, k=5 tương ứng 5 biến quan trọng nhất, theo thứ tự từ Trái sang phải. Kết quả này có thể rất quan trọng, nếu bạn có trong tay đến hàng ngàn, thậm chí hàng trăm ngàn biến chứ không phải chỉ có 9. Như vậy, Mô hình Random Forest cũng là một giải pháp nhằm chọn lọc biến số cho bài toán phân loại, bất kể algorithm mà bạn muốn áp dụng sau đó là gì. Với tốc độ nhanh thế này, bạn hoàn toàn có thể dùng RF để thăm dò dữ liệu và chọn lọc biến số.

Hơn thế nữa, package randomForestExplainer còn cung cấp cho chúng ta đến 6 chỉ số thống kê để đo lường vai trò quan trọng của từng biến, như sau:

  1. Minimal depth.

Chiều sâu của cây quyết định là kích thước của con đường dài nhất từ rễ cây (biến số đầu tiên) đến lá cây (một kết quả phân loại, sau nhiều lần phân nhánh). Tree depth thể hiện mức độ phức tạp của cấu trúc mô hình.

Mỗi biến Xj nếu hiện diện trong một cây, sẽ có một giá trị minimal depth xác định, là một số nguyên dương (thí dụ từ 0 đến 7). Nếu Xj không hiện diện, thì giá trị này được tính là missing value (NA). Như vậy trong mô hình RF với 500 cây, phân bố của giá trị Min_depth cho mỗi biến số có thể cung cấp thông tin về : tần suất hiện diện của biến số đó, sự phức tạp của quy luật mà biến đó tham gia (min_depth cao). Đây là phân bố của một số nguyên dương, và ta có thể tính giá trị trung bình (mean of min_depth) cho từng biến.

Lưu ý : Khi chọn chế độ lấy mẫu là « relevant trees », giá trị trung bình chỉ tính dựa trên số lượng cây mà biến đó có tham gia, không kể các missing value.

  1. Accuracy decrease của một biến Xj đo lường sự sụt giảm độ chính xác của mô hình cây khi Xj bị hoán chuyển. Một cách gián tiếp, chỉ số này cho thấy mức độ quan trọng của biến Xj trong mô hình.

  2. Gini decrease của biến Xj đo lường sự suy giảm trung bình của Gini impurity tại mỗi node tương ứng với những lần phân chia dựa vào biến Xj này. Có thể hình dung là Gini decrease cho thấy ảnh hưởng quan trọng của Xj đối với quy luật phân nhóm dữ liệu, làm giảm xác suất phạm sai lầm khi dán nhãn cho các trường hợp.

  3. No_of_trees : đơn giản là tổng số cây có hiện diện biến Xj. Sự hiện diện của Xj trong nhiều cây cho thấy Xj là một tiêu chí quan trọng.

  4. No of nodes : tổng số node (nút phân nhánh) có liên quan đến Xj trong mô hình RF, ý nghĩa của chỉ số này tương tự như no_of_trees. Time_a_root : tổng số cây mà trong đó biến Xj được sử dụng ngay từ rễ (lần phân nhánh đầu tiên trong mô hình cây dựa vào Xj).

P_value : trị số p (1 bên) của kiểm định binomial dựa trên phân phối Binomial (tổng số nodes, P(số nodes do phân chia Xj)). Giả thuyết H0 của kiểm định này cho rằng việc Xj tham gia phân nhánh chỉ là do ngẫu nhiên. Đặt ngưỡng ý nghĩa cho p=0.05, ta có thể bác bỏ giả thuyết H0 này và tin rằng Xj thực sự có vai trò quan trọng.

Từ dataframe chứa những chỉ số kể trên, ta có thể trình bày kết quả dưới nhiều hình thức biểu đồ. Với mục tiêu mỹ thuật, Nhi quyết định vẽ lại nhiều biểu đồ hoàn toàn thủ công trong ggplot2, tuy nhiên bạn cũng có thể dùng những function plots mặc định của package:

Đầu tiên là bargraph cho giá trị trung bình:

rfmod%>%measure_importance(mean_sample = "relevant_trees")%>%
  as_tibble()->vimpdf

vimpdf%>%head()
## # A tibble: 6 x 8
##          variable mean_min_depth no_of_nodes accuracy_decrease
##            <fctr>          <dbl>       <dbl>             <dbl>
## 1      Barenuclei       1.516064        1899        0.11340121
## 2  BlandChromatin       2.372141        1168        0.01656099
## 3  clumpthickness       2.491736        1497        0.03474579
## 4     EpiCellSize       2.808602        1226        0.01801668
## 5 Margin_adhesion       2.903846        1231        0.01667767
## 6         Mitoses       3.737342         448        0.00373172
## # ... with 4 more variables: gini_decrease <dbl>, no_of_trees <dbl>,
## #   times_a_root <dbl>, p_value <dbl>
vimpdf%>%gather(mean_min_depth:p_value,
                key="Metric",
                value="Value")%>%
  ggplot(aes(x=reorder(variable,Value),
             y=Value,
             fill=Metric,
             color=Metric))+
  geom_segment(aes(x=reorder(variable,Value),
                   xend=variable,
                   y=0,
                   yend=Value),
               size=1,
               show.legend = F)+
  geom_point(size=2,show.legend = F)+
  scale_x_discrete("Features")+
  coord_flip()+
  facet_wrap(~Metric,ncol=4,scales="free")+
  theme_bw(base_family = "mono",8)

Tương quan phi tham số (thứ hạng):

Biểu đồ này cung cấp cả 3 thông tin: Đặc tính phân bố của mỗi chỉ số sau khi được xếp hạng (trừ p value), hệ số tương quan Spearman bắt cặp giữa chúng, và scatter dot plot của thứ hạng.

plot_importance_rankings(vimpdf)

Tương quan tuyến tính giữa các chỉ số:

Biểu đồ này cung cấp cả 3 thông tin: Đặc tính phân bố của mỗi chỉ số (trừ p value), hệ số tương quan Pearson bắt cặp giữa chúng, và scatter dot plot. Mỗi điểm trong biểu đồ tương ứng với 1 biến.

plot_importance_ggpairs(vimpdf)

Đây là biểu đồ tương tự do Nhi vẽ thủ công dựa vào dataset:

#Correlation matrix

library(GGally)

plotfuncLow <- function(data,mapping){
  p <- ggplot(data = data,mapping=mapping)+
    geom_point(aes(fill=rownames(data),
                   color=rownames(data)),
               shape=21,size=2,
               alpha=0.8,
               show.legend = F)+
    geom_line(aes(color=rownames(data),
                  group=1))+
    theme_bw(base_family = "mono",6)
  p
}

plotfuncmid <- function(data,mapping){
  p <- ggplot(data = data,mapping=mapping)+
    geom_histogram(aes(fill=rownames(data),
                   color=rownames(data)),
                   alpha=0.5)+
    theme_bw(base_family = "mono",6)
  p
}

ggpairs(vimpdf,columns=2:8,
        lower=list(continuous=plotfuncLow),
        diag=list(continuous=plotfuncmid))

Riêng chỉ số Minimal depth distribution có thể được trình bày bằng hình vẽ sau:

#Minimal depth distribution

mindepthdf=rfmod%>%min_depth_distribution()%>%as_tibble()

mindepthdf%>%ggplot(aes(x=minimal_depth,
                        fill=variable,
                        col=variable))+
  geom_histogram(alpha=0.5)+
  facet_wrap(~variable,ncol=3,scales="free")+
  my_theme()

rfmod%>%min_depth_distribution()%>%
  plot_min_depth_distribution(mean_sample="all_trees")+
  scale_fill_brewer(palette="Spectral",direction = -1)

5 Tương tác giữa 2 biến trong mô hình RF

Không chỉ đo lường vai trò của từng biến riêng lẻ, package này còn cho phép chúng ta khảo sát về tương tác giữa 2 biến. Sự tương tác xảy ra khi 2 biến cùng hiện diện trong một mô hình cây và tham gia vào sự phân nhánh ở các nodes.

Biểu đồ sau đây trình bày mean minimal depth tính cho 30 cặp tương tác nổi bật nhất:

# Interactions

mindpint=min_depth_interactions(rfmod,mean_sample = "relevant_trees", 
                       uncond_mean_sample = "relevant_trees")

library(viridis)

mindpint%>%
  plot_min_depth_interactions()+
  scale_fill_viridis("A")

Khi quan sát nội dung của dataframe kết quả phân tích tương tác biến, Nhi nhận thấy nó có dạng 1 network, tức là ta còn có thể trình bày mạng lưới tương tác giữa các biến bằng một biểu đồ mạng (network graph). Để làm việc này, Nhi kết hợp package igraph và package ggraph với nhau.

Đầu tiên ta lọc bỏ những cặp tương tác nào có tần số xuất hiện < 180 lần sau đó ta chuyển toàn bộ gdp dataframe thành 1 network, sau đó dùng ggraph để mã hóa màu sắc cho các liên kết theo tần suất hiện diện, màu xanh kém hơn màu đỏ.

Kết quả cuối cùng là một network như trong hình:

mindpint%>%head()
##     variable   root_variable mean_min_depth occurrences
## 1 Barenuclei      Barenuclei      1.7570423         284
## 2 Barenuclei  BlandChromatin      1.1019608         255
## 3 Barenuclei  clumpthickness      0.9392713         247
## 4 Barenuclei     EpiCellSize      0.8316832         202
## 5 Barenuclei Margin_adhesion      1.0909091         209
## 6 Barenuclei         Mitoses      0.9252336         107
##                  interaction uncond_mean_min_depth
## 1      Barenuclei:Barenuclei              1.516064
## 2  BlandChromatin:Barenuclei              1.516064
## 3  clumpthickness:Barenuclei              1.516064
## 4     EpiCellSize:Barenuclei              1.516064
## 5 Margin_adhesion:Barenuclei              1.516064
## 6         Mitoses:Barenuclei              1.516064
library(igraph)
library(ggraph)

gdf=filter(mindpint,
           occurrences>=180)

graph<-graph_from_data_frame(gdf[,c(1:3,4,6)])


ggraph(graph,
       layout = 'kk',
       circular=F)+
  geom_edge_link(aes(colour = occurrences),
                show.legend = T,width=1,alpha=0.7)+
  geom_node_label(aes(label = name))+
  coord_fixed()+
  scale_edge_color_gradient(high="#ff003f",low="#0094ff")+
  scale_edge_width_continuous()+
  theme_bare()

Network này cho chúng ta biết 3 thông tin: Mức độ tương tác của các biến trong mô hình : Những biến có tương tác chặt chẽ sẽ gom lại gần nhau thành một cụm và liên kết có màu đỏ, Biến Barenuclei nằm ở trung tâm được xem là quan trọng nhất, biến Mitose chỉ có tương tác với Size Uniformity và ít quan trọng nhất. Nhắc lại: Một trong những lợi thế của mô hình cây quyết định đó là nó cho phép mô hình hóa những quan hệ tương tác phức tạp giữa nhiều biến, thậm chí vượt ra ngoài tầm hiểu biết của người dựng mô hình; tiếp theo - đó là khả năng lọc bỏ tự động những biến không có vai trò quan trọng đối với mục tiêu mà ta cần nhắm tới. Do đó, khi 2 hay 3 biến đồng thời xuất hiện lặp đi lặp lại trong nhiều mô hình cây là một dấu hiệu cho thấy: 1) Chúng quan trọng, 2) Chúng có liên hệ với nhau.

Như vậy, chúng ta có thể áp dụng hình thức này như một giải pháp thay thế cho correlation matrix trong một mô hình tiên lượng hồi quy và phân loại, biểu đồ network trên đây đưa ra bức tranh toàn cảnh về liên hệ giữa các biến số quan trọng nhất cùng hướng tới một mục tiêu xác định.

6 Multiway importance plot

Ở trên, ta đã thử trình bày tương quan bắt cặp giữa 2 chỉ số đo lường độ quan trọng của các biến, dạng biểu đồ sau đây cho phép trình bày nhiều thông tin cùng lúc trên một biểu đồ 2 chiều: tương quan giữa 2 chỉ số bất kì, phân phối của chúng, và p_value của binomial test.

# Multiway Importance

plot_multi_way_importance(rfmod,
                          x_measure = "mean_min_depth",
                            y_measure = "times_a_root",
                           size_measure = "no_of_nodes",
                          min_no_of_trees = 20
                          )

plot_multi_way_importance(vimpdf, 
                          x_measure = "no_of_nodes", 
                          y_measure = "no_of_nodes", 
                          size_measure = "p_value",
                          min_no_of_trees = 20)

plot_multi_way_importance(vimpdf, 
                          x_measure = "accuracy_decrease", 
                          y_measure = "gini_decrease", 
                          size_measure = "p_value",
                          min_no_of_trees = 20)

plot_multi_way_importance(vimpdf, 
                          x_measure = "mean_min_depth", 
                          y_measure = "gini_decrease", 
                          size_measure = "p_value",
                          min_no_of_trees = 20)

7 Prediction interaction plot

Cuối cùng, package này cho phép vẽ một biểu đồ dạng heatmap, thể hiện phân bố kết quả của mô hình Random Forest tương ứng với sự tổ hợp của 2 giá trị bất kì trên thang đo của 2 biến số tùy chọn.

rfmod%>%plot_predict_interaction(testset, 
                         "Barenuclei", 
                         "ShapeUniformity",30)+scale_fill_viridis(option="A")+coord_equal()

rfmod%>%plot_predict_interaction(testset, 
                                 "clumpthickness", 
                                 "SizeUniformity",30)+scale_fill_viridis(option="A")+coord_equal()

Lưu ý: Màu sắc trên biểu đồ tương ứng với xác suất phân loại U ác tính (0 đến 1), và kết quả này là của mô hình gồm 9 biến chứ không chỉ giới hạn ở 2 biến mà ta đang xét.

8 Tổng kết

Bài thực hành đến đây là kết thúc. Trong bài này Nhi đã giới thiệu với các bạn tất cả những tính năng mà package randomForestExplainer cung cấp. Những tính năng này đã mở rộng đáng kể khả năng khảo sát cấu trúc của một mô hình Random Forest. Các phương pháp mà package này sử dụng bám sát vào các nguyên lý của mô hình cây (decision tree) và cung cấp thông tin phong phú về: vai trò của mỗi biến số và sự tương tác giữa chúng. Những chỉ số định lượng trong phân tích này có giá trị tương đương với hệ số hồi quy và p_value của kiểm định t trong một mô hình tuyến tính tổng quát.Ngoài công dụng diễn giải cấu trúc mô hình, những phương pháp này còn có thể được sử dụng cho việc thăm dò dữ liệu, lựa chọn biến số,ngay cả khi Random forest không phải là algorithm mà bạn muốn áp dụng cho bài toán của mình.

Trong bài tiếp theo, một thành viên khác của nhóm sẽ giới thiệu với các bạn cách diễn giải một black box khác là Extreme gradient boosting (XGBM).

Tạm biệt các bạn và hẹn gặp lại.

---
title: "Diễn giải blackbox model" 
subtitle: "Phần 1: Random Forest"
author: "Lê Ngọc Khả Nhi"
date: "15 Tháng 12 2017"
output:
  html_document: 
    code_download: true
    code_folding: hide
    number_sections: yes
    theme: "default"
    toc: TRUE
    toc_float: TRUE
---

```{r setup,include=FALSE}
knitr::opts_chunk$set(echo = TRUE)
library(tidyverse)
```

![](RFexplainer.png)

# Giới thiệu

Trong năm 2017, ta có thể chứng kiến một phong trào sôi nổi liên quan đến đề tài "Diễn giải nội dung của các mô hình Statistical learning" trong cộng đồng R. Hàng loạt package mới được phát triển nhằm diễn giải cho từng algorithm chuyên biệt như hồi quy tuyến tính (GLM), Random Forest (RF) và Extreme Gradient boosting (XGB). Do phương pháp Statistical learning (tức Machine learning) ngày càng phổ biến trong nghiên cứu y học, nhu cầu diễn giải các mô hình Machine learning trở thành nhu cầu thiết yếu. Do đó, Nhi sẽ lần lượt chuyển đến các bạ hướng dẫn sử dụng những packages mới này. Bài đầu tiên này sẽ là package « randomForestExplainer » , chuyên dụng cho mô hình Random Forest.

Đây là một package vừa được công bố vào cuối tháng 7 năm 2017 bởi tác giả Aleksandra Paluszyńska. Công dụng của package này cho phép khảo sát nội dung bên trong một mô hình Random Forest.

Như chúng ta biết, Random Forest là một tập hợp mô hình (ensemble). Mô hình Random Forest rất hiệu quả cho các bài toán phân loại vì nó huy động cùng lúc hàng trăm mô hình nhỏ hơn bên trong với quy luật khác nhau để đưa ra quyết định cuối cùng. Mỗi mô hình con có thể mạnh yếu khác nhau, nhưng theo nguyên tắc « wisdom of the crowd », ta sẽ có cơ hội phân loại chính xác hơn so với khi sử dụng bất kì một mô hình đơn lẻ nào. 

Như tên gọi của nó, Random Forest (RF) dựa trên cơ sở :

1) Random = Tính ngẫu nhiên ;

2) Forest = nhiều cây quyết định (decision tree).

Đơn vị của RF là thuật toán cây quyết định, với số lượng hàng trăm. Mỗi cây quyết định được tạo ra một cách ngẫu nhiên từ việc : Tái chọn mẫu (bootstrap, random sampling) và chỉ dùng một phần nhỏ tập biến ngẫu nhiên (random features) từ toàn bộ các biến trong dữ liệu. Ở trạng thái sau cùng, mô hình RF thường hoạt động rất chính xác, nhưng đổi lại, ta không thể nào hiểu được cơ chế hoạt động bên trong mô hình vì cấu trúc quá phức tạp. RF do đó là một trong số những mô hình hộp đen (black box).

![](rand-forest-1.jpg)

Trong quá khứ, chúng ta thường chấp nhận đánh đổi tính tường minh để đạt được tính chính xác. Từ mô hình Random Forest, chúng ta chỉ có thể làm một số khảo sát hạn chế, bao gồm vai trò tương đối của các biến (features) và vẽ các biểu đồ 2 chiều thể hiện ranh giới các vùng phân loại. Tuy nhiên, như Nhi đã giải thích trong bài về package Lime, nghiên cứu y học có yêu cầu cao hơn về khả năng diễn giải nội dung và cấu trúc mô hình. 

# Thí dụ minh họa: 

Trong bài, Nhi sẽ minh họa bằng một mô hình RF với mục tiêu phân loại khối U lành tính/ác tính dựa vào 9 biến là các chỉ số tế bào học (dataset Biopsy).Dataset này đã được sử dụng nhiều lần trong các bài thực hành trước kia của project Machine learning applied to Medicine.

Đầu tiên, ta chuẩn bị một số theme ggplot2 để vẽ biểu đồ và tải data vào R, sau đó Nhi chia ngẫu nhiên dữ liệu gốc thành 2 tập: Trainset dùng để xây dựng model RF (638 cases) và Testset (100 cases) dùng kiểm định model.

```{r,message = FALSE,warning=FALSE}
library(tidyverse)

my_theme <- function(base_size =5, base_family = "sans"){
  theme_bw(base_size = base_size, base_family = base_family) +
    theme(
      panel.grid.major = element_line(color = "gray"),
      panel.grid.minor = element_blank(),
      panel.background = element_rect(fill = NA),
      strip.background = element_rect(fill = "#001d60", color = "#00113a", size =0.5),
      strip.text = element_text(face = "bold", size = 5, color = "white"),
      legend.position = "bottom",
      legend.justification = "center",
      legend.background = element_blank()
    )
}


theme_set(my_theme())


theme_bare <- function(base_size=8,base_family="sans"){theme_bw(base_size = base_size, base_family = base_family)+
    theme(
      axis.line = element_blank(), 
      axis.text.x = element_blank(), 
      axis.text.y = element_blank(),
      axis.ticks = element_blank(), 
      axis.title.x = element_blank(), 
      axis.title.y = element_blank(), 
      legend.position = "bottom", 
      panel.background = element_rect(fill = NA), 
      panel.border = element_blank(), 
      panel.grid.major = element_blank(), 
      panel.grid.minor = element_blank(), 
      plot.margin = unit(c(0,0,0,0), "lines")
    )
}

```

```{r,message = FALSE,warning=FALSE}
df=read.csv("http://vincentarelbundock.github.io/Rdatasets/csv/MASS/biopsy.csv")%>%as_tibble()%>%.[,c(3:12)]%>%na.omit()

names(df)=c("clumpthickness",
            "SizeUniformity",
            "ShapeUniformity",
            "Margin_adhesion",
            "EpiCellSize",
            "Barenuclei",
            "BlandChromatin",
            "NormalNucleoli",
            "Mitoses",
            "Class"
)

library(caret)

set.seed(1234)
idtest=caret::createDataPartition(y=df$Class, p=99/683,list=FALSE)

trainset=df[-idtest,]
testset=df[idtest,]
```

# Dựng model Random Forest

Ta sẽ dựng model bằng package randomForerst, với đặc tính mô hình như sau: Tổng số cây = 500, mỗi cây sẽ dùng ngẫu nhiên 3/9 biến, chế độ tái chọn mẫu có replace. Lưu ý: tùy chỉnh localImp phải được chuyển sang "TRUE" để có thể thực hiện các phép tính liên quan đến variable importance sau này.

Nguyên nhân của việc tạo ra một rừng cây lớn như vậy, vì ta muốn phân biệt những nhóm biến số quan trọng và tương tác có thể giữa chúng. 

Mô hình được tạo ra khá nhanh chóng: Khi kiểm định mô hình trên chính tập Trainset: độ chính xác của nó rất cao, với tỉ lệ sai lầm chỉ có 2.6% cho U lành tính và 3.9% cho U ác tính.

Khi kiểm tra lại trên dữ liệu độc lập (Testset), mô hình đạt độ chính xác rất cao với BAC=95.6%, Fscore=94.3%.

```{r,message = FALSE,warning=FALSE}
library(randomForest)

rfmod=randomForest(Class~.,
                   data=trainset,
                   ntree=500,
                   mtry=sqrt(9),
                   replace=TRUE,
                   localImp=TRUE
                   )

rfmod

testpred=predict(rfmod,testset)

confusionMatrix(as.vector(testpred),
                reference=testset$Class,
                positive ="malignant",
                mode="everything")
```

Sau đây là sự dao động của độ chính xác mô hình khi tăng kích thước từ 0 đến 500 cây. Mô hình bắt đầu ổn định kể từ 300 cây trở lên:

```{r,message = FALSE,warning=FALSE}
# Learning curve

plot(rfmod, 
     main = "RF Learning curve")
legend("topright", 
       c("error for 'malignant class'", 
         "misclassification error", 
         "error for 'benign class'"), 
       lty = c(1,1,1), 
       col = c("green", "black", "red"))
```

Package caret cho phép khảo sát vai trò của từng biến trong mô hình (variable Importance), như sau:

```{r,message = FALSE,warning=FALSE}
varImpPlot(rfmod)

varImp(rfmod)%>%as.data.frame()%>%
  mutate(Feature=rownames(.))%>%
  gather(benign,malignant,key="Label",value="Importance")%>%
  mutate(Importance=100*Importance/max(.$Importance))%>%
  ggplot(aes(x=reorder(Feature,Importance),
             y=Importance,
             fill=Importance,
             color=Importance))+
  geom_segment(aes(x=reorder(Feature,Importance),
               xend=Feature,
               y=0,
               yend=Importance),
               size=1,
               show.legend = F)+
  geom_point(size=2,show.legend = F)+
  scale_x_discrete("Features")+
  coord_flip()+
  scale_fill_gradient(low="blue",high="red")+
  scale_color_gradient(low="blue",high="red")+
  geom_text(aes(label = round(Importance,1)),
            vjust=-0.5,size=3)+
  facet_wrap(~Label,ncol=2,scales="free")+
  theme_bw(base_family = "mono",8)
```

Một biến số tốt (có vai trò quan trọng, đóng góp đáng kể vào việc phân loại) sẽ có tần suất hiện diện cao hơn trong mô hình (xuất hiện trong những cây tốt nhất, và tương ứng với nhiều nodes).Biểu đồ trên cho thấy: Biến Barenuclei là quan trọng nhất, còn biến Mitoses ít quan trọng nhất. Tuy nhiên đây là việc duy nhất ta có thể làm trước kia.

# Package randomForestExplainer

## Vai trò của biến trong mô hình

Package randomForestExplainer cho phép khảo sát sâu hơn về vai trò của từng biến trong mô hình RF. Đầu tiên là kết quả định danh, ta có thể lọc ra danh sách K biến quan trọng nhất đã tham gia vào mô hình:

```{r,message = FALSE,warning=FALSE}
library(randomForestExplainer)

# 5 most Imp var

rfmod%>%
  important_variables(k=5,ties_action = "draw")
```

Thí dụ, k=5 tương ứng 5 biến quan trọng nhất, theo thứ tự từ Trái sang phải. Kết quả này có thể rất quan trọng, nếu bạn có trong tay đến hàng ngàn, thậm chí hàng trăm ngàn biến chứ không phải chỉ có 9. Như vậy, Mô hình Random Forest cũng là một giải pháp nhằm chọn lọc biến số cho bài toán phân loại, bất kể algorithm mà bạn muốn áp dụng sau đó là gì. Với tốc độ nhanh thế này, bạn hoàn toàn có thể dùng RF để thăm dò dữ liệu và chọn lọc biến số.

Hơn thế nữa, package randomForestExplainer còn cung cấp cho chúng ta đến 6 chỉ số thống kê để đo lường vai trò quan trọng của từng biến, như sau:

1) Minimal depth. 

Chiều sâu của cây quyết định là kích thước của con đường dài nhất từ rễ cây (biến số đầu tiên) đến lá cây (một kết quả phân loại, sau nhiều lần phân nhánh). Tree depth thể hiện mức độ phức tạp của cấu trúc mô hình. 

Mỗi biến Xj nếu hiện diện trong một cây, sẽ có một giá trị minimal depth xác định, là một số nguyên dương (thí dụ từ 0 đến 7). Nếu Xj không  hiện diện, thì giá trị này được tính là missing value (NA). Như vậy trong mô hình RF với 500 cây, phân bố của giá trị Min_depth cho mỗi biến số có thể cung cấp thông tin về : tần suất hiện diện của biến số đó, sự phức tạp của quy luật mà biến đó tham gia (min_depth cao). Đây là phân bố của một số nguyên dương, và ta có thể tính giá trị trung bình (mean of min_depth) cho từng biến.

Lưu ý : Khi chọn chế độ lấy mẫu là « relevant trees », giá trị trung bình chỉ tính dựa trên số lượng cây mà biến đó có tham gia, không kể các missing value.

2) Accuracy decrease của một biến Xj đo lường sự sụt giảm độ chính xác của mô hình cây khi Xj bị hoán chuyển. Một cách gián tiếp, chỉ số này cho thấy mức độ quan trọng của biến Xj trong mô hình.

3) Gini decrease của biến Xj đo lường sự suy giảm trung bình của Gini impurity tại mỗi node tương ứng với những lần phân chia dựa vào biến Xj này. Có thể hình dung là Gini decrease cho thấy ảnh hưởng quan trọng của Xj đối với quy luật phân nhóm dữ liệu, làm giảm xác suất phạm sai lầm khi dán nhãn cho các trường hợp. 

4) No_of_trees : đơn giản là tổng số cây có hiện diện biến Xj. Sự hiện diện của Xj trong nhiều cây cho thấy Xj là một tiêu chí quan trọng.

5) No of nodes : tổng số node (nút phân nhánh) có liên quan đến Xj trong mô hình RF, ý nghĩa của chỉ số này tương tự như no_of_trees.
Time_a_root : tổng số cây mà trong đó biến Xj được sử dụng ngay từ rễ (lần phân nhánh đầu tiên trong mô hình cây dựa vào Xj).

P_value : trị số p (1 bên) của kiểm định binomial dựa trên phân phối Binomial (tổng số nodes, P(số nodes do phân chia Xj)). Giả thuyết H0 của kiểm định này cho rằng việc Xj tham gia phân nhánh chỉ là do ngẫu nhiên. Đặt ngưỡng ý nghĩa cho p=0.05, ta có thể bác bỏ giả thuyết H0 này và tin rằng Xj thực sự có vai trò quan trọng.

Từ dataframe chứa những chỉ số kể trên, ta có thể trình bày kết quả dưới nhiều hình thức biểu đồ. Với mục tiêu mỹ thuật, Nhi quyết định vẽ lại nhiều biểu đồ hoàn toàn thủ công trong ggplot2, tuy nhiên bạn cũng có thể dùng những function plots mặc định của package:

Đầu tiên là bargraph cho giá trị trung bình:

```{r,message = FALSE,warning=FALSE}
rfmod%>%measure_importance(mean_sample = "relevant_trees")%>%
  as_tibble()->vimpdf

vimpdf%>%head()

vimpdf%>%gather(mean_min_depth:p_value,
                key="Metric",
                value="Value")%>%
  ggplot(aes(x=reorder(variable,Value),
             y=Value,
             fill=Metric,
             color=Metric))+
  geom_segment(aes(x=reorder(variable,Value),
                   xend=variable,
                   y=0,
                   yend=Value),
               size=1,
               show.legend = F)+
  geom_point(size=2,show.legend = F)+
  scale_x_discrete("Features")+
  coord_flip()+
  facet_wrap(~Metric,ncol=4,scales="free")+
  theme_bw(base_family = "mono",8)
  
```

Tương quan phi tham số (thứ hạng):

Biểu đồ này cung cấp cả 3 thông tin: Đặc tính phân bố của mỗi chỉ số sau khi được xếp hạng (trừ p value), hệ số tương quan Spearman bắt cặp giữa chúng, và scatter dot plot của thứ hạng. 

```{r}
plot_importance_rankings(vimpdf)

```

Tương quan tuyến tính giữa các chỉ số:

Biểu đồ này cung cấp cả 3 thông tin: Đặc tính phân bố của mỗi chỉ số (trừ p value), hệ số tương quan Pearson bắt cặp giữa chúng, và scatter dot plot. Mỗi điểm trong biểu đồ tương ứng với 1 biến.

```{r}
plot_importance_ggpairs(vimpdf)

```

Đây là biểu đồ tương tự do Nhi vẽ thủ công dựa vào dataset:

```{r,message = FALSE,warning=FALSE}
#Correlation matrix

library(GGally)

plotfuncLow <- function(data,mapping){
  p <- ggplot(data = data,mapping=mapping)+
    geom_point(aes(fill=rownames(data),
                   color=rownames(data)),
               shape=21,size=2,
               alpha=0.8,
               show.legend = F)+
    geom_line(aes(color=rownames(data),
                  group=1))+
    theme_bw(base_family = "mono",6)
  p
}

plotfuncmid <- function(data,mapping){
  p <- ggplot(data = data,mapping=mapping)+
    geom_histogram(aes(fill=rownames(data),
                   color=rownames(data)),
                   alpha=0.5)+
    theme_bw(base_family = "mono",6)
  p
}

ggpairs(vimpdf,columns=2:8,
        lower=list(continuous=plotfuncLow),
        diag=list(continuous=plotfuncmid))
```

Riêng chỉ số Minimal depth distribution có thể được trình bày bằng hình vẽ sau:

```{r,message = FALSE,warning=FALSE}
#Minimal depth distribution

mindepthdf=rfmod%>%min_depth_distribution()%>%as_tibble()

mindepthdf%>%ggplot(aes(x=minimal_depth,
                        fill=variable,
                        col=variable))+
  geom_histogram(alpha=0.5)+
  facet_wrap(~variable,ncol=3,scales="free")+
  my_theme()

rfmod%>%min_depth_distribution()%>%
  plot_min_depth_distribution(mean_sample="all_trees")+
  scale_fill_brewer(palette="Spectral",direction = -1)

```

# Tương tác giữa 2 biến trong mô hình RF

Không chỉ đo lường vai trò của từng biến riêng lẻ, package này còn cho phép chúng ta khảo sát về tương tác giữa 2 biến. Sự tương tác xảy ra khi 2 biến cùng hiện diện trong một mô hình cây và tham gia vào sự phân nhánh ở các nodes. 

Biểu đồ sau đây trình bày mean minimal depth tính cho 30 cặp tương tác nổi bật nhất:

```{r,message = FALSE,warning=FALSE}
# Interactions

mindpint=min_depth_interactions(rfmod,mean_sample = "relevant_trees", 
                       uncond_mean_sample = "relevant_trees")

library(viridis)

mindpint%>%
  plot_min_depth_interactions()+
  scale_fill_viridis("A")

```

Khi quan sát nội dung của dataframe kết quả phân tích tương tác biến, Nhi nhận thấy nó có dạng 1 network, tức là ta còn có thể trình bày mạng lưới tương tác giữa các biến bằng một biểu đồ mạng (network graph). Để làm việc này, Nhi kết hợp package igraph và package ggraph với nhau.

Đầu tiên ta lọc bỏ những cặp tương tác nào có tần số xuất hiện < 180 lần sau đó ta chuyển toàn bộ gdp dataframe thành 1 network, sau đó dùng ggraph để mã hóa màu sắc cho các liên kết theo tần suất hiện diện, màu xanh kém hơn màu đỏ. 

Kết quả cuối cùng là một network như trong hình:

```{r}
mindpint%>%head()
```


```{r,message = FALSE,warning=FALSE}
library(igraph)
library(ggraph)

gdf=filter(mindpint,
           occurrences>=180)

graph<-graph_from_data_frame(gdf[,c(1:3,4,6)])


ggraph(graph,
       layout = 'kk',
       circular=F)+
  geom_edge_link(aes(colour = occurrences),
                show.legend = T,width=1,alpha=0.7)+
  geom_node_label(aes(label = name))+
  coord_fixed()+
  scale_edge_color_gradient(high="#ff003f",low="#0094ff")+
  scale_edge_width_continuous()+
  theme_bare()

```

Network này cho chúng ta biết 3 thông tin: Mức độ tương tác của các biến trong mô hình : Những biến có tương tác chặt chẽ sẽ gom lại gần nhau thành một cụm và liên kết có màu đỏ, Biến Barenuclei nằm ở trung tâm được xem là quan trọng nhất, biến Mitose chỉ có tương tác với Size Uniformity và ít quan trọng nhất. Nhắc lại: Một trong những lợi thế của mô hình cây quyết định đó là nó cho phép mô hình hóa những quan hệ tương tác phức tạp giữa nhiều biến, thậm chí vượt ra ngoài tầm hiểu biết của người dựng mô hình; tiếp theo - đó là khả năng lọc bỏ tự động những biến không có vai trò quan trọng đối với mục tiêu mà ta cần nhắm tới. Do đó, khi 2 hay 3 biến đồng thời xuất hiện lặp đi lặp lại trong nhiều mô hình cây là một dấu hiệu cho thấy: 1) Chúng quan trọng, 2) Chúng có liên hệ với nhau. 

Như vậy, chúng ta có thể áp dụng hình thức này như một giải pháp thay thế cho correlation matrix trong một mô hình tiên lượng hồi quy và phân loại, biểu đồ network trên đây đưa ra bức tranh toàn cảnh về liên hệ giữa các biến số quan trọng nhất cùng hướng tới một mục tiêu xác định.

# Multiway importance plot

Ở trên, ta đã thử trình bày tương quan bắt cặp giữa 2 chỉ số  đo lường độ quan trọng của các biến, dạng biểu đồ sau đây cho phép trình bày nhiều thông tin cùng lúc trên một biểu đồ 2 chiều: tương quan giữa 2 chỉ số bất kì, phân phối của chúng, và p_value của binomial test.

```{r,message = FALSE,warning=FALSE}
# Multiway Importance

plot_multi_way_importance(rfmod,
                          x_measure = "mean_min_depth",
                            y_measure = "times_a_root",
                           size_measure = "no_of_nodes",
                          min_no_of_trees = 20
                          )

plot_multi_way_importance(vimpdf, 
                          x_measure = "no_of_nodes", 
                          y_measure = "no_of_nodes", 
                          size_measure = "p_value",
                          min_no_of_trees = 20)

plot_multi_way_importance(vimpdf, 
                          x_measure = "accuracy_decrease", 
                          y_measure = "gini_decrease", 
                          size_measure = "p_value",
                          min_no_of_trees = 20)

plot_multi_way_importance(vimpdf, 
                          x_measure = "mean_min_depth", 
                          y_measure = "gini_decrease", 
                          size_measure = "p_value",
                          min_no_of_trees = 20)

```

# Prediction interaction plot

Cuối cùng, package này cho phép  vẽ một biểu đồ dạng heatmap, thể hiện phân bố kết quả của mô hình Random Forest tương ứng với sự tổ hợp của 2 giá trị bất kì trên thang đo của 2 biến số tùy chọn.  

```{r,message = FALSE,warning=FALSE}
rfmod%>%plot_predict_interaction(testset, 
                         "Barenuclei", 
                         "ShapeUniformity",30)+scale_fill_viridis(option="A")+coord_equal()

rfmod%>%plot_predict_interaction(testset, 
                                 "clumpthickness", 
                                 "SizeUniformity",30)+scale_fill_viridis(option="A")+coord_equal()
```

Lưu ý: Màu sắc trên biểu đồ tương ứng với xác suất phân loại U ác tính (0 đến 1), và kết quả này là của mô hình gồm 9 biến chứ không chỉ giới hạn ở 2 biến mà ta đang xét.

# Tổng kết

Bài thực hành đến đây là kết thúc. Trong bài này Nhi đã giới thiệu với các bạn tất cả những tính năng mà package randomForestExplainer cung cấp. Những tính năng này đã mở rộng đáng kể khả năng khảo sát cấu trúc của một mô hình Random Forest. Các phương pháp mà package này sử dụng bám sát vào các nguyên lý của mô hình cây (decision tree) và cung cấp thông tin phong phú về: vai trò của mỗi biến số và sự tương tác giữa chúng. Những chỉ số định lượng trong phân tích này có giá trị tương đương với hệ số hồi quy và p_value của kiểm định t trong một mô hình tuyến tính tổng quát.Ngoài công dụng diễn giải cấu trúc mô hình, những phương pháp này còn có thể được sử dụng cho việc thăm dò dữ liệu, lựa chọn biến số,ngay cả khi Random forest không phải là algorithm mà bạn muốn áp dụng cho bài toán của mình.

Trong bài tiếp theo, một thành viên khác của nhóm sẽ giới thiệu với các bạn cách diễn giải một black box khác là Extreme gradient boosting (XGBM).

Tạm biệt các bạn và hẹn gặp lại.
