1 Tại sao phải diễn giải mô hình trong y học ?

Trong y học, khả năng giải nghĩa được cơ chế, nội dung của một mô hình là một trong những phẩm chất quan trọng quyết định tính khả dụng của của mô hình đó.

Không phải ngẫu nhiên mà sau hàng chục năm phát triển của thống kê ứng dụng, những bác sĩ lâm sàng vẫn đang ưa chuộng sử dụng các thang điểm lâm sàng, thí dụ Apgar, Glasgow khi tiếp xúc với bệnh nhân, thay vì một mô hình logistic hoặc mô hình cây, cho dù mô hình cây vô cùng đơn giản, và bệnh viện không thiếu máy tính để chạy những mô hình phức tạp. Bởi vì, khi tính nhẩm thang điểm Glasgow, bác sĩ cấp cứu đang đồng thời quan sát triệu chứng và dùng tư duy để suy luận về mức độ nghiêm trọng của tình trạng bệnh nhân. Nếu người ta tạo ra 1 algorithm trong 1 chiếc camera, cho phép đánh giá tri giác bệnh nhân tự động, bác sĩ sẽ ngừng suy luận và lệ thuộc vào cái máy này.

Một mô hình chính xác dĩ nhiên là tốt, nhưng chưa đủ. Độ chính xác của mô hình là tiêu chí được nhắm tới bởi hầu hết data scientist, tuy nhiên, tính chính xác không đồng nghĩa với tính hiệu quả. Khi áp dụng vào y học, machine learning bị chi phối nhiều hơn bởi những quy tắc về Y đức và Lương tâm.

Ta có thể đưa ra 3 trường hợp giả định như sau để làm rõ sự quan trọng của sự giải nghĩa mô hình :

Một bệnh viện xây dựng mô hình tiên lượng tử vong cho bệnh nhân bị tai biến mạch máu não, sử dụng Machine learning. Họ tạo ra một mô hình Random Forest cực kì chính xác, nó dự báo đúng kết quả Tử vong/sống sót của bệnh nhân đến 98%, 100 trường hợp chỉ sai lầm có 2 mà thôi. Tuy nhiên, khi áp dụng mô hình trên lâm sàng, một số bác sĩ nội trú bắt đầu đặt ra những câu hỏi hoài nghi :

  1. Tại sao trước một bệnh nhân có nhiều tiền sử bệnh lý tim mạch, huyết áp, thậm chí viêm hô hấp mạn tính, thì mô hình lại tiên lượng là người đó sẽ sống sót, trong khi một bệnh nhân trẻ tuổi, hoàn toàn khỏe mạnh, lại nhận tiên lượng nguy cơ tử vong rất cao ?

  2. Tại sao người thành phố và cư ngụ tại các quận trung tâm lại có tiên lượng sống còn tốt hơn, còn người ở vùng nông thôn đa số đều nhận kết qủa tiên lượng tử vong ? Bắt đầu có lời đồn trong bệnh viện về sự phân biệt đối xử giữa bệnh nhân giàu và nghèo, người thành phố và nông thôn.

Sau khi ngồi lại thảo luận giữa các chuyên viên thống kê và các bác sĩ, người ta nhận ra những điều bất ngờ :

  1. Mô hình đã phản ánh hoàn toàn chính xác thực tế : Những bệnh nhân có nhiều tiền sử bệnh lý và yếu tố nguy cơ cao thường nhận được sự theo dõi, chăm sóc và điều trị tích cực hơn, nên kết quả là họ có cơ may sống sót cao hơn. Nhưng : nếu dựa vào tiên lượng sống còn của mô hình mà cán bộ y tế trở nên chủ quan, lơ là trong việc theo dõi và chăm sóc thì kết quả tiên lượng của mô hình hoàn toàn vô nghĩa, thậm chí CÓ HẠI.

  2. Trong training data, địa chỉ thường trú của bệnh nhân được mô hình sử dụng như 1 feature, nhưng cùng lúc, có một feature khác đó là thời gian chậm trễ nhập viện tính từ lúc bệnh nhân bị ngất và tai biến tại nhà. Một cách trùng hợp ngẫu nhiên, bệnh nhân người thành phố sống gần bệnh viện hơn và họ được cấp cứu kịp thời hơn. Chỉ có vậy. Nhưng hãy tưởng tượng nếu tin đồn « phân biệt đối xử » vô căn cứ kia đến tai báo chí, thì mô hình trở thành một bằng cớ chống lại chính chủ nhân của nó. Bây giờ chắc các bạn đã hiểu tại sao tính chính xác không phải là tất cả, nó có thể trở nên vô nghĩa thậm chí nguy hiểm, nếu nó không được giải nghĩa một cách logic.

Thời gian gần đây đã bắt đầu có những ý kiến hoài nghi, thậm chí cảnh báo về phong trào sử dụng Big data và Machine learning vào Y học. Một trong những luận điểm mà các bác sĩ lâm sàng đưa ra, đó là hầu hết những mô hình có nội dung không thể giải thích được. Khi họ không thể hiểu được cơ chế đằng sau kết quả, họ không thể tin cậy vào bản thân kết qủa đó. Kết quả đôi khi ảnh hưởng rất nghiêm trọng đến bệnh nhân : thí dụ chẩn đoán Ung thư, tiên lượng tử vong, lựa chọn phẫu thuật hay điều trị nội khoa ?

Khác với Việt Nam, bệnh nhân tại nước ngoài có quyền được biết lý do của quyết định điều trị. Bác sĩ không thể giải thích rằng : “Bà có 99.5% nguy cơ bi ung thư, vì một mô hình Neural network đã quyết định như vậy”.

Vào năm 2018, tại Âu Châu sẽ có một luật lệ bắt buộc mọi quyết định dựa vào algorithm phải có khả năng lý giải nguyên nhân cho công dân trực tiếp có liên quan. Nếu luật này thực thi, thì khách hàng có quyền yêu cầu ngân hàng giải thích tại sao hồ sơ xin vay vốn của họ bị xếp loại « Nguy cơ cao », tương tự, bệnh nhân có thể tra hỏi bác sĩ về kết quả CT Scan của mình đến cùng.

2 Giải thích mô hình không đơn giản chút nào

Trong Machine learning, có một lời nguyền tai ác, đó là : « Tính tường minh của mô hình tỉ lệ nghịch với tính chính xác”, mô hình càng chính xác thì càng bí hiểm. Sự phức tạp đến từ bản chất của algorithm, số lượng input features hoặc cả 2. Thời đại Big Data và IOT đã cưỡng ép chúng ta phải lựa chọn những algorithm phức tạp nhất, vì những mô hình tuyến tính không có cách nào xử lý được lượng data lớn cỡ đó.

Trong sơ đồ trên, những mô hình chính xác nhất lại chính là những mô hình bí hiểm nhất, bao gồm: Random Forest, GBM, Deep neural network, SVM… Chúng trở thành những hộp đen, hay mô hình “Bất khả Tri”.

Năm 2016, một phương pháp có tên là LIME được tạo ra, nhằm diễn giải nội dung của những black boxes này.

3 Giới thiệu về LIME

Đầu tiên, cần ghi chú rằng LIME không phải là trái chanh, nó là chữ viết tắt của phương pháp có tên là : Local Interpretable Model-Agnostic Explanations, tạm dịch : « Phép diễn giải cục bộ cho mô hình bất khả tri ».

Phương pháp LIME được giới thiệu lần đầu tiên năm 2016 trong một bài báo của 3 data scientists tại ĐH Washinton là Marco Tulio Ribeiro, Sameer Singh và Carlos Guestrin. https://arxiv.org/abs/1602.04938

Sau khi ứng dụng trong Python năm 2016, một phiên bản ứng dụng cho R do Thomas Lin Pedersen và Michaël Benesty đồng tác giả vừa mới được công bố trên CRAN tháng 9 năm 2017. https://cran.r-project.org/web/packages/lime/index.html https://github.com/thomasp85/lime

Một tutorial ngắn được giới thiệu kèm theo package https://cran.r-project.org/web/packages/lime/vignettes/Understanding_lime.html

Cơ chế hoạt động của LIME

Lime diễn giải bất cứ mô hình classifier nào, bao gồm các mô hình « bất khả tri » hay hộp đen (blackbox) theo quy trình như sau :

  1. Phương pháp LIME dựa trên một giả định cơ bản, đó là bất kể mô hình phức tạp đến đâu, thì tại một miền cục bộ trong không gian dữ liệu (không gian nhỏ xíu xung quanh một điểm), mô hình có thể được ước lượng xấp xỉ bằng quy luật tuyến tính. Bạn có thể hình dung trên một vài bệnh nhân có đặc tính input data xấp xỉ như nhau, thì kết quả output của model sẽ như nhau, đó là bằng chứng về sự tuyến tính cục bộ.

  2. Đầu tiên, LIME sẽ lấy thông tin về đặc tính phân phối của feature (dữ liệu đầu vào) dựa vào training dataset và nội dung (feature nào được dùng) trong model. Thông tin này được lưu trữ trong một object gọi là explainer.

  3. Việc diễn giải sẽ được áp dụng cho 1 trường hợp cá thể, mới (unseen case), thí dụ một bệnh nhân bất kì trích từ tập kiểm định (testing subset).

LIME sẽ mô phỏng một lượng lớn các trường hợp giả định (một đám mây nhiễu của features) nằm kề cận chung quanh trường hợp (điểm) đang được xét, dựa vào quy luật phân phối của features mà nó đã ghi nhận từ trước.

  1. Sau đó LIME áp dụng mô hình cho toàn bộ những điểm trong không gian nhiễu này, đồng thời tính khoảng cách giữa các điểm mô phỏng đến điểm trung tâm là trường hợp được xét. Khoảng cách này sẽ được chuyển thành thang điểm (score).

  2. Tiếp theo, LIME chọn một số lượng M features tiêu biểu nhất cho phép mô tả tốt nhất khoảng cách nói trên.

  3. Cuối cùng, LIME dựng một mô hình rất đơn giản cho các điểm mô phỏng, sử dụng M features được chọn làm predictor, để giải nghĩa cho outcome của model. Mô hình này có dạng Tuyến tính, hoặc mô hình Decision tree. Tham số hồi quy cho mỗi Features được điều chỉnh bằng một trong số (Weight) tỉ lệ với khoảng cách sai biệt với giá trị feature có thực của cá thể.

  4. Việc diễn giải tính hợp lý của kết quả được thực hiện dựa vào Weight coefficient và danh sách M features được chọn. Nếu Weight coefficient > 0, thì giá trị quan sát của feature Mi đang ủng hộ cho kết quả tiên lượng (outcome) P, ngược lại, Weight Coefficient <0 thì giá trị feature Mi chống lại kết quả P.

Ưu thế lớn nhất của phương pháp LIME, đó là tính đôc lập với Algorithm. Lime không phụ thuộc vào bản chất của algorithm, thậm chí nó không dùng đến (và không cần biết) cơ chế bên trong của mô hình. Do đó, LIME có thể áp dụng cho mọi algorithm, từ Naive Bayes, KNN cho đến Random Forest hay Neural network. Tính độc lập này cho phép LIME hoạt động tại mọi thời điểm, cho mọi version của mô hình.

Tuy nhiên, package LIME nguyên thủy chỉ mới hỗ trợ mô hình dựng bằng CARET, do đó Nhi có hứng thú viết 1 tutorial khác để áp dụng Lime cho h2o model. H2O là một giao thức machine learning đang phát triển rất mạnh trong R với tính linh hoạt vượt trội so với các công cụ có trước.

Tính tương thích giữa lime và machine learning framework tùy thuộc vào 2 yếu tố: 1) bản chất của model: kết quả dự báo là class hay probability , và tế nhị hơn, 2) output matrix của hàm predict phải chuẩn hóa theo một cấu trúc chuẩn mà LIME quy ước. Nếu bạn dùng caret, cả 2 yếu tố đều được đảm bảo, nhưng nếu bạn dùng 1 tool khác, thí dụ mlr, h2o hay những package chuyên biệt, bạn phải chuẩn hóa và thích nghi 2 yếu tố này, như điều mà Nhi sẽ làm trong bài, vì Nhi sẽ áp dụng LIME trên 1 mô hình Random Forest dựng bằng h2o.

4 Mô hình Random Forest H2O

Thí dụ minh họa trong bài được lấy lại từ một tutorial khác mà Nhi từng viết cho dự án MLM: Thoracic surgery Dataset này là một bài toán tiên lượng tử vong 1 năm cho bệnh nhân chịu phẫu thuật lồng ngực, dựa vào bệnh sử và xét nghiệm tiền phẫu của họ. Các bạn có thể xem qua phần thăm dò dữ liệu tại đây:

http://rpubs.com/ledongnhatnam/270873

Chúng ta sẽ đi thẳng đến thí nghiệm Machine learning, đầu tiên ta chia dữ liệu thành train và test subsets

library(tidyverse)

require(foreign)
df=read.arff("https://archive.ics.uci.edu/ml/machine-learning-databases/00277/ThoraricSurgery.arff")

names(df)=c("Diagnosis","FVC","FEV1","Zubrod","Pain","Haemoptysis","Dyspnoea","Cough","Weakness","T_grade","DBtype2","MI","PAD","Smoking","Asthma","Age","Survival")

df$Survival=df$Survival%>%recode_factor(.,`F` = "Survived", `T` = "Dead")

df$Tiffneau=df$FEV1/df$FVC

library(caret)
set.seed(123)

idTrain=caret::createDataPartition(y=df$Survival,p=410/470,list=FALSE)
trainset=df[idTrain,]
testset=df[-idTrain,]

Sau đó, ta khởi động package h2o, chuyển dạng dữ liệu, và viết code để dựng một mô hình Random Forest

# h2O

library(h2o)
h2o.init(nthreads = -1,max_mem_size ="4g")

wtrain=as.h2o(trainset)
wtest=as.h2o(testset)

response="Survival"
features=setdiff(colnames(wtrain),response)

rfmod=h2o.randomForest(x = features,
                        y = response,
                        training_frame = wtrain,nfolds=10,
                        fold_assignment = "Stratified",
                        ntrees = 200, max_depth = 50,sample_rate=0.5,mtries=4,
                        balance_classes = FALSE,
                        stopping_metric = "mean_per_class_error",
                        stopping_tolerance = 0.001,
                        stopping_rounds = 3,
                        keep_cross_validation_fold_assignment = F,
                        keep_cross_validation_predictions=F,
                        score_each_iteration = TRUE,
                        seed=12345)

Kiểm tra trên train subset, mô hình hoạt động rất tốt:

h2o.performance(rfmod,wtrain)
## H2OBinomialMetrics: drf
## 
## MSE:  0.05088624
## RMSE:  0.2255798
## LogLoss:  0.1777317
## Mean Per-Class Error:  0.09210648
## AUC:  0.983224
## Gini:  0.9664479
## 
## Confusion Matrix (vertical: actual; across: predicted) for F1-optimal threshold:
##          Dead Survived    Error     Rate
## Dead       52       10 0.161290   =10/62
## Survived    8      341 0.022923   =8/349
## Totals     60      351 0.043796  =18/411
## 
## Maximum Metrics: Maximum metrics at their respective thresholds
##                         metric threshold    value idx
## 1                       max f1  0.642857 0.974286  62
## 2                       max f2  0.542857 0.986395  67
## 3                 max f0point5  0.698075 0.975539  57
## 4                 max accuracy  0.642857 0.956204  62
## 5                max precision  1.000000 1.000000   0
## 6                   max recall  0.428571 1.000000  76
## 7              max specificity  1.000000 1.000000   0
## 8             max absolute_mcc  0.642857 0.826906  62
## 9   max min_per_class_accuracy  0.721429 0.908309  53
## 10 max mean_per_class_accuracy  0.698075 0.923491  57
## 
## Gains/Lift Table: Extract with `h2o.gainsLift(<model>, <data>)` or `h2o.gainsLift(<model>, valid=<T/F>, xval=<T/F>)`

Tuy nhiên: Kiểm tra mô hình RF trên testset cho ra kết quả không mấy khả quan:Mô hình phạm tiên lượng sống sót rất chính xác, tuy nhiên nó phạm nhiều sai lầm khi tiên lượng tử vong (7/8)

h2o.performance(rfmod,wtest)
## H2OBinomialMetrics: drf
## 
## MSE:  0.1105337
## RMSE:  0.3324662
## LogLoss:  0.9148379
## Mean Per-Class Error:  0.4375
## AUC:  0.6813725
## Gini:  0.3627451
## 
## Confusion Matrix (vertical: actual; across: predicted) for F1-optimal threshold:
##          Dead Survived    Error   Rate
## Dead        1        7 0.875000   =7/8
## Survived    0       51 0.000000  =0/51
## Totals      1       58 0.118644  =7/59
## 
## Maximum Metrics: Maximum metrics at their respective thresholds
##                         metric threshold    value idx
## 1                       max f1  0.428571 0.935780  21
## 2                       max f2  0.428571 0.973282  21
## 3                 max f0point5  0.571429 0.909091  20
## 4                 max accuracy  0.571429 0.881356  20
## 5                max precision  0.976646 0.954545   4
## 6                   max recall  0.428571 1.000000  21
## 7              max specificity  1.000000 0.875000   0
## 8             max absolute_mcc  0.571429 0.359040  20
## 9   max min_per_class_accuracy  0.857143 0.625000  10
## 10 max mean_per_class_accuracy  0.840816 0.685049  11
## 
## Gains/Lift Table: Extract with `h2o.gainsLift(<model>, <data>)` or `h2o.gainsLift(<model>, valid=<T/F>, xval=<T/F>)`

5 Tại sao vậy bác sĩ ?

Đầu tiên, chúng ta gọi package lime, sau đó viết 2 functions model_type.H2Omodel và predict_model.H2Omodel, để thích nghi định dạng output của mô hình h2O với cấu trúc chuẩn bên trong lime:

Sau đó ta có thể tạo object explainer chứa phân phối của features từ training set và mô hình:

library(lime)

# Adapting lime functions to h2O framework

model_type.H2OModel<- function(x, ...) "classification"

predict_model.H2OModel <- function(x, newdata, type, ...) {
  pred <- h2o.predict(x, as.h2o(newdata))
    return(as.data.frame(pred[,-1]))
}

set.seed(12345)
explainer <- lime(trainset[,-17], rfmod, bin_continuous = FALSE, n_bins = 10, n_permutations = 10000)

Sau đó ta tách riêng ra 2 phần testset: những case tử vong và những case sống sót

deaddf=subset(testset,Survival!="Survived")%>%.[,-17]

survdf=subset(testset,Survival=="Survived")%>%.[,-17]

Việc lựa chọn M features được thực hiện bằng nhiều cách, có thể tùy chọn, thí dụ : None : không lựa chọn ưu tiên, mà tính weights score cho toàn bộ feature trong model, cách này không được khuyến khích nếu M>10

Foward selection (hay ridge regression) : Mô hình tuyến tính được dựng theo ridge regression, có khuynh hướng giảm tham số hồi quy về gần 0 và loại bỏ những feature không quan trọng

Highest weights : Chọn m feature với giá trị weight tuyệt đối cao nhất, dựa vào ridge regression

Lasso : Dựng mô hình tuyến tính bằng phương pháp Lasso, nó giúp loại bỏ triệt để những feature không cần thiết bằng cách đẩy weight score về 0.

Tree: dựng mô hình decision tree được phân cấp dựa vào log2(M) từ giá trị M cao nhất.

Auto: tự động, lime dùng phương pháp forward nếu m<=6 hoặc highest weights nếu m>6.

Đầu tiên, chúng ta chọn ngẫu nhiên 1 bệnh nhân (số 49) trong nhóm Sống sót, và giải thích tại sao mô hình lại tiên lượng bệnh nhân này là “Survied” ?

caseS1<-explain(survdf[12,], explainer, labels="Survived", n_features =10,feature_select="auto")
## 
  |                                                                       
  |                                                                 |   0%
  |                                                                       
  |=================================================================| 100%
## 
  |                                                                       
  |                                                                 |   0%
  |                                                                       
  |=================================================================| 100%
plot_features(caseS1)

Kết quả cho thấy: Trong 10 features có ảnh hưởng cao nhất đến tiên lượng: 7 trong số đó ủng hộ cho kết quả sống sót: bệnh nhân không có triệu chứng khó thở, không ho ra máu, không mắc bệnh tiểu đường type 2, Không đau ngực, dung tích phổi cao hơn ngưỡng nguy cơ. Tuy nhiên, có 3 feature mâu thuẫn: bệnh nhân có triệu chứng yếu cơ, có hút thuốc, và điểm Zubrod

caseS1<-explain(survdf[30,], explainer, labels="Survived", n_features =10,feature_select="auto")
## 
  |                                                                       
  |                                                                 |   0%
  |                                                                       
  |=================================================================| 100%
## 
  |                                                                       
  |                                                                 |   0%
  |                                                                       
  |=================================================================| 100%
plot_features(caseS1)

Ở 1 bệnh nhân khác (số 273), 9/10 features ủng hộ cho kết quả tiên lượng tốt, bao gồm việc không mắt bệnh hen, chỉ có 1 chi tiết mâu thuẫn là bệnh nhân có ho ra máu

Chúng ta đã tạm giải thích được tại sao mô hình tiên lượng sống sót đúng, bây giờ ta thử giải thích tại sao nó tiên lượng tử vong SAI ? Chỉ có 8 case tử vong nên ta chia làm 2 nhóm

dead1<-explain(deaddf[c(1:4),], explainer, labels="Dead", n_features =10,feature_select="auto")
## 
  |                                                                       
  |                                                                 |   0%
  |                                                                       
  |=================================================================| 100%
## 
  |                                                                       
  |                                                                 |   0%
  |                                                                       
  |=================================================================| 100%
plot_features(dead1)

dead2<-explain(deaddf[c(5:8),], explainer, labels="Dead", n_features =10,feature_select="auto")
## 
  |                                                                       
  |                                                                 |   0%
  |                                                                       
  |=================================================================| 100%
## 
  |                                                                       
  |                                                                 |   0%
  |                                                                       
  |=================================================================| 100%
plot_features(dead2)

Chỉ có 2 case được tiên lượng dương tính thật, chính xác (bệnh nhân số 41, xác suất tử vong > 60%, bệnh nhân 351, xác suất tử vong 57%); Còn lại kết quả tiên lượng là âm tính giả (bệnh nhân tử vong nhưng mô hình không tiên lượng được). Xem xét những chứng cứ ủng hộ và mâu thuẫn trong cả 2 trường hợp đều có ích và cho phép suy luận cơ chế mà mô hình hoạt động:

Kết quả gỉai thích cho thấy :

Đầu tiên; đặc tính Có hút thuốc lá là một chứng cứ quan trọng, nó ủng hộ cho tiên lượng tử vong một cách có logic. Cả 2 bệnh nhân dương tính thật đều có hút thuốc. Tuy nhiên 1 mình feature smoking không đủ để kéo kết quả outcome theo hướng positive, vì nó bị các triệu chứng khác gây nhiễu. Có vẻ như sự vắng mặt các triệu chứng không đủ để loại trừ nguy cơ tử vong, trong 8 bệnh nhân tử vong hầu hết không biểu hiện triệu chứng khó thở, yếu cơ, hay ho ra máu, nhưng họ vẫn đã chết. Giá trị dung tích phổi cũng không phải là feature có giá trị.

Một cách giải thích khác, đó là mô hình RF đã không thành công trong việc phân tích những triệu chứng này.

Việc giải nghĩa cho cá nhân rất thú vị, tuy nhiên ta còn có thể tiếp cận theo hướng tập thể, tức là giải nghĩa cho toàn bộ testset

explanation <- explain(testset[,-17], explainer, labels="Dead", n_features = 10,feature_select="auto")
## 
  |                                                                       
  |                                                                 |   0%
  |                                                                       
  |=================================================================| 100%
## 
  |                                                                       
  |                                                                 |   0%
  |                                                                       
  |=================================================================| 100%
exdf=explanation%>%as_tibble()

exdf$Class=ifelse(exdf$label_prob>=0.5,"Dead","Survived")

exdf%>%
  ggplot(aes(x=reorder(case,feature_weight),y=feature_desc,fill=feature_weight,col=feature_weight))+
  geom_tile(show.legend=F)+
  scale_fill_gradient2(low="red4",mid="white",high="green4",midpoint = 0.0)+
  scale_color_gradient2(low="red",mid="grey",high="green",midpoint = 0.0)+
  theme_bw()+
  theme(axis.text.x=element_blank())+
  facet_wrap(~Class,shrink=T,scale="free")

6 Bàn luận

Lime là một phương pháp rất thú vị và hữu ích, nó cho phép chúng ta trả lời nhiều câu hỏi thực tế khi áp dụng một mô hình black box trong y học lâm sàng, thí dụ:

  1. Tại sao bệnh nhân A lại nhận kết quả như thế này ? (Hãy cho tôi biết mô hình của bạn đã hoạt động theo cơ chế nào trên bệnh nhân này ?)

  2. Tại sao mô hình của bạn phạm sai lầm trong trường hợp này ? Điều gì đã xảy ra bên trong nó dẫn tới sai lầm này ?

Câu trả lời cho câu hỏi thứ nhất có thể giải tỏa hoài nghi của bác sĩ và bệnh nhân, khiến họ tin tưởng vào mô hình Machine learning hơn. Câu hỏi thứ 2, mặt khác, có thể giúp chúng ta phát hiện nhược điểm của mô hình để cải thiện nó.

---
title: "Diễn giải mô hình bất khả tri"
subtitle: "Sử dụng phương pháp LIME"
author: "Lê Ngọc Khả Nhi (MD,PhD)"
date: "02 Oct, 2017"
output: 
  html_document: 
    code_download: true
    code_folding: hide
    number_sections: yes
    theme: journal
    toc: TRUE
    toc_float: TRUE
---

```{r setup, include=FALSE}
knitr::opts_chunk$set(echo = TRUE, error = FALSE, warning = FALSE, message = FALSE)

library(tidyverse)
library(caret)
library(RColorBrewer)
library(viridis)
library(h2o)
library(lime)

```

![](LIMER.png)

# Tại sao phải diễn giải mô hình trong y học ?

Trong y học, khả năng giải nghĩa được cơ chế, nội dung của một mô hình là một trong những phẩm chất quan trọng quyết định tính khả dụng của của mô hình đó.

Không phải ngẫu nhiên mà sau hàng chục năm phát triển của thống kê ứng dụng, những bác sĩ lâm sàng vẫn đang ưa chuộng sử dụng các thang điểm lâm sàng, thí dụ Apgar, Glasgow khi tiếp xúc với bệnh nhân, thay vì một mô hình logistic hoặc mô hình cây, cho dù mô hình cây vô cùng đơn giản, và bệnh viện không thiếu máy tính để chạy những mô hình phức tạp. Bởi vì, khi tính nhẩm thang điểm Glasgow, bác sĩ cấp cứu đang đồng thời quan sát triệu chứng và dùng tư duy để suy luận về mức độ nghiêm trọng của tình trạng bệnh nhân. Nếu người ta tạo ra 1 algorithm trong 1 chiếc camera, cho phép đánh giá tri giác bệnh nhân tự động, bác sĩ sẽ ngừng suy luận và lệ thuộc vào cái máy này.

Một mô hình chính xác dĩ nhiên là tốt, nhưng chưa đủ. Độ chính xác của mô hình là tiêu chí được nhắm tới bởi hầu hết data scientist, tuy nhiên, tính chính xác không đồng nghĩa với tính hiệu quả. Khi áp dụng vào y học, machine learning bị chi phối nhiều hơn bởi những quy tắc về Y đức và Lương tâm.

Ta có thể đưa ra 3 trường hợp giả định như sau để làm rõ sự quan trọng của sự giải nghĩa mô hình :

Một bệnh viện xây dựng mô hình tiên lượng tử vong cho bệnh nhân bị tai biến mạch máu não,  sử dụng Machine learning. Họ tạo ra một mô hình Random Forest cực kì chính xác, nó dự báo đúng kết quả Tử vong/sống sót của bệnh nhân đến 98%, 100 trường hợp chỉ sai lầm có 2 mà thôi.
Tuy nhiên, khi áp dụng mô hình trên lâm sàng, một số bác sĩ nội trú bắt đầu đặt ra những câu hỏi hoài nghi :

1) Tại sao trước một bệnh nhân có nhiều tiền sử bệnh lý tim mạch, huyết áp, thậm chí viêm hô hấp mạn tính, thì mô hình lại tiên lượng là người đó sẽ sống sót, trong khi một bệnh nhân trẻ tuổi, hoàn toàn khỏe mạnh, lại nhận tiên lượng nguy cơ tử vong rất cao ?

2) Tại sao người thành phố và cư ngụ tại các quận trung tâm lại có tiên lượng sống còn tốt hơn, còn người ở vùng nông thôn đa số đều nhận kết qủa tiên lượng tử vong ? Bắt đầu có lời đồn trong bệnh viện về sự phân biệt đối xử giữa bệnh nhân giàu và nghèo, người thành phố và nông thôn.

Sau khi ngồi lại thảo luận giữa các chuyên viên thống kê và các bác sĩ, người ta nhận ra những điều bất ngờ :

1)	Mô hình đã phản ánh hoàn toàn chính xác thực tế : Những bệnh nhân có nhiều tiền sử bệnh lý và yếu tố nguy cơ cao thường nhận được sự theo dõi, chăm sóc và điều trị tích cực hơn, nên kết quả là họ có cơ may sống sót cao hơn. Nhưng : nếu dựa vào tiên lượng sống còn của mô hình mà cán bộ y tế trở nên chủ quan, lơ là trong việc theo dõi và chăm sóc thì kết quả tiên lượng của mô hình hoàn toàn vô nghĩa, thậm chí CÓ HẠI.

2)	Trong training data, địa chỉ thường trú của bệnh nhân được mô hình sử dụng như 1 feature, nhưng cùng lúc, có một feature khác đó là thời gian chậm trễ nhập viện tính từ lúc bệnh nhân bị ngất và tai biến tại nhà. Một cách trùng hợp ngẫu nhiên, bệnh nhân người thành phố sống gần bệnh viện hơn và họ được cấp cứu kịp thời hơn. Chỉ có vậy. Nhưng hãy tưởng tượng nếu tin đồn « phân biệt đối xử » vô căn cứ kia đến tai báo chí, thì mô hình trở thành một bằng cớ chống lại chính chủ nhân của nó.
Bây giờ chắc các bạn đã hiểu tại sao tính chính xác không phải là tất cả, nó có thể trở nên vô nghĩa thậm chí nguy hiểm, nếu nó không được giải nghĩa một cách logic.

Thời gian gần đây đã bắt đầu có những ý kiến hoài nghi, thậm chí cảnh báo về phong trào sử dụng Big data và Machine learning vào Y học. Một trong những luận điểm mà các bác sĩ lâm sàng đưa ra, đó là hầu hết những mô hình có nội dung không thể giải thích được. Khi họ không thể hiểu được cơ chế đằng sau kết quả, họ không thể tin cậy vào bản thân kết qủa đó. Kết quả đôi khi ảnh hưởng rất nghiêm trọng đến bệnh nhân : thí dụ chẩn đoán Ung thư, tiên lượng tử vong, lựa chọn phẫu thuật hay điều trị nội khoa ?

Khác với Việt Nam, bệnh nhân tại nước ngoài có quyền được biết lý do của quyết định điều trị. Bác sĩ không thể giải thích rằng : "Bà có 99.5% nguy cơ bi ung thư, vì một mô hình Neural network đã quyết định như vậy".

Vào năm 2018, tại Âu Châu sẽ có một luật lệ bắt buộc mọi quyết định dựa vào algorithm phải có khả năng lý giải nguyên nhân cho công dân trực tiếp có liên quan. Nếu luật này thực thi, thì khách hàng có quyền yêu cầu ngân hàng giải thích tại sao hồ sơ xin vay vốn của họ bị xếp loại « Nguy cơ cao », tương tự, bệnh nhân có thể tra hỏi bác sĩ về kết quả CT Scan của mình đến cùng.

# Giải thích mô hình không đơn giản chút nào

![](interpretability2.png)

Trong Machine learning, có một lời nguyền tai ác, đó là : « Tính tường minh của mô hình tỉ lệ nghịch với tính chính xác”, mô hình càng chính xác thì càng bí hiểm. Sự phức tạp đến từ bản chất của algorithm, số lượng input features hoặc cả 2. Thời đại Big Data và IOT đã cưỡng ép chúng ta phải lựa chọn những algorithm phức tạp nhất, vì những mô hình tuyến tính không có cách nào xử lý được lượng data lớn cỡ đó.

Trong sơ đồ trên, những mô hình chính xác nhất lại chính là những mô hình bí hiểm nhất, bao gồm: Random Forest, GBM, Deep neural network, SVM… Chúng trở thành những hộp đen, hay mô hình “Bất khả Tri”. 

Năm 2016, một phương pháp có tên là LIME được tạo ra, nhằm diễn giải nội dung của những black boxes này. 

# Giới thiệu về LIME

Đầu tiên, cần ghi chú rằng LIME không phải là trái chanh, nó là chữ viết tắt của phương pháp có tên là : Local Interpretable Model-Agnostic Explanations, tạm dịch : « Phép diễn giải cục bộ cho mô hình bất khả tri ». 

Phương pháp LIME được giới thiệu lần đầu tiên năm 2016 trong một bài báo của 3 data scientists tại ĐH Washinton là Marco Tulio Ribeiro, Sameer Singh và Carlos Guestrin. <https://arxiv.org/abs/1602.04938>

Sau khi ứng dụng trong Python năm 2016, một phiên bản ứng dụng cho R do Thomas Lin Pedersen và Michaël Benesty đồng tác giả vừa mới được công bố trên CRAN tháng 9 năm 2017.
<https://cran.r-project.org/web/packages/lime/index.html>
<https://github.com/thomasp85/lime>

Một tutorial ngắn được giới thiệu kèm theo package
<https://cran.r-project.org/web/packages/lime/vignettes/Understanding_lime.html>

*Cơ chế hoạt động của LIME*

Lime diễn giải bất cứ mô hình classifier nào, bao gồm các mô hình « bất khả tri » hay hộp đen (blackbox) theo quy trình như sau :

0) Phương pháp LIME dựa trên một giả định cơ bản, đó là bất kể mô hình phức tạp đến đâu, thì tại một miền cục bộ trong không gian dữ liệu (không gian nhỏ xíu xung quanh một điểm), mô hình có thể được ước lượng xấp xỉ bằng quy luật tuyến tính. Bạn có thể hình dung trên một vài bệnh nhân có đặc tính input data xấp xỉ như nhau, thì kết quả output của model sẽ như nhau, đó là bằng chứng về sự tuyến tính cục bộ.

1) Đầu tiên, LIME sẽ lấy thông tin về đặc tính phân phối của feature (dữ liệu đầu vào) dựa vào training dataset và nội dung (feature nào được dùng) trong model. Thông tin này được lưu trữ trong một object gọi là explainer.

2) Việc diễn giải sẽ được áp dụng cho 1 trường hợp cá thể, mới (unseen case), thí dụ một bệnh nhân bất kì trích từ tập kiểm định (testing subset). 

LIME sẽ mô phỏng một lượng lớn các trường hợp giả định (một đám mây nhiễu của features) nằm kề cận chung quanh trường hợp (điểm) đang được xét, dựa vào quy luật phân phối của features mà nó đã ghi nhận từ trước.

3) Sau đó LIME áp dụng mô hình cho toàn bộ những điểm trong không gian nhiễu này, đồng thời tính khoảng cách giữa các điểm mô phỏng đến điểm trung tâm là trường hợp được xét. Khoảng cách này sẽ được chuyển thành thang điểm (score). 

4) Tiếp theo, LIME chọn một số lượng M features tiêu biểu nhất cho phép mô tả tốt nhất khoảng cách nói trên.

5) Cuối cùng, LIME dựng một mô hình rất đơn giản cho các điểm mô phỏng, sử dụng M features được chọn làm predictor, để giải nghĩa cho outcome của model. Mô hình này có dạng Tuyến tính, hoặc mô hình Decision tree. Tham số hồi quy cho mỗi Features được điều chỉnh bằng một trong số (Weight) tỉ lệ với khoảng cách sai biệt với giá trị feature có thực của cá thể.

6) Việc diễn giải tính hợp lý của kết quả được thực hiện dựa vào Weight coefficient và danh sách M features được chọn. Nếu Weight coefficient > 0, thì giá trị quan sát của feature Mi đang ủng hộ cho kết quả tiên lượng (outcome) P, ngược lại, Weight Coefficient <0 thì giá trị feature Mi chống lại kết quả P.

Ưu thế lớn nhất của phương pháp LIME, đó là tính đôc lập với Algorithm. Lime không phụ thuộc vào bản chất của algorithm, thậm chí nó không dùng đến (và không cần biết) cơ chế bên trong của mô hình. Do đó, LIME có thể áp dụng cho mọi algorithm, từ Naive Bayes, KNN cho đến Random Forest hay Neural network. Tính độc lập này cho phép LIME hoạt động tại mọi thời điểm, cho mọi version của mô hình. 

Tuy nhiên, package LIME nguyên thủy chỉ mới hỗ trợ mô hình dựng bằng CARET, do đó Nhi có hứng thú viết 1 tutorial khác để áp dụng Lime cho h2o model. H2O là một giao thức machine learning đang phát triển rất mạnh trong R với tính linh hoạt vượt trội so với các công cụ có trước.

Tính tương thích giữa lime và machine learning framework tùy thuộc vào 2 yếu tố: 1) bản chất của model: kết quả dự báo là class hay probability , và tế nhị hơn, 2) output matrix của hàm predict phải chuẩn hóa theo một cấu trúc chuẩn mà LIME quy ước. Nếu bạn dùng caret, cả 2 yếu tố đều được đảm bảo, nhưng nếu bạn dùng 1 tool khác, thí dụ mlr, h2o hay những package chuyên biệt, bạn phải chuẩn hóa và thích nghi 2 yếu tố này, như điều mà Nhi sẽ làm trong bài, vì Nhi sẽ áp dụng LIME trên 1 mô hình Random Forest dựng  bằng h2o.

# Mô hình Random Forest H2O

Thí dụ minh họa trong bài được lấy lại từ một tutorial khác mà Nhi từng viết cho dự án MLM: Thoracic surgery Dataset này là một bài toán tiên lượng tử vong 1 năm cho bệnh nhân chịu phẫu thuật lồng ngực, dựa vào bệnh sử và xét nghiệm tiền phẫu của họ. Các bạn có thể xem qua phần thăm dò dữ liệu tại đây:

http://rpubs.com/ledongnhatnam/270873

Chúng ta sẽ đi thẳng đến thí nghiệm Machine learning, đầu tiên ta chia dữ liệu thành train và test subsets

```{r,message = FALSE,warning=FALSE}
library(tidyverse)

require(foreign)
df=read.arff("https://archive.ics.uci.edu/ml/machine-learning-databases/00277/ThoraricSurgery.arff")

names(df)=c("Diagnosis","FVC","FEV1","Zubrod","Pain","Haemoptysis","Dyspnoea","Cough","Weakness","T_grade","DBtype2","MI","PAD","Smoking","Asthma","Age","Survival")

df$Survival=df$Survival%>%recode_factor(.,`F` = "Survived", `T` = "Dead")

df$Tiffneau=df$FEV1/df$FVC

library(caret)
set.seed(123)

idTrain=caret::createDataPartition(y=df$Survival,p=410/470,list=FALSE)
trainset=df[idTrain,]
testset=df[-idTrain,]

```

Sau đó, ta khởi động package h2o, chuyển dạng dữ liệu, và viết code để dựng một mô hình Random Forest

```{r,message = FALSE,results="hide"}
# h2O

library(h2o)
h2o.init(nthreads = -1,max_mem_size ="4g")

wtrain=as.h2o(trainset)
wtest=as.h2o(testset)

response="Survival"
features=setdiff(colnames(wtrain),response)

rfmod=h2o.randomForest(x = features,
                        y = response,
                        training_frame = wtrain,nfolds=10,
                        fold_assignment = "Stratified",
                        ntrees = 200, max_depth = 50,sample_rate=0.5,mtries=4,
                        balance_classes = FALSE,
                        stopping_metric = "mean_per_class_error",
                        stopping_tolerance = 0.001,
                        stopping_rounds = 3,
                        keep_cross_validation_fold_assignment = F,
                        keep_cross_validation_predictions=F,
                        score_each_iteration = TRUE,
                        seed=12345)

```

Kiểm tra trên train subset, mô hình hoạt động rất tốt:

```{r}

h2o.performance(rfmod,wtrain)

```

Tuy nhiên: Kiểm tra mô hình RF trên testset cho ra kết quả không mấy khả quan:Mô hình phạm tiên lượng sống sót rất chính xác, tuy nhiên nó phạm nhiều sai lầm khi tiên lượng tử vong (7/8)

```{r}
h2o.performance(rfmod,wtest)
```

# Tại sao vậy bác sĩ ?

Đầu tiên, chúng ta gọi package lime, sau đó viết 2 functions model_type.H2Omodel và predict_model.H2Omodel, để thích nghi định dạng output của mô hình h2O với cấu trúc chuẩn bên trong lime:

Sau đó ta có thể tạo object explainer chứa phân phối của features từ training set và mô hình:

```{r,message = FALSE,results="hide"}

library(lime)

# Adapting lime functions to h2O framework

model_type.H2OModel<- function(x, ...) "classification"

predict_model.H2OModel <- function(x, newdata, type, ...) {
  pred <- h2o.predict(x, as.h2o(newdata))
    return(as.data.frame(pred[,-1]))
}

set.seed(12345)
explainer <- lime(trainset[,-17], rfmod, bin_continuous = FALSE, n_bins = 10, n_permutations = 10000)

```

Sau đó ta tách riêng ra 2 phần testset: những case tử vong và những case sống sót

```{r}
deaddf=subset(testset,Survival!="Survived")%>%.[,-17]

survdf=subset(testset,Survival=="Survived")%>%.[,-17]

```

Việc lựa chọn M features được thực hiện bằng nhiều cách, có thể  tùy chọn, thí dụ 
:
None : không lựa chọn ưu tiên, mà tính weights score cho toàn bộ feature trong model, cách này không được khuyến khích nếu M>10

Foward selection (hay ridge regression) : Mô hình tuyến tính được dựng theo ridge regression, có khuynh hướng giảm tham số hồi quy về gần 0 và loại bỏ những feature không quan trọng

Highest weights : Chọn m feature với giá trị weight tuyệt đối cao nhất, dựa vào ridge regression

Lasso : Dựng mô hình tuyến tính bằng phương pháp Lasso, nó giúp loại bỏ triệt để những feature không cần thiết bằng cách đẩy weight score về 0.

Tree: dựng mô hình decision tree được phân cấp dựa vào log2(M) từ giá trị M cao nhất.

Auto: tự động, lime dùng phương pháp forward nếu m<=6 hoặc highest weights nếu m>6.

Đầu tiên, chúng ta chọn ngẫu nhiên 1 bệnh nhân (số 49) trong nhóm Sống sót, và giải thích tại sao mô hình lại tiên lượng bệnh nhân này là “Survied” ?

```{r}
caseS1<-explain(survdf[12,], explainer, labels="Survived", n_features =10,feature_select="auto")

plot_features(caseS1)

```

Kết quả cho thấy: Trong 10 features có ảnh hưởng cao nhất đến tiên lượng: 7 trong số đó ủng hộ cho kết quả sống sót: bệnh nhân không có triệu chứng khó thở, không ho ra máu, không mắc bệnh tiểu đường type 2, Không đau ngực, dung tích phổi cao hơn ngưỡng nguy cơ. Tuy nhiên, có 3 feature mâu thuẫn: bệnh nhân có triệu chứng yếu cơ, có hút thuốc, và điểm Zubrod

```{r}
caseS1<-explain(survdf[30,], explainer, labels="Survived", n_features =10,feature_select="auto")

plot_features(caseS1)

```

Ở 1 bệnh nhân khác (số 273), 9/10 features ủng hộ cho kết quả tiên lượng tốt, bao gồm việc không mắt bệnh hen, chỉ có 1 chi tiết mâu thuẫn là  bệnh nhân có ho ra máu

Chúng ta đã tạm giải thích được tại sao mô hình tiên lượng sống sót đúng, bây giờ ta thử giải thích tại sao nó tiên lượng tử vong SAI ? Chỉ có 8 case tử vong nên ta chia làm 2 nhóm

```{r}
dead1<-explain(deaddf[c(1:4),], explainer, labels="Dead", n_features =10,feature_select="auto")

plot_features(dead1)

```

```{r}
dead2<-explain(deaddf[c(5:8),], explainer, labels="Dead", n_features =10,feature_select="auto")

plot_features(dead2)

```

Chỉ có 2 case được tiên lượng dương tính thật, chính xác (bệnh nhân số 41, xác suất tử vong > 60%, bệnh nhân 351, xác suất tử vong 57%); Còn lại kết quả tiên lượng là âm tính giả (bệnh nhân tử vong nhưng mô hình không tiên lượng được). Xem xét những chứng cứ ủng hộ và mâu thuẫn trong cả 2 trường hợp đều có ích và cho phép suy luận cơ chế mà mô hình hoạt động:

Kết quả gỉai thích cho thấy :

Đầu tiên; đặc tính Có hút thuốc lá là một chứng cứ quan trọng, nó ủng hộ cho tiên lượng tử vong một cách có logic. Cả 2 bệnh nhân dương tính thật đều có hút thuốc. Tuy nhiên 1 mình feature smoking không đủ để kéo kết quả outcome theo hướng positive, vì nó bị các triệu chứng khác gây nhiễu.
Có vẻ như sự vắng mặt các triệu chứng không đủ để loại trừ nguy cơ tử vong, trong 8 bệnh nhân tử vong hầu hết không biểu hiện triệu chứng khó thở, yếu cơ, hay ho ra máu, nhưng họ vẫn đã chết. Giá trị dung tích phổi cũng không phải là feature có giá trị. 

Một cách giải thích khác, đó là mô hình RF đã không thành công trong việc phân tích những triệu chứng này.

Việc giải nghĩa cho cá nhân rất thú vị, tuy nhiên ta còn có thể tiếp cận theo  hướng tập thể, tức là giải nghĩa cho toàn bộ testset

```{r,message = FALSE,warning=FALSE}
explanation <- explain(testset[,-17], explainer, labels="Dead", n_features = 10,feature_select="auto")

```

```{r}
exdf=explanation%>%as_tibble()

exdf$Class=ifelse(exdf$label_prob>=0.5,"Dead","Survived")

exdf%>%
  ggplot(aes(x=reorder(case,feature_weight),y=feature_desc,fill=feature_weight,col=feature_weight))+
  geom_tile(show.legend=F)+
  scale_fill_gradient2(low="red4",mid="white",high="green4",midpoint = 0.0)+
  scale_color_gradient2(low="red",mid="grey",high="green",midpoint = 0.0)+
  theme_bw()+
  theme(axis.text.x=element_blank())+
  facet_wrap(~Class,shrink=T,scale="free")

```

# Bàn luận

Lime là một phương pháp rất thú vị và hữu ích, nó cho phép chúng ta trả lời nhiều câu hỏi thực tế khi áp dụng một mô hình black box trong y học lâm sàng, thí dụ:

1) Tại sao bệnh nhân A lại nhận kết quả như thế này ? (Hãy cho tôi biết mô hình của bạn đã hoạt động theo cơ chế nào trên bệnh nhân này ?)

2) Tại sao mô hình của bạn phạm sai lầm trong trường hợp này ? Điều gì đã xảy ra bên trong nó dẫn tới sai lầm này ?

Câu trả lời cho câu hỏi thứ nhất có thể giải tỏa hoài nghi của bác sĩ và bệnh nhân, khiến họ tin tưởng vào mô hình Machine learning hơn. Câu hỏi thứ 2, mặt khác, có thể giúp chúng ta phát hiện nhược điểm của mô hình để cải thiện nó.


