Giới thiệu
Trong 2 bài trước, Nhi đã hướng dẫn các bạn cách tính thủ công tất cả các tiêu chí nhằm kiểm định mô hình phân loại nhị phân : https://rpubs.com/lengockhanhi/347941 và mô hình hồi quy : https://rpubs.com/lengockhanhi/445130 .Bài hôm nay Nhi sẽ tiếp tục giới thiệu một số tiêu chí đặc biệt dành cho mô hình phân loại multiclass.
Với bài toán Multiclass classification, mỗi trường hợp được dán 1 nhãn duy nhất trong tập hợp n nhãn giá trị được quy định từ trước. Như vậy các nhãn giá trị sẽ loại trừ lẫn nhau (khác với bài toán multilabel, khi một cá thể có thể nhận đồng thời nhiều nhãn).
Thí dụ minh họa
Trong thí dụ minh họa sau, ta có 400 bệnh nhân được xét nghiệm để đo nồng độ của 3 loại marker khác nhau là A,B,C. Mục tiêu của chúng ta là xây dựng một quy luật chẩn đoán để phân chia độ năng của một căn bệnh Y, với 4 mức độ gồm: Bình thường (Normal), bệnh nhẹ (Mild), bệnh trung bình (Moderate) và bệnh nặng (Severity), sử dụng chỉ số BMI và 3 biomarker A,B,C nói trên.
library(tidyverse)
df = read.csv("Multiclass.csv",sep = ',',dec = ".")
knitr::kable(head(df))
32.32 |
34.991 |
14.480 |
42.724 |
Moderate |
31.31 |
86.754 |
89.415 |
102.693 |
Severe |
27.40 |
54.385 |
74.213 |
63.430 |
Moderate |
26.35 |
41.457 |
26.850 |
54.493 |
Moderate |
23.24 |
16.252 |
12.590 |
33.832 |
Mild |
27.70 |
45.826 |
27.428 |
55.275 |
Moderate |
severity_col = c("#ffad2b","#ff2b55","#b1ef45","#a045ef")
df%>%gather(Marker_A,Marker_B,Marker_C,key="Marker",value="Score")%>%
ggplot()+
geom_density(aes(x=Score,fill=Severity),alpha=0.5)+
theme_bw(8)+
scale_fill_manual(values=severity_col)+
scale_x_continuous(breaks=c(0,10,20,seq(from=30,to=300,by=20)))+
facet_wrap(~Marker,
ncol=1,scales = "free_y")

Trước kia, bài toán phân chia độ nặng của bệnh lý thường chỉ dựa vào 1 chỉ số lâm sàng hay cận lâm sàng duy nhất, thí dụ một marker X. Cách làm đơn giản nhất là phân chia thang đo của X thành nhiều phần dựa vào 1 quy luật phân bố nào đó, thí dụ tứ phân vị, trung vị, hoặc những ngưỡng cắt tùy tiện khác.
Nếu làm nghiêm túc hơn, người ta có thể dùng một mô hình multinomial logistic, hoặc dựa vào kết cục lâm sàng/tiên lượng sống còn … để xác định các ngưỡng cắt phù hợp cho từng độ nặng.Tuy nhiên, nếu quan sát phân bố của 3 marker trên biểu đồ, ta sẽ thấy rằng bất cứ biến số nào khi đứng một mình cũng không cho phép phân chia hiệu quả, ngay cả giữa 2 lớp cũng có sự chồng lắp đáng kể.
Ở thời đại mới, khi machine learning trở nên phổ biến, bài toán phân chia nhiều nhóm trở nên hết sức đơn giản, hơn nữa ta còn có thể đưa nhiều thông tin hơn vào mô hình. Một số algorithm xử lý bài toán multiclass một cách tự nhiên và chính xác, bao gồm mô hình cây, random forest hay neural network…
Để minh họa, Nhi sử dụng một mô hình RF, luyện trên 70% dữ liệu và kiểm định trên 30% còn lại. Nhi sẽ lần lượt giới thiệu các tiêu chí khác nhau, được dùng riêng cho loại mô hình multiclass này.
set.seed(1234)
idtest=caret::createDataPartition(y=df$Severity, p=0.7,list=FALSE)
trainset=df[idtest,]
testset=df[-idtest,]
table(trainset$Severity)
##
## Mild Moderate Normal Severe
## 77 81 47 76
table(testset$Severity)
##
## Mild Moderate Normal Severe
## 33 34 20 32
library(randomForest)
rfmod=randomForest(Severity~.,
data=trainset,
ntree=500,
mtry=2)
rfmod
##
## Call:
## randomForest(formula = Severity ~ ., data = trainset, ntree = 500, mtry = 2)
## Type of random forest: classification
## Number of trees: 500
## No. of variables tried at each split: 2
##
## OOB estimate of error rate: 30.96%
## Confusion matrix:
## Mild Moderate Normal Severe class.error
## Mild 50 19 8 0 0.3506494
## Moderate 24 42 0 15 0.4814815
## Normal 10 0 37 0 0.2127660
## Severe 0 11 0 65 0.1447368
Confusion matrix multiclass
Đầu tiên, ta áp dụng mô hình cho testset, kết quả prediction gồm probability cho mỗi nhãn giá trị trong 4 nhãn, và kết quả phân loại (response).
predict(rfmod,newdata=testset,type="prob")%>%
as.data.frame()%>%
mutate(response=predict(rfmod,newdata=testset))->pred_df
knitr::kable(head(pred_df))
0.502 |
0.480 |
0.018 |
0.000 |
Mild |
0.048 |
0.514 |
0.000 |
0.438 |
Moderate |
0.152 |
0.814 |
0.000 |
0.034 |
Moderate |
0.600 |
0.398 |
0.000 |
0.002 |
Mild |
0.076 |
0.360 |
0.000 |
0.564 |
Severe |
0.026 |
0.786 |
0.002 |
0.186 |
Moderate |
Cũng như bài toán nhị phân, cách kiểm định đơn giản nhất là dựng một confusion matrix. Cấu trúc của matrix này cũng tương tự, chỉ khác về kích thước với nhiều hàng và cột hơn. Độ chính xác của mô hình được thể hiện qua đường chéo của matrix:
truth = testset$Severity
response = pred_df$response
pred = pred_df[-5]
conf.mat = table(truth,response)
conf.mat%>%knitr::kable()
Mild |
25 |
6 |
2 |
0 |
Moderate |
5 |
23 |
2 |
4 |
Normal |
3 |
0 |
17 |
0 |
Severe |
0 |
8 |
0 |
24 |
Quan sát cho thấy mô hình tương đối chính xác, nó hoạt động tốt cho 2 nhãn Normal và Severe tuy nhiên mô hình nhầm lẫn giữa 2 nhóm Mild và Moderate (hiện tượng này cũng tương tự như khi ta dùng ROC curve để xác định ngưỡng cắt cho 1 biến số duy nhất, 2 đầu thang đo và những giá trị cực điểm lúc nào cũng dễ dàng được nhận ra hơn các vùng trung gian)
Độ chính xác sau cân bằng
Balanced accuracy : được định nghĩa là trung bình giữa tỉ lệ xác định đúng (TPR) và tỉ lệ loại trừ đúng (TNR). Như vậy, có thể tính BAC như sau:
# bac
diag(conf.mat)
## Mild Moderate Normal Severe
## 25 23 17 24
table(truth, truth)
## truth
## truth Mild Moderate Normal Severe
## Mild 33 0 0 0
## Moderate 0 34 0 0
## Normal 0 0 20 0
## Severe 0 0 0 32
bac = mean(diag(table(truth, response) / table(truth, truth)))
bac
## [1] 0.7585116
Kết quả cho ra BAC = 0.758
Diễn giải: Giá trị tốt nhất của BAC là 1, xấu nhất =0.
Tỉ lệ nhầm lẫn sau cân bằng
Balanced error rate (BER) có ý nghĩa ngược lại với BAC, nó là tỉ lệ nhầm lẫn trung bình cho tất cả các nhãn (bài toán nhị phân có 2 nhãn, ở đây ta có 4 nhãn), BER có thể được tính thủ công từ 2 vector truth và response, nhưng cũng có thể tính nhanh bằng công thức BER = 1 - BAC.
Do BER nghịch với BAC, nên giá trị tối ưu của nó =0,giá trị xấu nhất =1
ber = mean(diag(1 - (table(truth, response) / table(truth, truth))))
rbind(bac,ber,1-bac)%>%knitr::kable()
bac |
0.7585116 |
ber |
0.2414884 |
|
0.2414884 |
Logloss
Logloss được định nghĩa bằng công thức: -mean(log(p_i)),với p_i là xác suất của nhãn giá trị thực sự ở trường hợp thứ i,
Lưu ý là logloss càng cao càng xấu, giá trị tối ưu của nó =0, nhưng không có giá trị tối đa, do đó khi tính logloss ta phải đặt ra 1 ngưỡng cho xác suất tối thiểu, thí dụ 1e-20, để nó không thể = 0 (không thể tính log của 0).
# logloss
pred_mat = pred
pred_mat[pred_mat > 1 - (1e-20)] = 1 - (1e-20)
pred_mat[pred_mat < (1e-20)] = 1e-20
c_truth = match(as.character(truth), colnames(pred_mat))
inds = cbind(BBmisc::seq_row(pred_mat), c_truth)
logloss = -1 * mean(log(pred[inds]))
logloss
## [1] 0.6772009
Kappa
Hệ số Kappa của Cohen là một trị số thống kê dùng để đánh giá mức độ tương hợp giữa 2 vector, được xác định theo công thức: kappa = 1 - (1 - p0) / (1 - pe).Với p0 = tần suất tương hợp trên thực tế và pe = tần suất tương hợp giả định (nếu 2 vector là độc lập với nhau)
Ta có thể tính thủ công kappa từ 2 vector truth và response như sau:
# conf mat
conf.mat = table(truth, response)
conf.mat = conf.mat / sum(conf.mat)
p0 = sum(diag(conf.mat))
rowsum = rowSums(conf.mat)
colsum = colSums(conf.mat)
pe = sum(rowsum * colsum) / sum(conf.mat)^2
# kappa
kappa = 1 - (1 - p0) / (1 - pe)
round(cbind(p0,pe,kappa),5) %>%knitr::kable()
Kappa hiệu chỉnh trọng số
Đặc biệt cho những trường hợp mà vector kết quả có tính thứ bậc (thí dụ độ nặng của bệnh lý), ta có hệ số kappa hiểu chỉnh bởi một matrix trọng số
Dưới đây là cách tính thủ công kappa với trọng số:
#Wkappa
conf.mat = table(truth, response)
conf.mat = conf.mat / sum(conf.mat)
# get expected probs under independence
rowsum = rowSums(conf.mat)
colsum = colSums(conf.mat)
expected.mat = rowsum %*% t(colsum)
# get weights
class.values = seq_along(levels(truth)) - 1L
k_weights = outer(class.values, class.values, FUN = function(x, y) (x - y)^2)
# calculate weighted kappa
wkappa = 1 - sum(k_weights * conf.mat) / sum(k_weights * expected.mat)
k_weights
## [,1] [,2] [,3] [,4]
## [1,] 0 1 4 9
## [2,] 1 0 1 4
## [3,] 4 1 0 1
## [4,] 9 4 1 0
round(rbind(kappa,wkappa),5) %>%knitr::kable()
kappa |
0.65994 |
wkappa |
0.73811 |
Cả 2 hệ số kappa này dao động từ -1 đến 1, giá trị tối ưu =1, xấu nhất =-1
Chỉ số Brier multiclass
Brier score là một tiêu chí đo lường nguy cơ sai lầm của mô hình, nó dao động từ 0 đến 2, giá trị tốt nhất =0 và xấu nhất =2. brier score được tính bằng công thức:
Brier score = (1/n) sum_i sum_j (y_ij - p_ij)^2, với y_ij = 1 nếu trường hợp i nhận nhãn j (trái lại, sẽ =0), còn p_ij là xác suất tiên lượng của mô hình cho nhãn j tại trường hợp i
# multiclass brier
truth_f = factor(truth, levels = colnames(pred))
mat01 = mlr::createDummyFeatures(truth_f)
mc_brier = mean(rowSums((pred - mat01)^2))
mc_brier
## [1] 0.3735652
Brier score của mô hình = 0.37, một giá trị không tệ.
AU1P
Diện tích dưới đường cong ROC là một tiêu chí đo lường hiệu năng của một quy luật nhị phân, thí dụ sự phân biệt giữa 2 nhãn A và B. Một bài toán multiclass có C nhãn, do đó ta có thể dựng lên tất cả c(c-1) đường cong ROC để phân biệt từng cặp nhãn với nhau.
Tiêu chí AU1P là giá trị AUC trung bình của c(c - 1) đường cong ROC,nhưng có xét thêm tỉ lệ phân bố của mỗi class trong dữ liệu.
colAUC = function(samples, truth, maximum = TRUE) {
y = as.factor(truth)
X = as.matrix(samples)
if (nrow(X) == 1)
X = t(X)
nr = nrow(X)
nc = ncol(X)
ny = table(y)
ul = as.factor(rownames(ny))
nl = length(ny)
if (nl <= 1)
stop("colAUC: List of labels 'y' have to contain at least 2 class labels.")
if (!is.numeric(X))
stop("colAUC: 'X' must be numeric")
if (nr != length(y))
stop("colAUC: length(y) and nrow(X) must be the same")
per = t(utils::combn(1:nl, 2))
np = nrow(per)
auc = matrix(0.5, np, nc)
rownames(auc) = paste(ul[per[, 1]], " vs. ", ul[per[, 2]], sep = "")
colnames(auc) = colnames(X)
# Wilcoxon AUC
idxl = vector(mode = "list", length = nl)
for (i in 1:nl) idxl[[i]] = which(y == ul[i])
for (j in 1:nc) {
for (i in 1:np) {
c1 = per[i, 1]
c2 = per[i, 2]
n1 = as.numeric(ny[c1])
n2 = as.numeric(ny[c2])
if (n1 > 0 & n2 > 0) {
r = rank(c(X[idxl[[c1]], j], X[idxl[[c2]], j]))
auc[i, j] = (sum(r[1:n1]) - n1 * (n1 + 1) / 2) / (n1 * n2)
}
}
}
if (maximum == TRUE) {
auc = pmax(auc, 1 - auc)
}
return(auc)
}
# au1p
m = colAUC(as.matrix(pred), truth)
weights = table(truth) / length(truth)
m = m * matrix(rep(weights, each = nrow(m)), ncol = length(weights))
m%>%knitr::kable()
Mild vs. Moderate |
0.2449333 |
0.2291826 |
0.1398313 |
0.2224120 |
Mild vs. Normal |
0.2296218 |
0.2666667 |
0.1591546 |
0.1861981 |
Mild vs. Severe |
0.2723214 |
0.1904762 |
0.1567673 |
0.2647059 |
Moderate vs. Normal |
0.1598616 |
0.2789916 |
0.1643599 |
0.2479486 |
Moderate vs. Severe |
0.2346183 |
0.2351628 |
0.1190219 |
0.2429560 |
Normal vs. Severe |
0.2214154 |
0.2174107 |
0.1680672 |
0.2686975 |
weights%>%knitr::kable()
Mild |
0.2773109 |
Moderate |
0.2857143 |
Normal |
0.1680672 |
Severe |
0.2689076 |
Tính AU1P:
c = c(combn(1:nlevels(truth), 2))
au1p = sum(m[cbind(rep(seq_len(nrow(m)), each = 2), c)]) / (nlevels(truth) - 1)
au1p
## [1] 0.9193849
AU1U
Tương tự, chỉ số AU1U cũng tính tring bình AUC của c(c - 1) đường cong ROC nhằm phân biệt bắt cặp tuần tự giữa các nhãn, nhưng khác với AU1P, AU1U giả định các nhãn có phân bố đồng dạng.
#au1u
m = colAUC(as.matrix(pred), truth)
m%>%knitr::kable()
Mild vs. Moderate |
0.8832442 |
0.8021390 |
0.8319964 |
0.8270945 |
Mild vs. Normal |
0.8280303 |
0.9333333 |
0.9469697 |
0.6924242 |
Mild vs. Severe |
0.9820076 |
0.6666667 |
0.9327652 |
0.9843750 |
Moderate vs. Normal |
0.5764706 |
0.9764706 |
0.9779412 |
0.9220588 |
Moderate vs. Severe |
0.8460478 |
0.8230699 |
0.7081801 |
0.9034926 |
Normal vs. Severe |
0.7984375 |
0.7609375 |
1.0000000 |
0.9992188 |
c = c(combn(1:nlevels(truth), 2))
au1u = mean(m[cbind(rep(seq_len(nrow(m)), each = 2), c)])
au1u
## [1] 0.9255799
AUNP
Tiêu chí AUNP cũng tính AUC trung bình, nhưng của 4 đường cong ROC tương ứng với 4 quy luật nhị phân, nhằm phân biệt 1 nhãn với 3 nhãn còn lại, có xét đến tỉ lệ phân bố thực tế của các nhãn.
aunp=sum(BBmisc::vnapply(1:nlevels(truth),function(i) mean(truth == levels(truth)[i]) * (colAUC(as.matrix(pred)[, i], truth == levels(truth)[i]))))
aunp
## [1] 0.9156638
AUNU
Tương tự, AUNU cũng xét 4 quy luật nhị phân như AUNP, nhưng với giả định các phân nhóm có phân bố đồng dạng
aunu=mean(BBmisc::vnapply(1:nlevels(truth),function(i) colAUC(as.matrix(pred)[, i],truth == levels(truth)[i])))
aunu
## [1] 0.9222792
Tổng kết
Bây giờ, ta tạo ra 1 hàm để tính đồng thời 10 tiêu chí kể trên từ matrix xác suất của C nhãn, vector nhãn thực tế và vector nhãn predict.
multiclass_perfomance = function(pred,truth,response){
if (length(unique(truth)) != nlevels(truth)){
warning("Error: Missing label(s) detected")
return(NA_real_)
}
#aunu
aunu=mean(BBmisc::vnapply(1:nlevels(truth),
function(i) colAUC(as.matrix(pred)[, i],
truth == levels(truth)[i])))
# aunp
aunp=sum(BBmisc::vnapply(1:nlevels(truth),
function(i) mean(truth == levels(truth)[i]) * (colAUC(as.matrix(pred)[, i],
truth == levels(truth)[i]))))
# au1p
m = colAUC(as.matrix(pred), truth)
weights = table(truth) / length(truth)
m = m * matrix(rep(weights, each = nrow(m)), ncol = length(weights))
c = c(combn(1:nlevels(truth), 2))
au1p = sum(m[cbind(rep(seq_len(nrow(m)), each = 2), c)]) / (nlevels(truth) - 1)
#au1u
m = colAUC(as.matrix(pred), truth)
c = c(combn(1:nlevels(truth), 2))
mean(m[cbind(rep(seq_len(nrow(m)), each = 2), c)])
au1u = mean(m[cbind(rep(seq_len(nrow(m)), each = 2), c)])
# conf mat
conf.mat = table(truth, response)
conf.mat = conf.mat / sum(conf.mat)
p0 = sum(diag(conf.mat))
rowsum = rowSums(conf.mat)
colsum = colSums(conf.mat)
pe = sum(rowsum * colsum) / sum(conf.mat)^2
# kappa
kappa = 1 - (1 - p0) / (1 - pe)
#Wkappa
conf.mat = table(truth, response)
conf.mat = conf.mat / sum(conf.mat)
# get expected probs under independence
rowsum = rowSums(conf.mat)
colsum = colSums(conf.mat)
expected.mat = rowsum %*% t(colsum)
# get weights
class.values = seq_along(levels(truth)) - 1L
k_weights = outer(class.values, class.values, FUN = function(x, y) (x - y)^2)
# calculate weighted kappa
wkappa = 1 - sum(k_weights * conf.mat) / sum(k_weights * expected.mat)
# multiclass brier
truth_f = factor(truth, levels = colnames(pred))
mat01 = mlr::createDummyFeatures(truth_f)
mc_brier = mean(rowSums((pred - mat01)^2))
# bac
bac = mean(diag(table(truth, response) / table(truth, truth)))
# ber
ber = mean(diag(1 - (table(truth, response) / table(truth, truth))))
# logloss
pred[pred > 1 - (1e-20)] = 1 - (1e-20)
pred[pred < (1e-20)] = 1e-20
c_truth = match(as.character(truth), colnames(pred))
inds = cbind(BBmisc::seq_row(pred), c_truth)
logloss = -1 * mean(log(pred[inds]))
result = rbind(bac,ber,logloss,mc_brier,
aunu,aunp,au1u,au1p,
kappa,wkappa)
return(result)
}
Áp dụng hàm này để lấy kết quả của 10 tiêu chí.
multiclass_perfomance(truth=truth,
pred=pred,
response=response)%>%knitr::kable()
bac |
0.7585116 |
ber |
0.2414884 |
logloss |
0.6772009 |
mc_brier |
0.3735652 |
aunu |
0.9222792 |
aunp |
0.9156638 |
au1u |
0.9255799 |
au1p |
0.9193849 |
kappa |
0.6599352 |
wkappa |
0.7381062 |
Bài thực hành đến đây là kết thúc; hẹn gặp lại các bạn lần tới.
---
title: "Đánh giá mô hình phân loại Multiclass" 
author: "Lê Ngọc Khả Nhi"
date: "18 Tháng 1 năm 2018"
output:
  html_document: 
    code_download: true
    code_folding: hide
    number_sections: yes
    theme: "default"
    toc: TRUE
    toc_float: TRUE
    dev: 'svg'
---

```{r setup,include=FALSE}
knitr::opts_chunk$set(echo = TRUE)
```

![](multiclassmetric.png)

# Giới thiệu

Trong 2 bài trước, Nhi đã hướng dẫn các bạn cách tính thủ công tất cả các tiêu chí nhằm kiểm định mô hình phân loại nhị phân : https://rpubs.com/lengockhanhi/347941 và mô hình hồi quy : https://rpubs.com/lengockhanhi/445130 .Bài hôm nay Nhi sẽ tiếp tục giới thiệu một số tiêu chí đặc biệt dành cho mô hình phân loại multiclass.

Với bài toán Multiclass classification, mỗi trường hợp được dán 1 nhãn duy nhất trong tập hợp n nhãn giá trị được quy định từ trước. Như vậy các nhãn giá trị sẽ loại trừ lẫn nhau (khác với bài toán multilabel, khi một cá thể có thể nhận đồng thời nhiều nhãn).

# Thí dụ minh họa

Trong thí dụ minh họa sau, ta có 400 bệnh nhân được xét nghiệm để đo nồng độ của 3 loại marker khác nhau là A,B,C. Mục tiêu của chúng ta là xây dựng một quy luật chẩn đoán để phân chia độ năng của một căn bệnh Y, với 4 mức độ gồm: Bình thường (Normal), bệnh nhẹ (Mild), bệnh trung bình (Moderate) và bệnh nặng (Severity), sử dụng chỉ số BMI và 3 biomarker A,B,C nói trên.

```{r,message = FALSE,warning=FALSE}
library(tidyverse)

df = read.csv("Multiclass.csv",sep = ',',dec = ".")
knitr::kable(head(df))
```

```{r,message = FALSE,warning=FALSE}
severity_col = c("#ffad2b","#ff2b55","#b1ef45","#a045ef")

df%>%gather(Marker_A,Marker_B,Marker_C,key="Marker",value="Score")%>%
  ggplot()+
  geom_density(aes(x=Score,fill=Severity),alpha=0.5)+
  theme_bw(8)+
  scale_fill_manual(values=severity_col)+
  scale_x_continuous(breaks=c(0,10,20,seq(from=30,to=300,by=20)))+
  facet_wrap(~Marker,
             ncol=1,scales = "free_y")
```

Trước kia, bài toán phân chia độ nặng của bệnh lý thường chỉ dựa vào 1 chỉ số lâm sàng hay cận lâm sàng duy nhất, thí dụ một marker X. Cách làm đơn giản nhất là phân chia thang đo của X thành nhiều phần dựa vào 1 quy luật phân bố nào đó, thí dụ tứ phân vị, trung vị, hoặc những ngưỡng cắt tùy tiện khác.

Nếu làm nghiêm túc hơn, người ta có thể dùng một mô hình multinomial logistic, hoặc dựa vào kết cục lâm sàng/tiên lượng sống còn ... để xác định các ngưỡng cắt phù hợp cho từng độ nặng.Tuy nhiên, nếu quan sát phân bố của 3 marker trên biểu đồ, ta sẽ thấy rằng bất cứ biến số nào khi đứng một mình cũng không cho phép phân chia hiệu quả, ngay cả giữa 2 lớp cũng có sự chồng lắp đáng kể.

Ở thời đại mới, khi machine learning trở nên phổ biến, bài toán phân chia nhiều nhóm trở nên hết sức đơn giản, hơn nữa ta còn có thể đưa nhiều thông tin hơn vào mô hình. Một số algorithm xử lý bài toán multiclass một cách tự nhiên và chính xác, bao gồm mô hình cây, random forest hay neural network... 

Để minh họa, Nhi sử dụng một mô hình RF, luyện trên 70% dữ liệu và kiểm định trên 30% còn lại. Nhi sẽ lần lượt giới thiệu các tiêu chí khác nhau, được dùng riêng cho loại mô hình multiclass này.

```{r,message = FALSE,warning=FALSE}
set.seed(1234)
idtest=caret::createDataPartition(y=df$Severity, p=0.7,list=FALSE)

trainset=df[idtest,]
testset=df[-idtest,]

table(trainset$Severity)
table(testset$Severity)
```

```{r,message = FALSE,warning=FALSE}
library(randomForest)

rfmod=randomForest(Severity~.,
                   data=trainset,
                   ntree=500,
                   mtry=2)

rfmod
```

# Confusion matrix multiclass

Đầu tiên, ta áp dụng mô hình cho testset, kết quả prediction gồm probability cho mỗi nhãn giá trị trong 4 nhãn, và kết quả phân loại (response).

```{r,message = FALSE,warning=FALSE}
predict(rfmod,newdata=testset,type="prob")%>%
  as.data.frame()%>%
  mutate(response=predict(rfmod,newdata=testset))->pred_df

knitr::kable(head(pred_df))
```

Cũng như bài toán nhị phân, cách kiểm định đơn giản nhất là dựng một confusion matrix. Cấu trúc của matrix này cũng tương tự, chỉ khác về kích thước với nhiều hàng và cột hơn. Độ chính xác của mô hình được thể hiện qua đường chéo của matrix:

```{r,message = FALSE,warning=FALSE}
truth = testset$Severity
response = pred_df$response
pred = pred_df[-5]

conf.mat = table(truth,response)

conf.mat%>%knitr::kable()
```

Quan sát cho thấy mô hình tương đối chính xác, nó hoạt động tốt cho 2 nhãn Normal và Severe tuy nhiên mô hình nhầm lẫn giữa 2 nhóm Mild và Moderate (hiện tượng này cũng tương tự như khi ta dùng ROC curve để xác định ngưỡng cắt cho 1 biến số duy nhất, 2 đầu thang đo và những giá trị cực điểm lúc nào cũng dễ dàng được nhận ra hơn các vùng trung gian)

# Độ chính xác sau cân bằng

Balanced accuracy : được định nghĩa là trung bình giữa tỉ lệ xác định đúng (TPR) và tỉ lệ loại trừ đúng (TNR). Như vậy, có thể tính BAC như sau: 

```{r,message = FALSE,warning=FALSE}
# bac

diag(conf.mat) 

table(truth, truth)

bac = mean(diag(table(truth, response) / table(truth, truth)))

bac
```

Kết quả cho ra BAC = 0.758

Diễn giải: Giá trị tốt nhất của BAC là 1, xấu nhất =0.

# Tỉ lệ nhầm lẫn sau cân bằng

Balanced error rate (BER) có ý nghĩa ngược lại với BAC, nó là tỉ lệ nhầm lẫn trung bình cho tất cả các nhãn (bài toán nhị phân có 2 nhãn, ở đây ta có 4 nhãn), BER có thể được tính thủ công từ 2 vector truth và response, nhưng cũng có thể tính nhanh bằng công thức BER = 1 - BAC.

Do BER nghịch với BAC, nên giá trị tối ưu của nó =0,giá trị xấu nhất =1

```{r,message = FALSE,warning=FALSE}
ber = mean(diag(1 - (table(truth, response) / table(truth, truth))))

rbind(bac,ber,1-bac)%>%knitr::kable()
```

# Logloss

Logloss được định nghĩa bằng công thức: -mean(log(p_i)),với p_i là xác suất của nhãn giá trị thực sự ở trường hợp thứ i, 

Lưu ý là logloss càng cao càng xấu, giá trị tối ưu của nó =0, nhưng không có giá trị tối đa, do đó khi tính logloss ta phải đặt ra 1 ngưỡng cho xác suất tối thiểu, thí dụ 1e-20, để nó không thể = 0 (không thể tính log của 0).


```{r,message = FALSE,warning=FALSE}
# logloss

pred_mat = pred

pred_mat[pred_mat > 1 - (1e-20)] = 1 - (1e-20)
pred_mat[pred_mat < (1e-20)] = 1e-20
  
c_truth = match(as.character(truth), colnames(pred_mat))
inds = cbind(BBmisc::seq_row(pred_mat), c_truth)
  
logloss = -1 * mean(log(pred[inds]))

logloss
```

# Kappa

Hệ số Kappa của Cohen là một trị số thống kê dùng để đánh giá mức độ tương hợp giữa 2 vector, được xác định theo công thức:  kappa = 1 - (1 - p0) / (1 - pe).Với p0 = tần suất tương hợp  trên thực tế và pe = tần suất tương hợp giả định (nếu 2 vector là độc lập với nhau)

Ta có thể tính thủ công kappa từ 2 vector truth và response như sau:

```{r,message = FALSE,warning=FALSE}
# conf mat
  
conf.mat = table(truth, response)
conf.mat = conf.mat / sum(conf.mat)
p0 = sum(diag(conf.mat))
rowsum = rowSums(conf.mat)
colsum = colSums(conf.mat)
pe = sum(rowsum * colsum) / sum(conf.mat)^2
# kappa
kappa = 1 - (1 - p0) / (1 - pe)

round(cbind(p0,pe,kappa),5) %>%knitr::kable()
```

# Kappa hiệu chỉnh trọng số

Đặc biệt cho những trường hợp mà vector kết quả có tính thứ bậc (thí dụ độ nặng của bệnh lý), ta có hệ số kappa hiểu chỉnh bởi một matrix trọng số

Dưới đây là cách tính thủ công kappa với trọng số:

```{r,message = FALSE,warning=FALSE}
#Wkappa
conf.mat = table(truth, response)
conf.mat = conf.mat / sum(conf.mat)
# get expected probs under independence
rowsum = rowSums(conf.mat)
colsum = colSums(conf.mat)
expected.mat = rowsum %*% t(colsum)

# get weights
class.values = seq_along(levels(truth)) - 1L
k_weights = outer(class.values, class.values, FUN = function(x, y) (x - y)^2)

# calculate weighted kappa
wkappa = 1 - sum(k_weights * conf.mat) / sum(k_weights * expected.mat)


k_weights 

round(rbind(kappa,wkappa),5) %>%knitr::kable()
```

Cả 2 hệ số kappa này dao động từ -1 đến 1, giá trị tối ưu =1, xấu nhất =-1

# Chỉ số Brier multiclass

Brier score là một tiêu chí đo lường nguy cơ sai lầm của mô hình, nó dao động từ 0 đến 2, giá trị tốt nhất =0 và xấu nhất =2. brier score được tính bằng công thức: 

Brier score =  (1/n) sum_i sum_j (y_ij - p_ij)^2, với y_ij = 1 nếu trường hợp i nhận nhãn j (trái lại, sẽ =0), còn  p_ij là xác suất tiên lượng của mô hình cho nhãn j tại trường hợp i 

```{r,message = FALSE,warning=FALSE}
  # multiclass brier
  
truth_f = factor(truth, levels = colnames(pred))
mat01 = mlr::createDummyFeatures(truth_f)
mc_brier = mean(rowSums((pred - mat01)^2))
  
mc_brier
```

Brier score của mô hình = 0.37, một giá trị không tệ.

# AU1P

Diện tích dưới đường cong ROC là một tiêu chí đo lường hiệu năng của một quy luật nhị phân, thí dụ sự phân biệt giữa 2 nhãn A và B. Một bài toán multiclass có C nhãn, do đó ta có thể dựng lên tất cả c(c-1) đường cong ROC để phân biệt từng cặp nhãn với nhau.

Tiêu chí AU1P là giá trị AUC trung bình của c(c - 1) đường cong ROC,nhưng có xét thêm tỉ lệ phân bố của mỗi class trong dữ liệu.

```{r}
colAUC = function(samples, truth, maximum = TRUE) {
  y = as.factor(truth)
  X = as.matrix(samples)
  if (nrow(X) == 1)
    X = t(X)
  nr = nrow(X)
  nc = ncol(X)
  ny = table(y)
  ul = as.factor(rownames(ny))
  nl = length(ny)
  if (nl <= 1)
    stop("colAUC: List of labels 'y' have to contain at least 2 class labels.")
  if (!is.numeric(X))
    stop("colAUC: 'X' must be numeric")
  if (nr != length(y))
    stop("colAUC: length(y) and nrow(X) must be the same")
  per = t(utils::combn(1:nl, 2))
  np = nrow(per)
  auc = matrix(0.5, np, nc)
  rownames(auc) = paste(ul[per[, 1]], " vs. ", ul[per[, 2]], sep = "")
  colnames(auc) = colnames(X)
  # Wilcoxon AUC
  idxl = vector(mode = "list", length = nl)
  for (i in 1:nl) idxl[[i]] = which(y == ul[i])
  for (j in 1:nc) {
    for (i in 1:np) {
      c1 = per[i, 1]
      c2 = per[i, 2]
      n1 = as.numeric(ny[c1])
      n2 = as.numeric(ny[c2])
      if (n1 > 0 & n2 > 0) {
        r = rank(c(X[idxl[[c1]], j], X[idxl[[c2]], j]))
        auc[i, j] = (sum(r[1:n1]) - n1 * (n1 + 1) / 2) / (n1 * n2)
      }
    }
  }
  if (maximum == TRUE) {
    auc = pmax(auc, 1 - auc)
  }
  return(auc)
}
```


```{r,message = FALSE,warning=FALSE}
# au1p
m = colAUC(as.matrix(pred), truth)

weights = table(truth) / length(truth)

m = m * matrix(rep(weights, each = nrow(m)), ncol = length(weights))

m%>%knitr::kable()
weights%>%knitr::kable()
```

Tính AU1P:

```{r}
c = c(combn(1:nlevels(truth), 2))

au1p = sum(m[cbind(rep(seq_len(nrow(m)), each = 2), c)]) / (nlevels(truth) - 1)

au1p
```

# AU1U

Tương tự, chỉ số AU1U cũng tính tring bình AUC của c(c - 1) đường cong ROC nhằm phân biệt bắt cặp tuần tự giữa các nhãn, nhưng khác với AU1P, AU1U giả định các nhãn có phân bố đồng dạng.

```{r,message = FALSE,warning=FALSE}
#au1u
  
m = colAUC(as.matrix(pred), truth)

m%>%knitr::kable()
```

```{r}
c = c(combn(1:nlevels(truth), 2))
au1u = mean(m[cbind(rep(seq_len(nrow(m)), each = 2), c)])

au1u
```

# AUNP

Tiêu chí AUNP cũng tính AUC trung bình, nhưng của 4 đường cong ROC tương ứng với 4 quy luật nhị phân, nhằm phân biệt 1 nhãn với 3 nhãn còn lại, có xét đến tỉ lệ phân bố thực tế của các nhãn.

```{r,message = FALSE,warning=FALSE}
aunp=sum(BBmisc::vnapply(1:nlevels(truth),function(i) mean(truth == levels(truth)[i]) * (colAUC(as.matrix(pred)[, i], truth == levels(truth)[i]))))

aunp
```

# AUNU

Tương tự, AUNU cũng xét 4 quy luật nhị phân như AUNP, nhưng với giả định các phân nhóm có phân bố đồng dạng

```{r,message = FALSE,warning=FALSE}
aunu=mean(BBmisc::vnapply(1:nlevels(truth),function(i) colAUC(as.matrix(pred)[, i],truth == levels(truth)[i])))

aunu
```

# Tổng kết

Bây giờ, ta tạo ra 1 hàm để tính đồng thời 10 tiêu chí kể trên từ matrix xác suất của C nhãn, vector nhãn thực tế và vector nhãn predict.

```{r,message = FALSE,warning=FALSE}
multiclass_perfomance = function(pred,truth,response){
  if (length(unique(truth)) != nlevels(truth)){
    warning("Error: Missing label(s) detected")
    return(NA_real_)
  }
  #aunu
  aunu=mean(BBmisc::vnapply(1:nlevels(truth),
                       function(i) colAUC(as.matrix(pred)[, i],
                                                   truth == levels(truth)[i])))
  # aunp
  aunp=sum(BBmisc::vnapply(1:nlevels(truth), 
                           function(i) mean(truth == levels(truth)[i]) * (colAUC(as.matrix(pred)[, i], 
                                                                                          truth == levels(truth)[i]))))
  # au1p
  m = colAUC(as.matrix(pred), truth)
  weights = table(truth) / length(truth)
  m = m * matrix(rep(weights, each = nrow(m)), ncol = length(weights))
  c = c(combn(1:nlevels(truth), 2))
  au1p = sum(m[cbind(rep(seq_len(nrow(m)), each = 2), c)]) / (nlevels(truth) - 1)
  
  #au1u
  
  m = colAUC(as.matrix(pred), truth)
  c = c(combn(1:nlevels(truth), 2))
  mean(m[cbind(rep(seq_len(nrow(m)), each = 2), c)])
  au1u = mean(m[cbind(rep(seq_len(nrow(m)), each = 2), c)])
  
  # conf mat
  
  conf.mat = table(truth, response)
  conf.mat = conf.mat / sum(conf.mat)
  p0 = sum(diag(conf.mat))
  rowsum = rowSums(conf.mat)
  colsum = colSums(conf.mat)
  pe = sum(rowsum * colsum) / sum(conf.mat)^2
  # kappa
  kappa = 1 - (1 - p0) / (1 - pe)
  
  #Wkappa
  
  conf.mat = table(truth, response)
  conf.mat = conf.mat / sum(conf.mat)
  # get expected probs under independence
  rowsum = rowSums(conf.mat)
  colsum = colSums(conf.mat)
  expected.mat = rowsum %*% t(colsum)
  
  # get weights
  class.values = seq_along(levels(truth)) - 1L
  k_weights = outer(class.values, class.values, FUN = function(x, y) (x - y)^2)
  
  # calculate weighted kappa
  wkappa = 1 - sum(k_weights * conf.mat) / sum(k_weights * expected.mat)
  
  # multiclass brier
  
  truth_f = factor(truth, levels = colnames(pred))
  mat01 = mlr::createDummyFeatures(truth_f)
  mc_brier = mean(rowSums((pred - mat01)^2))
  
  # bac
  bac = mean(diag(table(truth, response) / table(truth, truth)))
  
  # ber
  ber = mean(diag(1 - (table(truth, response) / table(truth, truth))))
  
  # logloss
  
  pred[pred > 1 - (1e-20)] = 1 - (1e-20)
  pred[pred < (1e-20)] = 1e-20
  
  c_truth = match(as.character(truth), colnames(pred))
  inds = cbind(BBmisc::seq_row(pred), c_truth)
  
  logloss = -1 * mean(log(pred[inds]))
  
  result = rbind(bac,ber,logloss,mc_brier,
                 aunu,aunp,au1u,au1p,
                 kappa,wkappa)
  
  return(result)
  }
```

Áp dụng hàm này để lấy kết quả của 10 tiêu chí.

```{r,message = FALSE,warning=FALSE}
multiclass_perfomance(truth=truth,
                      pred=pred,
                      response=response)%>%knitr::kable()
```

Bài thực hành đến đây là kết thúc; hẹn gặp lại các bạn lần tới.