Hiểu về đường cong ROC và AUC dưới giả định Binormal
Phần II
Author
🌙☕📚💻
Published
April 26, 2026
1 Giới thiệu
Đường cong ROC (receiver operating characteristic) là một công cụ cơ bản để đánh giá hiệu suất của một chỉ dấu chẩn đoán.
Trong bài giảng này, chúng ta xây dựng trực giác từng bước, bắt đầu từ phân loại dựa trên ngưỡng và kết thúc với biểu diễn ROC dưới giả định binormal, cũng như cách hiểu xác suất của diện tích dưới đường cong (AUC).
Xét một chỉ dấu liên tục X được đo trên hai quần thể:
nhóm không bệnh
nhóm có bệnh
Giá trị X càng lớn thì càng có bằng chứng cho bệnh.
2 Phân loại theo ngưỡng
Với một ngưỡng r, ta định nghĩa quy tắc:
\text{dương tính nếu } X \ge r.
Khi đó, ta có hai đại lượng:
\mathrm{FPF}(r) = P(X \ge r \mid \text{không bệnh}),
\mathrm{TPF}(r) = P(X \ge r \mid \text{có bệnh}).
Mỗi ngưỡng r cho một điểm:
(\mathrm{FPF}(r), \mathrm{TPF}(r)).
3 Định nghĩa đường cong ROC
Đường cong ROC là tập hợp các điểm khi thay đổi r:
\mathrm{ROC}
=
\left\{
(\mathrm{FPF}(r), \mathrm{TPF}(r)) : r \in \mathbb R
\right\}.
Đây là cách hiểu trực quan nhất: thay đổi ngưỡng và tính toán các xác suất.
4 ROC như một hàm theo false-positive rate
Ta có thể viết lại ROC theo biến
t = \mathrm{FPF}(r).
Định nghĩa
\mathrm{ROC}(t) = \mathrm{TPF}(r_t),
với r_t thỏa
\mathrm{FPF}(r_t) = t.
Khi đó,
\mathrm{ROC}
=
\left\{
(t, \mathrm{ROC}(t)) : t \in (0,1)
\right\}.
Dạng này hữu ích khi cần tích phân.
5 Diện tích dưới đường cong ROC
Diện tích dưới đường cong là
\mathrm{AUC} = \int_0^1 \mathrm{ROC}(t)\,dt.
Nó biểu diễn giá trị trung bình của true-positive rate khi xét toàn bộ false-positive rate.
6 AUC dưới dạng xác suất
Ta sẽ chứng minh:
\mathrm{AUC} = P(X_1 > X_0),
trong đó:
X_1: giá trị marker của một người bệnh được chọn ngẫu nhiên
X_0: giá trị marker của một người không bệnh được chọn ngẫu nhiên
trong đó \Phi là hàm phân phối tích lũy của chuẩn tắc.
Công thức này có thể hiểu như sau: AUC là xác suất rằng một người có diabetes được chọn ngẫu nhiên có giá trị glucose cao hơn một người không có diabetes được chọn ngẫu nhiên.
\mathrm{AUC}
=
P(X_1 > X_0),
với X_1 là glucose của người có diabetes và X_0 là glucose của người không có diabetes.