Hàm phân loại tuyến tính

Hàm hồi quy Logistic về bản chất là một thuật toán phân loại tuyến tính Xét một hàm hồi quy tuyến tính sau: \[z=\beta_{0}+\beta_{1}x_{1}+\beta_{2}x_{2}+...+\beta_{k}x_{k}\] Khi đó hàm Logistic là hàm tính xác suất được biểu diễn qua hàm sigmoid của z: \[P(y=1)=\frac{1}{1+e^{-(\beta_{0}+\beta_{1}x_{1}+\beta_{2}x_{2}+...+\beta_{k}x_{k})}}=\frac{1}{1+e^{-z}}\]

\[\frac{1}{1+e^{-z}}\geq 0.5\Leftrightarrow\beta_{0}+\beta_{1}x_{1}+\beta_{2}x_{2}+...+\beta_{k}x_{k}\geq 0\]

\[\frac{1}{1+e^{-z}}\leq 0.5\Leftrightarrow\beta_{0}+\beta_{1}x_{1}+\beta_{2}x_{2}+...+\beta_{k}x_{k}< 0\]

Hàm Sigmoid

Diễn giải các tham số của mô hình Logistic

Hàm hồi quy Logistic: \[P(y=1)=\frac{1}{1+e^{-(\beta_{0}+\beta_{1}x_{1}+\beta_{2}x_{2}+...+\beta_{k}x_{k})}}\] Cách viết khác là thông qua giá trị Odds:

\[Odds=e^{(\beta_{0}+\beta_{1}x_{1}+\beta_{2}x_{2}+...+\beta_{k}x_{k})}\] \[log(Odds)=\beta_{0}+\beta_{1}x_{1}+\beta_{2}x_{2}+...+\beta_{k}x_{k}\] Tỷ số Odds: \(Odds=\frac{P(y=1)}{P(y=0)}\) Tỷ số Odds càng lớn thì xác suất để y=1 là càng lớn

Diễn giải của hệ số \(\beta\) ứng với biến \(x\):

Xác định sai số dự báo của mô hình

Khi xác định sai số dự báo của mô hình, chúng ta sẽ sử dụng kiến thức về ma trận nhầm lẫn (Confusion Matrix), mục đích của ma trận này là để giúp xác định sai số của mô hình và giá trị thực tế.

Confusion Matrix
Dự báo = 0 Dự báo = 1
Thực tế = 0

Âm tính thực

(True Negative - TN)

Dương tính giả

(False Positive - FP)

Thực tế = 1

Âm tính giả

(False Negative - FN)

Dương tính thực

(True Positive - TP)

Giả sử gọi N là số quan sát:

Mô hình tốt thường có độ nhạy và độ đặc hiệu lớn, thường khi chúng ta so sánh, chúng ta sẽ so sánh độ chính xác toàn thể của mô hình với mô hình cơ sở, mô hình cơ sở là mô hình mà chúng ta dự báo đa số các giá trị thực tế tuân theo. Tuy nhiên chúng ta cần lưu ý như sau: Vì giá trị độ chính xác toàn thể của mô hình chưa phải là thước đo tốt nhất trong trường hợp nếu mẫu không cân xứng, khi đó chúng ta cần phải tính độ nhạy và độ đặc hiệu. Ví dụ: Xét một mô hình hồi quy Logistic để dự đoán khả năng vỡ nợ hoặc không vỡ nợ của khách hàng. Giả sử bộ mẫu chỉ có 10% khách hàng thực tế là vỡ nợ và 90% khách hàng thực tế không vỡ nợ

Dự báo khách hàng Logistic
Dự báo = 0 Dự báo = 1
Thực tế = 0 90 0
Thực tế = 1 10 0

Khi đó độ chính xác toàn thể là :(90+0)/100 = 90%

Độ nhày = 0/10 =0%; độ đặc hiệu: 90/90 = 100%

Như vậy độ chính xác rất cao, tuy nhiên độ nhạy quá thấp là 0%: Mô hình không có khả năng dự báo được những khách hàng vỡ nợ, như vậy mô hình đưa ra là không tốt.

Lựa chọn giá trị ngưỡng t

Việc lựa chọn giá trị ngưỡng t trong mô hình dự báo phụ thuộc vào sai số nào mà chúng ta quan tâm hơn trong mô hình

TH1: Nếu muốn giảm sai số dương tính giả, thì chọn giá trị ngưỡng t lớn, ví dụ t=0.7. TH2: Nếu muốn giảm sai số âm tính giả, thì chọn giá trị ngưỡng t nhỏ, ví dụ t=0.3

Bàn thêm về Ma trận nhầm lẫn

Bên dưới là một hình minh họa vui cho chúng ta thêm một ví dụ nữa của CM trong việc dự đoán có thai hay không

Hình vui về ma trận nhầm lẫn

Tìm hiểu thêm về Confusion Matrix