Hàm phân loại tuyến tính
Hàm hồi quy Logistic về bản chất là một thuật toán phân loại tuyến tính Xét một hàm hồi quy tuyến tính sau: \[z=\beta_{0}+\beta_{1}x_{1}+\beta_{2}x_{2}+...+\beta_{k}x_{k}\] Khi đó hàm Logistic là hàm tính xác suất được biểu diễn qua hàm sigmoid của z: \[P(y=1)=\frac{1}{1+e^{-(\beta_{0}+\beta_{1}x_{1}+\beta_{2}x_{2}+...+\beta_{k}x_{k})}}=\frac{1}{1+e^{-z}}\]
- Dự báo \(y=1\) nếu \(P(y=1)\geq0.5\):
\[\frac{1}{1+e^{-z}}\geq 0.5\Leftrightarrow\beta_{0}+\beta_{1}x_{1}+\beta_{2}x_{2}+...+\beta_{k}x_{k}\geq 0\]
- Dự báo \(y=0\) nếu \(P(y=1)\leq0.5\):
\[\frac{1}{1+e^{-z}}\leq 0.5\Leftrightarrow\beta_{0}+\beta_{1}x_{1}+\beta_{2}x_{2}+...+\beta_{k}x_{k}< 0\]
Hàm Sigmoid
Diễn giải các tham số của mô hình Logistic
Hàm hồi quy Logistic: \[P(y=1)=\frac{1}{1+e^{-(\beta_{0}+\beta_{1}x_{1}+\beta_{2}x_{2}+...+\beta_{k}x_{k})}}\] Cách viết khác là thông qua giá trị Odds:
\[Odds=e^{(\beta_{0}+\beta_{1}x_{1}+\beta_{2}x_{2}+...+\beta_{k}x_{k})}\] \[log(Odds)=\beta_{0}+\beta_{1}x_{1}+\beta_{2}x_{2}+...+\beta_{k}x_{k}\] Tỷ số Odds: \(Odds=\frac{P(y=1)}{P(y=0)}\) Tỷ số Odds càng lớn thì xác suất để y=1 là càng lớn
Diễn giải của hệ số \(\beta\) ứng với biến \(x\):
- Khi biến x tăng 1 đơn vị thì giá trị log(odds) tăng \(\beta\) đơn vị
- Khi \(\beta>0\): x càng lớn, xác suất để y=1 càng lớn
- Khi \(\beta<0\): x càng lớn, xác suất để y=1 càng nhỏ
Xác định sai số dự báo của mô hình
Khi xác định sai số dự báo của mô hình, chúng ta sẽ sử dụng kiến thức về ma trận nhầm lẫn (Confusion Matrix), mục đích của ma trận này là để giúp xác định sai số của mô hình và giá trị thực tế.
Dự báo = 0 | Dự báo = 1 | |
---|---|---|
Thực tế = 0 | Âm tính thực (True Negative - TN) |
Dương tính giả (False Positive - FP) |
Thực tế = 1 | Âm tính giả (False Negative - FN) |
Dương tính thực (True Positive - TP) |
Giả sử gọi N là số quan sát:
- Độ chính xác toàn thể: (TP+TN)/N. Sai số toàn thể: (FP+FN)/N
- Độ nhạy (Sensitivity) SST = TP/(TP+FN)
- Sai số âm tính giả: 1-SST
- Độ đặc hiệu (Specificity) SPT = TN/(TN+FP)
- Sai số dương tính giả: 1-SPT
Mô hình tốt thường có độ nhạy và độ đặc hiệu lớn, thường khi chúng ta so sánh, chúng ta sẽ so sánh độ chính xác toàn thể của mô hình với mô hình cơ sở, mô hình cơ sở là mô hình mà chúng ta dự báo đa số các giá trị thực tế tuân theo. Tuy nhiên chúng ta cần lưu ý như sau: Vì giá trị độ chính xác toàn thể của mô hình chưa phải là thước đo tốt nhất trong trường hợp nếu mẫu không cân xứng, khi đó chúng ta cần phải tính độ nhạy và độ đặc hiệu. Ví dụ: Xét một mô hình hồi quy Logistic để dự đoán khả năng vỡ nợ hoặc không vỡ nợ của khách hàng. Giả sử bộ mẫu chỉ có 10% khách hàng thực tế là vỡ nợ và 90% khách hàng thực tế không vỡ nợ
Dự báo = 0 | Dự báo = 1 | |
---|---|---|
Thực tế = 0 | 90 | 0 |
Thực tế = 1 | 10 | 0 |
Khi đó độ chính xác toàn thể là :(90+0)/100 = 90%
Độ nhày = 0/10 =0%; độ đặc hiệu: 90/90 = 100%
Như vậy độ chính xác rất cao, tuy nhiên độ nhạy quá thấp là 0%: Mô hình không có khả năng dự báo được những khách hàng vỡ nợ, như vậy mô hình đưa ra là không tốt.
Lựa chọn giá trị ngưỡng t
Việc lựa chọn giá trị ngưỡng t trong mô hình dự báo phụ thuộc vào sai số nào mà chúng ta quan tâm hơn trong mô hình
- Nếu P(y=1) lớn hơn t: Dự báo y = 1
- Nếu P(y=1) nhỏ hơn t: Dự báo y = 0
TH1: Nếu muốn giảm sai số dương tính giả, thì chọn giá trị ngưỡng t lớn, ví dụ t=0.7. TH2: Nếu muốn giảm sai số âm tính giả, thì chọn giá trị ngưỡng t nhỏ, ví dụ t=0.3
Bàn thêm về Ma trận nhầm lẫn
Bên dưới là một hình minh họa vui cho chúng ta thêm một ví dụ nữa của CM trong việc dự đoán có thai hay khôngHình vui về ma trận nhầm lẫn
- True Postive: Rõ ràng trong hình là một phụ nữ có thai vá bác sĩ nói cho cô ấy biết là cô ấy đang có thai. Điều này chứng tỏ dự đoán của bác sĩ là chính xác so với thực tế. Nói cách khác: dự đoán “có” của bác sĩ (Positive) là “đúng” (True).
- False Negative: Bác sĩ dự đoán chị kia không có thai nhưng thực tế lại có. Đây là một ví dụ của Sai lầm loại II. Nói cách khác: dự đoán “không” của bác sĩ (Negative) là “sai” (False).
- False Positive: Đàn ông không thể có thai được trong khi bác sĩ lại bảo anh ta có. Đây là Sai lầm loại I. Nói cách khác: dự đoán “có” của bác sĩ (Positive) là “sai” (False).
- True Negative: Bác sĩ bảo anh kia không có thai, điều này hiển nhiên đúng. Nói cách khác: dự đoán “không” của bác sĩ (False) là “đúng” (True).
Tìm hiểu thêm về Confusion Matrix