Sắc vàng nước Nga tại thành phố Leningrad
Hàng cây lá vàng trên đại lộ gần siêu thị Arsan
Đánh giá mô hình hồi quy
Như chúng ta đã biết, để đánh giá được mô hình hồi quy tuyến tính, có thể sử dụng hai thước đo là hệ số \(R^{2}\) và \(MSE\) (Mean Squared Error). Đối với mô hình hồi quy Logistic (Logistic Regression) biến phụ thuộc có dạng nhị phân (0/1) thì hệ số \(R^{2}\) không mang ý nghĩa nữa. Thay vào đó, chúng ta sử dụng một số các chỉ số sau như:
- Likelihood ratio test (\(\Delta G^{2}\))
- Akaike Information Criterion (AIC)
- Pearson chi-square statistic
Nhớ lại công thức xây dựng giá trị dự đoán cho mô hình Logistic là : \[\hat p_{i}= \frac{e^{\alpha+\beta X}}{1+e^{\alpha+\beta X}}\] Hàm sử dụng phía trên là hàm Logistic Sigmoid như đã đề cập ở các nội dung trước, chỉ ra giá trị của \(\hat p_{i}\) nằm trong khoảng [0,1] hay tính ra xác suất. Giá trị biến phụ thuộc trong thực tế là \(y_{i}=0\) hoặc \(y_{i}=1\). Phần dư khi này có thể định nghĩa: \[y_{i}-\hat p_{i}\] Với \(i=1,2,3,...,n\). Một vấn đề phát sinh là hai giá trị này khác đơn vị, do đó chần chuẩn hóa bằng chỉ số standardized residual \(r_{i}\). \[r_{i}=\frac{y_{i}-\hat p_{i}}{\sqrt{\hat p_{i}(1-\hat p_{i})} }\] Có thể sử dụng kiểm định Ki bình phương trong trường hợp này và đưa ra một chỉ số có tên là deviance \(G^{2}\). Trong thực tế việc đo lường chỉ số này khá phức tạp và khó khi so sánh hai mô hình với nhau. Chỉ số AIC được sử dụng một cách dễ dàng hơn và tiện lợi trong phần mềm R. Chỉ số AIC (Akaike Information Criterion) của mô hình Logistic được định nghĩa: \[AIC=-2(loglikelihood)+2[(k-1)+p]\] Trong đó \(k\) là bậc giá trị của biến \(y\). Nếu \(y\) chỉ có hai giá trị là 0,1 thì \(k=2\). Và \(p\) là số biến dự đoán (biến độc lập, biến thành phần) của mô hình dự đoán. Giữa hai mô hình, mô hình có AIC thấp thì được xem là mô hình tốt hơn (Bài viết cụ thể về chỉ số AIC sẽ được giới thiệu ở nội dung khác, trong phần này chỉ đề cập đến sử dụng AIC trong phần mềm R). Tính toán AIC có thể sử dụng là AIC(model).
Mô hình hồi quy Logistic đa biến
Mô hình hồi quy Logistic đa biến là mô hình có nhiều hơn 1 biến thành phần. GỌi \(P\) là xác suất biến cố xảy ra và chúng ta có lần lượt \(p\) các biến thành phần là: \(X_{1}, X_{2},X_{3},...,X_{p}\). Mô hình lúc này là: \[\log({\frac{P}{1-P}})=\beta_{0}+\beta_{1}X_{1}+\beta_{2}X_{2}+\beta_{3}X_{3}+....+\beta_{p}X_{p}\] Ước tính các tham số \(\beta_{j}\) có thể sử dụng phương pháp ước tính LME (Ước tính hợp lý cực đại) sử dụng hàm glm(….,family=binomial,…) trong R. Vấn đề quan trọng đặt ra là trong các biến số đó, giá trị nào là quan trọng và biến thành phần nào cần được quan tâm để đưa vào mô hình dự báo. Vấn đề quá ít biến dự báo dẫn tới mô hình quá đơn giản dẫn đến underfitting hoặc quá nhiều biến dự báo dẫn đến mô hình bị overfitting luôn được quan tâm tới. Việc chọn lựa biến thành phần thích hợp sẽ được trình bày ở bài viết tiếp với ứng dụng xây dựng mô hình Logistic dự đoán vào bộ dữ liệu về tại nạn tàu Titanic.
Hôm nay nhiều việc quá nên viết đến đây thôi nhé các bạn!