Trước khi đến với bài viết ở nội dung này, mình lại đang có hoài niệm về mùa thu nước Nga. Cứ vào mỗi dịp cuối tháng 9, đầu tháng 10 nước Nga lại trở lạnh, những cơn mưa phùn xen lẫn tiếng xào xạc của gió. Cây lá cũng đổi sắc, màu vàng óng trong nắng Thu của cây Bạch dương, màu đỏ tươi của lá phong, tất cả như hòa quyện với nhau lung linh phản chiếu trên nền trời tronh xanh như màu ngọc. Những mái nhà thờ vòm vàng Chính thống giáo cùng tiếng chuông leng keng vang đâu đó như gợi cho ta cảm giác thật yên bình của nước Nga vĩ đại!

Sắc vàng nước Nga tại thành phố Leningrad

Màu vàng nước Nga tại thành phố Kazan - Cộng hòa Tatarstan - liên bang Nga một ngày chiều Thu se lạnh

Hàng cây lá vàng trên đại lộ gần siêu thị Arsan

Đánh giá mô hình hồi quy

    Như chúng ta đã biết, để đánh giá được mô hình hồi quy tuyến tính, có thể sử dụng hai thước đo là hệ số \(R^{2}\)\(MSE\) (Mean Squared Error). Đối với mô hình hồi quy Logistic (Logistic Regression) biến phụ thuộc có dạng nhị phân (0/1) thì hệ số \(R^{2}\) không mang ý nghĩa nữa. Thay vào đó, chúng ta sử dụng một số các chỉ số sau như:

Nhớ lại công thức xây dựng giá trị dự đoán cho mô hình Logistic là : \[\hat p_{i}= \frac{e^{\alpha+\beta X}}{1+e^{\alpha+\beta X}}\] Hàm sử dụng phía trên là hàm Logistic Sigmoid như đã đề cập ở các nội dung trước, chỉ ra giá trị của \(\hat p_{i}\) nằm trong khoảng [0,1] hay tính ra xác suất. Giá trị biến phụ thuộc trong thực tế là \(y_{i}=0\) hoặc \(y_{i}=1\). Phần dư khi này có thể định nghĩa: \[y_{i}-\hat p_{i}\] Với \(i=1,2,3,...,n\). Một vấn đề phát sinh là hai giá trị này khác đơn vị, do đó chần chuẩn hóa bằng chỉ số standardized residual \(r_{i}\). \[r_{i}=\frac{y_{i}-\hat p_{i}}{\sqrt{\hat p_{i}(1-\hat p_{i})} }\]     Có thể sử dụng kiểm định Ki bình phương trong trường hợp này và đưa ra một chỉ số có tên là deviance \(G^{2}\). Trong thực tế việc đo lường chỉ số này khá phức tạp và khó khi so sánh hai mô hình với nhau. Chỉ số AIC được sử dụng một cách dễ dàng hơn và tiện lợi trong phần mềm R. Chỉ số AIC (Akaike Information Criterion) của mô hình Logistic được định nghĩa: \[AIC=-2(loglikelihood)+2[(k-1)+p]\]     Trong đó \(k\) là bậc giá trị của biến \(y\). Nếu \(y\) chỉ có hai giá trị là 0,1 thì \(k=2\). Và \(p\) là số biến dự đoán (biến độc lập, biến thành phần) của mô hình dự đoán. Giữa hai mô hình, mô hình có AIC thấp thì được xem là mô hình tốt hơn (Bài viết cụ thể về chỉ số AIC sẽ được giới thiệu ở nội dung khác, trong phần này chỉ đề cập đến sử dụng AIC trong phần mềm R). Tính toán AIC có thể sử dụng là AIC(model).

Mô hình hồi quy Logistic đa biến

    Mô hình hồi quy Logistic đa biến là mô hình có nhiều hơn 1 biến thành phần. GỌi \(P\) là xác suất biến cố xảy ra và chúng ta có lần lượt \(p\) các biến thành phần là: \(X_{1}, X_{2},X_{3},...,X_{p}\). Mô hình lúc này là: \[\log({\frac{P}{1-P}})=\beta_{0}+\beta_{1}X_{1}+\beta_{2}X_{2}+\beta_{3}X_{3}+....+\beta_{p}X_{p}\]     Ước tính các tham số \(\beta_{j}\) có thể sử dụng phương pháp ước tính LME (Ước tính hợp lý cực đại) sử dụng hàm glm(….,family=binomial,…) trong R. Vấn đề quan trọng đặt ra là trong các biến số đó, giá trị nào là quan trọng và biến thành phần nào cần được quan tâm để đưa vào mô hình dự báo. Vấn đề quá ít biến dự báo dẫn tới mô hình quá đơn giản dẫn đến underfitting hoặc quá nhiều biến dự báo dẫn đến mô hình bị overfitting luôn được quan tâm tới. Việc chọn lựa biến thành phần thích hợp sẽ được trình bày ở bài viết tiếp với ứng dụng xây dựng mô hình Logistic dự đoán vào bộ dữ liệu về tại nạn tàu Titanic.

Hôm nay nhiều việc quá nên viết đến đây thôi nhé các bạn!