Khái niệm Logit
Logit là một hàm hoán chuyển của xác suất P, được định nghĩa như sau: \[logit(P)= \log\Big(\frac{P}{1-P}\Big)\] Trong đó, log là logarit cơ số tự nhiên. Tỷ số P/(1-P) chính là odds. Do đó logit(P) chính là log(odds): \[logit(P)=\log(odds)\]
Mối liên hệ giữa P và logit(P)
Mối liên hệ giữa Odds và P
Mô hình hồi quy Logistic
Gọi P là xác suất của biến cố xảy ra (Ví dụ như việc hỏng O-Ring trong các phi thuyền vũ trụ) và X là biến độc lập, hay biến dự đoán. Mô hình hồi quy Logistic được miêu tả bằng phương trình:
\[\log\Big(\frac{P}{1-P}\Big)=\alpha+\beta X +\epsilon\] Phương trình trên có thể viết lại là: \[P=\frac{e^{\alpha + \beta X}}{1+e^{\alpha + \beta X}}\] Trong đó \(\alpha\) là tham số intercept - hệ số chặn của mô hình hồi quy khi cho X=0; \(\beta\) là hệ số góc - slope và \(\epsilon\) là giá trị phần dư. Mô hình hồi quy Logistic có giả định là các giá trị quan sát phải độc lập với nhau (không có tương quan).
Phương pháp chuẩn để ước tính tham số của mô hình Logistic là phương pháp Maximum likelihood(MLE). Cũng như phương pháp bình phương tối thiểu, phương pháp MLE tìm ước số của tham số sao cho giá trị tiên lượng gần nhất với giá trị quan sát. Giá trị quan sát ở đây được thể hiện bằng xác suất.
Maximum Likelihood Estimation (MLE)
MLE là phương pháp dự đoán tham số của một mô hình thống kê dựa trên những “quan sát” có sẵn, bằng cách tìm bộ tham số sao cho có thể tối đa hóa khả năng mà mô hình với bộ tham số đó sinh ra các “quan sát” có sẵn.
Giả sử mô hình được mô tả bởi bộ tham số \(\theta\), các “quan sát” (hay điểm dữ liệu) là \(x_{1},x_{2},..., x_{n}\). Khi đó chúng ta cần tìm: \[\theta=argmax\{p(x_{1},x_{2},..., x_{n}|\theta)\}\] Trong đó: \(p(x_{1},x_{2},…,x_{n}|θ)\) là xác suất để các sự kiện \(x_{1},x_{2},..., x_{n}\) xảy ra đồng thời, nên được gọi là likelihood. Chính vì vậy mà phương pháp này được gọi là Maximum Likelihood.
Tuy nhiên, việc giải trực tiếp bài toán trên thường là khó khăn. Chúng ta có thể đơn giản hoá bài toán bằng việc giả sử các điểm dữ liệu xảy ra độc lập với nhau. Khi đó, phương trình trên trở thành: \[\theta=argmax\{\prod p(x_{n}|\theta)\}\] Chúng ta có thể khiến việc tính toán dễ dàng hơn bằng cách biến đổi về bài toán Maximum Log-Likelihood: \[\theta=argmax\{\sum log(p(x_{n}|\theta))\}\]
Model Logistic in R
Trong R, phương pháp ước tính tham số mô hình hồi quy Logistic có thể được sử dụng qua hàm glm(general linear model). Ngoài ra, trong thư viện rms có thể sử dụng hàm lrm(logistic regression model) rất thuận tiện cho việc triển khai mô hình.