Chúng ta đã làm quen với các khái niệm trong Hồi quy tuyến tính, trong đó biến phụ thuộc thường là các biến liên tục. Bây giờ chúng ta sẽ làm quen với một khái niệm mô hình tuyến tính khác mà trong đó biến phụ thuộc (giá trị dự đoán của mô hình) chỉ có hai giá trị (nhị phân). Đó là mô hình Hồi quy Logistic (Logistic Regression)
Một vài ví dụ thực tế
Hút thuốc lá và ung thư phổi
Năm 1950, Bác sỹ Richard Doll và cấp trên của ông là nhà thống kê học Bradford Hill công bố một công trình nghiên cứu mang tính lịch sử về mối liên hệ giữa hút thuốc lá và ung thư phổi. Trong nghiên cứu này, họ chọn ra 649 bệnh nhận đã được chuẩn đoán qua sinh thiết là ung thư phổi (được gọi là nhóm bị bệnh - case) và 649 người không bị ung thư phổi (còn gọi là nhóm chứng - control). Ở mỗi người tham gia nghiên cứu, họ xác định thói quen hút thuốc lá trong quá khứ (có/không). Kết quả của nghiên cứu có thể tóm tắt trong bảng số liệu dưới đây:
Ung thư phổi | Không Ung thư | |
---|---|---|
Hút thuốc lá (yes) | 647 | 622 |
Không hút thuốc lá (No) | 2 | 27 |
Chúng ta thấy số người hút thuốc lá trong nhóm bị Ung thư phổi là 647 tức gần 99.6% trên tổng số 649 người cao hơn só với số người hút thuốc lá trong nhóm không bị Ung thư là 622. Vấn đề đặt ra là làm sao chúng ta biết được có mối liên hệ gì giữa việc hút thuốc lá và Ung thư phổi hay không, kết quả đưa ra phía trên là ngẫu nhiên hay có tính hệ thống, hay nói cách khác hệ thống ở đây là những người Hút thuốc lá thì dễ bị mắc Ung thư phổi.
Nồng độ chất béo và phản ứng của người tiêu thụ
Một nghiên cứu trên 435 mẫu nước xốt (sauce) với nồng độ béo được cho tăng giá trị từ 1.35 đến 2.35 gram/L. Ở mỗi nồng độ béo, một số tình nguyện viên (người tiêu thụ) được cho thử, và phản ứng của họ là “thích” hay “không thích”. Kết quả nghiên cứu có thể tóm lược trong bảng dữ liệu sau đây:
Nồng độ béo | Thích | Không thích | Tổng số |
---|---|---|---|
1.35 | 13 | 0 | 13 |
1.6 | 19 | 0 | 19 |
1.75 | 67 | 2 | 69 |
1.85 | 45 | 5 | 50 |
1.95 | 71 | 8 | 79 |
2.05 | 50 | 20 | 70 |
2.15 | 35 | 31 | 66 |
2.25 | 7 | 49 | 56 |
2.35 | 1 | 12 | 13 |
Câu hỏi đặt ra là liệu có mối liên quan giữa nồng độ chất béo và sở thích (Thích/Không thích)?
Nhiệt độ và tai nạn phi thuyền Challenger
Ngày 28/11/1986, phi thuyền con thoi Challenger được phóng lên không gian. Chỉ 2 phút sau khi đi vào không gian, phi thuyền bị nổ tung và tất cả phi hành đoàn đều thiệt mạng. Tổng thống Hoa Kỳ ủy nhiệm một cuộc điều tra về nguyên nhân của vụ tai nạn thảm khốc này, đọc thêm về thảm họa tàu con thoi Challenger. Một trong những khía cạnh mà các chuyên gia quan tâm là mối liên quan giữa nhiệt độ và rủi ro mà O-Ring (một thiết bị vòng tròn trong phi thuyền) bị hư hỏng. Các chuyên gia đều truy xuất các dữ liệu về nhiệt độ và tổn hại của các chuyến bay thử trước đây.
Tàu con thoi Challenger năm 1986
Phi hành đoàn tàu Challenger
Bộ phận O-Ring trong thiết kế tàu vũ trụ
Bảng số liệu dưới đây tóm tắt kết quả (không hư hỏng có giá trị 0 và hư hỏng giá trị 1) của một số chuyến bay vào vũ trụ:
Chuyến bay vũ trụ | Nhiệt độ (F) | Hư hỏng (0 hoặc 1) |
---|---|---|
STS-1 | 66 | 0 |
STS-2 | 70 | 1 |
STS-3 | 69 | 0 |
STS-4 | 80 | |
STS-5 | 68 | 0 |
STS-6 | 67 | 0 |
STS-7 | 72 | 0 |
STS-8 | 73 | 0 |
STS-9 | 70 | 0 |
STS 41B | 57 | 1 |
STS 41C | 63 | 1 |
STS 41D | 70 | 1 |
STS 41G | 78 | 0 |
STS 51A | 67 | 0 |
STS 51C | 53 | 1 |
STS 51D | 67 | 0 |
STS 51B | 75 | 0 |
STS 51G | 70 | 0 |
STS 51F | 81 | 0 |
STS 51I | 76 | 0 |
STS 51J | 79 | 0 |
STS 61A | 75 | 1 |
STS 61B | 76 | 0 |
STS 61C | 58 | 1 |
Ngoài ra, chúng ta có thể có nguồn dữ liệu khác, tải về tại đây download
Như vậy, trong các ví dụ phía trên biến phụ thuộc là biến nhị phân. Biến nhị phân ở đây chỉ có thể có hai giá trị (Chết/Sống)-(Thích/Không thích)-(Hỏng/Không hỏng). Tuy nhiên các biến này đều có thể mã hóa (coding) thành dạng số 0 hoặc 1.
Trong những trường hợp này, các giá trị của biến \(y\). (biến \(y\) ở đây được coi là biến phụ thuộc) tuân theo luật phân bố nhị phân binomial distribution. Do đó, mô hình hồi quy tuyến tính không thể áp dụng được vì phương sai của \(y\) có giới hạn và giả định rằng phần dư của biến \(y\) tuân theo luật phân phối chuẩn. Tuy nhiên, trước khi đến với các khái niệm tiếp theo về Hồi quy Logistic thì chúng ta cần làm quen với các khái niệm về odds và logit
Khái niệm odds và logit
Odds
Khái niệm odds có liên quan tới khái niệm risk - nguy cơ. Theo xác suất, risk hay nguy cơ là xác suất một biến cố xảy ra trong một thời gian nhất định. Chẳng hạn nếu chúng ta chọn ngẫu nhiên trong cộng đồng 100 người, và qua đo mật độ xương, chúng ta phát hiện ra có 15 người bị loãng xương. Khi đó, xác suất loãng xương là 15/100 = 0.15. Nói cách khác, trong một mẫu gồm n đối tượng và nếu quan sát thấy có x đối tượng có một đặc điểm nào đó (tử vong, biến cố nào đó,….) thì xác suất cho biến cố đó là : \[P=\frac{x}{n}\] Khái niệm odds được định nghĩa trên nền tảng của P như sau: \[odds=\frac{P}{1-P}\] Do đó, odds biến cố xảy ra là tỉ số của xác suất biến cố xảy ra trên xác suất biến cố không xảy ra. Chẳng hạn như ví dụ trên, odds loãng xương là 0.15/0.85 = 0.176, tức cao hơn xác suất (0.15). Từ định nghĩa trên, xác suất P dao động từ 0 đến 1, nhưng giá trị của odds sẽ dao động từ \([-\infty; +\infty]\). Mối liên hệ giữa P và odds có thể được miêu tả qua biểu đồ dưới đây:
Mối liên hệ giữa P và odds
Chúng ta thấy rằng khi giá trị của \(P\) thấp thì \(odds\) rất gần với \(P\), nhưng khi giá trị của \(P\) cao thì \(odds\) cao hơn rất nhiều và tiến dần về dương vô cùng.
Odds ratio (OR)
Một chỉ số gắn liền với khái niệm odds là “Odds ratio” hay chỉ số odds. Như tên gọi, OR là tỉ số của 2 odds. Trong thực tế, đặc biệt là nghiên cứu y khoa, OR là một thước đo về mối liên hệ giữa biến phụ thuộc (nhị phân) và các biến dự đoán. Cùng quay lại ví dụ về Ung thư phổi.
Ung thư | Không bị Ung thư | |
---|---|---|
Hút thuốc lá(yes) | 647 | 622 |
Không hút thuốc lá(no) | 2 | 27 |
Odds hút thuốc lá | 323.5 | 23 |
Odds ratio (OR) | 323.5/23 = 14.1 | 323.5/23 = 14.1 |
Trong nghiên cứu này, nhóm Ung thư có 647 người hút thuốc lá và có 2 người không hút thuốc, do đó odds hút thuốc lá (ký hiệu là \(odds_{1}\)) là: \[odds_{1}=\frac{647}{2}=323.5\] Trong nhóm không bị Ung thư, odds hút thuốc lá (ký hiệu là \(odds_{0}\)) là: \[odds_{0}=\frac{622}{27}=23\] Khi đó, tỉ số OR được tính: \[OR=\frac{odds_{1}}{odds_{0}}=\frac{323.5}{23}=14.1\] Kết quả chỉ ra OR = 14.1, trong bối cảnh nghiên cứu bệnh chứng, có thể diễn giải như sau: odds mắc bệnh ung thư phổi ở người hút thuốc lá cao gấp 14.1 lần so với odds ung thư phổi ở người không hút thuốc lá. Chú ý rằng sử dụng từ odds ở đây không phải là xác suất.
Nếu OR = 1 có nghĩa là không có mối liên quan giữa hút thuốc lá và ung thư phổi (tức là odds mắc bệnh ung thư phổi ở người hút thuốc lá và không hút thuốc lá là như nhau).
Tuy nhiên khi OR = 14.1 thì có ý nghĩa thống kê hay không? Hay đây chỉ là yếu tố ngẫu nhiên. Để có thể có câu trả lời thì hãy tưởng tượng chúng ta lặp lại nghiên cứu mẫu này 100 lần, mỗi lần chúng ta ước tính chỉ số OR khác nhau, thì phân bố của OR sẽ như thế nào? Trong thực tế thì không ai tiến hành làm những nghiên cứu như vậy, ở đây chúng ta dùng suy luận thống kê, giá trị thực của OR trong thực tế thì chúng ta không biết (gọi giá trị thật của OR là \(\theta\)). Ước tính khoảng tin cậy 95% của \(\theta\).
Vấn đề phát sinh ở đây chính là OR là giá trị của một tỉ số, và do đó rất khó xác định độ lệch chuẩn của một tỉ số. Cách dễ dàng nhất là hoán chuyển OR sang biến số cộng bằng cách lấy logarit. Các bước tiến hành như sau:
- Bước 1: Hoán chuyển OR: \(logOR = log(OR)=log(14.1)=2.65\)
- Bước 2: Phương sai của logOR tính toán từ bảng số liệu phía trên \[s^{2}=\frac{1}{647}+\frac{1}{622}+\frac{1}{2}+\frac{1}{27}=0.54\] Nói cách khác, độ lệch chuẩn của logOR là \(s=\sqrt{0.54}=0.735\)
- Bước 3: Ước tính khoảng tin cậy 95% của logOR với giả định phân bố chuẩn: \[2.65\pm1.96*0.735=[1.21;4.09]\]
- Bước 4: Hoán chuyển ngược lại cho đơn vị tỉ số (tức OR):
\[e^{1.21}=3.35\] \[e^{4.09}=59.7\] Kết quả cho thấy OR trung bình là 2.65 nhưng khoảng tin cậy 95% có thể dao động từ 3.35 đến 59.7. Nói cách khác, nếu nghiên cứu được lặp lại 100 lần ở nhiều quần thể độc lập, thì dự báo có 95% nghiên cứu với OR dao động trong khoảng trên. Bởi vì IC95% của OR đều lớn hơn 1, nên chúng ta có thể kết luận rằng mối liên hệ giữa hút thuốc lá và ung thư phổi là có ý nghĩa thống kê (statiscally significant).
Trong phân tích trên, chú ý rằng tỉ số OR và khoảng tin cậy 95% được tính từ logOR. Do đó mô hình hồi quy Logistic dựa trên cơ sở của phương pháp hoán chuyển Logarit, kéo theo là định nghĩa Logit……..