\[odds_{i} = \frac{\pi_{i}}{1-\pi_{i}} \iff \pi_{i} = \frac{odds_{i}}{1+odds_{i}} \hspace{5cm} (2.3.2)\] - Trong thực tế, thường chưa biết phân phối đồng thời của X và Y, nên cũng không tính được odds, khi đó người ta xấp xỉ odds bởi tỷ lệ cược mẫu (sample odds): \[\text{sample odd}_{i}=\frac{f_{i}}{1-f_{i}}=\frac{n_{i1}/n_{i+}}{1-n_{i1}/n_{i+}}=\frac{n_{i1}}{n_{i2}}\hspace{5cm} (2.3.3)\] Ví dụ 8: với \(\pi_{1}=0,75\) khi đó odds của “thành công” là \(odds_{1}=\frac{0,75}{1-0,75}=3\), cho thấy khả năng “thành công” gấp 3 lần khả năng “không thành công” trong cùng một điều kiện tác động của biến giải thích.

Ví dụ 9: Biết \(odds_{2}=1,5\), ta có xác suất “thành công”:\(\pi_{2}=\frac{odds_{2}}{1+odds_{2}}=\frac{1,5}{1+1,5}=0,6\)

Ví dụ 10: Từ bảng 2.8, có: \[\text{sample odds}_{1}=\frac{n_{11}}{n_{12}}=\frac{189}{10845}=0,0174; \text{sample odds}_{2}=\frac{n_{21}}{n_{22}}=\frac{104}{10933}=0,00095\] Định nghĩa 4: Tỷ lệ chênh (Odds ratio) của hàng 1 và 2, được kí hiệu là \(\theta\), đó là tỷ số giữa tỷ lệ cược của “thành công” ở hàng 1 và tỷ lệ cược của “thành công” ở hàng 2: \[\theta=\frac{odds_{1}}{odd_{2}}=\frac{\pi_{1}(1-\pi_{2})}{\pi_{2}(1-\pi_{1})}\hspace{5cm}(2.3.4)\] Vậy odds ratio là tỷ số của 2 odds trên 2 dòng khác nhau, rủi ro tương đối là tỷ số của xác suất “thành công” trên 2 dòng khác nhau.

2.3.1 Các tính chất của odds ratio

Chú ý:

2.3.2 Các phương pháp suy diễn cho odds ratio và log của odds ratios

Đối với trường hợp cỡ mẫu nhỏ và trung bình, phân phối mẫu của odds ratio bị lệch rất lớn. \(\hat{\theta}\) bị chặn dưới bởi 0, nhưng nó có thể rất lớn khi \(n_{12}.n_{21}\) bé hơn nhiều so với \(n_{11}.n_{22}\) Theo tính chất của odds ratio, mức \(\theta\) = 1 là mức trung gian phân định chiều hướng của sự liên kết, nhưng \(\hat{\theta}\) biến thiên trong khoảng [0,\(+\infty\)), không đối xứng qua mức này. Do sự mất cân đối này nên trong các vấn đề suy diễn cho odds ratio người ta sẽ thay thế odds ratio bởi logarit tự nhiên của nó Khi chúng ta lấy log thì giá trị của hàm log(\(\theta\)) sẽ nhận giá trị trong (\(-\infty, +\infty\)), giá trị \(\theta\)= 1 ứng với log(\(\theta\)) = 0, phép lấy nghịch đảo của \(\theta\) khi đó ứng với phép đối xứng qua 0 của log(\(\theta\)) . Người ta chỉ ra được rằng khi cỡ mẫu khá lớn, phân phối của \(\hat{\theta}\) xấp xỉ phân phối loga chuẩn, tức là phân phối của log(\(\hat{\theta}\)) sẽ dần về phân phối chuẩn với kỳ vọng là log(\(\theta\)) và độ lệch chuẩn xấp xỉ \[ASE(log\hat{\theta})=\sqrt{\frac{1}{n_{11}}+\frac{1}{n_{12}}+\frac{1}{n_{21}}+\frac{1}{n_{22}}}\] Khi đó khoảng tin cậy cho \(log(\theta)\) là: \[(log(\hat{\theta})-u(\frac{\alpha}{2}).ASE(log(\hat{\theta}));log(\hat{\theta})+u(\alpha/2).ASE(log(\hat{\theta})))\] Từ đó suy ra khoảng tin cậy cho θ.

Ví dụ 12: Tìm khoảng tin cậy 95% cho odds ratio về “thành công”. Trong bảng 2.8, log(\(\hat{\theta}\)) = \(log(1,82) = 0,605\)\(ASE(log\hat{\theta})\) = \((1/189 + 1/10.933 + 1/10.845 + 1/104)1/2 = 0,123\), do đó khoảng tin cậy 95% của log(\(\theta\)) là 0,605 \(\pm\) (1,96)(0,123)≡ (0,365 ; 0,846) và chúng ta chuyển về giá trị của \(\theta\) bằng hàm mũ \(\theta=(e^{0,365};e^{0,846})=(1,44;2,33)\)

Vì khoảng tin cậy cho \(\theta\) không chứa 1,0, tỷ lệ thực sự MI có vẻ khác nhau cho hai nhóm. Khoảng này dự đoán rằng odds của MI những bệnh nhân dùng giả dược cao hơn ít nhất 44% so với những người dùng aspirin.

\(\hat{\theta}\) bằng \(\theta\) hoặc \(\infty\) nếu có \(n_{ij}=0\), và nó là không xác định nếu cả hai ô trong một hàng hoặc cột là số không. Khi đó dự báo sửa đổi một chút : \[\bar{\theta}=\frac{(n_{11}+0,5)(n_{22}+0,5)}{(n_{12}+0,5)(n_{21}+0,5)}\] tương ứng với việc gia tăng thêm 0,5 cho mỗi ô đếm. Điều này càng phù hợp hơn khi các ô tần số rất nhỏ hoặc có các ô bằng 0. Trong trường hợp đó, công thức ASE (2.3.4) sẽ thay thế \(n_{ij}\) bởi \(n_{ij} + 0,5\). Với Bảng 2.8,\(\bar{\theta}=\frac{189,5.10933,5}{10845,5.104,5}=1,828\approx1,832\), vì không có ô tần số nào quá nhỏ.

2.3.3. Quan hệ giữa Odds ratio và rủi ro tương đối

Tỷ lệ chênh lệch mẫu \(\hat{\theta}=1,83\) không có nghĩa là \(f_{1}\) gấp 1,83 lần \(f_{2}\), mà có nghĩa là tỷ lệ cược \(\frac{f_{1}}{1-f_{1}}\) bằng 1,83 lần tỷ lệ cược \(\frac{f_{2}}{1-f_{2}}\). Từ định nghĩa ta có: \[\text{Odds ratio}=\frac{\pi_{1}/1-\pi_{1}}{\pi_{2}/1-\pi_{2}}=\text{Relative risk} * \frac{1-\pi_{2}}{1-\pi_{1}}\] \[\text{Sample Odds ratio}=\frac{f_{1}/1-f{1}}{f_{2}/1-f_{2}}=\text{Sample Relative risk}*\frac{1-f_{2}}{1-f_{1}}\] Khi tỷ lệ thành công gần bằng 0 cho cả hai nhóm, thì tỷ lệ chênh lệch và rủi ro tương đối xấp xỉ nhau. Bảng 2.8 minh họa sự xấp xỉ này. Đối với mỗi nhóm, tỷ lệ mẫu của các trường hợp MI gần bằng không (\(f_{1} = 189/11034 = 0,171; f_{2}= 104/11037 = 0,0094\)). Như vậy tỷ số chênh lệch mẫu là 1,83 xấp xỉ với mức rủi ro tương đối mẫu 1,82 đạt được trong phần 2.2.3, và tỷ lệ chênh lệch 1,83 cũng có nghĩa là \(f\) xấp xỉ 1,83 lần \(f_{2}\). Trong trường hợp như vậy, khi việc tính toán các rủi ro tương đối là không thể, thì người ta có thể tính toán và sử dụng odds ratio để xấp xỉ cho rủi ro tương đối.

2.4. Các kiểm định Chi-Bình phương về tính độc lập

2.4.1. Đặt bài toán

Giả sử X và Y là hai biến quan sát định tính. Qua điều tra, biến X có k thuộc tính (hay k dấu hiệu): \(A_{1},A_{2},..., A_{k}\); biến Y có m thuộc tính: \(B_{1}, B_{2},...,B_{m}\), nhận được bảng 2.10 với \(m_{ij}\) là số lần xuất hiện cặp \((A_{i},B_{j})\), và \(\sum_{i,j}n_{ij}=n\). Với mức ý nghĩa \(\alpha\), hãy xác minh xem X và Y có độc lập hay không. Việc xác minh này được gọi là kiểm định về tính độc lập.

\[\begin{array}{|c|c|c|c|c|} \hline X\Y& B1 & ...&Bj &...& Bm & n_{i+} \\ \hline A1 & n_{11} &...& n_{1j} &...& n_{1m} & n_{1+} \\ \hline \vdots & \vdots & &\vdots & \vdots & \vdots& \\ \hline Ai & n_{i1}&... & n_{ij} & ...&n_{im} & n_{i+} \\ \hline \vdots & \vdots & ...&\vdots &...& \vdots & \\ \hline Ak & n_{k1} & ...&n_{kj} &...& n_{km} & n_{k+} \\ \hline n_{+j} & n_{+1} & & n_{+j} & & n_{+m} & N \\ \hline \end{array}\] \[\text{Bảng 2.10}\] 2.4.2. Các thống kê kiểm định

a. Thống kê Pearson

Trên cơ sở giả thuyết \(H_{0}\) đúng, tức là X và Y độc lập nhau, do đó: \[P(A_{i},B_{j})=P(A_{i}).P(B_{j}),∀i,j\] từ đó: \[f_{ij}=\frac{n_{ij}}{n}=f_{i+}.f_{+j}=\frac{n_{i+}}{n}.\frac{n_{+j}}{n},∀i,j\] Nhà thống kê học người Anh, Karl Pearson (1900) đã đưa ra thống kê:

\[ \chi^2 = n.\{\sum_{i=1}^{k} \sum_{j=1}^{m} \frac{(\frac{n_{ij}}{n} - \frac{n_{i+} }{n}.\frac{n_{+j}}{n})^2}{\frac{n_{i+}}{n}.\frac{n_{+j}}{n}} \} = n. \left( \sum_{i=1}^{k} \sum_{j=1}^{m} \frac{n_{ij}^2}{n_{i+} \cdot n_{+j}} - 1 \right) \] để kiểm định giả thuyết về tính độc lập, và thống kê này mang tên thống kê Pearson. Rõ ràng là \(\chi^2\) ≥ 0 và \(\frac{n_{ij}}{n}\) càng khác xa \(\frac{n_{i+}}{n}.\frac{n_{+j}}{n}\) thì giá trị \(\chi^2\) càng lớn tức là càng có bằng chứng mạnh mẽ để bác bỏ giả thuyết về tính độc lập. Khi cỡ mẫu khác lớn thì thống kê này có phân phối xấp xỉ phân phối Chi - bình phương với bậc tự do df =(k-1).(m-1).

Trong g thực hành, để tính giá trị của thống kê Pearson, có thể dựa vào các phần mềm, hoặc lập bảng tính.

Bảng tính được thiết lập từ bảng 2.10, ở mỗi ô tần số \(n_{ij}\) ta ghi thêm giá trị \(\frac{n_{ij}^2}{n_{i+} \cdot n_{+j}}\) vào trong ngoặc (…) như sau: \[\begin{array}{|c|c|c|c|c|} \hline X\Y& B1 &...& Bj&... & Bm & \sum \\ \hline A_{1} & n_{11} (...) &...& n_{1j} (...) &...& n_{1m} (...)& n_{1+} \\ \hline \vdots & \vdots & & \vdots &\vdots& &\vdots \\ \hline A_{i} & n_{i1} (...)&...& n_{ij} (...) & ...& n_{im} (...) & n_{i+} \\ \hline \vdots & \vdots & ...&\vdots &...& \vdots & \vdots \\ \hline Ak & n_{k1} (...) &...& n_{kj} (...) &...& n_{km} (...)& n_{k+} \\ \hline \sum & n_{+1} &...& n_{+j} &...& n_{+m} & N \\ \hline \end{array}\] \[\text{Bảng 2.11. Bảng tính cho thống kê Pearson}\] khi đó : \(\chi^2=n.{\text{(Tổng các số tỏng các ngoặc)-1}}\) hoặc cũng có thể \(\chi^2\) được tính từ công thức biến đổi: \[\chi^2=n.\{\sum_{i=1}^{k} \sum_{j=1}^{m} \frac{(\frac{n_{ij}}{n} - \frac{n_{i+} }{n}.\frac{n_{+j}}{n})^2}{\frac{n_{i+}}{n}.\frac{n_{+j}}{n}}\}=\sum\limits_{i,j}\frac{(n_{ij}-\hat{\mu}_{ij})^2}{\hat{\mu}_{ij}}\] ta lập bảng tính bằng cách từ bảng 2.10, ở mỗi ô tần số \(n_{ij}\) ta mở ngoặc ghi thêm hai số theo thứ tự là \(\hat{\mu}_{ij}=\frac{n_{i+}+n_{+j}}{n}\), và \(\frac{(n_{ij}-\hat{\mu}_{ij})^2}{\hat{\mu}_{ij}}\). Khi đó: \[\chi^2= \text{Tổng các thành phần thứ hai trong ngoặc}\]. b.Thống kê tỷ số hợp lý

Một thống kê khác để kiểm định H0 nhận được từ phương pháp tỷ số hợp lý cho các kiểm định quan trọng. Kiểm định xác định các giá trị tham số tối đa hóa hàm hợp lý theo giả định rằng H0 là đúng. Kiểm định này dựa trên tỷ số hợp lý tối đa, \[\Lambda=\frac{\text{Hợp lý tối đa khi các tham số thỏa mãn H_{0}}}{\text{Hợp lý tối đa khi các tham số không bị hạn chế}}\] Tỷ lệ này không thể vượt quá 1. Nếu hợp lý tối đa lớn hơn nhiều khi các tham số không buộc phải đáp ứng \(H_{0}\), thì tỷ số \(\Lambda\) thấp hơn 1 xa và có bằng chứng mạnh mẽ bác bỏ \(H_{0}\). Thống kê kiểm định cho kiểm định tỷ số hợp lý bằng \(-2log\Lambda\) Giá trị này là không âm và các giá trị “nhỏ” của Λ tạo ra các giá trị lớn cho \(-2log\Lambda\). Lý giải cho việc phép biến đổi log sẽ mang lại một phân phối mẫu xấp xỉ phân phối Chi - bình phương. Với các bảng ngẫu nhiên hai chiều, thống kê này xác định bởi công thức : \[G^2=2\sum n_{ij}.log(\frac{n_{ij}}{\hat{\mu}_{ij}})\hspace{1cm} (với\space \hat{\mu}_{ij}=n.f_{i+}.f_{+j}=\frac{n_{i+}.n_{+j}}{n})\] Thống kê \(G^2\) được gọi là thống kê likelihood-ratio Chi - bình phương. Giống như thống kê Pearson, \(G^2\) có giá trị nhỏ nhất là 0 khi tất cả \(n_{ij}=\hat{\mu}_{ij}\) và giá trị càng lớn thì cung cấp bằng chứng mạnh hơn để bác bỏ \(H_{0}\). Mặc dù thống kê Pearson \(\chi^2\) và thống kê tỷ số hợp lý \(G^2\) cung cấp thống kê kiểm định riêng biệt, nhưng chúng chia sẻ nhiều đặc tính và thường mang lại những kết luận tương tự.