Mô hình trên có thể chuyển về dạng liên kết cho \(\log\) (Odds ratio) và các tham số tương tác \(\left\{\lambda_{i j}^{X Y}\right\}\). Chẳng hạn các mô hình bão hòa cho các bảng \(2 \times 2\) có log (Odds ratio):
\[ \log \theta=\log \frac{\mu_{11} \cdot \mu_{22}}{\mu_{12} \cdot \mu_{21}}=\lambda_{11}^{X Y}+\lambda_{22}^{X Y}-\lambda_{12}^{X Y}-\lambda_{21}^{X Y} \]
Như vậy các tham số \(\left\{\lambda_{i j}^{X Y}\right\}\) quyết định log (Odds ratio). Khi các tham số này bằng 0 , thì Odds ratio \(\theta=1\), tức là \(\mathrm{X}\) và \(\mathrm{Y}\) độc lập.
Trong các trường hợp đơn giản với bảng \(2 \times 2\), ta có thể không cần sử dụng phần mềm để chạy mô hình, mà có thể tính tay. Theo đó với bảng 5.3 có: \[ \hat{\theta}=\frac{435 \times 134}{147 \times 375}=1,0574 ; \log (\hat{\theta})=\log (1,0574)=0,0558 \]
Các tham số tương tác ước lượng thỏa mãn phương trình: \[ \hat{\lambda}_{11}^{X Y}+\hat{\lambda}_{22}^{X Y}-\hat{\lambda}_{12}^{X Y}-\hat{\lambda}_{21}^{X Y}=0,0558 \]
Người ta có thể chỉ định các tham số liên kết để các tham số trong hàng, cuối cùng và cột cuối cùng bằng 0 , hoặc để các tham số liên kết trong hàng đầu tiên và cột đầu tiên bằng 0 , hoặc người ta có thể cho tổng các tham số trong mỗi hàng bằng 0 và tổng các tham số trong mỗi cột bằng 0 .
Mô hình bão hòa (5.1.7) cho bảng ngẫu nhiên \(I \times J\) có tổng số các tham số bằng \(I\), nó cho phù hợp hoàn hảo. Nó có số lượng tham số tối đa có thể, và theo nghĩa này, mô hình được cho là bão hòa.
\[ \begin{array}{|c|c|c|c|c|c|c|} \hline {Observed}&{Frequency } && { Fitted Value } && { log(Fitted Value) } \\ \hline 435 & 147 & 432,10 & 149,09 & 6,069 & 5,005 \\ \hline 375 & 134 & 377,90 & 131,10 & 5,935 & 4,876 \\ \hline Estimated Association Parameter && \hat{\lambda}_{11}^{X Y} & \hat{\lambda}_{12}^{X Y} & \hat{\lambda}_{21}^{X Y} & \hat{\lambda}_{22}^{X Y} \\ \hline { Set 1 } && 0,056 & 0 & 0 & 0 \\ \hline Set 2 & &0,014 & -0,014 & $-0,014 & 0,014 \\ \hline Set 3 && 0 & 0 & 0 & 0,056 \\ \hline \end{array} \]
Bảng 5.6. Uớc tính tham số tuơng tác tuơng đuơng cho mô hinh loglinear bão hòa
Trong thực tế, người ta cố gắng phân tích dữ liệu bằng cách sử dụng các mô hình chưa bão hòa, vì việc thiết lập chúng làm mịn dữ liệu mẫu và mang lại các giải thích đơn giản hơn. Đối với các bảng ba chiều và chiều cao hơn, các mô hình không bão hòa có thể bao gồm các số hạng liên kết. Sau khi mô hình loglinear xác lập, từ các ước tính của các tham số hai nhân tố có thể suy ra các ước tính các Odds ratio có điều kiện giữa các cặp biến.
Mô hình (5.1.7) là một mô hình phân cấp, tức là mô hình bao gồm tất cả các số hạng bậc thấp hơn được tạo thành từ các biến chứa trong một số hạng bậc cao hơn trong mô hình. Chẳng hạn, khi mô hình chứa số hạng \(\lambda_{i j}^{X Y}\), nó cũng chứa \(\lambda_i^X\) và \(\lambda_j^Y\). Ở đây chúng ta chỉ xét các mô hình phân cấp. Khi một mô hình có các số hạng hai nhân tố, cần thận trọng khi diễn giải các số hạng nhân tố đơn bậc thấp hơn.
Tiếp theo chúng ta giới thiệu các mô hình loglinear đối với các bảng ngẫu nhiên ba chiều \(I \times J \times K\) cho các biến \(\mathrm{X}, \mathrm{Y}, \mathrm{Z}\). Các mô hình khác nhau có các thành phân độc lập và liên kết khác nhau. Một mô hình phù hợp giúp chúng ta mô tả các các mối liên kết giữa các biến và ước tính các tần số kỳ vọng và các Odds ratio cặp đôi. Ký hiệu các tần số kỳ vọng của các ô trong bảng ngẫu nhiên bằng \(\left\{\mu_{i j k}\right\}\). Các mô hình loglinear được xét là các mô hình phân cấp, nên để ký hiệu mô hình một cách đơn giản, người ta chỉ liệt kê trong ngoặc các tương tác cấp cao nhất và các biến được đưa vào mà không có trong các tương tác, chẳng hạn: Mô hình chỉ có biến \(\mathrm{X}, \mathrm{Y}\) và tương tác \(\mathrm{X}-\mathrm{Z}\) được ký hiệu là: \((\mathrm{Y}, \mathrm{XZ})\), đó là mô hình: \[ \log \mu_{i j k}=\lambda+\lambda_i^X+\lambda_j^Y+\lambda_k^Z+\lambda_{i k}^{X Z} \]
Mô hình \((\mathrm{XY}, \mathrm{XZ})\) là: \(\log \mu_{i j k}=\lambda+\lambda_i^X+\lambda_j^Y+\lambda_k^Z+\lambda_{i j}^{X Y}+\lambda_{i k}^{X Z}\)
Mô hình (XY, XZ, YZ): \(\log \mu_{i j k}=\lambda+\lambda_i^X+\lambda_j^Y+\lambda_k^Z+\lambda_{i j}^{X Y}+\lambda_{i k}^{X Z}+\lambda_{j k}^{Y Z}\)
Mô hình (XYZ): \(\log \mu_{i j k}=\lambda+\lambda_i^X+\lambda_j^Y+\lambda_k^Z+\lambda_{i j}^{X Y}+\lambda_{i k}^{X Z}+\lambda_{j k}^{Y Z}+\lambda_{i j k}^{X Y Z}\)
Mô hình \((\mathrm{X}, \mathrm{Y}, \mathrm{Z})\) : \(\quad \log \mu_{i j k}=\lambda+\lambda_i^X+\lambda_j^Y+\lambda_k^Z\) được gọi là mô hình độc lập lẫn nhau. Mô hình này hiếm gặp, vì nó bỏ qua sự tương tác.
Mô hình \((\mathrm{XZ}, \mathrm{YZ})\) : \(\log \mu_{i j k}=\lambda+\lambda_i^X+\lambda_j^Y+\lambda_k^Z+\lambda_{i k}^{X Z}+\lambda_{j k}^{Y Z}\)
Mô hình này cho phép liên kết giữa \(X\) và \(Z\), khi kiểm soát \(Y\), cho phép liên kết giữa \(Y\) và \(Z\) khi kiểm soát \(X\). Nó không chứa số hạng hai nhân tố cho liên kết \(X\) \(\mathrm{Y}\). Mô hình loglinear này chỉ rõ tính độc lập có điều kiện giữa \(\mathrm{X}\) và \(\mathrm{Y}\), kiểm soát Z. Mô hình này là một mô hình quan trọng.
Mô hình (XY, XZ, YZ): \[ \log \mu_{i j k}=\lambda+\lambda_i^X+\lambda_j^Y+\lambda_k^Z+\lambda_{i j}^{X Y}+\lambda_{i k}^{X Z}+\lambda_{j k}^{Y Z} \]
Mô hình (XYZ): \[ \log \mu_{i j k}=\lambda+\lambda_i^X+\lambda_j^Y+\lambda_k^Z+\lambda_{i j}^{X Y}+\lambda_{i k}^{X Z}+\lambda_{j k}^{Y Z}+\lambda_{i j k}^{X Y Z} \]
Mô hình chứa tất cả các tượng tác, nó cho phép odds ratio giữa hai biến bất thay đổi theo các mức của biến thứ ba, được gọi là mô hình bão hòa cho một g ba chiều. Mô hình này cung cấp một sự phù hợp hoàn hảo (các tần số kỳ vọng tính trùng với các tần số ô quan sát), tuy nhiên đây là mô hình phức tạp nhất ít được quan tâm. Trang 137 Phân tích dữ liệu định tính 2.
Xét mô hình loglinear tổng quát nhất cho các bảng ba chiều (5.3.4): \[ \log \mu_{i j k}=\lambda+\lambda_i^X+\lambda_j^Y+\lambda_k^Z+\lambda_{i j}^{X Y}+\lambda_{i k}^{X Z}+\lambda_{j k}^{Y Z}+\lambda_{i j k}^{X Y Z} \] - Tham số \(\lambda\) biểu thị log của kỳ vọng tần số ô quan sát khi không có tác động nào của các biến.
- Các tham số: \(\lambda_i^X, \lambda_j^Y, \lambda_k^Z\) gọi là các số hạng đơn nhân tố, đó là các hiệu ứng chính, biểu thị sự tác động riêng của từng biến lên \(\log \mu_{i j k}\), cụ thể: \(\lambda_i^X\) là tác động của riên biến \(\mathrm{X}\) ở mức \(\mathrm{i}, \lambda_j^Y\) là tác động của riên biến \(\mathrm{Y}\) ở mức \(\mathrm{j}\), \(\lambda_k^Z\) là tác động của riên biến \(\mathrm{Z}\) ở mức \(\mathrm{k}\).
- Các tham số: \(\lambda_{i j}^{X Y}, \lambda_{i k}^{X Z}, \lambda_{j k}^{Y Z}\) gọi là các số hạng tương tác hai nhân tố, chúng đại diện cho các mối liên kết bộ phận, biểu thị sự tác động lên \(\log \mu_{i j k}\) bởi tương tác của hai biến khi kiểm soát biến còn lại, cụ thể: \(\lambda_{i j}^{X Y}\) là tác động do tương tác giữa mức \(\mathrm{i}\) của \(\mathrm{X}\) và mức \(\mathrm{j}\) của \(\mathrm{Y}\), khi kiểm soát \(\mathrm{Z}\) ở mức \(\mathrm{k}\); \(\lambda_{i k}^{X Z}\) là tác động do tương tác giữa mức i của \(\mathrm{X}\) và mức \(\mathrm{k}\) của \(\mathrm{Z}\), khi kiểm soát \(\mathrm{Y}\) ở mức \(\mathrm{j}\); \(\lambda_{j k}^{Y Z}\) là tác động do tương tác giữa mức \(\mathrm{j}\) của \(\mathrm{Y}\) và mức \(\mathrm{k}\) của \(\mathrm{Z}\), khi kiểm soát \(\mathrm{X}\) ở mức i. Các tham số hai nhân tố liên quan trực tiếp đến các odds ratio có điều kiện.
Với một mô hình chưa bão hòa (không chứa số hạng ba nhân tố), có chứa liên \(\mathrm{X}-\mathrm{Y}\), xét tại mức \(\mathrm{Z}=\mathrm{k}\), ta có odds ratio có điều kiện \(\mathrm{X}-\mathrm{Y}\) là \(\theta_{X Y(k)}\) mô tả liên giữa \(\mathrm{X}\) và \(\mathrm{Y}\) trong bảng bộ phận thứ \(\mathrm{k}\). Khi đó: \[ \log \theta_{X Y(k)}=\log \frac{\mu_{11 k} \cdot \mu_{22 k}}{\mu_{12 k} \cdot \mu_{21 k}}=\lambda_{11}^{X Y}+\lambda_{22}^{X Y}-\lambda_{12}^{X Y}-\lambda_{21}^{X Y} \]
Tương tự, nếu mô hình này có chứa liên kết \(\mathrm{X}-\mathrm{Z}\), xét tại mức \(\mathrm{Y}=\mathrm{j}\), ta có Is ratio có điều kiện \(X-Z\) là \(\theta_{X Z(j)}\) mô tả liên kết giữa \(X\) và \(Z\) trong bảng bộ phận j. Khi đó: \[ \log \theta_{X Z(j)}=\log \frac{\mu_{1 j 1} \cdot \mu_{2 j 2}}{\mu_{1 j 2} \cdot \mu_{2 j 1}}=\lambda_{11}^{X Z}+\lambda_{22}^{X Z}-\lambda_{12}^{X Z}-\lambda_{21}^{X Z} \]
Nếu mô hình này có chứa liên kết \(\mathrm{Y}-\mathrm{Z}\), xét tại mức \(\mathrm{X}=\mathrm{i}\), ta có odds ratio có điều kiện \(\mathrm{Y}-\mathrm{Z}\) là \(\theta_{Y Z(i)}\) mô tả liên kết giữa \(\mathrm{Y}\) và \(\mathrm{Z}\) trong bảng bộ phận thứ i. Khi đó: \[ \log \theta_{Y Z(i)}=\log \frac{\mu_{i 11} \cdot \mu_{i 22}}{\mu_{i 12} \cdot \mu_{i 21}}=\lambda_{11}^{Y Z}+\lambda_{22}^{Y Z}-\lambda_{12}^{Y Z}-\lambda_{21}^{Y Z} \]
Vế phải của các biểu thức này không phụ thuộc vào \(\mathrm{k}, \mathrm{j}\), i, do đó odds ratio của một cặp biến là như nhau ở mọi cấp độ của biến còn lại. Tính chất này được gọi là tính cấu trúc liên kết thuần nhất, như đã được đề cập trong chương 2 .
Đối với các mô hình loglinear phức tạp như các mô hình có số chiều là ba hoặc hơn nữa, việc tính toán cho mô hình cần phải nhờ đến các phần mềm hỗ trợ. Các phần mềm hỗ trợ tính các ước lượng cho các tần số kỳ vọng của các ô bằng phương pháp ML. Ở đây ta sử dụng phần mềm R.
\[ \begin{array}{|c|c|c|c|} \hline Alcohol & Cegarette & { Marijuana}& {Use } \\ Use & Use & Yes & No \\ \hline { Yes } & Yes & 911 & 538 \\ & No & 44 & 456 \\ \hline { No } & Yes & 3 & 43 \\ & No & 2 & 279 \\ \hline\ \end{array} \]
Table 5.7 Alcohol (A), Cigarette (C), and Marijuana (M) Use for High School Seniors
Tiến hành nhập dữ liệu vào \(R\), ta có bảng ba chiều:
\[\text{marijuana} \text{yes} \text{no} \\ \begin{array}{lcrr} \text{alcohol} & \text{cigarette} \\ \text{yes} & \text{yes} & \text{911} & \text{538} \\ & \text{no} & \text{44} & \text{456} \\ \text{no} & \text{yes} & \text{3} & \text{43} \\ & \text{no} & \text{2} & \text{279} \end{array} \]
R có thể trình bày lại bảng dữ liệu trên dưới dạng ba cột:
\[ \begin{array}{llllrr} \text { cigarette } & \text { marijuana } & \text { alcohol } & \text { Freq } \\ \text { yes } & \text { yes } & \text { yes } & 911 \\ \text { no } & \text { yes } & \text { yes } & 44 \\ \text { yes } & \text { no } & \text { yes } & 538 \\ \text { no } & \text { no } & \text { yes } & 456 \\ \text { yes } & \text { yes } & \text { no } & 3 \\ \text { no } & \text { yes } & \text { no } & 2 \\ \text { yes } & \text { no } & \text { no } & 43 \\ \text { no } & \text { no } & \text { no } & 279 \\ \end{array} \]
a.Chạy mô hình \((A, C, M)\) :
\[ \begin{aligned} &\text { Coefficients: }\\ &\begin{array}{lllll} & \text { Estimate } & \text { Std. Error z value } & \operatorname{Pr}(>|\mathrm{z}|) \\ \text { Intercept) } & 4.17254 & 0.06496 & 64.234 & <2 \mathrm{e}-16 * * * \\ \text { cigaretteyes } & 0.64931 & 0.04415 & 14.707 & <2 \mathrm{e}-16 * * * \\ \text { marijuanayes } & -0.31542 & 0.04244 & -7.431 & 1.08 \mathrm{e}-13 * * * \\ \text { alcoholyes } & 1.78511 & 0.05976 & 29.872 & <2 \mathrm{e}-16 * * * \end{array} \end{aligned} \]
Bảng 5.8. Kết quả uớc luợng cho các tham số của \((A, C, M)\) ú́ng với ô \((1,1)\)
Khi chạy mô hình thì \(\mathrm{R}\) mặc định sẽ ước lượng cho tần số của ô đầu tiên trong bảng, nghĩa là ứng với kết quả này thì: \[ \log \left(\hat{\mu}_{11}\right)=4.17254+0.64931-0.31542+1.78511 \]
Trước khi thực hiện việc ước lượng cho tần số kỳ vọng của các ô, \(\mathrm{R}\) sẽ thực hiện các tính toán tương tự bảng trên cho các ô còn lại và sau đó thực hiện việc ước lượng tần số kỳ vọng cho các ô với kết quả trong bảng sau:
\[ \begin{array}{ccccrr} \text { cigarette } & \text { marijuana } & \text { alcohol } & \text { Freq } & \text { fitted(mod0) } \\ \text { yes } & \text { yes } & \text { yes } & \ 911 & 539,98258 \\ \text { no } & \text { yes } & \text { yes } & \ 44 & 282,09123 \\ \text { yes } & \text { no } & \text { yes } & 538 & 740,22612 \\ \text { no } & \text { no } & \text { yes } & 456 & 386,70007 \\ \text { yes } & \text { yes } & \text { no } & 3 & 90,59739 \\ \text { no } & \text { yes } & \text { no } & 2 & 47,3288 \\ \text { yes } & \text { no } & \text { no } & 43 & 124,19392 \\ \text { no } & \text { no } & \text { no } & 279 & 64,8799 \\ \end{array} \]
Bảng 5.9. Kết quả uớc luợng cho các tần số kỳ vọng của các ô bằng \((A, C, M)\)
Ở hai cột cuối cùng: cột Freq là các tần số ô quan sát được, cột fitted là các giá trị ước tính cho tần số kỳ vọng của các ô tương ứng.
\[ \begin{aligned} &\text { Coefficients: }\\ &\begin{array}{lrrrr} & \text { Estimate } & \text { Std. Error } & \text { z value } & \operatorname{Pr}(>|z| \\ \text { (Intercept) } & 5.63342 & 0.05970 & 94.361 & <2 \mathrm{e}-16 \\ \text { cigaretteyes } & -1.88667 & 0.16270 & -11.596 & <2 \mathrm{e}-16 \\ \text { marijuanayes } & -5.30904 & 0.47520 & -11.172 & <2 \mathrm{e}-16 \\ \text { alcoholyes } & 0.48772 & 0.07577 & 6.437 & 1.22 \mathrm{e}-10 \\ \text { cigaretteyes:marijuanayes } & 2.84789 & 0.16384 & 17.382 & <2 \mathrm{e}-16 \\ \text { cigaretteyes:alcoholyes } & 2.05453 & 0.17406 & 11.803 & <2 \mathrm{e}-16 \\ \text { marijuanayes:alcoholyes } & 2.98601 & 0.46468 & 6.426 & 1.31 \mathrm{e}-10 \\ \hline \end{array} \end{aligned} \]
Bảng 5.10. Kết quả uớc lượng cho các tham số của \((A C, A M, C M)\) úng với ô \((1,1)\)
Tương ứng với kết quả cụ thể khi chạy mô hình là: \[ \log \left(\hat{\mu}_{11}\right)=5.63342-1.88667-5.30904-0.48772+2.84789+2.05453+2.98601 \]
Trước khi thực hiện việc ước lượng cho tần số kỳ vọng của các ô, \(\mathrm{R}\) sẽ thực hiện các tính toán tương tự bảng trên cho các ô còn lại và sau đó thực hiện việc ước lượng tần số kỳ vọng cho các ô với kết quả trong bảng sau:
\[ \begin{array}{ccccrr} \text { cigarette } & \text { marijuana } & \text { alcohol } & \text { Freq } & \text { fitted(mod1) } \\ \text { yes } & \text { yes } & \text { yes } & \ 911 & 910,38317 \\ \text { no } & \text { yes } & \text { yes } & \ 44 & 44,61683 \\ \text { yes } & \text { no } & \text { yes } & 538 & 538,61683 \\ \text { no } & \text { no } & \text { yes } & 456 & 455,38317 \\ \text { yes } & \text { yes } & \text { no } & 3 & 3,61683 \\ \text { no } & \text { yes } & \text { no } & 2 & 1,38317 \\ \text { yes } & \text { no } & \text { no } & 43 & 42,38317 \\ \text { no } & \text { no } & \text { no } & 279 & 279,61683 \\ \end{array} \]
Bảng 5.1.11. Kết quả ước lượng cho các tần số kỳ vọng của các ô nhờ ( AC,AM,CM)