Trong tuần trước, chúng ta đã thực hiện phân tích mô tả cho các biến định tính bằng cách tạo các bảng tần số và biểu đồ tương ứng. Ngoài ra, chúng ta cũng trình bày cách phân tích mối quan hệ giữa hai biến định tính bằng cách sử dụng bảng tần số chéo (contingency tables). Bảng tần số chéo cho thấy sự phân phối kết hợp của hai biến định tính, giúp chúng ta thấy được số lượng hoặc tỷ lệ các quan sát rơi vào từng kết hợp của các hạng mục từ hai biến đó.
| Drink | Food | Non-Consumable | |
|---|---|---|---|
| F | 669 (9.3%) | 5149 (71.8%) | 1352 (18.9%) |
| M | 581 (8.4%) | 5004 (72.6%) | 1304 (18.9%) |
Gender (Giới tính) và ProductFamily (Nhóm sản phẩm chính): Bảng này cho thấy số lượng giao dịch theo từng kết hợp giới tính và nhóm sản phẩm (Drink, Food, Non-Consumable). Ví dụ, có 5149 giao dịch từ khách hàng nữ mua sản phẩm nhóm Food. Khi tính tỷ lệ theo hàng (tức là tỷ lệ mua mỗi nhóm sản phẩm trong tổng số giao dịch của giới tính đó), tỷ lệ lựa chọn các nhóm sản phẩm khá tương đồng giữa nam và nữ. Tỷ lệ mua Food ở nữ là 71.81% và ở nam là 72.64%.
| N | Y | |
|---|---|---|
| M | 1719 (25.0%) | 5147 (75.0%) |
| S | 3896 (54.2%) | 3297 (45.8%) |
MaritalStatus (Tình trạng hôn nhân) và Homeowner (Tình trạng sở hữu nhà): Bảng này hiển thị số lượng khách hàng theo kết hợp tình trạng hôn nhân (Married/Single) và tình trạng sở hữu nhà (Yes/No). Ví dụ, trong nhóm đã kết hôn (M), có 5147 người sở hữu nhà (Y). Khi tính tỷ lệ theo hàng (tức là tỷ lệ sở hữu nhà trong mỗi nhóm tình trạng hôn nhân), khoảng 74.96% người đã kết hôn sở hữu nhà, trong khi chỉ khoảng 45.84% người độc thân sở hữu nhà.
| Drink | Food | Non-Consumable | |
|---|---|---|---|
| $10K - $30K | 267 (8.6%) | 2232 (72.2%) | 591 (19.1%) |
| $110K - $130K | 59 (9.2%) | 468 (72.8%) | 116 (18.0%) |
| $130K - $150K | 56 (7.4%) | 556 (73.2%) | 148 (19.5%) |
| $150K + | 25 (9.2%) | 199 (72.9%) | 49 (17.9%) |
| $30K - $50K | 421 (9.2%) | 3340 (72.6%) | 840 (18.3%) |
| $50K - $70K | 193 (8.1%) | 1705 (71.9%) | 472 (19.9%) |
| $70K - $90K | 156 (9.1%) | 1221 (71.4%) | 332 (19.4%) |
| $90K - $110K | 73 (11.9%) | 432 (70.5%) | 108 (17.6%) |
AnnualIncome (Thu nhập hằng năm) và ProductFamily (Nhóm sản phẩm chính): Bảng này thể hiện số lượng giao dịch theo từng kết hợp nhóm thu nhập và nhóm sản phẩm chính. Ví dụ, trong nhóm thu nhập $10K - $30K, có 2232 giao dịch mua sản phẩm nhóm Food. Khi tính tỷ lệ theo hàng, nhóm Food chiếm tỷ lệ lớn nhất trong cơ cấu mua hàng ở hầu hết các mức thu nhập, với tỷ lệ khoảng 72.23% ở nhóm $10K - $30K và 72.59% ở nhóm $30K - $50K.
Các bảng tần số chéo này là cơ sở để phân tích sâu hơn mối liên hệ giữa các biến định tính.
Kiểm định Chi-bình phương (\(\chi^2\)) được sử dụng để đánh giá xem có mối liên hệ thống kê đáng kể giữa hai biến định tính trong bảng tần số chéo hay không.
\[\begin{cases} H_0: \text{Hai biến là độc lập (không có mối liên hệ).}\\ H_1: \text{Hai biến có liên quan (phụ thuộc vào nhau).} \end{cases}\]Quy trình kiểm định:
Tính toán giá trị thống kê Chi-bình phương dựa trên sự khác biệt giữa tần số quan sát được trong bảng dữ liệu và tần số kỳ vọng (nếu H₀ đúng).
So sánh giá trị p-value thu được với mức ý nghĩa (\(\alpha\), thường là 0.05).
Diễn giải kết quả:
Nếu p-value \(<\) \(\alpha\): Bác bỏ \(H_0\), chấp nhận \(H_1\). Có bằng chứng thống kê để kết luận hai biến có mối liên hệ.
Nếu p-value \(\geq\) \(\alpha\): Không đủ bằng chứng thống kê để bác bỏ \(H_0\). Không thể kết luận hai biến có mối liên hệ đáng kể.
Kết quả kiểm định Chi-bình phương cho các cặp biến ở nhiệm vụ tuần 02:
Bài toán kiểm định:
\[\begin{cases} H_0: \text{Tỷ lệ mua các nhóm sản phẩm khác nhau không phụ thuộc vào giới tính.}\\ H_1: \text{Tỷ lệ mua các nhóm sản phẩm khác nhau phụ thuộc vào giới tính.} \end{cases}\]# Thực hiện kiểm định Chi-bình phương để kiểm tra xem có mối liên hệ thống kê giữa hai biến định tính
chi_sq_test_gender_product <- chisq.test(table(df$Gender,df$ProductFamily))
print(chi_sq_test_gender_product)
##
## Pearson's Chi-squared test
##
## data: table(df$Gender, df$ProductFamily)
## X-squared = 3.5185, df = 2, p-value = 0.1722
Với \(\alpha = 0.05\), giá trị p-value = 0.1722 > 0.05, nên không đủ cơ sở bác bỏ H₀. Kết luận: Giới tính và nhóm sản phẩm mua là độc lập, không có mối liên hệ thống kê rõ ràng. Tỷ lệ mua các nhóm sản phẩm không phụ thuộc vào giới tính.
Bài toán kiểm định:
\[\begin{cases} H_0: \text{Tình trạng hôn nhân và việc sở hữu nhà là độc lập (không có mối liên hệ).}\\ H_1: \text{Tình trạng hôn nhân và việc sở hữu nhà có liên quan (Tỷ lệ sở hữu nhà phụ thuộc vào tình trạng hôn nhân).} \end{cases}\]chi_sq_test_mar_home <- chisq.test(table(df$MaritalStatus,df$Homeowner))
print(chi_sq_test_mar_home)
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: table(df$MaritalStatus, df$Homeowner)
## X-squared = 1241.2, df = 1, p-value < 2.2e-16
Với \(\alpha = 0.05\), giá trị p-value < \(2.2 e^{−16}\) < 0.05, nên bác bỏ H₀, chấp nhận H₁. Kết luận: Tình trạng hôn nhân và việc sở hữu nhà có mối liên hệ với nhau.
Bài toán kiểm định:
\[\begin{cases} H_0: \text{Thu nhập hàng năm và nhóm sản phẩm mua là độc lập (không có mối liên hệ).}\\ H_1: \text{Thu nhập hàng năm và nhóm sản phẩm mua có liên quan (tỷ lệ mua các nhóm sản phẩm khác nhau phụ thuộc vào mức thu nhập hàng năm).} \end{cases}\]# Thực hiện kiểm định Chi-bình phương
chi_sq_test_income_product <- chisq.test(table(df$AnnualIncome,df$ProductFamily))
print(chi_sq_test_income_product)
##
## Pearson's Chi-squared test
##
## data: table(df$AnnualIncome, df$ProductFamily)
## X-squared = 14.84, df = 14, p-value = 0.3892
Với \(\alpha = 0.05\), giá trị p-value = 0.3892 > 0.05, nên không đủ cơ sở bác bỏ H₀. Kết luận: Thu nhập hàng năm và nhóm sản phẩm mua là độc lập, không có mối liên hệ thống kê rõ ràng.
Kiểm định Chi-bình phương chỉ cho biết có mối liên hệ hay không, chứ không đo lường độ mạnh hay hướng của mối liên hệ đó.
RR thường được sử dụng trong các nghiên cứu đoàn hệ hoặc thử nghiệm lâm sàng để so sánh tỷ lệ xảy ra một kết quả giữa hai nhóm phơi nhiễm khác nhau. RR so sánh tỷ lệ của một sự kiện trong nhóm này với tỷ lệ của sự kiện đó trong nhóm khác. Công thức chung cho bảng 2x2:
| Có sự kiện (Yes) | Không có sự kiện (No) | Tổng | |
|---|---|---|---|
| Nhóm A | a | b | a + b |
| Nhóm B | c | d | c + d |
\[RR = \frac{\text{Tỷ lệ trong nhóm A}}{\text{Tỷ lệ trong nhóm B}}\]
Trong đó:
Tỷ lệ trong nhóm A \(=\frac{a}{a+b}\)
Tỷ lệ trong nhóm B \(=\frac{c}{c+d}\)
Nếu
RR > 1: Nhóm A có nguy cơ xảy ra sự kiện cao hơn so với nhóm B. Ví dụ, nếu RR = 2, thì nguy cơ xảy ra sự kiện trong nhóm A gấp 2 lần so với nhóm B.
RR < 1: Nhóm A có nguy cơ xảy ra sự kiện thấp hơn so với nhóm B. Ví dụ, nếu RR = 0.5, thì nguy cơ trong nhóm A chỉ bằng một nửa so với nhóm B.
RR = 1: Nguy cơ xảy ra sự kiện là bằng nhau giữa hai nhóm. Không có sự khác biệt về nguy cơ.
Giả sử trong một nghiên cứu theo dõi nguy cơ mắc bệnh tim:
Trong nhóm có hút thuốc (A): 40 người mắc bệnh tim trong tổng số 100 người → Tỷ lệ = 40%
Trong nhóm không hút thuốc (B): 10 người mắc bệnh tim trong tổng số 100 người → Tỷ lệ = 10%
Khi đó:
\[ RR = \frac{0.4}{0.1} = 4 \]
Diễn giải: Người hút thuốc có nguy cơ mắc bệnh tim cao gấp 4 lần so với người không hút thuốc.
Ưu điểm của Relative Risk
Rất trực quan, dễ hiểu.
Đặc biệt hữu ích trong nghiên cứu đoàn hệ và khi biết rõ số lượng thực tế của nhóm phơi nhiễm và không phơi nhiễm.
Có thể tính được độ tin cậy thông qua khoảng tin cậy (confidence interval), giúp đưa ra đánh giá thống kê chắc chắn hơn.
Hạn chế của Relative Risk
Các phân tích suy diễn trên bảng ngẫu nhiên (bảng tần số chéo) được xây dựng dựa trên nền tảng lý thuyết xác suất. Tần suất xuất hiện của các sự kiện trong bảng có thể được mô hình hóa bằng các phân phối xác suất như Poisson (khi xem xét số lần xảy ra sự kiện trong một khoảng thời gian/không gian nhất định) hoặc Multinomial (khi phân loại một số lượng cố định các quan sát vào các danh mục khác nhau). Việc hiểu cấu trúc này giúp đảm bảo các phương pháp suy diễn (như kiểm định, ước lượng khoảng tin cậy) là phù hợp.
Phân phối Poisson là một phân phối xác suất rời rạc, mô tả số lần một sự kiện xảy ra trong một khoảng thời gian hoặc không gian cố định, nếu các sự kiện này xảy ra với một tốc độ trung bình (rate) không đổi và độc lập với thời gian kể từ sự kiện cuối cùng.
Hãy tưởng tượng bạn đang đếm số cuộc gọi đến một tổng đài trong một giờ, số lượng khách hàng ghé thăm siêu thị trong 10 phút, hoặc số lỗi in trên mỗi trang sách. Nếu các sự kiện này (cuộc gọi, khách hàng, lỗi in) xảy ra ngẫu nhiên và với tốc độ trung bình nhất định, thì số lần xảy ra sự kiện đó trong khoảng thời gian/không gian cố định có thể được mô hình hóa bằng phân phối Poisson. Phân phối này chỉ có một tham số duy nhất là \(\lambda\) (lambda), đại diện cho tốc độ trung bình (hay số lần xảy ra trung bình) của sự kiện trong khoảng thời gian/không gian đã xét.
Hàm khối xác suất (Probability Mass Function - PMF) của phân phối Poisson cho biết xác suất để biến ngẫu nhiên \(X\) (số lần sự kiện xảy ra) bằng một giá trị \(k\) cụ thể (\(k = 0, 1, 2, ...\)) là:
\[ P(X=k) = \frac{e^{-\lambda} \lambda^k}{k!} \]
Trong đó:
\(k\) là số lần sự kiện xảy ra (\(k \ge 0\), là số nguyên).
\(\lambda\) (lambda) là tốc độ xảy ra sự kiện trung bình trong khoảng thời gian/không gian xác định (\(\lambda > 0\)).
\(e\) là cơ số của logarit tự nhiên (\(e \approx 2.71828\)).
\(k!\) là giai thừa của \(k\).
Kỳ vọng (Expected Value) và phương sai (Variance) của phân phối Poisson đều bằng \(\lambda\). Điều này là một đặc điểm rất quan trọng của phân phối này.
Ưu điểm
Đơn giản: Chỉ cần một tham số (\(\lambda\)).
Mô hình hóa sự kiện hiếm: Rất phù hợp để mô hình hóa số lần xảy ra các sự kiện tương đối hiếm trong một khoảng lớn.
Tính chất cộng: Tổng của hai biến ngẫu nhiên Poisson độc lập cũng là một biến ngẫu nhiên Poisson với tham số bằng tổng các tham số riêng lẻ.
Nhược điểm
Giả định độc lập: Giả định rằng các sự kiện xảy ra độc lập với nhau. Điều này không phải lúc nào cũng đúng trong thực tế (ví dụ: một khách hàng mua nhiều mặt hàng trong một giao dịch có thể làm các lượt đếm sự kiện không hoàn toàn độc lập).
Giả định tốc độ không đổi: Giả định tốc độ xảy ra sự kiện (\(\lambda\)) là không đổi trong toàn bộ khoảng thời gian/không gian xét. Điều này có thể không đúng (ví dụ: số khách hàng đến siêu thị thay đổi theo giờ trong ngày).
Kỳ vọng = Phương sai: Giả định này có thể không giữ trong dữ liệu thực tế (hiện tượng “phân tán quá mức” - overdispersion, khi phương sai lớn hơn kỳ vọng).
Phân phối Poisson có thể được xem là trường hợp giới hạn của phân phối Nhị thức (Binomial) khi số thử nghiệm \(n\) rất lớn và xác suất thành công \(p\) rất nhỏ, sao cho tích \(np\) (là kỳ vọng của phân phối Nhị thức) tiến đến một giá trị cố định \(\lambda\).
Phân phối Multinomial là một mở rộng của phân phối Nhị thức cho trường hợp có nhiều hơn hai kết quả có thể xảy ra trong mỗi lần thử, và chúng ta quan tâm đến số lần xảy ra của từng kết quả sau một số lần thử cố định và độc lập.
Hãy tưởng tượng bạn đang khảo sát màu sắc yêu thích của một nhóm người và có 3 lựa chọn: Đỏ, Xanh, Vàng. Bạn hỏi 100 người (số lần thử cố định). Phân phối Multinomial sẽ mô tả xác suất để có \(n_1\) người chọn Đỏ, \(n_2\) người chọn Xanh, và \(n_3\) người chọn Vàng, với \(n_1 + n_2 + n_3 = 100\). Mỗi người được hỏi là một lần thử độc lập, và kết quả của họ rơi vào một trong 3 danh mục màu sắc. Các tham số của phân phối Multinomial là tổng số lần thử \(n\) và xác suất \(p_i\) của mỗi danh mục \(i\), với \(\sum p_i = 1\).
Trong bối cảnh dữ liệu siêu thị, bạn có thể phân loại mỗi giao dịch theo “Nhóm sản phẩm chính” (Food, Drink, Non-Consumable). Nếu xem mỗi giao dịch là một lần thử, và có \(n\) giao dịch, phân phối Multinomial có thể mô hình hóa số lượng giao dịch rơi vào mỗi nhóm sản phẩm, giả sử xác suất mua mỗi nhóm sản phẩm là cố định và độc lập giữa các giao dịch. Bảng tần số cho ProductFamily là một ví dụ về kết quả thực tế từ một quá trình có thể được mô hình hóa (ít nhất là xấp xỉ) bằng phân phối Multinomial.
Hàm khối xác suất (PMF) của phân phối Multinomial cho biết xác suất để sau \(n\) lần thử, chúng ta nhận được \(k_1\) lần kết quả 1, \(k_2\) lần kết quả 2, …, \(k_m\) lần kết quả \(m\), với \(\sum_{i=1}^m k_i = n\), là:
\[ P(X_1=k_1, ..., X_m=k_m) = \frac{n!}{k_1! k_2! ... k_m!} p_1^{k_1} p_2^{k_2} ... p_m^{k_m} \]
Trong đó:
\(n\) là tổng số lần thử cố định.
\(m\) là số lượng các kết quả (danh mục) có thể.
\(k_i\) là số lần xảy ra kết quả \(i\), với \(k_i \ge 0\) và \(\sum_{i=1}^m k_i = n\).
\(p_i\) là xác suất xảy ra kết quả \(i\) trong một lần thử, với \(p_i \ge 0\) và \(\sum_{i=1}^m p_i = 1\).
Kỳ vọng của số lần xảy ra kết quả \(i\) (\(X_i\)) là \(E(X_i) = n p_i\).
Ưu điểm
Mô hình hóa hiệu quả các tình huống có nhiều hơn hai kết quả.
Áp dụng cho nhiều loại dữ liệu phân loại.
Nhược điểm/Hạn chế
Giả định độc lập: Giả định các lần thử độc lập với nhau và xác suất cho mỗi kết quả là cố định qua các lần thử. Điều này có thể không đúng (ví dụ: hành vi mua sắm của khách hàng có thể phụ thuộc vào các lần mua trước).
Tổng số thử nghiệm cố định: Cần biết trước tổng số lần thử \(n\).
Tham số: Cần ước lượng \(m-1\) tham số xác suất \(p_i\) (vì tổng bằng 1).
Khi số danh mục \(m=2\), phân phối Multinomial trở thành phân phối Nhị thức. Phân phối Multinomial có thể liên quan đến phân phối Poisson khi số lần thử \(n\) rất lớn và các xác suất \(p_i\) rất nhỏ. Trong trường hợp này, số lần xảy ra mỗi kết quả \(X_i\) có thể được xấp xỉ bằng một phân phối Poisson với tham số \(\lambda_i = n p_i\), và các biến ngẫu nhiên \(X_i\) này là xấp xỉ độc lập. Tuy nhiên, mối quan hệ này phức tạp hơn và chỉ đúng trong điều kiện nhất định. Mối quan hệ phổ biến hơn là sử dụng mô hình hồi quy Poisson hoặc Multinomial để mô hình hóa dữ liệu dạng đếm hoặc phân loại.
Trong phân tích dữ liệu định tính, đặc biệt là khi làm việc với các biến nhị phân (như có/không, mắc bệnh/không mắc bệnh, thành công/thất bại…), ba chỉ số quan trọng thường được sử dụng để so sánh sự khác biệt giữa hai nhóm là:
Mỗi chỉ số mang một ý nghĩa riêng, phù hợp với từng loại thiết kế nghiên cứu và mục tiêu phân tích khác nhau.
Hiệu hai tỷ lệ Là sự khác biệt đơn thuần giữa tỷ lệ của sự kiện quan tâm giữa hai nhóm (ví dụ: tỷ lệ sở hữu nhà ở nhóm đã kết hôn trừ đi tỷ lệ sở hữu nhà ở nhóm độc thân). Nó đo lường sự khác biệt tuyệt đối.
Giả sử \(p_1\) là tỷ lệ sự kiện xảy ra trong nhóm A (ví dụ: nhóm đã kết hôn), \(p_2\) là tỷ lệ sự kiện xảy ra trong nhóm B (ví dụ: nhóm độc thân). Ta có:
\[ \text{Hiệu tỷ lệ} = p_1 - p_2 \]
Ý nghĩa:
Phản ánh sự khác biệt tuyệt đối về xác suất xảy ra sự kiện giữa hai nhóm.
Nếu \(p_1 = 0.75\) và \(p_2 = 0.60\), thì hiệu tỷ lệ là \(0.15\), nghĩa là xác suất xảy ra sự kiện cao hơn 15 điểm phần trăm ở nhóm A so với nhóm B.
Ưu điểm:
Dễ hiểu, trực quan.
Phản ánh được mức độ tác động thực tế (absolute effect) của yếu tố nghiên cứu.
Hạn chế:
Không phản ánh được mức độ tương đối.
Không thích hợp để sử dụng trong các phân tích hồi quy hoặc so sánh xác suất hiếm gặp.
Relative Risk (RR) hay còn gọi là tỷ số nguy cơ, dùng để so sánh tương đối xác suất xảy ra sự kiện giữa hai nhóm.
Với bảng 2x2:
| Có sự kiện (Yes) | Không có sự kiện (No) | Tổng | |
|---|---|---|---|
| Nhóm A | a | b | a + b |
| Nhóm B | c | d | c + d |
Tỷ lệ trong nhóm A: \(p_1 = \frac{a}{a + b}\)
Tỷ lệ trong nhóm B: \(p_2 = \frac{c}{c + d}\)
\[ RR = \frac{p_1}{p_2} = \frac{a / (a + b)}{c / (c + d)} \]
Ý nghĩa:
RR > 1: Nguy cơ xảy ra sự kiện cao hơn trong nhóm A so với nhóm B.
RR < 1: Nguy cơ xảy ra sự kiện thấp hơn trong nhóm A.
RR = 1: Không có sự khác biệt về nguy cơ giữa hai nhóm.
Ví dụ: Nếu RR = 2, thì nhóm A có nguy cơ gấp 2 lần so với nhóm B.
Ưu điểm:
Trực quan, phù hợp với nghiên cứu đoàn hệ và thử nghiệm lâm sàng.
Có thể kết hợp với khoảng tin cậy (confidence interval) để đánh giá độ tin cậy của kết quả.
Hạn chế:
Không áp dụng được cho nghiên cứu bệnh-chứng (vì không biết tổng thể thực tế).
Dễ bị hiểu nhầm nếu không kèm theo tỷ lệ thực tế.
Odds Ratio (OR) hay tỷ số chênh là một phép đo so sánh “tỷ lệ cược” (odds) giữa hai nhóm.
Tỷ lệ cược (odds) là gì?
Tỷ lệ cược là tỷ số giữa xác suất xảy ra sự kiện và xác suất không xảy ra sự kiện:
\[ \text{Odds} = \frac{p}{1 - p} \]
Công thức OR:
Với bảng 2x2 như trên:
Odds ở nhóm A: \(\frac{a}{b}\)
Odds ở nhóm B: \(\frac{c}{d}\)
\[ OR = \frac{a/b}{c/d} = \frac{ad}{bc} \]
Ý nghĩa:
OR > 1: Nhóm A có “cược” xảy ra sự kiện cao hơn nhóm B.
OR < 1: Nhóm A có “cược” thấp hơn.
OR = 1: Không có sự khác biệt về odds giữa hai nhóm.
Ví dụ: Nếu OR = 4, thì nhóm A có khả năng xảy ra sự kiện gấp 4 lần theo tỷ lệ cược so với nhóm B.
Ưu điểm:
Bắt buộc sử dụng trong nghiên cứu bệnh-chứng, nơi không thể biết tổng số thực tế (ví dụ khi chọn bệnh nhân có bệnh và đối chứng).
OR có thể ước lượng RR khi tỷ lệ sự kiện hiếm (hiện tượng rare disease assumption).
Hạn chế:
Khó diễn giải trực tiếp như RR.
Khi tỷ lệ sự kiện cao, OR có thể phóng đại mức độ rủi ro so với RR.
So sánh tổng quát
| Chỉ số | Phân biệt tuyệt đối / tương đối | Phù hợp với loại nghiên cứu | Sử dụng khi nào | |
|---|---|---|---|---|
| Hiệu hai tỷ lệ | Tuyệt đối | Đoàn hệ, thử nghiệm | Khi muốn đo mức độ chênh lệch thực tế | |
| RR | Tương đối | Đoàn hệ, thử nghiệm | Khi cần diễn giải tương đối trực quan | |
| OR | Tương đối | Bệnh-chứng, logistic regression | Khi không biết tổng thể hoặc tỷ lệ hiếm |
Việc lựa chọn giữa hiệu tỷ lệ, RR và OR phụ thuộc vào thiết kế nghiên cứu, mục tiêu phân tích, và cách diễn giải mong muốn. Trong khi hiệu tỷ lệ phản ánh sự khác biệt tuyệt đối, RR và OR cung cấp cách nhìn tương đối, trong đó RR phù hợp với nghiên cứu tiến cứu (prospective studies), còn OR là lựa chọn duy nhất trong nghiên cứu hồi cứu (retrospective studies).
Đây là một phần quan trọng để đánh giá độ chính xác của ước lượng điểm cho mối liên hệ và kiểm định giả thuyết dựa trên khoảng tin cậy.
Công thức tính khoảng tin cậy cho Odds Ratio
Do phân phối của OR không đối xứng, người ta thường chuyển đổi về log(OR) để tính toán dễ dàng hơn (vì log(OR) có phân phối gần chuẩn), sau đó lấy mũ để trở lại OR. Công thức tổng quát:
| Outcome Yes | Outcome No | |
|---|---|---|
| Exposure Yes | a | b |
| Exposure No | c | d |
Tính trên log(OR):
\[ \log(OR) \pm Z_{\alpha/2} \cdot \sqrt{\frac{1}{a} + \frac{1}{b} + \frac{1}{c} + \frac{1}{d}} \]
Lấy mũ để trở lại OR:
\[ CI_{OR} = \left( e^L, \ e^U \right) \]
Trong đó:
\(Z_{\alpha/2}\): Hệ số phân phối chuẩn ứng với mức ý nghĩa α. Ví dụ: với khoảng tin cậy 95%, ta có \(Z_{\alpha/2} = 1.96\)
\(SE\): Sai số chuẩn (standard error) của log(OR):
\[ SE = \sqrt{\frac{1}{a} + \frac{1}{b} + \frac{1}{c} + \frac{1}{d}} \]
\(L = \log(OR) - Z_{\alpha/2} \cdot SE\): Giới hạn dưới trên log-scale
\(U = \log(OR) + Z_{\alpha/2} \cdot SE\): Giới hạn trên trên log-scale
Ý nghĩa thực tiễn:
Nếu khoảng tin cậy của OR không chứa giá trị 1, thì mối liên hệ là có ý nghĩa thống kê (vì OR = 1 nghĩa là không có mối liên hệ).
Một khoảng CI hẹp cho thấy ước lượng OR ổn định và có độ chính xác cao.
Một khoảng CI rộng phản ánh sự không chắc chắn trong ước lượng, có thể do cỡ mẫu nhỏ hoặc biến động lớn trong dữ liệu.
Giả sử bảng dữ liệu như sau:
| Bệnh (Yes) | Không bệnh (No) | |
|---|---|---|
| Phơi nhiễm | 30 | 70 |
| Không phơi nhiễm | 10 | 90 |
Ta có: \(a = 30, b = 70, c = 10, d = 90\)
\[OR = \frac{a \cdot d}{b \cdot c} = \frac{30 \cdot 90}{70 \cdot 10} = 3.857\] \[ SE = \sqrt{\frac{1}{a} + \frac{1}{b} + \frac{1}{c} + \frac{1}{d}}=\sqrt{\frac{1}{30} + \frac{1}{70} + \frac{1}{10} + \frac{1}{90}}\approx 0.3984 \] \[\log(OR)=\log(3.857)\approx 1.3499\] Giới hạn dưới trên log-scale:
\[ L = \log(OR) - Z_{\alpha/2} \cdot SE =1.3499-1.96 \cdot 0.3984 \approx 0.569\]
Giới hạn trên trên log-scale:
\[ U = \log(OR) + Z_{\alpha/2} \cdot SE = 1.3499 + 1.96 \cdot 0.3984 \approx 2.1308\] \[ CI_{OR} = (e^L, e^U )=(e^{0.569}, e^{2.1308})=(1.7666,8.4198)\] Nhận xét: OR = 3.857 với khoảng tin cậy 95%: \((1.7666,8.4198)\). Kết quả có ý nghĩa thống kê ở mức 5% (vì khoảng tin vậy không chứa 1). Ta có thể thấy rằng có mối quan hệ dương giữa việc phơi nhiễm và có bệnh và kết khả năng bị bệnh khác biệt có ý nghĩa giữa hai nhóm.
Giả sử một công ty muốn xem liệu việc khách hàng tham gia chương trình khách hàng thân thiết (Loyalty Program: Yes/No) có ảnh hưởng đến khả năng mua sắm trực tuyến (Online Purchase: Yes/No) hay không. Dữ liệu thu thập được:
| Online Purchase - Yes | Online Purchas - No | Sum | |
|---|---|---|---|
| Loyalty Program - Yes | 300 | 100 | 400 |
| Loyalty Program - No | 150 | 350 | 500 |
| Sum | 450 | 450 | 900 |
Odds mua sắm trực tuyến nếu tham gia chương trình: \(Odds_{YesLP} = \frac{300}{100} = 3\)
Odds mua sắm trực tuyến nếu không tham gia chương trình: \(Odds_{NoLP} = \frac{150}{350} ≈ 0.4286\)
Odds Ratio: \(OR = \frac{Odds_{YesLP}}{Odds_{NoLP}} = \frac{3}{0.4286} ≈ 7\)
Khoảng tin cậy:
\[ SE = \sqrt{\frac{1}{a} + \frac{1}{b} + \frac{1}{c} + \frac{1}{d}}=\sqrt{\frac{1}{300} + \frac{1}{100} + \frac{1}{150} + \frac{1}{350}}\approx 0.1512 \]
\[\log(OR)=\log(7)\approx 1.9459\]
Giới hạn dưới trên log-scale:
\[ L = \log(OR) - Z_{\alpha/2} \cdot SE =1.9459-1.96 \cdot 0.1512 \approx 1.6495\]
Giới hạn trên trên log-scale:
\[ U = \log(OR) + Z_{\alpha/2} \cdot SE = 1.9459 + 1.96 \cdot 0.1512 \approx 2.2423\] \[ CI_{OR} = (e^L, e^U )=(e^{1.6495}, e^{2.2423})=(5.20,9.41)\]
Diễn giải trong bối cảnh kinh doanh:
Tỷ số chênh (Odds) của việc khách hàng mua sắm trực tuyến cao gấp khoảng 7 lần đối với khách hàng tham gia chương trình khách hàng thân thiết so với khách hàng không tham gia chương trình.
Khoảng tin cậy 95% cho Odds Ratio là (5.20; 9.41). Vì khoảng này không bao gồm giá trị 1 nên ta có thể kết luận rằng có mối liên hệ có ý nghĩa thống kê giữa việc tham gia chương trình khách hàng thân thiết và hành vi mua sắm trực tuyến. Những người tham gia chương trình khách hàng thân thiết có khả năng mua sắm trực tuyến cao hơn từ 5.2 đến 9.4 lần so với những người không tham gia. Điều này củng cố thêm bằng chứng rằng chương trình khách hàng thân thiết là một chiến lược hiệu quả để thúc đẩy hành vi tiêu dùng trực tuyến.
Chúng ta sẽ xem xét mối quan hệ: “Liệu việc đã kết hôn (so với độc thân) có làm tăng/giảm odds (tỷ số chênh) của việc sở hữu nhà hay không?”
| Homeowner = N | Homeowner = Y | |
|---|---|---|
| Marital Status = M | 1719 | 5147 |
| Marital Status = S | 3896 | 3297 |
Tính tỷ lệ sở hữu nhà (Homeowner = Y) cho từng nhóm tình trạng hôn nhân (MaritalStatus = M và MaritalStatus = S). Đây là tỷ lệ có điều kiện, \(P(Homeowner = Y | MaritalStatus = M)\) và \(P(Homeowner = Y | MaritalStatus = S)\). Báo cáo Tuần 2 đã tính tỷ lệ theo hàng, có thể dùng lại hoặc tính lại rõ ràng hơn.
a <- table["Marital Status = M", "Homeowner = Y"]
b <- table["Marital Status = M", "Homeowner = N"]
c <- table["Marital Status = S", "Homeowner = Y"]
d <- table["Marital Status = S", "Homeowner = N"]
p_M <- (a/(a+b))
p_M
## [1] 0.7496359
Tỷ lệ sở hữu nhà trong nhóm đã kết hôn (M): \[p_M = \frac{5147}{6866} ≈ 0.7496\]
p_S <- (c/(c+d))
p_S
## [1] 0.4583623
Tỷ lệ sở hữu nhà trong nhóm độc thân (S): \[p_S = \frac{3297}{7193} ≈ 0.4584\]
H <- (p_M - p_S)
H
## [1] 0.2912736
Hiệu hai tỷ lệ \(= p_M - p_S = 0.7496 - 0.4584 = 0.2912\) (hoặc ngược lại \(p_S - p_M\)).
Diễn giải: Tỷ lệ khách hàng đã kết hôn sở hữu nhà cao hơn tỷ lệ khách hàng độc thân sở hữu nhà là khoảng 29.12 điểm phần trăm.
riskratio(table)
## $data
##
## Homeowner = N Homeowner = Y Total
## Marital Status = M 1719 5147 6866
## Marital Status = S 3896 3297 7193
## Total 5615 8444 14059
##
## $measure
## risk ratio with 95% C.I.
## estimate lower upper
## Marital Status = M 1.0000000 NA NA
## Marital Status = S 0.6114466 0.5942071 0.6291862
##
## $p.value
## two-sided
## midp.exact fisher.exact chi.square
## Marital Status = M NA NA NA
## Marital Status = S 0 1.822183e-277 3.663022e-272
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"
Cách tính: \[RR = \frac{p_M}{p_S} = \frac{0.7496}{0.4584} ≈ 1.635\]
Hoặc ngược lại \(RR = \frac{p_S}{p_M}\).
Diễn giải: Nguy cơ (hay tỷ lệ) sở hữu nhà của khách hàng đã kết hôn cao gấp khoảng 1.635 lần so với khách hàng độc thân.
Tính toán Odds Ratio:
a <- table["Marital Status = M", "Homeowner = Y"]
b <- table["Marital Status = M", "Homeowner = N"]
c <- table["Marital Status = S", "Homeowner = Y"]
d <- table["Marital Status = S", "Homeowner = N"]
OR <- (a * d) / (b * c)
OR
## [1] 3.538167
Diễn giải Odds Ratio:
Vì OR = 3.538167 > 1, điều này cho thấy tỷ lệ cược của việc sở hữu nhà cao hơn trong nhóm đã kết hôn so với nhóm độc thân.
Cụ thể hơn, tỷ lệ cược của việc sở hữu nhà ở những người đã kết hôn cao gấp khoảng 3.538167 lần so với những người độc thân.
log_OR <- log(OR)
SE <- sqrt((1/a) + (1/b) + (1/c) + (1/d))
z <- 1.96 #Độ tin cậy 95%
CI_L <- exp(log_OR - z * SE)
CI_U <- exp(log_OR + z * SE)
c(CI_L, CI_U)
## [1] 3.293557 3.800944
Diễn giải: Vì khoảng tin cậy của OR là \((3.293557,3.800944)\) không chứa 1, nên ta kết luận có sự khác biệt có ý nghĩa thống kê trong odds (ở mức ý nghĩa 5%) sở hữu nhà giữa khách hàng đã kết hôn và khách hàng độc thân.
Kết luận:
Kết quả kiểm định Chi-bình phương cho cặp biến này (ở tuần 2) có p-value rất nhỏ (< \(2.2 e^{−16}\)), cho phép chúng ta bác bỏ giả thuyết độc lập và khẳng định rằng có mối liên hệ có ý nghĩa thống kê giữa tình trạng hôn nhân và việc sở hữu nhà.
Cùng với kết quả OR và khoảng ước lượng có thể kết luận rằng, người đã kết hôn có xu hướng sở hữu nhà cao hơn người độc thân, chúng đo lường mối liên hệ theo những cách khác nhau. Tỷ lệ phần trăm cho thấy sự khác biệt tuyệt đối trong tỷ lệ, trong khi Odds Ratio cho biết tỷ lệ cược tương đối.
Việc tính toán và diễn giải Odds Ratio cho cặp biến MaritalStatus và Homeowner giúp chúng ta hiểu rõ hơn mức độ liên quan giữa hai yếu tố nhân khẩu học này trong bộ dữ liệu Supermarket_Transactions. Dữ liệu cho thấy tình trạng hôn nhân có liên quan đáng kể đến việc sở hữu nhà, với những người đã kết hôn có tỷ lệ cược sở hữu nhà cao hơn đáng kể. Mặc dù nguồn tài liệu không cung cấp các tính toán nâng cao về Odds Ratio hay khoảng tin cậy của nó, việc thực hành tính toán từ bảng tần số chéo giúp làm quen với khái niệm này, chuẩn bị cho việc tìm hiểu sâu hơn trong chương tới.