Yêu cầu và Hoạt động cho Tuần Thứ 3: Đào sâu Suy diễn Thống kê trong Bảng Ngẫu nhiên và Giới thiệu về Mối liên hệ Phức tạp.
Xem lại các bảng tần số chéo đã tạo.
Ý nghĩa của kiểm định Chi-bình phương về tính độc lập.
Cách tính và diễn giải Relative Risk.
Bảng ngẫu nhiên (contingency table) là một ma trận thể hiện sự phân phối tần số (số đếm) của các tổ hợp giữa hai hay nhiều biến phân loại.
Mỗi ô trong bảng chứa số quan sát rơi vào tổ hợp cụ thể giữa các biến.
Sẽ sử dụng khi:
Các số đếm là kết quả của các quá trình độc lập, số đếm từng ô không bị ràng buộc tổng hàng/cột.
Không cố định tổng số quan sát.
Thường dùng trong mô hình log-linear và dữ liệu đếm theo thời gian/không gian
Công thức:
\[ N_{ij} \sim \mathrm{Poisson}(\mu_{ij}) \]
Ký hiệu | Ý nghĩa |
---|---|
\(N_{ij}\) | Số đếm ở ô hàng \(i\), cột \(j\), được sinh ra độc lập |
\(\mu_{ij}\) | Kỳ vọng của số đếm tại ô \((i,j)\) – trung bình lý thuyết của phân phối Poisson |
Ý nghĩa
Mỗi ô trong bảng là một biến Poisson độc lập.
Dữ liệu thường đến từ quá trình đếm tự nhiên: tai nạn, ca bệnh, sự kiện,…
Không cần tổng số đếm phải cố định → các ô độc lập với nhau.
Hàm xác suất (PMF)
\[ P(N_{ij} = n_{ij}) = \frac{e^{-\mu_{ij}} \mu_{ij}^{n_{ij}}}{n_{ij}!} \]
\[ P(\{n_{ij}\}) = \prod_{i,j} \frac{e^{-\mu_{ij}} \mu_{ij}^{n_{ij}}}{n_{ij}!} \]
\[ (N_{11}, N_{12}, \ldots, N_{rc}) \sim \mathrm{Multinomial}\left(n, \{p_{ij}\}\right) \]
Ký hiệu | Ý nghĩa |
---|---|
\(N_{ij}\) | Số quan sát ở ô hàng \(i\), cột \(j\) của bảng ngẫu nhiên |
\(n\) | Tổng số mẫu: \(n = \sum_{i=1}^{r} \sum_{j=1}^{c} N_{ij}\) |
\(p_{ij}\) | Xác suất một quan sát rơi vào ô \((i,j)\), với \(\sum_{i,j} p_{ij} = 1\) |
Ý nghĩa
Phù hợp với dữ liệu dạng lựa chọn phân loại, rút mẫu có tổng cố định.
Các ô trong bảng có phụ thuộc lẫn nhau, vì tổng \(n\) là cố định.
Mỗi mẫu quan sát rơi vào một trong các ô, với xác suất \(p_{ij}\).
Hàm xác suất (PMF)
\[ P(n_{ij}) = \frac{n!}{\prod_{i,j} n_{ij}!} \prod_{i,j} p_{ij}^{n_{ij}} \]
Nếu:
Mỗi ô \(N_{ij} \sim \mathrm{Poisson}(\mu_{ij})\)
Và tổng \(N = \sum_{i,j} N_{ij} = n\) được cố định
Thì:
\[ (N_{ij} \mid N = n) \sim \mathrm{Multinomial}\left(n, p_{ij} = \frac{\mu_{ij}}{\sum \mu_{ij}}\right) \]
Diễn giải
Nếu bạn lấy các đếm Poisson rồi điều kiện hóa theo tổng số đếm cố định, bạn thu được một phân phối Multinomial.
Tức là: Multinomial là trường hợp đặc biệt của Poisson khi tổng được ràng buộc.
Dùng để mô hình hóa mối liên hệ giữa các biến phân loại:
\[ \log(\mu_{ij}) = \lambda + \lambda^{(R)}_i + \lambda^{(C)}_j + \lambda^{(RC)}_{ij} \]
Ký hiệu | Ý nghĩa |
---|---|
\(\lambda\) | Hằng số tổng quát (intercept) |
\(\lambda^{(R)}_i\) | Hiệu ứng biến hàng (ví dụ: giới tính) |
\(\lambda^{(C)}_j\) | Hiệu ứng biến cột (ví dụ: tình trạng bệnh) |
\(\lambda^{(RC)}_{ij}\) | Tương tác giữa hàng và cột (mức độ phụ thuộc giữa 2 biến) |
Ý nghĩa
Cho phép kiểm định độc lập (khi bỏ \(\lambda^{(RC)}_{ij}\)).
Có thể mở rộng cho bảng 3 chiều, 4 chiều,…
Thường được ước lượng bằng mô hình GLM với link log.
Đặc điểm | Multinomial | Poisson |
---|---|---|
Tổng số đếm | Cố định \(n\) | Không cố định |
Quan hệ giữa các ô | Phụ thuộc | Độc lập |
Dữ liệu phù hợp | Rút mẫu, khảo sát | Dữ liệu đếm tự nhiên |
Phân tích tương tác | Giới hạn | Linh hoạt với log-linear |
Công thức mô hình | \(\text{Multinomial}(n, \{p_{ij}\})\) | \(\text{Poisson}(\mu_{ij})\) |
Khi điều kiện hóa tổng | — | Cho ra phân phối Multinomial |
Giả sử một bảng 2x2 được trình bày như sau:
Kết quả (+) | Kết quả (–) | Tổng | |
---|---|---|---|
Nhóm 1 | \(a\) | \(b\) | \(a+b\) |
Nhóm 2 | \(c\) | \(d\) | \(c+d\) |
Tổng | \(a+c\) | \(b+d\) | \(n\) |
Đây là dạng bảng thường dùng để so sánh xác suất thành công, rủi ro, hoặc phản hồi tích cực giữa hai nhóm.
\[ \Delta p = \frac{a}{a+b} - \frac{c}{c+d} \]
Ý nghĩa:
Là mức chênh lệch tuyệt đối giữa hai tỷ lệ thành công ở hai nhóm.
Nếu \(\Delta p > 0\), nhóm 1 có tỷ lệ thành công cao hơn nhóm 2.
Đơn giản và dễ diễn giải, thích hợp khi tập trung vào sự khác biệt thực tế (absolute difference), thay vì tỷ lệ tương đối.
\[ RR = \frac{a / (a+b)}{c / (c+d)} \]
Ý nghĩa:
Đo mức tăng (hoặc giảm) nguy cơ của nhóm 1 so với nhóm 2.
\(RR = 1\): Không có khác biệt nguy cơ.
\(RR > 1\): Nhóm 1 có nguy cơ cao hơn.
\(RR < 1\): Nhóm 1 có nguy cơ thấp hơn.
\[ OR = \frac{a/b}{c/d} = \frac{ad}{bc} \]
Ý nghĩa:
So sánh cơ hội xảy ra sự kiện giữa hai nhóm.
\(OR = 1\): Không có liên hệ.
\(OR > 1\): Nhóm 1 có cơ hội cao hơn.
\(OR < 1\): Nhóm 1 có cơ hội thấp hơn.
Lưu ý:
OR gần giống RR khi xác suất sự kiện thấp.
OR thường được sử dụng trong hồi quy logistic.
Tính trên log(OR):
\[ \log(OR) \pm Z_{\alpha/2} \cdot \sqrt{ \frac{1}{a} + \frac{1}{b} + \frac{1}{c} + \frac{1}{d} } \]
Sau đó lấy mũ để trở lại OR:
\[ CI_{OR} = \left( e^{L},\ e^{U} \right) \]
Trong đó:
\(L = \log(OR) - Z_{\alpha/2} \cdot SE\)
\(U = \log(OR) + Z_{\alpha/2} \cdot SE\)
\(SE = \sqrt{ \frac{1}{a} + \frac{1}{b} + \frac{1}{c} + \frac{1}{d} }\)
Với mức tin cậy 95%, \(Z_{\alpha/2} = 1.96\)
Một công ty triển khai chiến dịch email quảng cáo. Kết quả:
Mua hàng | Không mua | Tổng | |
---|---|---|---|
Nhận email (Nhóm 1) | 40 | 60 | 100 |
Không nhận (Nhóm 2) | 20 | 80 | 100 |
Tính toán:
\(RR = \frac{40/100}{20/100} = 2.0\) → Nhận email giúp tăng gấp đôi xác suất mua hàng.
\(OR = \frac{40 \cdot 80}{60 \cdot 20} = \frac{3200}{1200} = 2.67\) → Cơ hội mua hàng cao hơn 2.67 lần.
Khoảng tin cậy OR:
\(SE = \sqrt{1/40 + 1/60 + 1/20 + 1/80} \approx 0.329\)
\(\log(OR) \approx \log(2.67) = 0.981\)
\(CI_{log(OR)} = 0.981 \pm 1.96 \cdot 0.329 = (0.336,\ 1.626)\)
\(CI_{OR} = (e^{0.336},\ e^{1.626}) = (1.40,\ 5.08)\)
→ OR có ý nghĩa thống kê, vì khoảng tin cậy không chứa 1.
Chỉ số | Công thức | Ý nghĩa chính | Ưu điểm | Ứng dụng phổ biến |
---|---|---|---|---|
Hiệu tỷ lệ | \(p_1 - p_2\) | So sánh tuyệt đối giữa hai tỷ lệ | Trực quan, dễ hiểu | So sánh đơn giản |
RR | \(\frac{p_1}{p_2}\) | So sánh xác suất giữa hai nhóm | Diễn giải tự nhiên | Nghiên cứu y học, marketing |
OR | \(\frac{ad}{bc}\) | So sánh odds giữa hai nhóm | Áp dụng linh hoạt trong hồi quy | Hồi quy logistic, phân tích rủi ro |
library(csv)
data <- read.csv("D:/UFM/2025- Kì 2/Phân tích dữ liệu định tính - Trần Mạnh Tường/Supermarket Transactions.csv", header = T)
table_gender_home <- table(data$Gender, data$Homeowner)
table_gender_home
##
## N Y
## F 2826 4344
## M 2789 4100
a <- table_gender_home["F", "Y"]
b <- table_gender_home["F", "N"]
c <- table_gender_home["M", "Y"]
d <- table_gender_home["M", "N"]
OR <- (a * d) / (b * c)
OR
## [1] 1.04564
log_OR <- log(OR)
SE <- sqrt(1/a + 1/b + 1/c + 1/d)
# 95% CI
z <- 1.96
CI_lower <- exp(log_OR - z * SE)
CI_upper <- exp(log_OR + z * SE)
c(CI_lower, CI_upper)
## [1] 0.9773755 1.1186731
Nếu OR > 1: nữ có tỷ số chênh cao hơn → khả năng sở hữu nhà cao hơn nam.
Nếu OR < 1: nữ có odds sở hữu nhà thấp hơn.
Nếu khoảng tin cậy không chứa 1 → kết luận có ý nghĩa thống kê ở mức 95%.
Vì khoảng tin cậy của OR bao gồm 1, ta không thể kết luận có sự khác biệt có ý nghĩa thống kê trong odds sở hữu nhà giữa Nữ và Nam.
Nói cách khác, việc là Nữ so với Nam không làm tăng hoặc giảm đáng kể khả năng sở hữu nhà dựa trên dữ liệu và mô hình hiện tại.
OR khoảng 1 cũng cho thấy tỷ số odds của việc sở hữu nhà gần như tương đương giữa Nữ và Nam.
Bảng chéo giúp chúng ta quan sát trực quan mối liên hệ giữa hai biến nhị phân, ví dụ như Gender và Homeowner.
Relative Risk cho biết tỷ lệ xác suất xảy ra một sự kiện (ví dụ: sở hữu nhà) ở nhóm đối tượng quan tâm (Nữ) so với nhóm đối chứng (Nam).
Từ RR, ta có thể đánh giá xem nhóm nào có khả năng cao hơn hoặc thấp hơn trong việc xảy ra sự kiện.
Qua ví dụ:
Nếu RR > 1, có thể nói việc là Nữ làm tăng nguy cơ/khả năng sở hữu nhà so với Nam
Nếu RR < 1 thì ngược lại.
Bảng chéo không điều chỉnh được các yếu tố nhiễu, nên có thể đưa ra kết luận chưa chính xác về mối quan hệ.
RR chỉ áp dụng cho xác suất và có thể gây nhầm lẫn khi biến đầu ra không phải là một sự kiện “hiếm”.
RR không dễ dàng mở rộng cho các phân tích phức tạp như đa biến.
Khi mẫu nhỏ hoặc tỷ lệ sự kiện cao, RR có thể không phản ánh chính xác mức độ ảnh hưởng.
Bảng chéo chỉ thể hiện mối quan hệ đơn giản giữa 2 biến, không cho biết nguyên nhân hoặc mối liên hệ phi tuyến.
Odds là tỷ số giữa xác suất sự kiện xảy ra và xác suất sự kiện không xảy ra (ví dụ, odds sở hữu nhà = P(sở hữu nhà) / P(không sở hữu nhà)).
So sánh Odds và Relative Risk:
Odds khác với xác suất và RR; Odds thường được sử dụng trong các mô hình hồi quy logistic.
Odds thể hiện tỷ số odds giữa hai nhóm (ví dụ: odds sở hữu nhà của nữ chia cho odds sở hữu nhà của nam).
Ý nghĩa của Odds Ratio:
OR > 1: odds của sự kiện lớn hơn ở nhóm nghiên cứu.
OR < 1: odds nhỏ hơn ở nhóm nghiên cứu.
OR = 1: không có sự khác biệt về odds giữa hai nhóm.
Lưu ý khi diễn giải Odds Ratio:
OR dễ bị hiểu nhầm là RR, nhưng thực chất là 2 thước đo khác nhau.
OR thường được dùng khi phân tích logistic regression vì tính toán và mô hình hóa odds thuận tiện hơn.
Khi sự kiện không phổ biến, OR gần bằng RR; nhưng khi sự kiện phổ biến, OR có thể phóng đại sự khác biệt so với RR.
Nữ: 60.59% sở hữu nhà, 39.41% không sở hữu.
Nam: 59.52% sở hữu nhà, 40.48% không sở hữu.
Tỷ lệ sở hữu nhà giữa hai giới khá tương đồng, nhưng nữ có tỷ lệ cao hơn một chút (60.59% so với 59.52%).
Sự chênh lệch này tuy nhỏ (~1%), nhưng vẫn cho thấy một xu hướng nhẹ là nữ có khả năng sở hữu nhà cao hơn nam.
OR = 1.04564 → odds sở hữu nhà của nữ cao hơn ~4.6% so với nam.
Khoảng tin cậy 95%: [0.9774, 1.1187] → bao gồm 1, tức là:
Không có bằng chứng thống kê rõ ràng rằng odds sở hữu nhà giữa nữ và nam là khác nhau.
Sự chênh lệch là không có ý nghĩa thống kê.
Về mặt mô tả (tần suất và tỷ lệ phần trăm): Nữ giới có tỷ lệ sở hữu nhà nhỉnh hơn một chút so với nam.
Về mặt thống kê (OR và khoảng tin cậy): Sự khác biệt nhỏ này không đủ để kết luận rằng có sự khác biệt có ý nghĩa thống kê giữa hai giới về khả năng sở hữu nhà.
Mặc dù dữ liệu mô tả cho thấy nữ có xu hướng sở hữu nhà cao hơn một chút, nhưng khi phân tích sâu hơn bằng Odds Ratio và kiểm định độ tin cậy, không có bằng chứng rõ ràng để khẳng định sự khác biệt thực sự giữa nam và nữ trong việc sở hữu nhà.
# Dữ liệu từ bảng 2x2
female_homeowner <- 4344
female_nonhomeowner <- 2826
male_homeowner <- 4100
male_nonhomeowner <- 2789
# Tổng theo giới tính
total_female <- female_homeowner + female_nonhomeowner # 7170
total_male <- male_homeowner + male_nonhomeowner # 6889
# Tỷ lệ sở hữu nhà
p_female <- female_homeowner / total_female
p_male <- male_homeowner / total_male
# Hiệu hai tỷ lệ
diff_prop <- p_female - p_male
diff_prop
## [1] 0.01070605
Diễn giải
Nữ có tỷ lệ sở hữu nhà cao hơn nam khoảng 1.07%.
Sự khác biệt này là rất nhỏ.
# Sai số chuẩn
se_diff <- sqrt(
(p_female * (1 - p_female)) / total_female +
(p_male * (1 - p_male)) / total_male)
# Khoảng tin cậy 95%
z <- 1.96
lower_ci <- diff_prop - z * se_diff
upper_ci <- diff_prop + z * se_diff
c(lower_ci, upper_ci)
## [1] -0.00548978 0.02690188
Ta tính với công thức như sau:
rr <- p_female / p_male
rr
## [1] 1.017989
Diễn giải
RR = 1.018 → Nữ có khả năng sở hữu nhà cao hơn nam khoảng 1.8%.
Tuy nhiên, mức chênh lệch là rất nhỏ, và như đã thấy ở phần trên, không có ý nghĩa thống kê rõ ràng.
# Tính odds
odds_female <- p_female / (1 - p_female)
odds_male <- p_male / (1 - p_male)
# OR
or <- odds_female / odds_male
or
## [1] 1.04564
Diễn giải
OR = 1.0456 → Odds sở hữu nhà của nữ cao hơn nam khoảng 4.6%.
Tuy nhiên, mức chênh lệch là rất nhỏ, và như đã thấy ở phần trên, không có ý nghĩa thống kê rõ ràng.
or2 <- (female_homeowner * male_nonhomeowner) / (female_nonhomeowner * male_homeowner)
or2 # Kết quả này sẽ khớp với or ở trên
## [1] 1.04564
Ta có thể dùng hàm epi.2by2()
từ package epiR để tính OR
và CI nhanh chóng:
library(epiR)
## Loading required package: survival
## Package epiR 2.0.84 is loaded
## Type help(epi.about) for summary information
## Type browseVignettes(package = 'epiR') to learn how to use epiR for applied epidemiological analyses
##
# Tạo bảng 2x2: hàng = Female / Male; cột = Homeowner / Not
tab <- matrix(c(female_homeowner, female_nonhomeowner,
male_homeowner, male_nonhomeowner),
nrow = 2, byrow = TRUE)
# Phân tích
result <- epi.2by2(tab, method = "cohort.count", conf.level = 0.95)
result
## Outcome+ Outcome- Total Inc risk *
## Exposure+ 4344 2826 7170 60.59 (59.44 to 61.72)
## Exposure- 4100 2789 6889 59.52 (58.34 to 60.68)
## Total 8444 5615 14059 60.06 (59.25 to 60.87)
##
## Point estimates and 95% CIs:
## -------------------------------------------------------------------
## Inc risk ratio 1.02 (0.99, 1.05)
## Inc odds ratio 1.05 (0.98, 1.12)
## Attrib risk in the exposed * 1.07 (-0.55, 2.69)
## Attrib fraction in the exposed (%) 1.77 (-0.92, 4.38)
## Attrib risk in the population * 0.55 (-0.87, 1.96)
## Attrib fraction in the population (%) 0.91 (0.32, 1.52)
## -------------------------------------------------------------------
## Uncorrected chi2 test that OR = 1: chi2(1) = 1.679 Pr>chi2 = 0.195
## Fisher exact test that OR = 1: Pr>chi2 = 0.196
## Wald confidence limits
## CI: confidence interval
## * Outcomes per 100 population units
Thuật ngữ | Công thức | Ý nghĩa |
---|---|---|
Relative Risk (RR) | RR = \(\frac{p_1}{p_2}\) | So sánh nguy cơ xảy ra sự kiện giữa hai nhóm. |
Odds Ratio (OR) | OR = \(\frac{p_1 / (1 - p_1)}{p_2 / (1 - p_2)}\) hoặc \(\frac{ad}{bc}\) | So sánh tỷ lệ xảy ra / không xảy ra (odds) giữa hai nhóm. |
Thước đo | Giá trị | Diễn giải |
---|---|---|
RR | 1.018 | Nữ có nguy cơ sở hữu nhà cao hơn nam 1.8%. |
OR | 1.0456 | Odds sở hữu nhà của nữ cao hơn nam 4.6%. |
CI 95% | RR: không tính trực tiếp; OR: [0.977, 1.119] | Không có ý nghĩa thống kê vì khoảng tin cậy chứa 1. |
Cả RR và OR đều > 1 → cùng chỉ ra rằng nữ có khả năng sở hữu nhà cao hơn nam.
OR lớn hơn RR (1.0456 vs 1.018) → điều này luôn xảy ra trừ khi tỷ lệ sự kiện rất thấp.
RR = 1.018 nghĩa là: “Trong nhóm nữ, xác suất sở hữu nhà cao hơn nhóm nam 1.8%”.
OR = 1.0456 nghĩa là: “Odds (tỷ lệ xảy ra / không xảy ra) của việc sở hữu nhà ở nữ cao hơn nam 4.6%”.
Trong ví dụ sở hữu nhà là sự kiện phổ biến (~60%), nên OR thổi phồng mức độ khác biệt hơn RR.
RR phù hợp hơn khi mục tiêu là giải thích theo xác suất (risk).
OR có lợi thế về toán học, đối xứng và ứng dụng trong hồi quy logistic, nhưng khó diễn giải trực giác hơn.
Ta tạo bảng tần số của Tình trạng hôn nhân MaritalStatus và Khả năng sở hữu nhà Homeowner
# Tạo bảng 2x2
table_ms_hw <- table(data$MaritalStatus, data$Homeowner)
table_ms_hw
##
## N Y
## M 1719 5147
## S 3896 3297
Sau đó ta gán giá trị kết quả vào:
# Gán giá trị từ bảng
aa <- table_ms_hw["M", "Y"] # Married + Homeowner
bb <- table_ms_hw["M", "N"] # Married + Not Homeowner
cc <- table_ms_hw["S", "Y"] # Single + Homeowner
dd <- table_ms_hw["S", "N"] # Single + Not Homeowner
# Tỷ lệ
pp1 <- aa / (aa + bb)
pp2 <- cc / (cc + dd)
diff <- pp1 - pp2
diff
## [1] 0.2912736
rrr <- pp1 / pp2 # Relative Risk
rrr
## [1] 1.635466
# Odds Ratio
odds1 <- aa / bb
odds2 <- cc / dd
orr <- odds1 / odds2
orr
## [1] 3.538167
Kết luận: Tỷ lệ cược để người đã kết hôn có nhà cao hơn 3.54 lần so với người độc thân.
Ý nghĩa thống kê: OR > 1 và khoảng tin cậy không chứa 1 → mối liên hệ này là có ý nghĩa thống kê.
# Hàm log OR và SE
log_orr <- log(orr)
se_log_or <- sqrt(1/aa + 1/bb + 1/cc + 1/dd)
# Tính khoảng tin cậy
z <- qnorm(0.975)
ci_lowerr <- exp(log_orr - z * se_log_or)
ci_upperr <- exp(log_orr + z * se_log_or)
c(ci_lowerr, ci_upperr)
## [1] 3.293561 3.800939
Thước đo | Ưu điểm | Nhược điểm |
---|---|---|
Hiệu tỷ lệ | Dễ hiểu, rõ ràng | Không phản ánh tỷ lệ tương đối |
RR | Trực quan với nguy cơ | Không dùng được với nghiên cứu hồi cứu |
OR | Dùng phổ biến trong thống kê và logistic regression | Ít trực quan, dễ gây nhầm lẫn nếu không quen thuộc |