library(DescTools)
library(epitools)
d<- read.csv("D:/PTDLDT CT2/Supermarket Transactions.csv")
bdt <- c("Gender", "MaritalStatus", "Homeowner", "AnnualIncome", "City", "StateorProvince", "Country", "ProductFamily", "ProductDepartment", "ProductCategory")
dt <- d[, bdt]
sapply(dt,class)
## Gender MaritalStatus Homeowner AnnualIncome
## "character" "character" "character" "character"
## City StateorProvince Country ProductFamily
## "character" "character" "character" "character"
## ProductDepartment ProductCategory
## "character" "character"
dt <- as.data.frame(lapply(dt, as.factor))
tmp1 <- table(dt$Gender, dt$MaritalStatus)
tmp1
##
## M S
## F 3602 3568
## M 3264 3625
Nhận xét:
Cả nam và nữ đều có số lượng người độc thân và đã kết hôn gần tương đương nhau, không có chênh lệch quá lớn.
Tổng số người độc thân (7193) cao hơn tổng số người đã kết hôn (6866) → Tình trạng độc thân chiếm ưu thế nhẹ trong dữ liệu.
Nữ giới: Số người đã kết hôn cao hơn số người độc thân.
Nam giới: Số người độc thân cao hơn số người đã kết hôn.
Mục đích: Kiểm định Chi-bình phương về tính độc lập được sử dụng để xác định xem hai biến phân loại (categorical variables) có mối liên hệ (phụ thuộc) với nhau hay hoàn toàn độc lập trong một tổng thể.
Giả thuyết kiểm định:
\(H_0\): Gender và MaritalStatus độc lập.
\(H_1\): Gender và MaritalStatus có mối liên hệ với nhau.
chisq.test(tmp1)
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: tmp1
## X-squared = 11.365, df = 1, p-value = 0.0007485
Vì p-value = 0.0007485 < 0.05. Bác bỏ \(H_0\). Vậy Gender và MaritalStatus có mối liên hệ với nhau.
\[ RR = \frac{\text{Tỷ lệ nguy cơ ở nhóm phơi nhiễm}}{\text{Tỷ lệ nguy cơ ở nhóm không phơi nhiễm}} \]
tmp1 <- matrix(c(3602, 3568, 3264, 3625), nrow = 2, byrow = TRUE)
colnames(tmp1) <- c("M", "S")
rownames(tmp1) <- c("F", "M")
riskratio(tmp1)
## $data
## M S Total
## F 3602 3568 7170
## M 3264 3625 6889
## Total 6866 7193 14059
##
## $measure
## NA
## risk ratio with 95% C.I. estimate lower upper
## F 1.000000 NA NA
## M 1.057417 1.023813 1.092123
##
## $p.value
## NA
## two-sided midp.exact fisher.exact chi.square
## F NA NA NA
## M 0.0007045092 0.0007373895 0.0007038837
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"
Giá trị RR của nhóm F (nữ) được chuẩn hóa là 1 (nhóm đối chứng).
RR của nhóm M (nam) = 1.0574, nghĩa là nguy cơ đã kết hôn của nam cao hơn nữ khoảng 5.74%.
Khoảng tin cậy 95% cho RR của nam: từ 1.0238 đến 1.0921 → không chứa 1, tức sự khác biệt có ý nghĩa.
p-value cho nhóm nam rất nhỏ (~0.0007) với các phương pháp kiểm định khác nhau, đều < 0.05.
Nghĩa là sự khác biệt nguy cơ giữa nam và nữ là có ý nghĩa thống kê.
Mô hình Poisson giả định các ô trong bảng là các biến ngẫu nhiên độc lập, mỗi ô có số đếm theo phân phối Poisson với tham số riêng.
Một bảng tần số chéo gồm \(r\) hàng và \(c\) cột, với số đếm ở ô \((i,j)\) là \(X_{ij}\).
Mỗi \(X_{ij} \sim \text{Poisson}(\lambda_{ij})\) độc lập với các ô khác.
Tổng số đếm trong bảng không cố định trước.
Thường dùng để mô hình hóa dữ liệu đếm khi tổng số quan sát không cố định (ví dụ dữ liệu thu thập trong một khoảng thời gian).
Tham số \(\lambda_{ij}\) có thể mô hình hóa theo mô hình log-linear:
\[ \log(\lambda_{ij}) = \mu + \alpha_i + \beta_j + \gamma_{ij} \]
Trong đó, \(\mu\) là intercept, \(\alpha_i\) là hiệu ứng hàng, \(\beta_j\) là hiệu ứng cột, và \(\gamma_{ij}\) là hiệu ứng tương tác.
Khi tổng số quan sát \(n = \sum_{i,j} X_{ij}\) được cố định trước (ví dụ lấy mẫu gồm \(n\) cá thể), số đếm trong các ô phân phối theo phân phối Multinomial.
Giả sử \(n\) quan sát được phân bố vào \(r \times c\) ô với xác suất \(\pi_{ij}\), thỏa mãn \(\sum_{i,j} \pi_{ij} = 1\).
Bảng tần số \(\{X_{ij}\}\) có phân phối:
\[ P(X_{11} = x_{11}, \ldots, X_{rc} = x_{rc}) = \frac{n!}{\prod_{i,j} x_{ij}!} \prod_{i,j} \pi_{ij}^{x_{ij}} \]
Đây là mô hình phổ biến cho dữ liệu bảng khi tổng số mẫu được biết và cố định.
Trong mô hình này, số đếm ở các ô không độc lập mà có ràng buộc tổng cố định.
| Kết cục (+) | Kết cục (−) | Tổng | |
|---|---|---|---|
| Nhóm 1 (Phơi nhiễm) | \(a\) | \(b\) | \(a + b\) |
| Nhóm 2 (Không phơi nhiễm) | \(c\) | \(d\) | \(c + d\) |
| Tổng cộng | \(a + c\) | \(b + d\) | \(a + b + c + d\) |
Công thức:
\[ \Delta p = p_1 - p_2 = \frac{a}{a + b} - \frac{c}{c + d} \]
\(p_1\): tỷ lệ xảy ra kết cục trong nhóm phơi nhiễm
\(p_2\): tỷ lệ xảy ra kết cục trong nhóm không phơi nhiễm
Ý nghĩa:
Hiệu hai tỷ lệ đo sự khác biệt tuyệt đối về nguy cơ giữa hai nhóm.
Nếu \(\Delta p = 0\): hai nhóm có nguy cơ như nhau.
Nếu \(\Delta p > 0\): nhóm phơi nhiễm có nguy cơ cao hơn.
Được dùng nhiều trong nghiên cứu dịch tễ mô tả hoặc thử nghiệm lâm sàng.
Công thức:
\[ RR = \frac{p_1}{p_2} = \frac{\frac{a}{a + b}}{\frac{c}{c + d}} \]
Ý nghĩa:
So sánh tương đối nguy cơ xảy ra kết cục giữa hai nhóm.
Nếu:
RR=1: không có sự khác biệt.
RR>1: nhóm phơi nhiễm có nguy cơ cao hơn.
RR<1: nhóm phơi nhiễm có nguy cơ thấp hơn → có thể có tác dụng bảo vệ.
Áp dụng:
Công thức:
\[ OR = \frac{\frac{a}{b}}{\frac{c}{d}} = \frac{a \times d}{b \times c} \]
So sánh odds (tỷ lệ chênh) của kết cục giữa hai nhóm.
Odds là tỉ lệ giữa số xảy ra và số không xảy ra:
Nhóm 1: \(\frac{a}{b}\)
Nhóm 2: \(\frac{c}{d}\)
Ý nghĩa:
OR=1: không có sự khác biệt.
OR>1: odds xảy ra kết cục cao hơn ở nhóm phơi nhiễm.
OR<1: odds thấp hơn → có thể là yếu tố bảo vệ.
Áp dụng:
Khoảng tin cậy (Confidence Interval - CI) thể hiện khoảng giá trị mà tham số thực (ví dụ Odds Ratio) có thể nằm trong đó với mức độ tin cậy xác định (thường là 95%).
Ví dụ: Khoảng tin cậy 95% cho Odds Ratio (OR) là \([L, U]\) nghĩa là, nếu lặp lại mẫu nhiều lần, khoảng này sẽ chứa giá trị OR thật khoảng 95% các lần.
Giả sử bảng 2×2 với các ô:
| Kết cục (+) | Kết cục (−) | Tổng | |
|---|---|---|---|
| Nhóm 1 (Phơi nhiễm) | \(a\) | \(b\) | \(a + b\) |
| Nhóm 2 (Không phơi nhiễm) | \(c\) | \(d\) | \(c + d\) |
\[ OR = \frac{b \times c}{a \times d} \]
\[ \ln(OR) = \ln(a) + \ln(d) - \ln(b) - \ln(c) \]
\[ SE(\ln(OR)) = \sqrt{\frac{1}{a} + \frac{1}{b} + \frac{1}{c} + \frac{1}{d}} \]
\[ \ln(OR) \pm Z_{\alpha/2} \times SE(\ln(OR)) \]
với \(Z_{\alpha/2} = 1.96\) cho mức ý nghĩa \(\alpha = 0.05\).
\[ CI_{95\%}(OR) = \left[ \exp\left(\ln(OR) - 1.96 \times SE(\ln(OR))\right), \quad \exp\left(\ln(OR) + 1.96 \times SE(\ln(OR))\right) \right] \]
Nếu khoảng tin cậy chứa giá trị 1, nghĩa là không có sự khác biệt ý nghĩa thống kê giữa hai nhóm về odds xảy ra kết cục.
Nếu khoảng tin cậy hoàn toàn lớn hơn 1, OR có ý nghĩa thống kê và nhóm phơi nhiễm có odds cao hơn.
Nếu khoảng tin cậy hoàn toàn nhỏ hơn 1, OR có ý nghĩa thống kê và nhóm phơi nhiễm có odds thấp hơn (có tác dụng bảo vệ).
| Mua hàng (Yes) | Không mua (No) | Tổng | |
|---|---|---|---|
| Đã nhận khuyến mãi | 80 | 20 | 100 |
| Không nhận khuyến mãi | 50 | 50 | 100 |
Tính Odds Ratio (OR):
\[ \text{Odds}_1 = \frac{80}{20} = 4 \]
\[ \text{Odds}_2 = \frac{50}{50} = 1 \]
\[ OR = \frac{\text{Odds}_1}{\text{Odds}_2} = \frac{4}{1} = 4 \]
Nhận xét:
Khách hàng nhận được phiếu khuyến mãi có odds mua hàng gấp 4 lần so với khách hàng không nhận khuyến mãi.
Điều này cho thấy chương trình khuyến mãi có tác động tích cực đáng kể đến việc thúc đẩy khách hàng mua sản phẩm.
Trong nghiên cứu này, chúng ta xem xét mối quan hệ giữa giới tính (Gender: Nữ - F và Nam - M) và tình trạng hôn nhân (MaritalStatus: Đã kết hôn - M và Độc thân - S) dựa trên dữ liệu thu thập được. Mục tiêu là trả lời câu hỏi: “Liệu việc là Nữ (so với Nam) có làm tăng hay giảm odds (tỷ số chênh) của việc đã kết hôn hay không?”
Bảng dữ liệu:
| Gender MaritalStatus | Đã kết hôn (M) | Độc thân (S) | Tổng |
|---|---|---|---|
| Nữ (F) | 3602 | 3568 | 7170 |
| Nam (M) | 3264 | 3625 | 6889 |
Tính toán Odds và Odds Ratio (OR)
\[ \text{Odds}_F = \frac{3568}{3602} \approx 1.01 \]
\[ \text{Odds}_M = \frac{3625}{3264} \approx 0.90 \]
\[ OR = \frac{\text{Odds}_M}{\text{Odds}_F} = \frac{0.90}{1.01} \approx 0.89 \]
Nhận xét:
Giá trị Odds Ratio (OR) khoảng 1.12 cho thấy việc là nữ làm tăng odds đã kết hôn khoảng 12% so với nam.
Nói cách khác, nữ giới có khả năng đã kết hôn cao hơn nam giới khi so sánh tỷ số chênh odds.
Kết quả này góp phần cho thấy giới tính có ảnh hưởng nhất định đến tình trạng hôn nhân trong mẫu dữ liệu này.
Bảng chéo giúp chúng ta trực quan hóa sự phân bố giữa hai biến, nhận biết xem có sự khác biệt về tần số giữa các nhóm hay không.
Relative Risk (RR) đo lường tỷ lệ nguy cơ xảy ra sự kiện ở nhóm phơi nhiễm so với nhóm không phơi nhiễm.
Từ RR, ta có thể nhận định mối quan hệ có chiều hướng tăng, giảm hay không có ảnh hưởng.
Ví dụ, nếu RR > 1, biến phơi nhiễm làm tăng nguy cơ; RR < 1 có thể có tác dụng bảo vệ.
Hạn chế: RR chỉ áp dụng được trong nghiên cứu đoàn hệ hoặc thử nghiệm lâm sàng, nơi có thể tính được tỷ lệ thực tế của sự kiện.
RR không áp dụng tốt cho nghiên cứu bệnh-chứng (case-control) vì không có thông tin về tỷ lệ sự kiện thực tế trong nhóm.
Bảng chéo đơn giản chưa xét được các yếu tố nhiễu, không kiểm soát được ảnh hưởng của các biến khác.
RR không phản ánh odds, nên trong một số trường hợp (đặc biệt khi sự kiện hiếm) RR và OR khá khác nhau.
Việc sử dụng bảng chéo mà không kiểm định thống kê (ví dụ kiểm định Chi-square) có thể dẫn đến kết luận sai lệch do không xác định được ý nghĩa thống kê.
Odds là tỷ lệ giữa khả năng xảy ra và không xảy ra sự kiện.
OR đo lường tỷ số chênh odds giữa hai nhóm, dùng phổ biến trong nghiên cứu bệnh-chứng hoặc khi mô hình hóa hồi quy logistic.
OR có ưu điểm là có thể tính trong mọi thiết kế nghiên cứu, kể cả case-control.
Tuy nhiên, OR có thể khó diễn giải trực tiếp, đặc biệt khi tỷ lệ sự kiện không nhỏ (khi đó OR có thể phóng đại mức độ liên hệ so với RR).
Việc hiểu đúng “odds” giúp tránh nhầm lẫn khi báo cáo và diễn giải kết quả nghiên cứu.
Khi ta xây dựng và phân tích các bảng chéo (ví dụ bảng 2x2), mỗi ô trong bảng thể hiện số lượng quan sát thuộc một nhóm cụ thể. Tuy nhiên, những con số này không phải là những giá trị cố định mà có thể coi là kết quả của một quá trình ngẫu nhiên dưới một số giả định.
Cơ sở lý thuyết xác suất:
Bảng ngẫu nhiên được hiểu là một bảng số liệu mà các ô được hình thành dựa trên xác suất phân bố dữ liệu trong từng nhóm.
Các mô hình phân phối phổ biến dùng để mô phỏng và suy diễn từ bảng chéo gồm:
Phân phối Poisson: thường dùng khi ta đếm số sự kiện xảy ra ngẫu nhiên, độc lập trong một khoảng không gian hoặc thời gian cố định.
Phân phối Đa thức (Multinomial): mô hình tổng quát hơn, áp dụng khi tổng số quan sát là cố định và các quan sát được phân bổ ngẫu nhiên vào các ô khác nhau với xác suất cụ thể.
Ý nghĩa cho phân tích: Nhờ hiểu được bảng dữ liệu như là kết quả của một biến ngẫu nhiên theo các phân phối này, ta có thể:
Đánh giá được mức độ ngẫu nhiên hay có hệ thống trong sự phân bố giữa các biến.
Áp dụng các phép kiểm định thống kê (ví dụ: kiểm định Chi-square) để kiểm tra tính độc lập hay phụ thuộc giữa các biến.
Đưa ra các kết luận suy diễn có cơ sở xác suất, thay vì chỉ dựa vào quan sát đơn thuần.
Cách tính: Giả sử ta có hai nhóm A và B, với:
\(p_A\) là tỷ lệ sự kiện trong nhóm A.
\(p_B\) là tỷ lệ sự kiện trong nhóm B.
Hiệu hai tỷ lệ được tính đơn giản là:
\[ d = p_A - p_B \]
Ý nghĩa:
d>0: Tỷ lệ ở nhóm A lớn hơn nhóm B.
d<0: Tỷ lệ ở nhóm A nhỏ hơn nhóm B.
d=0: Không có sự khác biệt về tỷ lệ giữa hai nhóm.
Hiệu này giúp biết được mức độ chênh lệch tuyệt đối giữa hai tỷ lệ.
Khoảng tin cậy (Confidence Interval - CI) cho d thường được tính dựa trên phân phối chuẩn:
\[ CI = d \pm Z_{\alpha/2} \times SE(d) \]
Trong đó:
+) \(SE(d) = \sqrt{\frac{p_A (1 - p_A)}{n_A} + \frac{p_B (1 - p_B)}{n_B}}\) là sai số chuẩn của hiệu tỷ lệ, với \(n_A, n_B\) là kích thước mẫu của hai nhóm.
+) \(Z_{\alpha/2}\) là giá trị tới hạn của phân phối chuẩn ứng với mức ý nghĩa (ví dụ 1.96 với khoảng tin cậy 95%).
Ví dụ minh hoạ: So sánh tỷ lệ “đã kết hôn” giữa Nam và Nữ
| Gender MaritalStatus | Đã kết hôn (M) | Độc thân (S) | Tổng |
|---|---|---|---|
| Nữ (F) | 3602 | 3568 | 7170 |
| Nam (M) | 3264 | 3625 | 6889 |
\[ p_F = \frac{3602}{7170} \approx 0.502 \]
\[ p_M = \frac{3264}{6889} \approx 0.474 \]
\[ d = p_F - p_M = 0.502 - 0.474 = 0.028 \]
-> Tỷ lệ đã kết hôn ở nhóm nữ cao hơn nhóm nam khoảng 2.8%.
Tính sai số chuẩn và khoảng tin cậy 95% cho hiệu tỷ lệ:
\[ SE = \sqrt{\frac{p_F(1 - p_F)}{n_F} + \frac{p_M(1 - p_M)}{n_M}} = \sqrt{\frac{0.502 \times 0.498}{7170} + \frac{0.474 \times 0.526}{6889}} \approx 0.008 \]
\[ CI = d \pm 1.96 \times SE = 0.028 \pm 1.96 \times 0.008 = (0.012, 0.044) \]
Kết luận:
Khoảng tin cậy không chứa giá trị 0, nên hiệu tỷ lệ này có ý nghĩa thống kê.
Như vậy, nữ có tỷ lệ “đã kết hôn” (hoặc sở hữu nhà) cao hơn nam khoảng 2.8%, và sự khác biệt này là đáng kể về mặt thống kê.
Định nghĩa: Tỷ số Nguy cơ (Relative Risk - RR) đo lường mức độ rủi ro (hoặc khả năng xảy ra một sự kiện) ở nhóm phơi nhiễm so với nhóm không phơi nhiễm.
Cách tính RR trong bảng 2x2: Giả sử bảng 2x2 mô tả sự kiện (Ví dụ: sở hữu nhà) theo nhóm phơi nhiễm (ví dụ: Nữ vs Nam):
| Sự kiện (Y) | Không sự kiện (N) | Tổng | |
|---|---|---|---|
| Nhóm phơi nhiễm | a | b | a + b |
| Nhóm không phơi nhiễm | c | d | c + d |
\[ \text{Risk}_{\text{exposed}} = \frac{a}{a + b} \]
\[ \text{Risk}_{\text{unexposed}} = \frac{c}{c + d} \]
\[ RR = \frac{\frac{a}{a+b}}{\frac{c}{c+d}} \]
Diễn giải RR:
RR = 1: Rủi ro giống nhau ở cả hai nhóm, không có sự khác biệt.
RR > 1: Nhóm phơi nhiễm có nguy cơ xảy ra sự kiện cao hơn nhóm không phơi nhiễm (tăng nguy cơ).
RR < 1: Nhóm phơi nhiễm có nguy cơ thấp hơn nhóm không phơi nhiễm (giảm nguy cơ).
Ví dụ: Giả sử lấy:
Nhóm phơi nhiễm: Nữ (Gender = F)
Nhóm không phơi nhiễm: Nam (Gender = M)
Sự kiện: Đã kết hôn (MaritalStatus = M)
Từ bảng:
| Gender | M | S | Tổng |
|---|---|---|---|
| F | 3602 | 3568 | 7170 |
| M | 3264 | 3625 | 6889 |
Tính:
\[ RR = \frac{\frac{3264}{6889}}{\frac{3602}{7170}} \approx \frac{0.474}{0.502} = 0.944 \]
Nữ có khả năng đã kết hôn cao hơn Nam khoảng 5.9%.
\[ \text{Odds} = \frac{p}{1 - p} \]
trong đó p là xác suất xảy ra sự kiện.
\[ OR = \frac{\text{Odds nhóm 2}}{\text{Odds nhóm 1}} = \frac{\frac{p_2}{1-p_2}}{\frac{p_1}{1-p_1}} = \frac{p_2/(1-p_2)}{p_1/(1-p_1)} \]
| Sự kiện (Y) | Không sự kiện (N) | |
|---|---|---|
| Nhóm 1 (F) | a | b |
| Nhóm 2 (M) | c | d |
Công thức tính OR:
\[ OR = \frac{a \times d}{b \times c} \]
Diễn giải OR:
OR=1: Odds của sự kiện ở 2 nhóm bằng nhau, không khác biệt.
OR>1: Odds của sự kiện ở nhóm 1 cao hơn nhóm 2 (ví dụ OR=2 nghĩa là odds ở nhóm 1 gấp 2 lần nhóm 2).
OR<1: Odds của sự kiện ở nhóm 1 thấp hơn nhóm 2.
Lưu ý: Khác với RR, OR diễn giải odds chứ không phải tỷ lệ trực tiếp. Vì vậy, OR thường lớn hơn RR nếu sự kiện không hiếm.
OR gần bằng RR khi sự kiện xảy ra là hiếm (p rất nhỏ), ví dụ <10%. Lúc này, odds và xác suất gần nhau.
Tại sao OR quan trọng?
OR có tính đối xứng: đổi vị trí nhóm sẽ lấy nghịch đảo OR.
OR là thước đo được dùng phổ biến trong logistic regression, giúp mô hình hóa mối liên hệ giữa biến độc lập và biến nhị phân.
Ví dụ tính OR:
tmp1
## M S
## F 3602 3568
## M 3264 3625
Theo công thức:
Tính OR:
\[ OR = \frac{3568 \times 3264}{3602 \times 3625} = \frac{11653792}{13049350} \approx 1.12 \]
Odds của việc đã kết hôn ở nữ cao hơn nam khoảng 12%.
Cách tính Khoảng Tin Cậy cho OR: Khoảng tin cậy cho Odds Ratio (OR) thường được tính dựa trên log(OR), bởi vì log(OR) có phân phối gần chuẩn hơn, giúp việc tính toán trở nên đơn giản và chính xác hơn.
Công thức tính KTC cho OR: Khoảng tin cậy cho OR có thể tính theo công thức sau:
\[ \log(OR) \pm Z_{\alpha/2} \times SE(\log(OR)) \]
Trong đó:
+) Trong đó, \(\log(OR)\) là logarit tự nhiên của OR.
+) Trong đó, \(Z_{\alpha/2}\) là giá trị tới hạn của phân phối chuẩn cho mức ý nghĩa \(\alpha\) (thường là 1.96 cho 95% CI).
+) Trong đó, \(SE(\log(OR))\) là sai số chuẩn của \(\log(OR)\), với \(a\), \(b\), \(c\), \(d\) là các giá trị trong bảng 2x2.
Sau khi tính được KTC của log(OR), ta lấy mũ tự nhiên (exp) của các giới hạn trên và dưới để có KTC cho OR.
Ý nghĩa Khoảng Tin Cậy:
Nếu KTC chứa 1: Điều này có nghĩa là mối liên hệ giữa hai nhóm không có sự khác biệt đáng kể về mặt thống kê. KTC chứa giá trị 1 cho thấy odds của sự kiện ở hai nhóm là gần như nhau.
Nếu KTC không chứa 1: Điều này có nghĩa là odds của sự kiện ở hai nhóm có sự khác biệt đáng kể, và mối quan hệ giữa các nhóm là significant (có ý nghĩa thống kê).
Ví dụ tính KTC 95% cho OR đã tính ở trên: Giả sử chúng ta đã tính \(OR\) cho dữ liệu của bạn và nhận được \(OR \approx 1.12\) từ bảng chéo trước đó.
tmp1
## M S
## F 3602 3568
## M 3264 3625
\[ \log(OR) = \log(1.12) \approx 0.112 \]
\[ SE(\log(OR)) = \sqrt{\frac{1}{3602} + \frac{1}{3568} + \frac{1}{3264} + \frac{1}{3625}} \approx 0.026 \]
\[ CI_{\log(OR)} = \log(OR) \pm 1.96 \times SE(\log(OR)) \]
\[ CI_{\log(OR)} = 0.112 \pm 1.96 \times 0.026 = (0.061, 0.163) \]
\[ CI_{OR} = \left( e^{0.061}, e^{0.163} \right) = (1.063, 1.177) \]
Kết luận về KTC:
Khoảng tin cậy cho OR: \((1.063, 1.177)\).
KTC không chứa giá trị 1, điều này cho thấy có sự khác biệt có ý nghĩa thống kê giữa tỷ lệ sở hữu nhà ở nữ và nam. Tỷ lệ sở hữu nhà ở nữ cao hơn nam trong khoảng từ 6.3% đến 17.7%.
Tính KTC cho OR sử dụng R:
tmp1 <- matrix(c(3602, 3568, 3264, 3625), nrow = 2, byrow = TRUE)
result <- OddsRatio(tmp1)
result
## [1] 1.121184
Trong phân tích này, lựa chọn cặp biến nhị phân MaritalStatus (Tình trạng hôn nhân) và Homeowner (Chủ sở hữu nhà) nhằm khám phá mối liên hệ giữa tình trạng hôn nhân và khả năng sở hữu nhà của khách hàng trong bộ dữ liệu Supermarket Transactions.
MaritalStatus được phân loại thành hai nhóm:
M (Married): Đã kết hôn
S (Single): Độc thân
Homeowner là biến nhị phân thể hiện tình trạng sở hữu nhà:
Y (Yes): Có sở hữu nhà
N (No): Không sở hữu nhà
Việc lựa chọn cặp biến này nhằm mục đích kiểm tra xem liệu tình trạng hôn nhân có ảnh hưởng hoặc liên quan tới khả năng sở hữu nhà của khách hàng hay không.
tmp2 <- matrix(c(1719, 5147, 3896, 3297), nrow = 2, byrow = TRUE)
rownames(tmp2) <- c("Married", "Single")
colnames(tmp2) <- c("No_Home", "Yes_Home")
tmp2 <- as.table(tmp2)
tmp2
## No_Home Yes_Home
## Married 1719 5147
## Single 3896 3297
Nhận xét:
Phân bố số lượng:
Nhóm đã kết hôn (M) gồm tổng 6866 người, trong đó phần lớn (5147) là chủ sở hữu nhà, chỉ có 1719 người không sở hữu nhà.
Nhóm độc thân (S) gồm 7193 người, trong đó số người không sở hữu nhà (3896) nhiều hơn số người sở hữu nhà (3297).
Tỷ lệ sở hữu nhà trong từng nhóm:
Mối liên hệ ban đầu:
Có vẻ như những người đã kết hôn có xu hướng sở hữu nhà nhiều hơn so với người độc thân.
Người độc thân có khả năng không sở hữu nhà cao hơn, tương ứng với số lượng người không sở hữu nhà vượt số người sở hữu nhà.
prop_married <- tmp2["Married", "Yes_Home"] / sum(tmp2["Married", ])
prop_married
## [1] 0.7496359
Tỷ lệ người đã kết hôn có nhà riêng: 0.7496 (~74.96%)
prop_single <- tmp2["Single", "Yes_Home"] / sum(tmp2["Single", ])
prop_single
## [1] 0.4583623
Tỷ lệ người độc thân có nhà riêng: 0.4584 (~45.84%)
diff_prop <- prop_married - prop_single
diff_prop
## [1] 0.2912736
Diễn giải: Người đã kết hôn có xác suất sở hữu nhà cao hơn người độc thân khoảng 29.12%.
RR <- prop_married / prop_single
RR
## [1] 1.635466
Diễn giải: Người đã kết hôn có khả năng sở hữu nhà cao hơn khoảng 1.64 lần so với người độc thân.
odds_married <- tmp2["Married", "Yes_Home"] / tmp2["Married", "No_Home"]
odds_married
## [1] 2.994183
Người đã kết hôn có odds sở hữu nhà là 2.99, tức là họ có khả năng sở hữu nhà gấp khoảng 3 lần so với khả năng không sở hữu.
odds_single <- tmp2["Single", "Yes_Home"] / tmp2["Single", "No_Home"]
odds_single
## [1] 0.8462526
Người độc thân có odds là 0.85, tức là khả năng sở hữu nhà thấp hơn khả năng không sở hữu.
OR <- odds_married / odds_single
OR
## [1] 3.538167
Diễn giải: Tỷ lệ cược (odds) sở hữu nhà ở nhóm đã kết hôn gấp khoảng 3.54 lần so với nhóm độc thân.
fisher_test <- fisher.test(tmp2)
fisher_test$conf.int
## [1] 0.2629325 0.3038465
## attr(,"conf.level")
## [1] 0.95
Diễn giải:
Odds Ratio (OR) đo lường mối liên hệ giữa tình trạng hôn nhân (độc thân vs. đã kết hôn) và khả năng sở hữu nhà (Yes_Home vs. No_Home).
Khoảng tin cậy 95% từ 0.2629 đến 0.3038 có nghĩa là: Với độ tin cậy 95%, Odds Ratio thực sự trong tổng thể nằm trong khoảng từ 0.263 đến 0.304.
Ý nghĩa:
Vì toàn bộ khoảng tin cậy nhỏ hơn 1, điều này cho thấy:
Nhóm người độc thân có khả năng sở hữu nhà thấp hơn đáng kể so với nhóm đã kết hôn.
Cụ thể, odds sở hữu nhà của người độc thân chỉ bằng khoảng 26% đến 30% odds của người đã kết hôn.
Nói cách khác, tình trạng độc thân có liên quan tiêu cực đến khả năng sở hữu nhà.
Kết luận: Khoảng tin cậy 95% củng cố kết luận trước đó rằng người đã kết hôn có khả năng sở hữu nhà cao hơn đáng kể so với người độc thân, và sự khác biệt này có ý nghĩa thống kê cao (vì khoảng không chứa giá trị 1).
Hiệu hai tỷ lệ: cho biết sự khác biệt tuyệt đối về khả năng sở hữu nhà giữa hai nhóm.
Relative Risk: cho biết nguy cơ (hoặc khả năng) tương đối của việc sở hữu nhà.
Odds Ratio: đo lường mức độ liên kết mạnh giữa hai biến, phổ biến trong các nghiên cứu phi thực nghiệm.
| Thước đo | Ưu điểm | Nhược điểm |
|---|---|---|
| Hiệu tỷ lệ | Dễ hiểu, trực quan (phần trăm) | Không phù hợp với biến hiếm gặp |
| Relative Risk | Dễ diễn giải trong nghiên cứu cohort | Không áp dụng được trong nghiên cứu case-control |
| Odds Ratio | Áp dụng rộng rãi, nhất là logistic regression | Khó hiểu hơn, dễ gây nhầm lẫn với RR nếu dịch sai |
Tại sao người đã kết hôn lại có khả năng sở hữu nhà cao hơn?
Có phải vì họ có thu nhập gộp cao hơn, hoặc ưu tiên ổn định hơn?
Các yếu tố khác như tuổi, số lượng thành viên gia đình, thu nhập,… có đang đóng vai trò trung gian?