Cặp biến Gender và MaritalStatus
# Bảng tần số chéo
tab1 <- table(d$Gender, d$MaritalStatus)
tab1
##
## M S
## F 3602 3568
## M 3264 3625
Trong bộ dữ liệu có 3602 người là nữ đã kết hôn, 3568 người nữ còn độc thân, 3264 người nam đã kết hôn và 3625 người nam còn độc thân.
Tính Odds Ratio
library(epitools)
addmargins(tab1)
##
## M S Sum
## F 3602 3568 7170
## M 3264 3625 6889
## Sum 6866 7193 14059
Trong tổng số 14.059 người, có 7.170 là nữ và 6.889 là nam. Trong đó, số nữ đã kết hôn (3.602 người) cao hơn số nữ độc thân (3.568 người), trong khi số nam độc thân (3.625 người) lại cao hơn số nam đã kết hôn (3.264 người).
riskratio(tab1)
## $data
##
## M S Total
## F 3602 3568 7170
## M 3264 3625 6889
## Total 6866 7193 14059
##
## $measure
## risk ratio with 95% C.I.
## estimate lower upper
## F 1.000000 NA NA
## M 1.057417 1.023813 1.092123
##
## $p.value
## two-sided
## midp.exact fisher.exact chi.square
## F NA NA NA
## M 0.0007045092 0.0007373895 0.0007038837
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"
Nam giới có nguy cơ độc thân cao hơn nữ giới một cách có ý nghĩa thống kê (RR = 1.057; 95% CI: 1.024–1.092; p < 0.001). Điều này cho thấy có mối liên hệ giữa giới tính và tình trạng hôn nhân, cụ thể là nam có xu hướng độc thân nhiều hơn nữ trong mẫu khảo sát này.
Cặp biến AnnualIncome và Homeowner
# Bảng tần số chéo
tab3 <- table(d$AnnualIncome, d$Homeowner)
tab3
##
## N Y
## $10K - $30K 1359 1731
## $110K - $130K 119 524
## $130K - $150K 136 624
## $150K + 48 225
## $30K - $50K 2087 2514
## $50K - $70K 1063 1307
## $70K - $90K 686 1023
## $90K - $110K 117 496
Trong bộ dữ liệu có:
$10K–$30K: 1359 người chưa có nhà, 1731 người có nhà.
$30K–$50K: 2087 người chưa có nhà, 2514 người có nhà.
$50K–$70K: 1063 người chưa có nhà, 1307 người có nhà.
$70K–$90K: 686 người chưa có nhà, 1023 người có nhà.
$90K–$110K: 117 người chưa có nhà, 496 người có nhà.
$110K–$130K: 119 người chưa có nhà, 524 người có nhà.
$130K–$150K: 136 người chưa có nhà, 624 người có nhà.
$150K+: 48 người chưa có nhà, 225 người có nhà.
Cặp biến Gender và MaritalStatus
Giả thuyết kiểm định:
\(H_0\): Giới tính và tình trạng hôn nhân là hai biến độc lập.
\(H_1\): Giới tính và tình trạng hôn nhân có liên quan.
Thực hiện kiểm định Chi-bình phương
chi_test <- chisq.test(tab1)
chi_test
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: tab1
## X-squared = 11.365, df = 1, p-value = 0.0007485
Kết quả kiểm định cho thấy giá trị Chi-squared là 11.365 với 1 bậc tự do và giá trị p tương ứng là 0.0007485. Với mức ý nghĩa 5%, do p-value nhỏ hơn 0.05, ta bác bỏ giả thuyết H₀, tức là giả thuyết cho rằng giới tính và tình trạng hôn nhân độc lập với nhau. Điều này cho thấy có mối quan hệ có ý nghĩa thống kê giữa giới tính và tình trạng hôn nhân trong tập dữ liệu khảo sát. Nói cách khác, sự khác biệt trong giới tính có liên quan đến sự khác biệt trong tình trạng hôn nhân, và mối quan hệ này không phải do ngẫu nhiên.
Cặp biến AnnualIncome và Homeowner
Giả thuyết kiểm định:
\(H_0\): AnnualIncome và Homeowner là hai biến độc lập.
\(H_1\): AnnualIncome và Homeowner có liên quan.
Thực hiện kiểm định Chi-bình phương
chi_test <- chisq.test(tab3)
chi_test
##
## Pearson's Chi-squared test
##
## data: tab3
## X-squared = 546.37, df = 7, p-value < 2.2e-16
Kết quả kiểm định cho thấy giá trị Chi-squared là 546.37 với 7 bậc tự do và giá trị p rất nhỏ, nhỏ hơn 2.2e-16. Với mức ý nghĩa 5%, do p-value < 0.05, ta bác bỏ giả thuyết H₀, tức là giả thuyết cho rằng hai biến này độc lập với nhau. Điều này cho thấy có mối quan hệ có ý nghĩa thống kê giữa mức thu nhập và tình trạng sở hữu nhà ở trong tập dữ liệu khảo sát. Nói cách khác, sự khác biệt trong thu nhập hàng năm có liên quan đến khả năng sở hữu nhà ở của cá nhân.
Phân phối Poisson (Poisson Distribution) là một phân phối xác suất đối với biến cố rời rạc. Phân phối được sử dụng để mô hình hóa số lần xảy ra một sự kiện trong một khoảng thời gian cố định hoặc một không gian cố định.
Điều kiện để sử dụng phân phối này bao gồm:
Sự kiện xảy ra độc lập với nhau. Tỷ lệ xảy ra sự kiện không đổi theo thời gian hoặc không gian.
\[ N_{ij} \sim \mathrm{Poisson}(\mu_{ij}) \]
\(N_{ij}\): Số đếm ở ô hàng \(i\), cột \(j\), được sinh ra độc lập
\(\mu_{ij}\): Kỳ vọng của số đếm tại ô \((i,j)\) – trung bình lý thuyết của phân phối Poisson
Phân phối Multinomial là dạng phân phối xác suất được sử dụng trong tính toán kết quả các thử nghiệm liên quan đến từ hai biến trở lên.
Phân phối nhị thức là một loại phân phối đa thức đặc biệt được biết đến rộng rãi, phân phối nhị thức chỉ có hai kết quả có thể xảy ra, ví dụ như đúng/sai hoặc ngửa/sấp (khi tung đồng xu).
Trong tài chính, các nhà phân tích sử dụng phân phối đa thức để ước tính xác suất xảy ra của một tập hợp kết quả nhất định.
Chẳng hạn như khả năng một công ty sẽ có thu nhập tốt hơn dự kiến trong khi các đối thủ cạnh tranh của họ có thu nhập không như dự kiến.
\[ (N_{11}, N_{12}, \ldots, N_{rc}) \sim \mathrm{Multinomial}\left(n, \{p_{ij}\}\right) \]
\(N_{ij}\): Số quan sát ở ô hàng \(i\), cột \(j\) của bảng ngẫu nhiên
\(n\): Tổng số mẫu: \(n = \sum_{i=1}^{r} \sum_{j=1}^{c} N_{ij}\)
\(p_{ij}\): Xác suất một quan sát rơi vào ô \((i,j)\), với \(\sum_{i,j} p_{ij} = 1\)
| Kết quả (+) | Kết quả (–) | Tổng | |
|---|---|---|---|
| Nhóm 1 | \(a\) | \(b\) | \(a+b\) |
| Nhóm 2 | \(c\) | \(d\) | \(c+d\) |
| Tổng | \(a+c\) | \(b+d\) | \(n\) |
Đây là dạng bảng thường dùng để so sánh xác suất thành công, rủi ro, hoặc phản hồi tích cực giữa hai nhóm.
\[ \Delta p = \frac{a}{a+b} - \frac{c}{c+d} \]
Diễn giải:
Là mức chênh lệch tuyệt đối giữa hai tỷ lệ thành công ở hai nhóm.
Nếu \(\Delta p > 0\), nhóm 1 có tỷ lệ thành công cao hơn nhóm 2.
Đơn giản và dễ diễn giải, thích hợp khi tập trung vào sự khác biệt thực tế (absolute difference), thay vì tỷ lệ tương đối.
\[ RR = \frac{a / (a+b)}{c / (c+d)} \]
Diễn giải:
Đo mức tăng (hoặc giảm) nguy cơ của nhóm 1 so với nhóm 2.
\(RR = 1\): Không có khác biệt nguy cơ.
\(RR > 1\): Nhóm 1 có nguy cơ cao hơn.
\(RR < 1\): Nhóm 1 có nguy cơ thấp hơn.
Odds được định nghĩa là tỉ số của 2 xác suất (xác suất mắc bệnh và xác suất không mắc bệnh).
Nếu ta xem p là xác suất mắc bệnh thì 1-p là xác suất không mắc bệnh. Lúc này, odds được tính như sau:
\[ Odds = p/(1-p) \]
Như vậy, sẽ có 3 trường hợp:
Nếu \(Odds > 1\), khả năng mắc bệnh cao hơn khả năng không mắc bệnh;
Nếu \(Odds = 1\) thì điều này cũng có nghĩa là khả năng mắc bệnh bằng với khả năng mắc bệnh
Nếu \(Odds < 1\) (tức p1 < p2), chúng ta có bằng chứng khả năng mắc bệnh thấp hơn khả năng không mắc bệnh.
\[ OR = \frac{a/b}{c/d} = \frac{ad}{bc} \]
Diễn giải:
So sánh cơ hội xảy ra sự kiện giữa hai nhóm.
\(OR = 1\): Không có liên hệ.
\(OR > 1\): Nhóm 1 có cơ hội cao hơn.
\(OR < 1\): Nhóm 1 có cơ hội thấp hơn.
Tính trên log(OR):
\[ \log(OR) \pm Z_{\alpha/2} \cdot \sqrt{ \frac{1}{a} + \frac{1}{b} + \frac{1}{c} + \frac{1}{d} } \]
Sau đó lấy mũ để trở lại OR:
\[ CI_{OR} = \left( e^{L},\ e^{U} \right) \]
Trong đó:
\(L = \log(OR) - Z_{\alpha/2} \cdot SE\)
\(U = \log(OR) + Z_{\alpha/2} \cdot SE\)
\(SE = \sqrt{ \frac{1}{a} + \frac{1}{b} + \frac{1}{c} + \frac{1}{d} }\)
Với mức tin cậy 95%, \(Z_{\alpha/2} = 1.96\)
Một công ty triển khai chiến dịch nhắc nhở qua email để khuyến khích nhân viên nộp báo cáo đúng hạn.
| Nộp đúng hạn | Không đúng hạn | Tổng | |
|---|---|---|---|
| Có nhắc nhở | 45 | 15 | 60 |
| Không nhắc nhở | 30 | 30 | 60 |
Tính toán:
\(RR = \frac{45/60}{30/60} = 1.5\) → Gửi nhắc nhở giúp tăng 1.5 lần xác suất nộp đúng hạn.
\(OR = \frac{45 \cdot 30}{15 \cdot 30} = \frac{1350}{450} = 3.07\) →Cơ hội nộp đúng hạn cao hơn 3 lần nếu có nhắc nhở.
Khoảng tin cậy OR:
\(SE = \sqrt{1/45 + 1/15 + 1/30 + 1/30} \approx 0.394\)
\(\log(OR) \approx \log(3.0) = 1.0986\)
\(CI_{log(OR)} = 1.09861 \pm 1.96 \cdot 0.394 = (0.327,\ 1.871)\)
\(CI_{OR} = (e^{0.327},\ e^{1.871}) = (1.39,\ 6.50)\)
→ OR có ý nghĩa thống kê, vì khoảng tin cậy không chứa 1.
tab_gender_home <- table(d$Gender, d$Homeowner)
tab_gender_home
##
## N Y
## F 2826 4344
## M 2789 4100
Tính Odds Ratio
library(epitools)
addmargins(tab_gender_home)
##
## N Y Sum
## F 2826 4344 7170
## M 2789 4100 6889
## Sum 5615 8444 14059
riskratio(tab_gender_home)
## $data
##
## N Y Total
## F 2826 4344 7170
## M 2789 4100 6889
## Total 5615 8444 14059
##
## $measure
## risk ratio with 95% C.I.
## estimate lower upper
## F 1.0000000 NA NA
## M 0.9823291 0.9561812 1.009192
##
## $p.value
## two-sided
## midp.exact fisher.exact chi.square
## F NA NA NA
## M 0.195158 0.1964833 0.1950884
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"
Tỷ lệ nữ chưa có nhà là khoảng 60.6% và tỷ lệ nam chưa có nhà là 59.5%. Risk Ratio (RR) của nam giới so với nữ là 0.982 (với khoảng tin cậy 95% từ 0.956 – 1.009). Vì khoảng tin cậy bao gồm 1, nên không có sự khác biệt thống kê có ý nghĩa giữa tỷ lệ sở hữu nhà của nam và nữ.
Mặc dù nữ giới có tỷ lệ sở hữu nhà cao hơn nam giới một chút (60.6% so với 59.5%), sự khác biệt này là rất nhỏ và không có ý nghĩa thống kê. Do đó, giới tính không phải là yếu tố ảnh hưởng đáng kể đến khả năng sở hữu nhà trong dữ liệu này.
Từ bảng chéo 2x2, sinh viên có thể nhanh chóng nhận diện mối liên hệ giữa biến độc lập (ví dụ: nhận nhắc nhở, nhận email) và biến kết quả (ví dụ: mua hàng, nộp đúng hạn, nghỉ việc).
Relative Risk (RR) đo lường mức thay đổi tương đối trong xác suất xảy ra sự kiện giữa hai nhóm.
Ví dụ: Nếu RR = 2.0 → nhóm có can thiệp (ví dụ: nhận nhắc nhở) có xác suất gấp đôi xảy ra sự kiện (ví dụ: nộp đúng hạn) so với nhóm không có can thiệp.
Ưu điểm của RR:
Dễ diễn giải, trực quan.
Thích hợp khi nghiên cứu theo thời gian (nghiên cứu theo dõi cohort).
Hạn chế của bảng chéo:
Chỉ mô tả mối liên hệ đơn giản giữa hai biến → không điều chỉnh được các yếu tố nhiễu (confounding).
Không cho thấy rõ cường độ mối quan hệ khi xác suất thấp.
Hạn chế của RR:
Không phù hợp trong nghiên cứu hồi cứu hoặc phân tích dữ liệu cắt ngang.
Không được định nghĩa khi xác suất ở mẫu tham chiếu bằng 0.
Không dùng được khi mô hình hóa dữ liệu nhị phân bằng hồi quy logistic.
Khi phân tích dữ liệu với các kết quả dạng có/không, khái niệm odds giúp chúng ta hiểu “khả năng xảy ra một sự kiện so với không xảy ra”. Ví dụ, nếu 3 người nộp báo cáo đúng hạn và 1 người không nộp, thì odds là 3:1. Odds Ratio (OR) là so sánh odds giữa hai nhóm – chẳng hạn nhóm có nhắc nhở và nhóm không nhắc nhở. Nếu OR = 3, có nghĩa là nhóm được nhắc nhở có khả năng nộp đúng hạn cao gấp 3 lần so với nhóm không được nhắc. OR rất hữu ích trong phân tích vì cho thấy mức độ ảnh hưởng của một yếu tố nào đó, và thường được dùng trong hồi quy logistic.
# Dữ liệu từ bảng 2x2
female_homeowner <- 4344
female_nonhomeowner <- 2826
male_homeowner <- 4100
male_nonhomeowner <- 2789
# Tổng theo giới tính
total_female <- female_homeowner + female_nonhomeowner # 7170
total_male <- male_homeowner + male_nonhomeowner # 6889
# Tỷ lệ sở hữu nhà
p_female <- female_homeowner / total_female
p_male <- male_homeowner / total_male
# Hiệu hai tỷ lệ
diff_prop <- p_female - p_male
diff_prop
## [1] 0.01070605
Nữ có tỷ lệ sở hữu nhà cao hơn nam khoảng 1.07%.
Sự khác biệt này là rất nhỏ.
# Dùng prop.test để tính khoảng tin cậy cho hiệu tỷ lệ
prop.test(x = c(female_homeowner, male_homeowner),
n = c(total_female, total_male),
correct = FALSE)
##
## 2-sample test for equality of proportions without continuity correction
##
## data: c(female_homeowner, male_homeowner) out of c(total_female, total_male)
## X-squared = 1.6788, df = 1, p-value = 0.1951
## alternative hypothesis: two.sided
## 95 percent confidence interval:
## -0.005489482 0.026901581
## sample estimates:
## prop 1 prop 2
## 0.6058577 0.5951517
Ta tính với công thức như sau:
RR <- (female_homeowner / total_female) / (male_homeowner / total_male)
RR
## [1] 1.017989
Diễn giải
RR = 1.018 → Nữ có khả năng sở hữu nhà cao hơn nam khoảng 1.8%.
Tuy nhiên, mức chênh lệch là rất nhỏ, và như đã thấy ở phần trên, không có ý nghĩa thống kê rõ ràng.
library(epitools)
oddsratio(d$Gender,d$Homeowner)
## $data
## Outcome
## Predictor N Y Total
## F 2826 4344 7170
## M 2789 4100 6889
## Total 5615 8444 14059
##
## $measure
## odds ratio with 95% C.I.
## Predictor estimate lower upper
## F 1.000000 NA NA
## M 0.956381 0.8938974 1.023169
##
## $p.value
## two-sided
## Predictor midp.exact fisher.exact chi.square
## F NA NA NA
## M 0.195158 0.1964833 0.1950884
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "median-unbiased estimate & mid-p exact CI"
Tỷ số odds (odds ratio) của nam giới so với nữ giới là 0.956, với khoảng tin cậy 95% là từ 0.894 đến 1.023. Vì khoảng tin cậy này bao gồm giá trị 1 và các giá trị p từ các phép kiểm (midp.exact = 0.195, fisher.exact = 0.196, chi-square = 0.195) đều lớn hơn mức ý nghĩa 0.05, nên ta không đủ bằng chứng để kết luận rằng giới tính có ảnh hưởng đáng kể đến khả năng sở hữu nhà.