A. Đọc và chuẩn bị trước buổi học

1. Ôn lại kiến thức tuần 2

1.1. Xem lại các bảng tần số chéo đã tạo

Cặp biến Gender và MaritalStatus

# Bảng tần số chéo
tab1 <- table(d$Gender, d$MaritalStatus)
tab1
##    
##        M    S
##   F 3602 3568
##   M 3264 3625

Trong bộ dữ liệu có 3602 người là nữ đã kết hôn, 3568 người nữ còn độc thân, 3264 người nam đã kết hôn và 3625 người nam còn độc thân.

Tính Odds Ratio

library(epitools)
addmargins(tab1)
##      
##           M     S   Sum
##   F    3602  3568  7170
##   M    3264  3625  6889
##   Sum  6866  7193 14059

Trong tổng số 14.059 người, có 7.170 là nữ và 6.889 là nam. Trong đó, số nữ đã kết hôn (3.602 người) cao hơn số nữ độc thân (3.568 người), trong khi số nam độc thân (3.625 người) lại cao hơn số nam đã kết hôn (3.264 người).

riskratio(tab1) 
## $data
##        
##            M    S Total
##   F     3602 3568  7170
##   M     3264 3625  6889
##   Total 6866 7193 14059
## 
## $measure
##    risk ratio with 95% C.I.
##     estimate    lower    upper
##   F 1.000000       NA       NA
##   M 1.057417 1.023813 1.092123
## 
## $p.value
##    two-sided
##       midp.exact fisher.exact   chi.square
##   F           NA           NA           NA
##   M 0.0007045092 0.0007373895 0.0007038837
## 
## $correction
## [1] FALSE
## 
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"

Nam giới có nguy cơ độc thân cao hơn nữ giới một cách có ý nghĩa thống kê (RR = 1.057; 95% CI: 1.024–1.092; p < 0.001). Điều này cho thấy có mối liên hệ giữa giới tính và tình trạng hôn nhân, cụ thể là nam có xu hướng độc thân nhiều hơn nữ trong mẫu khảo sát này.

Cặp biến AnnualIncome và Homeowner

# Bảng tần số chéo
tab3 <- table(d$AnnualIncome, d$Homeowner)
tab3
##                
##                    N    Y
##   $10K - $30K   1359 1731
##   $110K - $130K  119  524
##   $130K - $150K  136  624
##   $150K +         48  225
##   $30K - $50K   2087 2514
##   $50K - $70K   1063 1307
##   $70K - $90K    686 1023
##   $90K - $110K   117  496

Trong bộ dữ liệu có:

$10K–$30K: 1359 người chưa có nhà, 1731 người có nhà.

$30K–$50K: 2087 người chưa có nhà, 2514 người có nhà.

$50K–$70K: 1063 người chưa có nhà, 1307 người có nhà.

$70K–$90K: 686 người chưa có nhà, 1023 người có nhà.

$90K–$110K: 117 người chưa có nhà, 496 người có nhà.

$110K–$130K: 119 người chưa có nhà, 524 người có nhà.

$130K–$150K: 136 người chưa có nhà, 624 người có nhà.

$150K+: 48 người chưa có nhà, 225 người có nhà.

1.2. Ý nghĩa của kiểm định Chi-bình phương về tính độc lập.

Cặp biến Gender và MaritalStatus

Giả thuyết kiểm định:

  • \(H_0\): Giới tính và tình trạng hôn nhân là hai biến độc lập.

  • \(H_1\): Giới tính và tình trạng hôn nhân có liên quan.

Thực hiện kiểm định Chi-bình phương

chi_test <- chisq.test(tab1)
chi_test
## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  tab1
## X-squared = 11.365, df = 1, p-value = 0.0007485

Kết quả kiểm định cho thấy giá trị Chi-squared là 11.365 với 1 bậc tự do và giá trị p tương ứng là 0.0007485. Với mức ý nghĩa 5%, do p-value nhỏ hơn 0.05, ta bác bỏ giả thuyết H₀, tức là giả thuyết cho rằng giới tính và tình trạng hôn nhân độc lập với nhau. Điều này cho thấy có mối quan hệ có ý nghĩa thống kê giữa giới tính và tình trạng hôn nhân trong tập dữ liệu khảo sát. Nói cách khác, sự khác biệt trong giới tính có liên quan đến sự khác biệt trong tình trạng hôn nhân, và mối quan hệ này không phải do ngẫu nhiên.

Cặp biến AnnualIncome và Homeowner

Giả thuyết kiểm định:

  • \(H_0\): AnnualIncome và Homeowner là hai biến độc lập.

  • \(H_1\): AnnualIncome và Homeowner có liên quan.

Thực hiện kiểm định Chi-bình phương

chi_test <- chisq.test(tab3)
chi_test
## 
##  Pearson's Chi-squared test
## 
## data:  tab3
## X-squared = 546.37, df = 7, p-value < 2.2e-16

Kết quả kiểm định cho thấy giá trị Chi-squared là 546.37 với 7 bậc tự do và giá trị p rất nhỏ, nhỏ hơn 2.2e-16. Với mức ý nghĩa 5%, do p-value < 0.05, ta bác bỏ giả thuyết H₀, tức là giả thuyết cho rằng hai biến này độc lập với nhau. Điều này cho thấy có mối quan hệ có ý nghĩa thống kê giữa mức thu nhập và tình trạng sở hữu nhà ở trong tập dữ liệu khảo sát. Nói cách khác, sự khác biệt trong thu nhập hàng năm có liên quan đến khả năng sở hữu nhà ở của cá nhân.

1.3.Cách tính và diễn giải Relative Risk

2. Tìm hiểu các nội dung chương 2

2.1. Cấu trúc xác suất của bảng ngẫu nhiên

Phân phối Poisson

Phân phối Poisson (Poisson Distribution) là một phân phối xác suất đối với biến cố rời rạc. Phân phối được sử dụng để mô hình hóa số lần xảy ra một sự kiện trong một khoảng thời gian cố định hoặc một không gian cố định.

Điều kiện để sử dụng phân phối này bao gồm:

Sự kiện xảy ra độc lập với nhau. Tỷ lệ xảy ra sự kiện không đổi theo thời gian hoặc không gian.

  • Công thức:

\[ N_{ij} \sim \mathrm{Poisson}(\mu_{ij}) \]

  • Trong đó:

\(N_{ij}\): Số đếm ở ô hàng \(i\), cột \(j\), được sinh ra độc lập

\(\mu_{ij}\): Kỳ vọng của số đếm tại ô \((i,j)\) – trung bình lý thuyết của phân phối Poisson


Phân phối Multinomial

Phân phối Multinomial là dạng phân phối xác suất được sử dụng trong tính toán kết quả các thử nghiệm liên quan đến từ hai biến trở lên.

Phân phối nhị thức là một loại phân phối đa thức đặc biệt được biết đến rộng rãi, phân phối nhị thức chỉ có hai kết quả có thể xảy ra, ví dụ như đúng/sai hoặc ngửa/sấp (khi tung đồng xu).

Trong tài chính, các nhà phân tích sử dụng phân phối đa thức để ước tính xác suất xảy ra của một tập hợp kết quả nhất định.

Chẳng hạn như khả năng một công ty sẽ có thu nhập tốt hơn dự kiến trong khi các đối thủ cạnh tranh của họ có thu nhập không như dự kiến.

  • Công thức

\[ (N_{11}, N_{12}, \ldots, N_{rc}) \sim \mathrm{Multinomial}\left(n, \{p_{ij}\}\right) \]

  • Trong đó:

\(N_{ij}\): Số quan sát ở ô hàng \(i\), cột \(j\) của bảng ngẫu nhiên

\(n\): Tổng số mẫu: \(n = \sum_{i=1}^{r} \sum_{j=1}^{c} N_{ij}\)

\(p_{ij}\): Xác suất một quan sát rơi vào ô \((i,j)\), với \(\sum_{i,j} p_{ij} = 1\)


2.2 So sánh 2 tỷ lệ trong bảng ngẫu nhiên 2x2

Kết quả (+) Kết quả (–) Tổng
Nhóm 1 \(a\) \(b\) \(a+b\)
Nhóm 2 \(c\) \(d\) \(c+d\)
Tổng \(a+c\) \(b+d\) \(n\)

Đây là dạng bảng thường dùng để so sánh xác suất thành công, rủi ro, hoặc phản hồi tích cực giữa hai nhóm.


Hiệu hai tỷ lệ

  • Công thức:

\[ \Delta p = \frac{a}{a+b} - \frac{c}{c+d} \]

  • Diễn giải:

    • mức chênh lệch tuyệt đối giữa hai tỷ lệ thành công ở hai nhóm.

    • Nếu \(\Delta p > 0\), nhóm 1 có tỷ lệ thành công cao hơn nhóm 2.

    • Đơn giản và dễ diễn giải, thích hợp khi tập trung vào sự khác biệt thực tế (absolute difference), thay vì tỷ lệ tương đối.


Tỷ số nguy cơ - Relative Risk

  • Công thức:

\[ RR = \frac{a / (a+b)}{c / (c+d)} \]

  • Diễn giải:

    • Đo mức tăng (hoặc giảm) nguy cơ của nhóm 1 so với nhóm 2.

    • \(RR = 1\): Không có khác biệt nguy cơ.

    • \(RR > 1\): Nhóm 1 có nguy cơ cao hơn.

    • \(RR < 1\): Nhóm 1 có nguy cơ thấp hơn.

Odds

Odds được định nghĩa là tỉ số của 2 xác suất (xác suất mắc bệnh và xác suất không mắc bệnh).

Nếu ta xem p là xác suất mắc bệnh thì 1-p là xác suất không mắc bệnh. Lúc này, odds được tính như sau:

\[ Odds = p/(1-p) \]

Như vậy, sẽ có 3 trường hợp:

  • Nếu \(Odds > 1\), khả năng mắc bệnh cao hơn khả năng không mắc bệnh;

  • Nếu \(Odds = 1\) thì điều này cũng có nghĩa là khả năng mắc bệnh bằng với khả năng mắc bệnh

  • Nếu \(Odds < 1\) (tức p1 < p2), chúng ta có bằng chứng khả năng mắc bệnh thấp hơn khả năng không mắc bệnh.

Tỷ số chênh - Odds Ratio

  • Công thức:

\[ OR = \frac{a/b}{c/d} = \frac{ad}{bc} \]

  • Diễn giải:

    • So sánh cơ hội xảy ra sự kiện giữa hai nhóm.

    • \(OR = 1\): Không có liên hệ.

    • \(OR > 1\): Nhóm 1 có cơ hội cao hơn.

    • \(OR < 1\): Nhóm 1 có cơ hội thấp hơn.


2.3 Khoảng tin cậy cho các tham số đo mối liên hệ

Công thức:

Tính trên log(OR):

\[ \log(OR) \pm Z_{\alpha/2} \cdot \sqrt{ \frac{1}{a} + \frac{1}{b} + \frac{1}{c} + \frac{1}{d} } \]

Sau đó lấy mũ để trở lại OR:

\[ CI_{OR} = \left( e^{L},\ e^{U} \right) \]

Trong đó:

  • \(L = \log(OR) - Z_{\alpha/2} \cdot SE\)

  • \(U = \log(OR) + Z_{\alpha/2} \cdot SE\)

  • \(SE = \sqrt{ \frac{1}{a} + \frac{1}{b} + \frac{1}{c} + \frac{1}{d} }\)

  • Với mức tin cậy 95%, \(Z_{\alpha/2} = 1.96\)


2.4 Ví dụ

Một công ty triển khai chiến dịch nhắc nhở qua email để khuyến khích nhân viên nộp báo cáo đúng hạn.

Nộp đúng hạn Không đúng hạn Tổng
Có nhắc nhở 45 15 60
Không nhắc nhở 30 30 60
  • Tính toán:

    • \(RR = \frac{45/60}{30/60} = 1.5\) → Gửi nhắc nhở giúp tăng 1.5 lần xác suất nộp đúng hạn.

    • \(OR = \frac{45 \cdot 30}{15 \cdot 30} = \frac{1350}{450} = 3.07\) →Cơ hội nộp đúng hạn cao hơn 3 lần nếu có nhắc nhở.

  • Khoảng tin cậy OR:

    • \(SE = \sqrt{1/45 + 1/15 + 1/30 + 1/30} \approx 0.394\)

    • \(\log(OR) \approx \log(3.0) = 1.0986\)

    • \(CI_{log(OR)} = 1.09861 \pm 1.96 \cdot 0.394 = (0.327,\ 1.871)\)

    • \(CI_{OR} = (e^{0.327},\ e^{1.871}) = (1.39,\ 6.50)\)

    OR có ý nghĩa thống kê, vì khoảng tin cậy không chứa 1.


3. Suy nghĩ về bộ dữ liệu “Supermarket Transactions”

3.1 Đọc bộ dữ liệu

3.2 Các bước thực hiện

Bước 1: Tạo bảng chéo giữa Gender và Homeowner

tab_gender_home <- table(d$Gender, d$Homeowner)
tab_gender_home
##    
##        N    Y
##   F 2826 4344
##   M 2789 4100

Tính Odds Ratio

library(epitools)
addmargins(tab_gender_home)
##      
##           N     Y   Sum
##   F    2826  4344  7170
##   M    2789  4100  6889
##   Sum  5615  8444 14059

Bước 2: Tính RR

riskratio(tab_gender_home) 
## $data
##        
##            N    Y Total
##   F     2826 4344  7170
##   M     2789 4100  6889
##   Total 5615 8444 14059
## 
## $measure
##    risk ratio with 95% C.I.
##      estimate     lower    upper
##   F 1.0000000        NA       NA
##   M 0.9823291 0.9561812 1.009192
## 
## $p.value
##    two-sided
##     midp.exact fisher.exact chi.square
##   F         NA           NA         NA
##   M   0.195158    0.1964833  0.1950884
## 
## $correction
## [1] FALSE
## 
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"

Tỷ lệ nữ chưa có nhà là khoảng 60.6% và tỷ lệ nam chưa có nhà là 59.5%. Risk Ratio (RR) của nam giới so với nữ là 0.982 (với khoảng tin cậy 95% từ 0.956 – 1.009). Vì khoảng tin cậy bao gồm 1, nên không có sự khác biệt thống kê có ý nghĩa giữa tỷ lệ sở hữu nhà của nam và nữ.

Mặc dù nữ giới có tỷ lệ sở hữu nhà cao hơn nam giới một chút (60.6% so với 59.5%), sự khác biệt này là rất nhỏ và không có ý nghĩa thống kê. Do đó, giới tính không phải là yếu tố ảnh hưởng đáng kể đến khả năng sở hữu nhà trong dữ liệu này.


B. Hoạt động trên lớp

1. Ôn tập và Thảo luận về Phân tích Chéo & RR

1.1 Nhận định ban đầu từ bảng chéo và RR

Từ bảng chéo 2x2, sinh viên có thể nhanh chóng nhận diện mối liên hệ giữa biến độc lập (ví dụ: nhận nhắc nhở, nhận email) và biến kết quả (ví dụ: mua hàng, nộp đúng hạn, nghỉ việc).

Relative Risk (RR) đo lường mức thay đổi tương đối trong xác suất xảy ra sự kiện giữa hai nhóm.

Ví dụ: Nếu RR = 2.0 → nhóm có can thiệp (ví dụ: nhận nhắc nhở) có xác suất gấp đôi xảy ra sự kiện (ví dụ: nộp đúng hạn) so với nhóm không có can thiệp.

Ưu điểm của RR:

  • Dễ diễn giải, trực quan.

  • Thích hợp khi nghiên cứu theo thời gian (nghiên cứu theo dõi cohort).

1.2. Hạn chế của bảng chéo và RR

Hạn chế của bảng chéo:

  • Chỉ mô tả mối liên hệ đơn giản giữa hai biến → không điều chỉnh được các yếu tố nhiễu (confounding).

  • Không cho thấy rõ cường độ mối quan hệ khi xác suất thấp.

Hạn chế của RR:

  • Không phù hợp trong nghiên cứu hồi cứu hoặc phân tích dữ liệu cắt ngang.

  • Không được định nghĩa khi xác suất ở mẫu tham chiếu bằng 0.

  • Không dùng được khi mô hình hóa dữ liệu nhị phân bằng hồi quy logistic.


1.3 Thảo luận về Odds

Khi phân tích dữ liệu với các kết quả dạng có/không, khái niệm odds giúp chúng ta hiểu “khả năng xảy ra một sự kiện so với không xảy ra”. Ví dụ, nếu 3 người nộp báo cáo đúng hạn và 1 người không nộp, thì odds là 3:1. Odds Ratio (OR) là so sánh odds giữa hai nhóm – chẳng hạn nhóm có nhắc nhở và nhóm không nhắc nhở. Nếu OR = 3, có nghĩa là nhóm được nhắc nhở có khả năng nộp đúng hạn cao gấp 3 lần so với nhóm không được nhắc. OR rất hữu ích trong phân tích vì cho thấy mức độ ảnh hưởng của một yếu tố nào đó, và thường được dùng trong hồi quy logistic.

2. Đào sâu về Suy diễn trong Bảng Ngẫu nhiên 2x2

2.1 Hiệu hai tỷ lệ (Difference in Proportions)

Nhập dữ liệu từ bảng 2x2 và Tính tỷ lệ sở hữu nhà và Hiệu hai tỷ lệ

# Dữ liệu từ bảng 2x2
female_homeowner <- 4344
female_nonhomeowner <- 2826
male_homeowner <- 4100
male_nonhomeowner <- 2789

# Tổng theo giới tính
total_female <- female_homeowner + female_nonhomeowner  # 7170
total_male <- male_homeowner + male_nonhomeowner        # 6889

# Tỷ lệ sở hữu nhà
p_female <- female_homeowner / total_female
p_male <- male_homeowner / total_male

# Hiệu hai tỷ lệ
diff_prop <- p_female - p_male
diff_prop
## [1] 0.01070605
  • Nữ có tỷ lệ sở hữu nhà cao hơn nam khoảng 1.07%.

  • Sự khác biệt này là rất nhỏ.

Khoảng tin cậy cho hiệu hai tỷ lệ (CI)

# Dùng prop.test để tính khoảng tin cậy cho hiệu tỷ lệ
prop.test(x = c(female_homeowner, male_homeowner), 
          n = c(total_female, total_male), 
          correct = FALSE)
## 
##  2-sample test for equality of proportions without continuity correction
## 
## data:  c(female_homeowner, male_homeowner) out of c(total_female, total_male)
## X-squared = 1.6788, df = 1, p-value = 0.1951
## alternative hypothesis: two.sided
## 95 percent confidence interval:
##  -0.005489482  0.026901581
## sample estimates:
##    prop 1    prop 2 
## 0.6058577 0.5951517
  • Kết luận: Vì khoảng tin cậy chứa giá trị 0 → không có sự khác biệt có ý nghĩa thống kê giữa tỷ lệ sở hữu nhà của nữ và nam.

2.2 Tỷ số Nguy cơ (Relative Risk - RR)

Ta tính với công thức như sau:

RR <- (female_homeowner / total_female) / (male_homeowner / total_male)
RR
## [1] 1.017989
  • Diễn giải

    • RR = 1.018 → Nữ có khả năng sở hữu nhà cao hơn nam khoảng 1.8%.

    • Tuy nhiên, mức chênh lệch là rất nhỏ, và như đã thấy ở phần trên, không có ý nghĩa thống kê rõ ràng.

2.3 Tỷ số Chênh (Odds Ratio - OR)

Tính Odds và Odds Ratio (OR)

library(epitools)
oddsratio(d$Gender,d$Homeowner)
## $data
##          Outcome
## Predictor    N    Y Total
##     F     2826 4344  7170
##     M     2789 4100  6889
##     Total 5615 8444 14059
## 
## $measure
##          odds ratio with 95% C.I.
## Predictor estimate     lower    upper
##         F 1.000000        NA       NA
##         M 0.956381 0.8938974 1.023169
## 
## $p.value
##          two-sided
## Predictor midp.exact fisher.exact chi.square
##         F         NA           NA         NA
##         M   0.195158    0.1964833  0.1950884
## 
## $correction
## [1] FALSE
## 
## attr(,"method")
## [1] "median-unbiased estimate & mid-p exact CI"

Tỷ số odds (odds ratio) của nam giới so với nữ giới là 0.956, với khoảng tin cậy 95% là từ 0.894 đến 1.023. Vì khoảng tin cậy này bao gồm giá trị 1 và các giá trị p từ các phép kiểm (midp.exact = 0.195, fisher.exact = 0.196, chi-square = 0.195) đều lớn hơn mức ý nghĩa 0.05, nên ta không đủ bằng chứng để kết luận rằng giới tính có ảnh hưởng đáng kể đến khả năng sở hữu nhà.