A. Đọc và Chuẩn bị trước buổi học

data <- read.csv("C:/Users/Ngo Trang/Documents/Supermarket Transactions.csv", header = TRUE)
str(data)
## 'data.frame':    14059 obs. of  16 variables:
##  $ X                : int  1 2 3 4 5 6 7 8 9 10 ...
##  $ PurchaseDate     : chr  "2007-12-18" "2007-12-20" "2007-12-21" "2007-12-21" ...
##  $ CustomerID       : int  7223 7841 8374 9619 1900 6696 9673 354 1293 7938 ...
##  $ Gender           : chr  "F" "M" "F" "M" ...
##  $ MaritalStatus    : chr  "S" "M" "M" "M" ...
##  $ Homeowner        : chr  "Y" "Y" "N" "Y" ...
##  $ Children         : int  2 5 2 3 3 3 2 2 3 1 ...
##  $ AnnualIncome     : chr  "$30K - $50K" "$70K - $90K" "$50K - $70K" "$30K - $50K" ...
##  $ City             : chr  "Los Angeles" "Los Angeles" "Bremerton" "Portland" ...
##  $ StateorProvince  : chr  "CA" "CA" "WA" "OR" ...
##  $ Country          : chr  "USA" "USA" "USA" "USA" ...
##  $ ProductFamily    : chr  "Food" "Food" "Food" "Food" ...
##  $ ProductDepartment: chr  "Snack Foods" "Produce" "Snack Foods" "Snacks" ...
##  $ ProductCategory  : chr  "Snack Foods" "Vegetables" "Snack Foods" "Candy" ...
##  $ UnitsSold        : int  5 5 3 4 4 3 4 6 1 2 ...
##  $ Revenue          : num  27.38 14.9 5.52 4.44 14 ...

1.1 Ôn lại kiến thức Tuần 2

1.1.1 Bảng tần số chéo

Bảng tần số chéo (hay còn gọi là bảng chéo, bảng tần số kết hợp, contingency table, hoặc cross-tabulation) là một công cụ thống kê được sử dụng để mô tả mối quan hệ giữa hai (hoặc nhiều) biến phân loại (categorical variables).

Ví dụ:

vd1 <- table(data$MaritalStatus, data$Homeowner)
vd1
##    
##        N    Y
##   M 1719 5147
##   S 3896 3297

Trong bộ dữ liệu bao gồm 1719 người đã kết hôn và không sở hữu nhà, 5147 người đã kết hôn và sở hữu nhà, 3896 người độc thân và không sở hưu nhà, 3297 người độc thân và sở hữu nhà.

vd2 <- table(data$MaritalStatus, data$ProductFamily)
vd2
##    
##     Drink Food Non-Consumable
##   M   628 4938           1300
##   S   622 5215           1356

Trong bộ dữ liệu bao gồm 628 người đã kết hôn sử dụng đồ uống, 4938 người đã kết hôn và sử dụng thực phẩm và 1300 người đã kết hôn sử dụng sản phẩm không sử dụng trực tiếp. bên cạnh đó bao gồm 622 người độc thân sử dụng đồ uống, 5215 người độc thân sử dụng thực phẩm và 1356 người sử dụng sản phẩm không dùng trực tiếp.

1.1.2 Ý nghĩa của kiểm định Chi-bình phương về tính độc lập

Kiểm định Chi-bình phương (Chi-square test) về tính độc lập là một phương pháp thống kê dùng để kiểm tra xem hai biến phân loại (categorical variables) có mối liên hệ với nhau hay không — hay nói cách khác, chúng có độc lập hay không.

Mục đích kiểm định:

Giả thuyết không (H₀): Hai biến phân loại độc lập với nhau (không có mối quan hệ).

Giả thuyết đối (H₁): Hai biến phân loại không độc lập (có mối quan hệ).

Ví dụ:

Giả thuyết:

H₀ : MaritalStatus và Homeowner độc lập với nhau (không có mối quan hệ).

H₁ : MaritalStatus và Homeowneri không độc lập (có mối quan hệ).

chisq.test(vd1)
## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  vd1
## X-squared = 1241.2, df = 1, p-value < 2.2e-16

Qua kết quả kiểm định cho ta p−value < 2e−16 < 0.05, nên bác bỏ H0, nghĩa là giữa việc sở hữu nhà và tình trạng hôn nhân là có liên quan với nhau.

Giả thuyết:

H₀ : MaritalStatus và ProductFamily độc lập với nhau (không có mối quan hệ).

H₁ : MaritalStatus và ProductFamily không độc lập (có mối quan hệ).

chisq.test(vd2)
## 
##  Pearson's Chi-squared test
## 
## data:  vd2
## X-squared = 1.1617, df = 2, p-value = 0.5594

Qua kết quả kiểm định cho ta p−value = 0.5594 > 0.05, không đủ cơ sở bác bỏ H0, nghĩa là giữa việc sở hữu nhà và tình trạng hôn nhân độc lập với nhau.

1.1.3 Cách tính và diễn giải Relative Risk

(Relative risk) - Rủi ro tương đối giữa 2 biểu hiện khác nhau của biến phụ thuộc. Relative Risk (RR) là một chỉ số thống kê dùng để so sánh xác suất xảy ra một sự kiện giữa hai nhóm.

Ký hiệu πi là tỷ lệ “thành công” của biến phụ thuộc (response variable) tương ứng với từng biểu hiện của biến độc lập.

Từ bảng tần xuất, chúng ta tính π1/π2, phân số này gọi là Rủi ro tương đối (Relative risk) giữa 2 biểu hiện khác nhau của biến phụ thuộc.

Ví dụ:

addmargins(vd1) # Bảng phân phối xác suất biên
##      
##           N     Y   Sum
##   M    1719  5147  6866
##   S    3896  3297  7193
##   Sum  5615  8444 14059

Chúng ta tính rủi ro tương đối (relative risk).

library(DescTools)
## Warning: package 'DescTools' was built under R version 4.3.3
RelRisk(vd1) # 
## [1] 0.4622354

Xác suất làm chủ nhà ở nhóm M (Kết hôn):

P(Y/M) = 5147/6866 = 0.75

Xác suất làm chủ nhà ở nhóm S (Độc thân):

P(Y/S) = 3297/7193 = 0.4583

Công thức tính Relative Risk

RR = P(Y/S)/ P(Y/M) = 0.4583/0.75 ≈ 0.4622

Ý nghĩa kết quả RR = 0.4622

RR < 1: Nhóm S (Độc thân) có xác suất làm chủ nhà thấp hơn nhóm M (Kết hôn).

Cụ thể, người độc thân có khả năng làm chủ nhà bằng khoảng 46% so với người kết hôn. Hay nói cách khác, người kết hôn có khả năng làm chủ nhà cao hơn người độc thân khoảng 1/0.4622 ≈ 2.16 lần.

Lệnh RelRisk(tmp) trong R

Hàm RelRisk() từ package DescTools dùng để tính rủi ro tương đối từ bảng tần suất chéo.Mặc định, nó lấy tỷ lệ tại vị trí hàng 2 (S) so với hàng 1 (M) cho cột 2 (Y) so với cột 1 (N). Nên kết quả 0.4622 đúng là rủi ro tương đối cho nhóm S so với nhóm M về việc làm chủ nhà.

1.2 Tìm hiểu về các nội dung sau của Chương 2

1.2.1 Cấu trúc xác suất của bảng ngẫu nhiên

Bảng ngẫu nhiên (Contingency Table)

Bảng ngẫu nhiên là bảng tần số thể hiện số lần xuất hiện của các kết hợp giữa hai (hoặc nhiều) biến phân loại. Dạng phổ biến nhất là bảng 2 chiều, ví dụ:

vd1 <- table(data$MaritalStatus, data$Homeowner)
addmargins(vd1)
##      
##           N     Y   Sum
##   M    1719  5147  6866
##   S    3896  3297  7193
##   Sum  5615  8444 14059

Phân phối Poisson và Multinomial là hai phân phối thường dùng để sinh ra bảng ngẫu nhiên vì đặc điểm cấu trúc xác suất của chúng. Với phân phối Poisson, mỗi ô trong bảng được coi là một biến ngẫu nhiên đếm độc lập, không ràng buộc bởi tổng dòng hay cột, nên toàn bộ bảng có thể thay đổi tự do – tạo nên tính ngẫu nhiên của bảng. Ngược lại, phân phối Multinomial sinh ra bảng ngẫu nhiên trong trường hợp tổng số đếm được cố định trước, nhưng các phần tử được phân phối ngẫu nhiên vào các ô dựa trên xác suất, từ đó tạo ra nhiều khả năng cấu hình bảng khác nhau. Do đó, cả hai phân phối này đều là mô hình xác suất hợp lý để sinh bảng ngẫu nhiên trong các tình huống khác nhau.

Phân phối Poisson

Phân phối Poisson là một phân phối xác suất rời rạc dùng để mô tả số lần xảy ra của một sự kiện hiếm gặp trong một khoảng thời gian hoặc không gian cố định, với giả định rằng các sự kiện xảy ra độc lập và với tốc độ trung bình không đổi. Phân phối này được ký hiệu là:

\[ Y \sim \text{Poisson}(\lambda) \]

Trong đó:

  • \(Y\) là biến ngẫu nhiên đếm số sự kiện xảy ra.
  • \(\lambda > 0\) là kỳ vọng (trung bình) và cũng là phương sai của phân phối.

Hàm xác suất của phân phối Poisson được viết như sau:

\[ P(Y = y) = \frac{e^{-\lambda} \lambda^y}{y!}, \quad y = 0, 1, 2, \dots \]

Phân phối Poisson thường được sử dụng để mô hình hóa dữ liệu đếm như số ca bệnh, số cuộc gọi, số lỗi kỹ thuật,… và là một thành phần cơ bản trong các mô hình tuyến tính tổng quát (GLM) khi biến phản hồi là dạng đếm.

Multinomial

Phân phối Multinomial là một mở rộng của phân phối nhị thức (Bernoulli) cho nhiều hơn hai kết quả. Phân phối này mô tả xác suất của các kết quả đếm được trong \(n\) lần thử, trong đó mỗi lần thử có thể rơi vào một trong \(k\) loại (categories) với xác suất tương ứng. Phân phối này được ký hiệu là:

\[ \mathbf{Y} \sim \text{Multinomial}(n, \mathbf{p}) \]

Trong đó:

  • \(\mathbf{Y} = (Y_1, Y_2, \dots, Y_k)\) là vector số đếm cho từng loại.
  • \(n\) là tổng số lần thử (hay tổng số đếm): \(n = \sum_{i=1}^k Y_i\).
  • \(\mathbf{p} = (p_1, p_2, \dots, p_k)\) là vector xác suất với \(p_i \ge 0\)\(\sum_{i=1}^k p_i = 1\).

Hàm xác suất:

\[ P(Y_1 = y_1, \dots, Y_k = y_k) = \frac{n!}{y_1! \cdots y_k!} p_1^{y_1} \cdots p_k^{y_k} \]

Phân phối Multinomial thường dùng để mô hình hóa các bảng tần suất hoặc bảng phân loại (contingency tables) khi tổng số đếm đã được cố định trước.

1.2.2 So sánh 2 tỷ lệ trong bảng ngẫu nhiên 2x2

Xét một bảng tần suất ngẫu nhiên \(2 \times 2\) như sau:

Biến A xảy ra Biến A không xảy ra Tổng
Nhóm 1 \(a\) \(b\) \(a + b\)
Nhóm 2 \(c\) \(d\) \(c + d\)
Tổng \(a + c\) \(b + d\) \(n\)

Trong phân tích thống kê, ba chỉ số phổ biến để so sánh tỷ lệ giữa hai nhóm là:

1. Hiệu hai tỷ lệ (Risk Difference - RD)

Hiệu hai tỷ lệ đo lường sự chênh lệch tuyệt đối giữa xác suất xảy ra của biến A trong hai nhóm:

\[ \text{RD} = \frac{a}{a + b} - \frac{c}{c + d} \]

2. Tỷ số nguy cơ (Relative Risk - RR)

Tỷ số nguy cơ là tỷ lệ giữa xác suất xảy ra của biến A ở nhóm 1 so với nhóm 2:

\[ \text{RR} = \frac{a / (a + b)}{c / (c + d)} \]

3. Tỷ số chênh (Odds Ratio - OR)

Tỷ số chênh là tỷ lệ giữa odds (tỷ lệ chênh lệch giữa xảy ra và không xảy ra) của biến A ở hai nhóm:

\[ \text{OR} = \frac{a / b}{c / d} = \frac{a \cdot d}{b \cdot c} \]

1.2.3 Khoảng tin cậy cho các tham số đo mối liên hệ

Khi so sánh hai tỷ lệ trong bảng ngẫu nhiên \(2 \times 2\), các tham số phổ biến để đo mối liên hệ giữa hai biến phân loại gồm:

  • Hiệu tỷ lệ (Risk Difference – RD),
  • Tỷ số nguy cơ (Relative Risk – RR),
  • Tỷ số chênh (Odds Ratio – OR).

Để đánh giá độ chính xác của các tham số ước lượng này, ta thường tính khoảng tin cậy (Confidence Interval – CI) với mức tin cậy \((1 - \alpha)\), thường là 95%.

Khoảng tin cậy cho Odds Ratio

Odds Ratio (OR) được định nghĩa là:

\[ \hat{OR} = \frac{a \cdot d}{b \cdot c} \]

với \(a, b, c, d\) là tần số quan sát trong bảng \(2 \times 2\).

Vì OR > 0 và phân phối của nó thường lệch phải, nên ta áp dụng phép biến đổi logarit:

\[ \log(\hat{OR}) \sim \mathcal{N} \left( \log(OR), \ \sigma^2 \right) \]

Trong đó:

\[ \hat{\sigma}^2 = \frac{1}{a} + \frac{1}{b} + \frac{1}{c} + \frac{1}{d} \]

Khi đó, khoảng tin cậy \((1 - \alpha)\) cho \(\log(OR)\) là:

\[ \log(\hat{OR}) \pm z_{1 - \alpha/2} \cdot \sqrt{\hat{\sigma}^2} \]

Và khoảng tin cậy cho OR là:

\[ CI_{1 - \alpha}(\hat{OR}) = \left[ \exp\left( \log(\hat{OR}) - z \cdot \sqrt{\hat{\sigma}^2} \right), \ \exp\left( \log(\hat{OR}) + z \cdot \sqrt{\hat{\sigma}^2} \right) \right] \]

Ví dụ: Mối liên hệ giữa loại hình quảng cáo và phản hồi khách hàng

Một công ty thử hai hình thức quảng cáo cho sản phẩm: Truyền hình (Nhóm 1)Mạng xã hội (Nhóm 2). Kết quả khảo sát:

Có phản hồi Không phản hồi Tổng
Quảng cáo TV 60 40 100
Quảng cáo mạng XH 30 70 100

Tính Odds Ratio và khoảng tin cậy bằng R

# Dữ liệu bảng 2x2
a <- 60; b <- 40
c <- 30; d <- 70

# Tính OR
OR_hat <- (a * d) / (b * c)

# Log(OR) và SE
logOR <- log(OR_hat)
SE_logOR <- sqrt(1/a + 1/b + 1/c + 1/d)

# Mức tin cậy
z <- qnorm(0.975)  # z0.975 ≈ 1.96

# Khoảng tin cậy cho log(OR)
lower_log <- logOR - z * SE_logOR
upper_log <- logOR + z * SE_logOR

# Chuyển về khoảng tin cậy cho OR
CI_lower <- exp(lower_log)
CI_upper <- exp(upper_log)

# In kết quả
cat("Odds Ratio ước lượng:", round(OR_hat, 3), "\n")
## Odds Ratio ước lượng: 3.5
cat("Khoảng tin cậy 95% cho OR: [", round(CI_lower, 3), ",", round(CI_upper, 3), "]\n")
## Khoảng tin cậy 95% cho OR: [ 1.949 , 6.287 ]

Odds Ratio = 3.5: Xác suất có phản hồi từ quảng cáo TV gấp 3.5 lần so với quảng cáo mạng xã hội.

Khoảng tin cậy 95% không chứa 1: Mối liên hệ là có ý nghĩa thống kê ở mức 5%.

1.3 Suy nghĩ về bộ dữ liệu “Supermarket Transactions”

vd3 <- table(data$Gender,data$Homeowner)
vd3
##    
##        N    Y
##   F 2826 4344
##   M 2789 4100

odds sở hữu nhà ở từng nhóm

  • Nhóm Nữ (F):

\[ \text{Odds}_F = \frac{\text{Số sở hữu nhà}}{\text{Số không sở hữu nhà}} = \frac{4344}{2826} \approx 1.537 \]

  • Nhóm Nam (M):

\[ \text{Odds}_M = \frac{4100}{2789} \approx 1.470 \]

Odds Ratio (OR)

\[ OR = \frac{\text{Odds}_F}{\text{Odds}_M} = \frac{4344 / 2826}{4100 / 2789} = \frac{4344 \times 2789}{2826 \times 4100} \approx 1.046 \]

OR > 1 cho thấy việc là Nữ có xu hướng làm tăng odds sở hữu nhà so với Nam.

Cụ thể, odds sở hữu nhà của Nữ cao hơn Nam khoảng 4.6%.

Tuy nhiên, giá trị OR gần 1 cho thấy sự khác biệt về odds không lớn, cần phân tích thêm về ý nghĩa thống kê để kết luận chắc chắn.

B. Hoạt động trên lớp

2.1 Ôn tập và Thảo luận về Phân tích Chéo & RR (30 phút)

Nhận định ban đầu từ phân tích bảng chéo và Relative Risk:

Từ bảng chéo và chỉ số Relative Risk (RR), ta có thể đưa ra các nhận định sơ bộ về mối liên hệ giữa hai biến định tính nhị phân. Cụ thể, RR giúp so sánh khả năng xảy ra của một sự kiện giữa hai nhóm, từ đó chỉ ra nhóm nào có xu hướng cao hoặc thấp hơn đối với biến kết quả. Bảng chéo cung cấp cái nhìn trực quan ban đầu về sự phân bố dữ liệu theo hai chiều biến số.

Hạn chế của bảng chéo và Relative Risk:

Dù là công cụ hữu ích để mô tả mối quan hệ ban đầu, hai thước đo này vẫn tồn tại những hạn chế quan trọng:

  • Bảng chéo chỉ mang tính mô tả, không xét đến phương sai, độ tin cậy hay ảnh hưởng của các biến gây nhiễu khác.

  • Relative Risk chỉ phù hợp trong nghiên cứu theo dõi (cohort study), khi có thể xác định rõ xác suất xảy ra sự kiện ở từng nhóm. Với dữ liệu lấy mẫu theo tỷ lệ cố định (ví dụ: điều tra chéo), RR có thể gây hiểu lầm.

  • Khi sự kiện là hiếm (rare event), RR và Odds Ratio sẽ gần giống nhau, nhưng khi không hiếm, RR và OR có thể khác biệt đáng kể — cần cẩn trọng khi diễn giải.

  • Không kiểm soát được ảnh hưởng đồng thời của các biến khác (confounding), do đó cần phân tích hồi quy (ví dụ: hồi quy logistic) để có cái nhìn đầy đủ và chính xác hơn.

2.2 Đào sâu về Suy diễn trong Bảng Ngẫu nhiên 2x2 (60-75 phút)

2.2.1 Cấu trúc xác suất của bảng ngẫu nhiên (Giới thiệu ngắn gọn)

Bảng ngẫu nhiên (contingency table) là một công cụ mô tả dữ liệu định tính theo hai biến phân loại. Mỗi ô trong bảng là kết quả của một biến cố xác suất. Dưới góc độ lý thuyết xác suất, các bảng này có thể được sinh ra từ các phân phối xác suất như phân phối đa thức (Multinomial) hoặc phân phối Poisson độc lập. Điều này cho phép ta áp dụng các phương pháp thống kê để kiểm định và ước lượng mối liên hệ giữa các biến.

2.2.2 So sánh 2 tỷ lệ và các Thước đo Mối liên hệ

Hiệu hai tỷ lệ (Difference in Proportions)

Hiệu hai tỷ lệ đo lường sự khác biệt về xác suất xảy ra một sự kiện giữa hai nhóm. Trong ví dụ này, ta so sánh tỷ lệ sở hữu nhà giữa Nữ và Nam:

\[ \Delta p = P(\text{Homeowner} = Y \mid \text{Gender} = F) - P(\text{Homeowner} = Y \mid \text{Gender} = M) \]

  • Nếu hiệu hai tỷ lệ > 0: Nữ có tỷ lệ sở hữu nhà cao hơn Nam.

  • Nếu hiệu hai tỷ lệ < 0: Nữ có tỷ lệ sở hữu nhà thấp hơn Nam.

  • Nếu hiệu = 0: Không có sự khác biệt giữa hai nhóm.

Dưới đây là cách tính hiệu hai tỷ lệ và khoảng tin cậy trong R

# Tính tỷ lệ sở hữu nhà theo giới tính
p_F <- vd3["F", "Y"] / sum(vd3["F", ])
p_M <- vd3["M", "Y"] / sum(vd3["M", ])
diff_p <- p_F - p_M

# Hiển thị kết quả
diff_p
## [1] 0.01070605

Kết quả cho thấy tỷ lệ sở hữu nhà ở nhóm Nữ cao hơn nhóm Nam khoảng 1.07%. Khoảng cách này khá nhỏ, cho thấy tỷ lệ sở hữu nhà giữa Nữ và Nam là gần bằng nhau, chỉ khác biệt rất nhẹ.

# Tính khoảng tin cậy 95% cho hiệu hai tỷ lệ
prop.test(x = c(vd3["F", "Y"], vd3["M", "Y"]),
          n = c(sum(vd3["F", ]), sum(vd3["M", ])),
          correct = FALSE)
## 
##  2-sample test for equality of proportions without continuity correction
## 
## data:  c(vd3["F", "Y"], vd3["M", "Y"]) out of c(sum(vd3["F", ]), sum(vd3["M", ]))
## X-squared = 1.6788, df = 1, p-value = 0.1951
## alternative hypothesis: two.sided
## 95 percent confidence interval:
##  -0.005489482  0.026901581
## sample estimates:
##    prop 1    prop 2 
## 0.6058577 0.5951517

Giả thuyết:
- \(H_0\) : Tỷ lệ sở hữu nhà của Nam và Nữ là bằng nhau.
- \(H_a\) : Tỷ lệ sở hữu nhà của Nam và Nữ khác nhau.

Kết quả kiểm định hai tỷ lệ

Kiểm định sự khác biệt giữa tỷ lệ sở hữu nhà của Nữ và Nam được thực hiện bằng kiểm định chi bình phương (2-sample test for equality of proportions):

  • Giá trị thống kê \(X^2 = 1.6788\), bậc tự do = 1
  • Giá trị p-value = 0.1951
  • Khoảng tin cậy 95% cho hiệu hai tỷ lệ: \([-0.0055, 0.0269]\)
  • Tỷ lệ sở hữu nhà:
    • Nữ (prop 1): 60.59%
    • Nam (prop 2): 59.52%

Diễn giải:

  • Với p-value = 0.1951 > 0.05, chúng ta không đủ bằng chứng để bác bỏ giả thuyết \(H_0\) ở mức ý nghĩa 5%.

  • Điều này có nghĩa là, dựa trên dữ liệu hiện tại, tỷ lệ sở hữu nhà giữa Nữ và Nam không khác biệt có ý nghĩa thống kê.

  • Khoảng tin cậy 95% của hiệu tỷ lệ chứa giá trị 0, cho thấy sự khác biệt quan sát được có thể do ngẫu nhiên và không chắc chắn khác 0.

  • Mặc dù tỷ lệ sở hữu nhà của Nữ (60.59%) cao hơn Nam (59.52%) khoảng 1.07%, nhưng sự khác biệt này không đủ lớn và không đáng kể về mặt thống kê.

Tỷ số Nguy cơ (Relative Risk - RR)

Định nghĩa và cách tính

Tỷ số nguy cơ (Relative Risk - RR) là tỉ lệ xác suất xảy ra một kết quả (sự kiện) ở nhóm đối tượng 1 so với nhóm đối tượng 2.

Công thức tính RR dựa trên bảng 2x2 như sau:

\[ RR = \frac{P(\text{sự kiện} \mid \text{nhóm 1})}{P(\text{sự kiện} \mid \text{nhóm 2})} \]

Trong đó,
- \(P(\text{sự kiện} \mid \text{nhóm})\) là tỷ lệ phần trăm (hoặc xác suất) xảy ra sự kiện trong nhóm đó.

Ví dụ

Giả sử ta có bảng ngẫu nhiên với biến giới tính (Gender) và sở hữu nhà (Homeowner), RR được tính là:

\[ RR = \frac{P(\text{Sở hữu nhà} \mid \text{Nữ})}{P(\text{Sở hữu nhà} \mid \text{Nam})} = \frac{\text{Số Nữ sở hữu nhà} / \text{Tổng số Nữ}}{\text{Số Nam sở hữu nhà} / \text{Tổng số Nam}} \]

Diễn giải

  • Nếu \(RR = 1\), nghĩa là xác suất sở hữu nhà ở Nữ và Nam bằng nhau.
  • Nếu \(RR > 1\), xác suất sở hữu nhà ở nhóm Nữ cao hơn nhóm Nam, tức “Nguy cơ” sở hữu nhà tăng lên so với nhóm Nam.
  • Nếu \(RR < 1\), xác suất sở hữu nhà ở nhóm Nữ thấp hơn nhóm Nam, tức “Nguy cơ” sở hữu nhà giảm so với nhóm Nam.

Lưu ý

  • RR thể hiện tỷ lệ trực tiếp giữa hai xác suất, nên thường dễ hiểu hơn khi làm việc với dữ liệu y học hoặc kinh tế.

  • Tuy nhiên, RR chỉ có thể áp dụng khi xác suất (tỷ lệ) của kết quả có ý nghĩa rõ ràng (ví dụ: sự kiện xảy ra hay không) và các nhóm so sánh là độc lập.

  • RR khác với Odds Ratio (tỷ số chênh), cả hai đều đo lường mức độ liên quan nhưng có cách diễn giải và ứng dụng khác nhau.

Tỷ số Chênh (Odds Ratio - OR)

Định nghĩa Odds

Odds là tỷ lệ giữa xác suất xảy ra sự kiện và xác suất không xảy ra sự kiện:

\[ \text{Odds} = \frac{p}{1-p} \]

với \(p\) là xác suất của sự kiện.

Định nghĩa Odds Ratio

Odds Ratio (OR) là tỷ số giữa odds của kết quả ở nhóm 1 và odds của kết quả ở nhóm 2:

\[ OR = \frac{\text{Odds nhóm 1}}{\text{Odds nhóm 2}} = \frac{\frac{p_1}{1-p_1}}{\frac{p_2}{1-p_2}} \]

Cách tính OR từ bảng 2x2

Giả sử bảng 2x2 có dạng:

Kết quả Y Kết quả N
Nhóm 1 a b
Nhóm 2 c d

Công thức tính OR:

\[ OR = \frac{a \times d}{b \times c} \]

Diễn giải OR

  • Nếu \(OR = 1\), odds của kết quả ở hai nhóm bằng nhau.

  • Nếu \(OR > 1\), odds của kết quả ở nhóm 1 cao hơn nhóm 2. Ví dụ \(OR = 2\) nghĩa là odds của kết quả ở nhóm 1 gấp đôi nhóm 2.

  • Nếu \(OR < 1\), odds của kết quả ở nhóm 1 thấp hơn nhóm 2.

Lưu ý: OR không phải là tỷ lệ xác suất (risk), nên diễn giải cần cẩn thận, không giống như Relative Risk (RR). Ví dụ, \(OR = 2\) không đồng nghĩa xác suất ở nhóm 1 gấp 2 lần nhóm 2.

Khi nào OR xấp xỉ RR?

OR xấp xỉ RR khi sự kiện xảy ra là hiếm (xác suất nhỏ). Khi đó, odds gần bằng xác suất.

Tại sao OR quan trọng?

  • OR có tính đối xứng, nghĩa là:

\[ OR(\text{nhóm 1 so với nhóm 2}) = \frac{1}{OR(\text{nhóm 2 so với nhóm 1})} \]

  • OR được sử dụng rộng rãi trong các mô hình hồi quy logistic, đặc biệt khi biến kết quả là nhị phân.

Ví dụ với dữ liệu siêu thị: Tính OR cho việc sở hữu nhà giữa Nữ và Nam

Giả sử ma trận dữ liệu:

# Tính Odds Ratio
OR <- (vd3["F","N"] * vd3["M","Y"]) / (vd3["F","Y"] * vd3["M","N"])
OR
## [1] 0.9563518

2.2.3 Khoảng tin cậy cho Odds Ratio

Giới thiệu cách tính

Khoảng tin cậy (KTC) cho OR thường được tính dựa trên biến đổi logarit của OR vì log(OR) có phân phối xấp xỉ chuẩn, giúp tính toán dễ dàng hơn.

Công thức tính KTC 95% cho \(\log(OR)\):

\[ \log(OR) \pm z_{0.975} \times SE_{\log(OR)} \]

Sau đó lấy mũ của khoảng trên để được KTC cho OR:

\[ \left( e^{\log(OR) - z_{0.975} SE}, \quad e^{\log(OR) + z_{0.975} SE} \right) \]

Trong đó:
- \(SE_{\log(OR)} = \sqrt{\frac{1}{a} + \frac{1}{b} + \frac{1}{c} + \frac{1}{d}}\), với \(a,b,c,d\) là các ô trong bảng 2x2.
- \(z_{0.975} \approx 1.96\) là giá trị tới hạn của phân phối chuẩn cho mức ý nghĩa 5%.

Tính khoảng tin cậy cho OR trong R

library(DescTools)

# Tính Odds Ratio cùng khoảng tin cậy 95%
result <- OddsRatio(vd3, conf.level = 0.95)
print(result)
## odds ratio     lwr.ci     upr.ci 
##  0.9563518  0.8939173  1.0231469

Diễn giải khoảng tin cậy:

Nếu khoảng tin cậy chứa giá trị 1, điều đó có nghĩa là không có sự khác biệt rõ rệt về odds giữa hai nhóm với mức ý nghĩa 5%.

Nếu toàn bộ khoảng tin cậy lớn hơn 1, odds ở nhóm 1 cao hơn nhóm 2 một cách có ý nghĩa.

Nếu toàn bộ khoảng tin cậy nhỏ hơn 1, odds ở nhóm 1 thấp hơn nhóm 2 một cách có ý nghĩa.

2.3 Thực hành trên R (45-60 phút)

Chọn một cặp biến nhị phân khác từ bộ dữ liệu Supermarket Transactions là MaritalStatus và Homeowner và xem xét mối liên hệ giữa MaritalStatus và Homeowner.

vd1 <- table(data$MaritalStatus, data$Homeowner)
vd1
##    
##        N    Y
##   M 1719 5147
##   S 3896 3297
# Tổng từng nhóm
total_M <- sum(vd1["M", ])
total_S <- sum(vd1["S", ])


# Tỷ lệ sở hữu nhà (Y) theo nhóm
p_M <- vd1["M", "Y"] / total_M
p_S <- vd1["S", "Y"] / total_S

# Hiệu hai tỷ lệ
diff_prop <- p_S - p_M
diff_prop
## [1] -0.2912736

Hiệu hai tỷ lệ (Difference in Proportions) = -0.2913. Nghĩa là tỷ lệ sở hữu nhà của nhóm S thấp hơn nhóm M khoảng 29.13%. Đây là sự chênh lệch khá lớn và âm cho thấy nhóm S có tỷ lệ sở hữu nhà thấp hơn.

# Relative Risk (RR)
RR <- p_S / p_M
RR
## [1] 0.6114466

Tỷ số nguy cơ (Relative Risk, RR) = 0.6114, RR < 1 có nghĩa là khả năng sở hữu nhà của nhóm S chỉ bằng khoảng 61% so với nhóm M, hay nói cách khác, nhóm S có nguy cơ thấp hơn để sở hữu nhà

# Odds Ratio (OR)
OR <- (vd1["S","Y"] * vd1["M","N"]) / (vd1["S","N"] * vd1["M","Y"])
OR
## [1] 0.2826322

Tỷ số chênh (Odds Ratio, OR) = 0.2826, OR < 1 cho thấy odds sở hữu nhà ở nhóm S chỉ bằng khoảng 28% odds của nhóm M. Giá trị này nhỏ hơn RR vì OR thường “kéo” xa hơn về 0 hoặc vô cùng khi sự kiện không phổ biến hoặc tỷ lệ khác biệt lớn.

# Khoảng tin cậy 95% cho OR
SE_log_OR <- sqrt(1/vd1["S","Y"] + 1/vd1["S","N"] + 1/vd1["M","Y"] + 1/vd1["M","N"])
z <- 1.96
log_OR <- log(OR)
lower_CI <- exp(log_OR - z * SE_log_OR)
upper_CI <- exp(log_OR + z * SE_log_OR)
print(c(lower_CI, upper_CI))
## [1] 0.2630926 0.3036231

Khoảng tin cậy 95% cho OR: (0.2631, 0.3036). Khoảng này không chứa 1, nên sự khác biệt odds là có ý nghĩa thống kê rất rõ ràng.