A. Đọc và Chuẩn bị trước buổi học:

1. Ôn lại kiến thức Tuần 2:

library(DescTools)
library(epitools)
d<- read.csv("D:/PTDLDT CT2/Supermarket Transactions.csv")
bdt <- c("Gender", "MaritalStatus", "Homeowner", "AnnualIncome", "City", "StateorProvince", "Country", "ProductFamily", "ProductDepartment", "ProductCategory")
dt <- d[, bdt]
sapply(dt,class)
##            Gender     MaritalStatus         Homeowner      AnnualIncome 
##       "character"       "character"       "character"       "character" 
##              City   StateorProvince           Country     ProductFamily 
##       "character"       "character"       "character"       "character" 
## ProductDepartment   ProductCategory 
##       "character"       "character"
dt <- as.data.frame(lapply(dt, as.factor))

Xem lại các bảng tần số chéo đã tạo.

tmp1 <- table(dt$Gender, dt$MaritalStatus)
tmp1
##    
##        M    S
##   F 3602 3568
##   M 3264 3625

Nhận xét:

  • Cả nam và nữ đều có số lượng người độc thân và đã kết hôn gần tương đương nhau, không có chênh lệch quá lớn.

  • Tổng số người độc thân (7193) cao hơn tổng số người đã kết hôn (6866) → Tình trạng độc thân chiếm ưu thế nhẹ trong dữ liệu.

  • Nữ giới: Số người đã kết hôn cao hơn số người độc thân.

  • Nam giới: Số người độc thân cao hơn số người đã kết hôn.

Ý nghĩa của kiểm định Chi-bình phương về tính độc lập.

  • Mục đích: Kiểm định Chi-bình phương về tính độc lập được sử dụng để xác định xem hai biến phân loại (categorical variables) có mối liên hệ (phụ thuộc) với nhau hay hoàn toàn độc lập trong một tổng thể.

  • Giả thuyết kiểm định:

\(H_0\): Gender và MaritalStatus độc lập.

\(H_1\): Gender và MaritalStatus có mối liên hệ với nhau.

chisq.test(tmp1)
## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  tmp1
## X-squared = 11.365, df = 1, p-value = 0.0007485

Vì p-value = 0.0007485 < 0.05. Bác bỏ \(H_0\). Vậy Gender và MaritalStatus có mối liên hệ với nhau.

Cách tính và diễn giải Relative Risk.

  • Relative Risk (RR) – Nguy cơ tương đối – là một chỉ số thống kê dùng để so sánh xác suất xảy ra sự kiện ở 2 nhóm (thường là nhóm “phơi nhiễm” và nhóm “không phơi nhiễm”).

\[ RR = \frac{\text{Tỷ lệ nguy cơ ở nhóm phơi nhiễm}}{\text{Tỷ lệ nguy cơ ở nhóm không phơi nhiễm}} \]

tmp1 <- matrix(c(3602, 3568, 3264, 3625), nrow = 2, byrow = TRUE)
colnames(tmp1) <- c("M", "S")
rownames(tmp1) <- c("F", "M")
riskratio(tmp1)
## $data
##          M    S Total
## F     3602 3568  7170
## M     3264 3625  6889
## Total 6866 7193 14059
## 
## $measure
##                         NA
## risk ratio with 95% C.I. estimate    lower    upper
##                        F 1.000000       NA       NA
##                        M 1.057417 1.023813 1.092123
## 
## $p.value
##          NA
## two-sided   midp.exact fisher.exact   chi.square
##         F           NA           NA           NA
##         M 0.0007045092 0.0007373895 0.0007038837
## 
## $correction
## [1] FALSE
## 
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"
  • Giá trị RR của nhóm F (nữ) được chuẩn hóa là 1 (nhóm đối chứng).

  • RR của nhóm M (nam) = 1.0574, nghĩa là nguy cơ đã kết hôn của nam cao hơn nữ khoảng 5.74%.

  • Khoảng tin cậy 95% cho RR của nam: từ 1.0238 đến 1.0921 → không chứa 1, tức sự khác biệt có ý nghĩa.

  • p-value cho nhóm nam rất nhỏ (~0.0007) với các phương pháp kiểm định khác nhau, đều < 0.05.

  • Nghĩa là sự khác biệt nguy cơ giữa nam và nữ là có ý nghĩa thống kê.

2. Tìm hiểu về các nội dung sau của Chương 2:

2.1. Cấu trúc xác suất của bảng ngẫu nhiên:

Phân phối Poisson

  • Mô hình Poisson giả định các ô trong bảng là các biến ngẫu nhiên độc lập, mỗi ô có số đếm theo phân phối Poisson với tham số riêng.

  • Một bảng tần số chéo gồm \(r\) hàng và \(c\) cột, với số đếm ở ô \((i,j)\)\(X_{ij}\).

  • Mỗi \(X_{ij} \sim \text{Poisson}(\lambda_{ij})\) độc lập với các ô khác.

  • Tổng số đếm trong bảng không cố định trước.

  • Thường dùng để mô hình hóa dữ liệu đếm khi tổng số quan sát không cố định (ví dụ dữ liệu thu thập trong một khoảng thời gian).

  • Tham số \(\lambda_{ij}\) có thể mô hình hóa theo mô hình log-linear:

\[ \log(\lambda_{ij}) = \mu + \alpha_i + \beta_j + \gamma_{ij} \]

Trong đó, \(\mu\) là intercept, \(\alpha_i\) là hiệu ứng hàng, \(\beta_j\) là hiệu ứng cột, và \(\gamma_{ij}\) là hiệu ứng tương tác.

Phân phối Multinomial

  • Khi tổng số quan sát \(n = \sum_{i,j} X_{ij}\) được cố định trước (ví dụ lấy mẫu gồm \(n\) cá thể), số đếm trong các ô phân phối theo phân phối Multinomial.

  • Giả sử \(n\) quan sát được phân bố vào \(r \times c\) ô với xác suất \(\pi_{ij}\), thỏa mãn \(\sum_{i,j} \pi_{ij} = 1\).

  • Bảng tần số \(\{X_{ij}\}\) có phân phối:

\[ P(X_{11} = x_{11}, \ldots, X_{rc} = x_{rc}) = \frac{n!}{\prod_{i,j} x_{ij}!} \prod_{i,j} \pi_{ij}^{x_{ij}} \]

  • Đây là mô hình phổ biến cho dữ liệu bảng khi tổng số mẫu được biết và cố định.

  • Trong mô hình này, số đếm ở các ô không độc lập mà có ràng buộc tổng cố định.

2.2. So sánh 2 tỷ lệ trong bảng ngẫu nhiên 2x2:

  • Một bảng 2×2 thường được dùng để so sánh một kết cục giữa hai nhóm (thường là nhóm phơi nhiễm và nhóm không phơi nhiễm):
Kết cục (+) Kết cục (−) Tổng
Nhóm 1 (Phơi nhiễm) \(a\) \(b\) \(a + b\)
Nhóm 2 (Không phơi nhiễm) \(c\) \(d\) \(c + d\)
Tổng cộng \(a + c\) \(b + d\) \(a + b + c + d\)

Hiệu hai tỷ lệ

Công thức:

\[ \Delta p = p_1 - p_2 = \frac{a}{a + b} - \frac{c}{c + d} \]

  • \(p_1\): tỷ lệ xảy ra kết cục trong nhóm phơi nhiễm

  • \(p_2\): tỷ lệ xảy ra kết cục trong nhóm không phơi nhiễm

Ý nghĩa:

  • Hiệu hai tỷ lệ đo sự khác biệt tuyệt đối về nguy cơ giữa hai nhóm.

  • Nếu \(\Delta p = 0\): hai nhóm có nguy cơ như nhau.

  • Nếu \(\Delta p > 0\): nhóm phơi nhiễm có nguy cơ cao hơn.

  • Được dùng nhiều trong nghiên cứu dịch tễ mô tả hoặc thử nghiệm lâm sàng.

Tỷ số nguy cơ

Công thức:

\[ RR = \frac{p_1}{p_2} = \frac{\frac{a}{a + b}}{\frac{c}{c + d}} \]

Ý nghĩa:

  • So sánh tương đối nguy cơ xảy ra kết cục giữa hai nhóm.

  • Nếu:

    • RR=1: không có sự khác biệt.

    • RR>1: nhóm phơi nhiễm có nguy cơ cao hơn.

    • RR<1: nhóm phơi nhiễm có nguy cơ thấp hơn → có thể có tác dụng bảo vệ.

Áp dụng:

  • Phù hợp trong nghiên cứu đoàn hệ (cohort study) hoặc thử nghiệm lâm sàng, khi biết rõ tỷ lệ xảy ra kết cục trong từng nhóm.

Tỷ số chênh

Công thức:

\[ OR = \frac{\frac{a}{b}}{\frac{c}{d}} = \frac{a \times d}{b \times c} \]

  • So sánh odds (tỷ lệ chênh) của kết cục giữa hai nhóm.

  • Odds là tỉ lệ giữa số xảy ra và số không xảy ra:

    • Nhóm 1: \(\frac{a}{b}\)

    • Nhóm 2: \(\frac{c}{d}\)

Ý nghĩa:

  • OR=1: không có sự khác biệt.

  • OR>1: odds xảy ra kết cục cao hơn ở nhóm phơi nhiễm.

  • OR<1: odds thấp hơn → có thể là yếu tố bảo vệ.

Áp dụng:

  • Thường dùng trong nghiên cứu bệnh-chứng (case-control), khi không thể tính tỷ lệ thực.

2.3. Khoảng tin cậy cho các tham số đo mối liên hệ:

Ý nghĩa khoảng tin cậy

  • Khoảng tin cậy (Confidence Interval - CI) thể hiện khoảng giá trị mà tham số thực (ví dụ Odds Ratio) có thể nằm trong đó với mức độ tin cậy xác định (thường là 95%).

  • Ví dụ: Khoảng tin cậy 95% cho Odds Ratio (OR) là \([L, U]\) nghĩa là, nếu lặp lại mẫu nhiều lần, khoảng này sẽ chứa giá trị OR thật khoảng 95% các lần.

Công thức tính khoảng tin cậy cho Odds Ratio

Giả sử bảng 2×2 với các ô:

Kết cục (+) Kết cục (−) Tổng
Nhóm 1 (Phơi nhiễm) \(a\) \(b\) \(a + b\)
Nhóm 2 (Không phơi nhiễm) \(c\) \(d\) \(c + d\)
  • Odds Ratio được tính là:

\[ OR = \frac{b \times c}{a \times d} \]

  • Logarit của OR:

\[ \ln(OR) = \ln(a) + \ln(d) - \ln(b) - \ln(c) \]

  • Độ lệch chuẩn (Standard Error - SE) của \(\ln(OR)\) được tính theo công thức:

\[ SE(\ln(OR)) = \sqrt{\frac{1}{a} + \frac{1}{b} + \frac{1}{c} + \frac{1}{d}} \]

  • Khoảng tin cậy 95% cho \(\ln(OR)\) được tính theo công thức:

\[ \ln(OR) \pm Z_{\alpha/2} \times SE(\ln(OR)) \]

với \(Z_{\alpha/2} = 1.96\) cho mức ý nghĩa \(\alpha = 0.05\).

  • Khoảng tin cậy cho OR được lấy bằng cách lấy mũ (exponentiate) khoảng trên:

\[ CI_{95\%}(OR) = \left[ \exp\left(\ln(OR) - 1.96 \times SE(\ln(OR))\right), \quad \exp\left(\ln(OR) + 1.96 \times SE(\ln(OR))\right) \right] \]

Diễn giải khoảng tin cậy cho Odds Ratio

  • Nếu khoảng tin cậy chứa giá trị 1, nghĩa là không có sự khác biệt ý nghĩa thống kê giữa hai nhóm về odds xảy ra kết cục.

  • Nếu khoảng tin cậy hoàn toàn lớn hơn 1, OR có ý nghĩa thống kê và nhóm phơi nhiễm có odds cao hơn.

  • Nếu khoảng tin cậy hoàn toàn nhỏ hơn 1, OR có ý nghĩa thống kê và nhóm phơi nhiễm có odds thấp hơn (có tác dụng bảo vệ).

Ví dụ: Mối liên hệ giữa khuyến mãi và hành vi mua hàng

  • Một công ty muốn biết liệu việc gửi phiếu khuyến mãi (promotion) có làm tăng khả năng khách hàng mua sản phẩm hay không. Họ khảo sát 200 khách hàng, chia thành hai nhóm:
Mua hàng (Yes) Không mua (No) Tổng
Đã nhận khuyến mãi 80 20 100
Không nhận khuyến mãi 50 50 100
  • Tính Odds Ratio (OR):

    • Odds mua hàng ở nhóm nhận khuyến mãi:

    \[ \text{Odds}_1 = \frac{80}{20} = 4 \]

    • Odds mua hàng ở nhóm không nhận khuyến mãi:

\[ \text{Odds}_2 = \frac{50}{50} = 1 \]

  • Odds Ratio:

\[ OR = \frac{\text{Odds}_1}{\text{Odds}_2} = \frac{4}{1} = 4 \]

Nhận xét:

  • Khách hàng nhận được phiếu khuyến mãi có odds mua hàng gấp 4 lần so với khách hàng không nhận khuyến mãi.

  • Điều này cho thấy chương trình khuyến mãi có tác động tích cực đáng kể đến việc thúc đẩy khách hàng mua sản phẩm.

3. Suy nghĩ về bộ dữ liệu “Supermarket Transactions”:

  • Trong nghiên cứu này, chúng ta xem xét mối quan hệ giữa giới tính (Gender: Nữ - F và Nam - M) và tình trạng hôn nhân (MaritalStatus: Đã kết hôn - M và Độc thân - S) dựa trên dữ liệu thu thập được. Mục tiêu là trả lời câu hỏi: “Liệu việc là Nữ (so với Nam) có làm tăng hay giảm odds (tỷ số chênh) của việc đã kết hôn hay không?”

  • Bảng dữ liệu:

Gender  MaritalStatus Đã kết hôn (M) Độc thân (S) Tổng
Nữ (F) 3602 3568 7170
Nam (M) 3264 3625 6889
  • Tính toán Odds và Odds Ratio (OR)

    • Odds đã kết hôn ở nhóm Nữ:

    \[ \text{Odds}_F = \frac{3568}{3602} \approx 1.01 \]

    • Odds đã kết hôn ở nhóm Nam:

    \[ \text{Odds}_M = \frac{3625}{3264} \approx 0.90 \]

    • Odds Ratio (OR):

    \[ OR = \frac{\text{Odds}_M}{\text{Odds}_F} = \frac{0.90}{1.01} \approx 0.89 \]

Nhận xét:

  • Giá trị Odds Ratio (OR) khoảng 1.12 cho thấy việc là nữ làm tăng odds đã kết hôn khoảng 12% so với nam.

  • Nói cách khác, nữ giới có khả năng đã kết hôn cao hơn nam giới khi so sánh tỷ số chênh odds.

  • Kết quả này góp phần cho thấy giới tính có ảnh hưởng nhất định đến tình trạng hôn nhân trong mẫu dữ liệu này.

B. Hoạt động trên lớp:

1. Ôn tập và Thảo luận về Phân tích Chéo & RR

Nhận định ban đầu từ bảng chéo và Relative Risk (RR)

  • Bảng chéo giúp chúng ta trực quan hóa sự phân bố giữa hai biến, nhận biết xem có sự khác biệt về tần số giữa các nhóm hay không.

  • Relative Risk (RR) đo lường tỷ lệ nguy cơ xảy ra sự kiện ở nhóm phơi nhiễm so với nhóm không phơi nhiễm.

  • Từ RR, ta có thể nhận định mối quan hệ có chiều hướng tăng, giảm hay không có ảnh hưởng.

  • Ví dụ, nếu RR > 1, biến phơi nhiễm làm tăng nguy cơ; RR < 1 có thể có tác dụng bảo vệ.

  • Hạn chế: RR chỉ áp dụng được trong nghiên cứu đoàn hệ hoặc thử nghiệm lâm sàng, nơi có thể tính được tỷ lệ thực tế của sự kiện.

Hạn chế của các thước đo RR và bảng chéo

  • RR không áp dụng tốt cho nghiên cứu bệnh-chứng (case-control) vì không có thông tin về tỷ lệ sự kiện thực tế trong nhóm.

  • Bảng chéo đơn giản chưa xét được các yếu tố nhiễu, không kiểm soát được ảnh hưởng của các biến khác.

  • RR không phản ánh odds, nên trong một số trường hợp (đặc biệt khi sự kiện hiếm) RR và OR khá khác nhau.

  • Việc sử dụng bảng chéo mà không kiểm định thống kê (ví dụ kiểm định Chi-square) có thể dẫn đến kết luận sai lệch do không xác định được ý nghĩa thống kê.

Thảo luận về “odds” và Odds Ratio (OR)

  • Odds là tỷ lệ giữa khả năng xảy ra và không xảy ra sự kiện.

  • OR đo lường tỷ số chênh odds giữa hai nhóm, dùng phổ biến trong nghiên cứu bệnh-chứng hoặc khi mô hình hóa hồi quy logistic.

  • OR có ưu điểm là có thể tính trong mọi thiết kế nghiên cứu, kể cả case-control.

  • Tuy nhiên, OR có thể khó diễn giải trực tiếp, đặc biệt khi tỷ lệ sự kiện không nhỏ (khi đó OR có thể phóng đại mức độ liên hệ so với RR).

  • Việc hiểu đúng “odds” giúp tránh nhầm lẫn khi báo cáo và diễn giải kết quả nghiên cứu.

2. Đào sâu về Suy diễn trong Bảng Ngẫu nhiên 2x2

2.1. Cấu trúc xác suất của bảng ngẫu nhiên

  • Khi ta xây dựng và phân tích các bảng chéo (ví dụ bảng 2x2), mỗi ô trong bảng thể hiện số lượng quan sát thuộc một nhóm cụ thể. Tuy nhiên, những con số này không phải là những giá trị cố định mà có thể coi là kết quả của một quá trình ngẫu nhiên dưới một số giả định.

  • Cơ sở lý thuyết xác suất:

    • Bảng ngẫu nhiên được hiểu là một bảng số liệu mà các ô được hình thành dựa trên xác suất phân bố dữ liệu trong từng nhóm.

    • Các mô hình phân phối phổ biến dùng để mô phỏng và suy diễn từ bảng chéo gồm:

      • Phân phối Poisson: thường dùng khi ta đếm số sự kiện xảy ra ngẫu nhiên, độc lập trong một khoảng không gian hoặc thời gian cố định.

      • Phân phối Đa thức (Multinomial): mô hình tổng quát hơn, áp dụng khi tổng số quan sát là cố định và các quan sát được phân bổ ngẫu nhiên vào các ô khác nhau với xác suất cụ thể.

  • Ý nghĩa cho phân tích: Nhờ hiểu được bảng dữ liệu như là kết quả của một biến ngẫu nhiên theo các phân phối này, ta có thể:

    • Đánh giá được mức độ ngẫu nhiên hay có hệ thống trong sự phân bố giữa các biến.

    • Áp dụng các phép kiểm định thống kê (ví dụ: kiểm định Chi-square) để kiểm tra tính độc lập hay phụ thuộc giữa các biến.

    • Đưa ra các kết luận suy diễn có cơ sở xác suất, thay vì chỉ dựa vào quan sát đơn thuần.

2.2. So sánh 2 tỷ lệ và các Thước đo Mối liên hệ

Hiệu hai tỷ lệ (Difference in Proportions):

  • Cách tính: Giả sử ta có hai nhóm A và B, với:

    • \(p_A\) là tỷ lệ sự kiện trong nhóm A.

    • \(p_B\) là tỷ lệ sự kiện trong nhóm B.

Hiệu hai tỷ lệ được tính đơn giản là:

\[ d = p_A - p_B \]

  • Ý nghĩa:

    • d>0: Tỷ lệ ở nhóm A lớn hơn nhóm B.

    • d<0: Tỷ lệ ở nhóm A nhỏ hơn nhóm B.

    • d=0: Không có sự khác biệt về tỷ lệ giữa hai nhóm.

Hiệu này giúp biết được mức độ chênh lệch tuyệt đối giữa hai tỷ lệ.

  • Khoảng tin cậy cho hiệu hai tỷ lệ:

Khoảng tin cậy (Confidence Interval - CI) cho d thường được tính dựa trên phân phối chuẩn:

\[ CI = d \pm Z_{\alpha/2} \times SE(d) \]

Trong đó:

+) \(SE(d) = \sqrt{\frac{p_A (1 - p_A)}{n_A} + \frac{p_B (1 - p_B)}{n_B}}\) là sai số chuẩn của hiệu tỷ lệ, với \(n_A, n_B\) là kích thước mẫu của hai nhóm.

+) \(Z_{\alpha/2}\) là giá trị tới hạn của phân phối chuẩn ứng với mức ý nghĩa (ví dụ 1.96 với khoảng tin cậy 95%).

  • Ví dụ minh hoạ: So sánh tỷ lệ “đã kết hôn” giữa Nam và Nữ

    • Bảng tần số chéo:
    Gender  MaritalStatus Đã kết hôn (M) Độc thân (S) Tổng
    Nữ (F) 3602 3568 7170
    Nam (M) 3264 3625 6889
    • Tính tỷ lệ đã kết hôn trong từng nhóm giới tính:

    \[ p_F = \frac{3602}{7170} \approx 0.502 \]

    \[ p_M = \frac{3264}{6889} \approx 0.474 \]

    • Hiệu hai tỷ lệ:

    \[ d = p_F - p_M = 0.502 - 0.474 = 0.028 \]

-> Tỷ lệ đã kết hôn ở nhóm nữ cao hơn nhóm nam khoảng 2.8%.

  • Tính sai số chuẩn và khoảng tin cậy 95% cho hiệu tỷ lệ:

    • Sai số chuẩn của hiệu hai tỷ lệ:

    \[ SE = \sqrt{\frac{p_F(1 - p_F)}{n_F} + \frac{p_M(1 - p_M)}{n_M}} = \sqrt{\frac{0.502 \times 0.498}{7170} + \frac{0.474 \times 0.526}{6889}} \approx 0.008 \]

    • Khoảng tin cậy 95% (với \(Z_{0.025} = 1.96\)):

\[ CI = d \pm 1.96 \times SE = 0.028 \pm 1.96 \times 0.008 = (0.012, 0.044) \]

  • Kết luận:

    • Khoảng tin cậy không chứa giá trị 0, nên hiệu tỷ lệ này có ý nghĩa thống kê.

    • Như vậy, nữ có tỷ lệ “đã kết hôn” (hoặc sở hữu nhà) cao hơn nam khoảng 2.8%, và sự khác biệt này là đáng kể về mặt thống kê.

Tỷ số Nguy cơ (Relative Risk - RR):

  • Định nghĩa: Tỷ số Nguy cơ (Relative Risk - RR) đo lường mức độ rủi ro (hoặc khả năng xảy ra một sự kiện) ở nhóm phơi nhiễm so với nhóm không phơi nhiễm.

  • Cách tính RR trong bảng 2x2: Giả sử bảng 2x2 mô tả sự kiện (Ví dụ: sở hữu nhà) theo nhóm phơi nhiễm (ví dụ: Nữ vs Nam):

Sự kiện (Y) Không sự kiện (N) Tổng
Nhóm phơi nhiễm a b a + b
Nhóm không phơi nhiễm c d c + d
  • Tỷ lệ nguy cơ (risk) ở từng nhóm:

\[ \text{Risk}_{\text{exposed}} = \frac{a}{a + b} \]

\[ \text{Risk}_{\text{unexposed}} = \frac{c}{c + d} \]

  • Tỷ số nguy cơ (RR) được tính:

\[ RR = \frac{\frac{a}{a+b}}{\frac{c}{c+d}} \]

  • Diễn giải RR:

    • RR = 1: Rủi ro giống nhau ở cả hai nhóm, không có sự khác biệt.

    • RR > 1: Nhóm phơi nhiễm có nguy cơ xảy ra sự kiện cao hơn nhóm không phơi nhiễm (tăng nguy cơ).

    • RR < 1: Nhóm phơi nhiễm có nguy cơ thấp hơn nhóm không phơi nhiễm (giảm nguy cơ).

  • Ví dụ: Giả sử lấy:

    • Nhóm phơi nhiễm: Nữ (Gender = F)

    • Nhóm không phơi nhiễm: Nam (Gender = M)

    • Sự kiện: Đã kết hôn (MaritalStatus = M)

Từ bảng:

Gender M S Tổng
F 3602 3568 7170
M 3264 3625 6889

Tính:

\[ RR = \frac{\frac{3264}{6889}}{\frac{3602}{7170}} \approx \frac{0.474}{0.502} = 0.944 \]

Nữ có khả năng đã kết hôn cao hơn Nam khoảng 5.9%.

Tỷ số Chênh (Odds Ratio - OR):

  • Định nghĩa Odds: Odds là tỷ lệ giữa xác suất có sự kiện và xác suất không có sự kiện:

\[ \text{Odds} = \frac{p}{1 - p} \]

trong đó p là xác suất xảy ra sự kiện.

  • Định nghĩa Odds Ratio (OR): OR là tỷ số của hai Odds trong hai nhóm:

\[ OR = \frac{\text{Odds nhóm 2}}{\text{Odds nhóm 1}} = \frac{\frac{p_2}{1-p_2}}{\frac{p_1}{1-p_1}} = \frac{p_2/(1-p_2)}{p_1/(1-p_1)} \]

  • Cách tính OR từ bảng 2x2: Với bảng:
Sự kiện (Y) Không sự kiện (N)
Nhóm 1 (F) a b
Nhóm 2 (M) c d

Công thức tính OR:

\[ OR = \frac{a \times d}{b \times c} \]

  • Diễn giải OR:

    • OR=1: Odds của sự kiện ở 2 nhóm bằng nhau, không khác biệt.

    • OR>1: Odds của sự kiện ở nhóm 1 cao hơn nhóm 2 (ví dụ OR=2 nghĩa là odds ở nhóm 1 gấp 2 lần nhóm 2).

    • OR<1: Odds của sự kiện ở nhóm 1 thấp hơn nhóm 2.

Lưu ý: Khác với RR, OR diễn giải odds chứ không phải tỷ lệ trực tiếp. Vì vậy, OR thường lớn hơn RR nếu sự kiện không hiếm.

  • Khi nào OR xấp xỉ RR?

OR gần bằng RR khi sự kiện xảy ra là hiếm (p rất nhỏ), ví dụ <10%. Lúc này, odds và xác suất gần nhau.

  • Tại sao OR quan trọng?

    • OR có tính đối xứng: đổi vị trí nhóm sẽ lấy nghịch đảo OR.

    • OR là thước đo được dùng phổ biến trong logistic regression, giúp mô hình hóa mối liên hệ giữa biến độc lập và biến nhị phân.

  • Ví dụ tính OR:

tmp1
##      M    S
## F 3602 3568
## M 3264 3625

Theo công thức:

  • \(a = 3602\)
  • \(b = 3568\)
  • \(c = 3264\)
  • \(d = 3625\)

Tính OR:

\[ OR = \frac{3568 \times 3264}{3602 \times 3625} = \frac{11653792}{13049350} \approx 1.12 \]

Odds của việc đã kết hôn ở nữ cao hơn nam khoảng 12%.

2.3. Khoảng tin cậy cho Odds Ratio

  • Cách tính Khoảng Tin Cậy cho OR: Khoảng tin cậy cho Odds Ratio (OR) thường được tính dựa trên log(OR), bởi vì log(OR) có phân phối gần chuẩn hơn, giúp việc tính toán trở nên đơn giản và chính xác hơn.

  • Công thức tính KTC cho OR: Khoảng tin cậy cho OR có thể tính theo công thức sau:

\[ \log(OR) \pm Z_{\alpha/2} \times SE(\log(OR)) \]

Trong đó:

+) Trong đó, \(\log(OR)\) là logarit tự nhiên của OR.

+) Trong đó, \(Z_{\alpha/2}\) là giá trị tới hạn của phân phối chuẩn cho mức ý nghĩa \(\alpha\) (thường là 1.96 cho 95% CI).

+) Trong đó, \(SE(\log(OR))\) là sai số chuẩn của \(\log(OR)\), với \(a\), \(b\), \(c\), \(d\) là các giá trị trong bảng 2x2.

Sau khi tính được KTC của log(OR), ta lấy mũ tự nhiên (exp) của các giới hạn trên và dưới để có KTC cho OR.

  • Ý nghĩa Khoảng Tin Cậy:

    • Nếu KTC chứa 1: Điều này có nghĩa là mối liên hệ giữa hai nhóm không có sự khác biệt đáng kể về mặt thống kê. KTC chứa giá trị 1 cho thấy odds của sự kiện ở hai nhóm là gần như nhau.

    • Nếu KTC không chứa 1: Điều này có nghĩa là odds của sự kiện ở hai nhóm có sự khác biệt đáng kể, và mối quan hệ giữa các nhóm là significant (có ý nghĩa thống kê).

  • Ví dụ tính KTC 95% cho OR đã tính ở trên: Giả sử chúng ta đã tính \(OR\) cho dữ liệu của bạn và nhận được \(OR \approx 1.12\) từ bảng chéo trước đó.

tmp1
##      M    S
## F 3602 3568
## M 3264 3625
  • Bước 1: Tính log(OR)

\[ \log(OR) = \log(1.12) \approx 0.112 \]

  • Bước 2: Tính Sai số chuẩn của log(OR)

\[ SE(\log(OR)) = \sqrt{\frac{1}{3602} + \frac{1}{3568} + \frac{1}{3264} + \frac{1}{3625}} \approx 0.026 \]

  • Bước 3: Tính KTC cho log(OR)

\[ CI_{\log(OR)} = \log(OR) \pm 1.96 \times SE(\log(OR)) \]

\[ CI_{\log(OR)} = 0.112 \pm 1.96 \times 0.026 = (0.061, 0.163) \]

  • Bước 4: Chuyển từ log(OR) về OR: Tính mũ tự nhiên (exp) của các giới hạn:

\[ CI_{OR} = \left( e^{0.061}, e^{0.163} \right) = (1.063, 1.177) \]

  • Kết luận về KTC:

    • Khoảng tin cậy cho OR: \((1.063, 1.177)\).

    • KTC không chứa giá trị 1, điều này cho thấy có sự khác biệt có ý nghĩa thống kê giữa tỷ lệ sở hữu nhà ở nữ và nam. Tỷ lệ sở hữu nhà ở nữ cao hơn nam trong khoảng từ 6.3% đến 17.7%.

  • Tính KTC cho OR sử dụng R:

tmp1 <- matrix(c(3602, 3568, 3264, 3625), nrow = 2, byrow = TRUE)
result <- OddsRatio(tmp1)
result
## [1] 1.121184

3. Thực hành trên R

3.1. Chọn một cặp biến nhị phân (MaritalStatus và Homeowner)

  • Trong phân tích này, lựa chọn cặp biến nhị phân MaritalStatus (Tình trạng hôn nhân) và Homeowner (Chủ sở hữu nhà) nhằm khám phá mối liên hệ giữa tình trạng hôn nhân và khả năng sở hữu nhà của khách hàng trong bộ dữ liệu Supermarket Transactions.

  • MaritalStatus được phân loại thành hai nhóm:

    • M (Married): Đã kết hôn

    • S (Single): Độc thân

  • Homeowner là biến nhị phân thể hiện tình trạng sở hữu nhà:

    • Y (Yes): Có sở hữu nhà

    • N (No): Không sở hữu nhà

  • Việc lựa chọn cặp biến này nhằm mục đích kiểm tra xem liệu tình trạng hôn nhân có ảnh hưởng hoặc liên quan tới khả năng sở hữu nhà của khách hàng hay không.

3.2. Tạo bảng 2x2

tmp2 <- matrix(c(1719, 5147, 3896, 3297), nrow = 2, byrow = TRUE)
rownames(tmp2) <- c("Married", "Single")
colnames(tmp2) <- c("No_Home", "Yes_Home")
tmp2 <- as.table(tmp2)
tmp2
##         No_Home Yes_Home
## Married    1719     5147
## Single     3896     3297

Nhận xét:

  • Phân bố số lượng:

    • Nhóm đã kết hôn (M) gồm tổng 6866 người, trong đó phần lớn (5147) là chủ sở hữu nhà, chỉ có 1719 người không sở hữu nhà.

    • Nhóm độc thân (S) gồm 7193 người, trong đó số người không sở hữu nhà (3896) nhiều hơn số người sở hữu nhà (3297).

  • Tỷ lệ sở hữu nhà trong từng nhóm:

    • Trong nhóm đã kết hôn, tỷ lệ sở hữu nhà khá cao, chiếm khoảng 75% (5147/6866).
    • Ngược lại, trong nhóm độc thân, tỷ lệ sở hữu nhà thấp hơn nhiều, khoảng 46% (3297/7193).
  • Mối liên hệ ban đầu:

    • Có vẻ như những người đã kết hôn có xu hướng sở hữu nhà nhiều hơn so với người độc thân.

    • Người độc thân có khả năng không sở hữu nhà cao hơn, tương ứng với số lượng người không sở hữu nhà vượt số người sở hữu nhà.

3.3. Tỷ lệ sở hữu nhà theo nhóm

prop_married <- tmp2["Married", "Yes_Home"] / sum(tmp2["Married", ])
prop_married
## [1] 0.7496359

Tỷ lệ người đã kết hôn có nhà riêng: 0.7496 (~74.96%)

prop_single <- tmp2["Single", "Yes_Home"] / sum(tmp2["Single", ])
prop_single
## [1] 0.4583623

Tỷ lệ người độc thân có nhà riêng: 0.4584 (~45.84%)

3.4. Hiệu hai tỷ lệ

diff_prop <- prop_married - prop_single
diff_prop
## [1] 0.2912736

Diễn giải: Người đã kết hôn có xác suất sở hữu nhà cao hơn người độc thân khoảng 29.12%.

3.5. Relative Risk

RR <- prop_married / prop_single
RR
## [1] 1.635466

Diễn giải: Người đã kết hôn có khả năng sở hữu nhà cao hơn khoảng 1.64 lần so với người độc thân.

3.6. Odds Ratio

  • Odds của sở hữu nhà với người Married:
odds_married <- tmp2["Married", "Yes_Home"] / tmp2["Married", "No_Home"]
odds_married
## [1] 2.994183

Người đã kết hôn có odds sở hữu nhà là 2.99, tức là họ có khả năng sở hữu nhà gấp khoảng 3 lần so với khả năng không sở hữu.

  • Odds của sở hữu nhà với người Single:
odds_single <- tmp2["Single", "Yes_Home"] / tmp2["Single", "No_Home"]
odds_single
## [1] 0.8462526

Người độc thân có odds là 0.85, tức là khả năng sở hữu nhà thấp hơn khả năng không sở hữu.

  • OR:
OR <- odds_married / odds_single
OR
## [1] 3.538167

Diễn giải: Tỷ lệ cược (odds) sở hữu nhà ở nhóm đã kết hôn gấp khoảng 3.54 lần so với nhóm độc thân.

3.7. Tính và diễn giải khoảng tin cậy 95% cho Odds Ratio

fisher_test <- fisher.test(tmp2)
fisher_test$conf.int
## [1] 0.2629325 0.3038465
## attr(,"conf.level")
## [1] 0.95
  • Diễn giải:

    • Odds Ratio (OR) đo lường mối liên hệ giữa tình trạng hôn nhân (độc thân vs. đã kết hôn) và khả năng sở hữu nhà (Yes_Home vs. No_Home).

    • Khoảng tin cậy 95% từ 0.2629 đến 0.3038 có nghĩa là: Với độ tin cậy 95%, Odds Ratio thực sự trong tổng thể nằm trong khoảng từ 0.263 đến 0.304.

  • Ý nghĩa:

    • Vì toàn bộ khoảng tin cậy nhỏ hơn 1, điều này cho thấy:

      • Nhóm người độc thân có khả năng sở hữu nhà thấp hơn đáng kể so với nhóm đã kết hôn.

      • Cụ thể, odds sở hữu nhà của người độc thân chỉ bằng khoảng 26% đến 30% odds của người đã kết hôn.

    • Nói cách khác, tình trạng độc thân có liên quan tiêu cực đến khả năng sở hữu nhà.

  • Kết luận: Khoảng tin cậy 95% củng cố kết luận trước đó rằng người đã kết hôn có khả năng sở hữu nhà cao hơn đáng kể so với người độc thân, và sự khác biệt này có ý nghĩa thống kê cao (vì khoảng không chứa giá trị 1).

3.8. Những thước đo này nói gì?

  • Hiệu hai tỷ lệ: cho biết sự khác biệt tuyệt đối về khả năng sở hữu nhà giữa hai nhóm.

  • Relative Risk: cho biết nguy cơ (hoặc khả năng) tương đối của việc sở hữu nhà.

  • Odds Ratio: đo lường mức độ liên kết mạnh giữa hai biến, phổ biến trong các nghiên cứu phi thực nghiệm.

3.9. Ưu và nhược điểm

Thước đo Ưu điểm Nhược điểm
Hiệu tỷ lệ Dễ hiểu, trực quan (phần trăm) Không phù hợp với biến hiếm gặp
Relative Risk Dễ diễn giải trong nghiên cứu cohort Không áp dụng được trong nghiên cứu case-control
Odds Ratio Áp dụng rộng rãi, nhất là logistic regression Khó hiểu hơn, dễ gây nhầm lẫn với RR nếu dịch sai

3.10. Những câu hỏi định tính phát sinh

  • Tại sao người đã kết hôn lại có khả năng sở hữu nhà cao hơn?

  • Có phải vì họ có thu nhập gộp cao hơn, hoặc ưu tiên ổn định hơn?

  • Các yếu tố khác như tuổi, số lượng thành viên gia đình, thu nhập,… có đang đóng vai trò trung gian?

4. Giới thiệu Mở rộng