1 Ôn lại kiến thức tuần 2

1.1 Ý nghĩa của kiếm định Chi bình phương về tính độc lập

Kiểm định chi bình phương về tính độc lập là một ứng dụng rất quan trọng trong thống kê suy diễn, nó được sử dụng để xác định xem hai biến có phụ thuộc nhau hay độc lập thống kê trong một tổng thể hay không.

Giả thuyết kiểm định

\[ \left\{ \begin{array}{ll} H_0: & \text{Hai biến độc lập nhau} \\\\ H_1: & \text{Hai biến có mối liên hệ thống kê với nhau} \ \end{array} \right. \]

1.2 Relative Risk

Relative Risk (RR) hay nguy cơ tương đối là một thước đo trong thống kê y sinh, dịch tễ học và các nghiên cứu so sánh hai nhóm, thường được dùng để đánh giá mối liên hệ giữa một yếu tố phơi nhiễm (exposure) và kết cục (outcome).

Cách tính

Bệnh Không bệnh
Phơi nhiễm a b
Không phơi nhiễm c d
  • Nguy cơ phơi nhiễm = \(\frac{a}{a + b}\)

  • Nguy cơ không phơi nhiễm = \(\frac{c}{c + d}\)

  • Relative Risk (RR) = \(\frac{\text{Nguy cơ phơi nhiễm}}{\text{Nguy cơ không phơi nhiễm}} = \frac{a/(a+b)}{c/(c+d)}\)

Diễn giải

  • RR = 1: Không có mối liên quan giữa phơi nhiễm và bệnh. Tỷ suất mới mắc là như nhau giữa các nhóm.

  • RR > 1: Phơi nhiễm là yếu tố nguy cơ của bệnh

  • RR < 1: Phơi nhiễm là yếu tố bảo về

2 Tìm hiểu về các nội dung của chương 2

2.1 Cấu trúc xác suất của bảng ngẫu nhiên

2.1.1 Phân phối Poisson

Phân phối Poisson được sử dụng để mô hình hóa số lần xảy ra của một sự kiện hiếm trong một khoảng thời gian (hoặc không gian) nhất định, với các giả định sau:

  • Sự kiện xảy ra ngẫu nhiên và độc lập.

  • Xác suất xảy ra sự kiện trong một khoảng thời gian nhỏ là tỷ lệ với độ dài của khoảng đó.

  • Trong một khoảng thời gian nhỏ, chỉ có thể xảy ra một sự kiện duy nhất.

Hàm xác suất

Giả sử \(X \sim \text{Poisson}(\lambda)\), trong đó:

  • \(\lambda > 0\) là trung bình (mean) số lần xảy ra sự kiện trong khoảng thời gian/không gian xét.

  • \(X\) là biến ngẫu nhiên rời rạc đại diện cho số lần xảy ra sự kiện.

Ta có:

\[ P(X = k) = \frac{e^{-\lambda} \lambda^k}{k!}, \quad \text{với } k = 0, 1, 2, \dots \]

Kỳ vọng và phương sai

\[ \begin{align*} E[X] &= \lambda, \\ \text{Var}(X) &= \lambda \end{align*} \]

2.1.2 Phân phối Multinomial

Hàm xác suất

Giả sử ta thực hiện \(n\) phép thử độc lập, mỗi phép thử có \(k\) khả năng xảy ra với xác suất tương ứng:

\[ p_1 + p_2 + \cdots + p_k = 1, \quad 0 < p_i < 1 \]

Gọi \(X_i\) là số lần kết quả loại \(i\) xảy ra, thì vector \(\mathbf{X} = (X_1, X_2, \ldots, X_k)\) có phân phối Multinomial với tham số \((n; p_1, p_2, \ldots, p_k)\):

\[ P(X_1 = x_1, \ldots, X_k = x_k) = \frac{n!}{x_1! \cdots x_k!} p_1^{x_1} \cdots p_k^{x_k} \]

Với điều kiện:

\[ x_1 + x_2 + \cdots + x_k = n \]

Kì vọng và trung bình

\[ E[X_i] = n p_i \]

\[ \text{Var}(X_i) = n p_i (1 - p_i) \]

2.2 So sánh 2 tỷ lệ trong bảng ngẫu nhiên 2x2

2.2.1 Hiệu hai tỷ lệ

Hiệu hai tỷ lệ (RD) hay Risk Difference, là thước đo sự khác biệt tuyệt đối về xác suất mắc bệnh giữa nhóm phơi nhiễm và nhóm không phơi nhiễm.

Cách tính

Bệnh Không bệnh
Phơi nhiễm a b
Không phơi nhiễm c d
  • Tỷ lệ bệnh nhóm phơi nhiễm:
    \(p_1 = \frac{a}{a + b}\)

  • Tỷ lệ bệnh nhóm không phơi nhiễm:
    \(p_2 = \frac{c}{c + d}\)

  • Hiệu hai tỷ lệ:
    \(\Delta p = p_1 - p_2 = \frac{a}{a+b} - \frac{c}{c+d}\)

Diễn giải

  • RD = 0: Không có sự khác biệt tuyệt đối về xác suất mắc bệnh giữa hai nhóm.

  • RD > 0: Nhóm phơi nhiễm có nguy cơ mắc bệnh cao hơn nhóm không phơi nhiễm

  • RD < 0: Nhóm phơi nhiễm có nguy cơ mắc bệnh thấp hơn

2.2.2 Odd Ratio

Odds Ratio (Tỷ số chênh) là một thước đo được sử dụng phổ biến trong thống kê, đặc biệt là trong nghiên cứu dịch tễ học, để đánh giá mối liên hệ giữa phơi nhiễm và kết quả

Cách tính

Bệnh Không bệnh
Phơi nhiễm a b
Không phơi nhiễm c d
  • Odds phơi nhiễm = \(\frac{a}{b}\)

  • Odds không phơi nhiễm = \(\frac{c}{d}\)

  • Odds Ratio (OR) = \(\frac{\text{Odds phơi nhiễm}}{\text{Odds không phơi nhiễm}}\) = \(\frac{a/b}{c/d}\) = \(\frac{ad}{bc}\)

Diễn giải

  • OR = 1: Không có mối liên quan giữa phơi nhiễm và bệnh. Tỷ lệ mắc bệnh là như nhau giữa các nhóm.

  • OR > 1: Phơi nhiễm là yếu tố nguy cơ của bệnh

  • OR < 1: Phơi nhiễm là yếu tố bảo vệ

2.3 Khoảng tin cậy cho các tham số đo mối liên hệ

Khoảng tin cậy (Confidence Interval - CI) là một khoảng giá trị chứa tham số thực của tổng thể với một độ tin cậy nhất định (thường là 95%). Đối với Odds Ratio (OR), khoảng tin cậy giúp đánh giá mức độ chính xác của ước lượng OR từ mẫu dữ liệu.

Cách tính

Bệnh Không bệnh
Phơi nhiễm a b
Không phơi nhiễm c d
  • Odds Ratio (OR) = \(\frac{a/b}{c/d}\) = \(\frac{ad}{bc}\)

  • Khoảng tin cậy 95% cho OR được tính bằng công thức:

\[ \text{95% CI} = e^{\ln(OR) \pm 1.96 \cdot \sqrt{\frac{1}{a} + \frac{1}{b} + \frac{1}{c} + \frac{1}{d}}} \]

2.4 Ví dụ

So sánh tỷ lệ mua hàng của nhóm A và nhóm B

# Tạo dữ liệu ngẫu nhiên (ví dụ: 200 khách hàng)
set.seed(123)  # Để kết quả có thể tái lập
n <- 200
qh <- data.frame(
  Group = sample(c("A", "B"), n, replace = TRUE),
  Purchased = sample(c("Yes", "No"), n, replace = TRUE, prob = c(0.4, 0.6))
)

Bảng tần số

table(qh$Group, qh$Purchased)
##    
##     No Yes
##   A 65  38
##   B 57  40

Bảng 2x2

Mua Không mua
Nhóm A 38 65
Nhóm B 40 57
new_matrix <- matrix(c(38, 40, 65, 57), nrow = 2)
oddsratio(new_matrix)
## $data
##           Outcome
## Predictor  Disease1 Disease2 Total
##   Exposed1       38       65   103
##   Exposed2       40       57    97
##   Total          78      122   200
## 
## $measure
##           odds ratio with 95% C.I.
## Predictor   estimate     lower    upper
##   Exposed1 1.0000000        NA       NA
##   Exposed2 0.8340657 0.4701363 1.476537
## 
## $p.value
##           two-sided
## Predictor  midp.exact fisher.exact chi.square
##   Exposed1         NA           NA         NA
##   Exposed2  0.5333503    0.5636999  0.5290433
## 
## $correction
## [1] FALSE
## 
## attr(,"method")
## [1] "median-unbiased estimate & mid-p exact CI"

Dựa vào kết quả ta thấy giá trị OR = 0.8341, nhóm B có xu hướng mua ít hơn nhóm A.

3 Suy nghĩ về bộ dữ liệu “Supermarket Transactions

Bảng chéo 2x2 giữa Gender và Homeowner

Có nhà Không nhà
Nữ 4344 2826
Nam 4100 2789

Relative Risk

qh1 <- table(data$Gender,data$Homeowner)
riskratio(qh1)
## $data
##        
##            N    Y Total
##   F     2826 4344  7170
##   M     2789 4100  6889
##   Total 5615 8444 14059
## 
## $measure
##    risk ratio with 95% C.I.
##      estimate     lower    upper
##   F 1.0000000        NA       NA
##   M 0.9823291 0.9561812 1.009192
## 
## $p.value
##    two-sided
##     midp.exact fisher.exact chi.square
##   F         NA           NA         NA
##   M   0.195158    0.1964833  0.1950884
## 
## $correction
## [1] FALSE
## 
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"

Nam giới có risk ratio là 0.9823, với khoảng tin cậy 95% từ 0.9562 đến 1.0092. Điều này cho thấy nam giới có tỷ lệ sở hữu nhà thấp hơn một chút so với nữ giới.

Odds Ratio

oddsratio(qh1)
## $data
##        
##            N    Y Total
##   F     2826 4344  7170
##   M     2789 4100  6889
##   Total 5615 8444 14059
## 
## $measure
##    odds ratio with 95% C.I.
##     estimate     lower    upper
##   F 1.000000        NA       NA
##   M 0.956381 0.8938974 1.023169
## 
## $p.value
##    two-sided
##     midp.exact fisher.exact chi.square
##   F         NA           NA         NA
##   M   0.195158    0.1964833  0.1950884
## 
## $correction
## [1] FALSE
## 
## attr(,"method")
## [1] "median-unbiased estimate & mid-p exact CI"

Nam giới có Odds Ratio là 0.9564, với khoảng tin cậy 95% từ 0.8939 đến 1.0232. Điều này cho thấy nam giới có odds sở hữu nhà thấp hơn một chút so với nữ giới.

Khoảng tin cậy 95% của OR có chứa giá trị 1, cho thấy sự khác biệt là không có ý nghĩa thống kê. Bên cạnh đó, các giá trị p-value tương ứng (midp.exact = 0.1952, fisher.exact = 0.1965, chi.square = 0.1951) đều lớn hơn 0.05, cho thấy không có bằng chứng thống kê đủ mạnh để bác bỏ giả thuyết rằng không có sự khác biệt giữa hai nhóm.

Tóm lại, việc là Nữ (so với Nam) không làm tăng hay giảm đáng kể odds của việc sở hữu nhà hay không có mối liên hệ rõ ràng giữa giới tính và việc sở hữu nhà trong dữ liệu “Supermarket Transactions” này.