A. Đọc và Chuẩn bị trước buổi học:

1. Ôn lại kiến thức

1.1 Kiểm định Chi-bình phương về tính độc lập

Mục đích

Kiểm định Chi-bình phương (Chi-square test of independence) được sử dụng để xác định xem hai biến phân loạimối liên hệ với nhau hay không.

Ví dụ: Giới tính có liên quan đến sự lựa chọn sản phẩm? Việc uống cà phê có liên quan đến năng suất làm việc?

Giả thuyết kiểm định

  • Giả thuyết không (H₀): Hai biến là độc lập với nhau (không có mối liên hệ).
  • Giả thuyết đối (H₁): Hai biến không độc lập (có mối liên hệ).

Điều kiện áp dụng

  • Dữ liệu phải ở dạng bảng đếm (contingency table).
  • Giá trị kỳ vọng trong mỗi ô bảng phải lớn hơn 5 để đảm bảo độ tin cậy của kiểm định (nếu không, nên dùng kiểm định Fisher).

Công thức kiểm định

Giá trị thống kê Chi-bình phương được tính theo công thức:

\[ \chi^2 = \sum \frac{(O_{ij} - E_{ij})^2}{E_{ij}} \]

Trong đó:

  • \(O_{ij}\): Tần suất quan sát tại ô thứ \(i, j\)

  • \(E_{ij}\): Tần suất kỳ vọng tại ô thứ \(i, j\), tính bằng:

    \[ E_{ij} = \frac{(Tổng hàng_i) \times (Tổng cột_j)}{Tổng chung} \]

Diễn giải kết quả

  • Nếu p-value < 0.05: bác bỏ giả thuyết \(H_0\) → hai biến không độc lập, tức là có mối liên hệ thống kê.
  • Nếu p-value ≥ 0.05: không đủ bằng chứng để bác bỏ \(H_0\)chưa đủ cơ sở để khẳng định hai biến có liên hệ.

1.2 Relative Risk (Nguy cơ tương đối)

Khái niệm

Relative Risk (RR) đo lường mức độ thay đổi nguy cơ xảy ra một hiện tượng (ví dụ: đạt năng suất cao trong công việc) ở nhóm có một đặc điểm nào đó (ví dụ: uống cà phê) so với nhóm không có đặc điểm đó.

Ví dụ: Nhóm uống cà phê buổi sáng có năng suất làm việc cao hơn nhóm không uống?

Công thức

Giả sử có bảng 2x2:

Năng suất cao Không cao Tổng
Uống cà phê a b a + b
Không uống cà phê c d c + d

Ta có:

\[ RR = \frac{\frac{a}{a + b}}{\frac{c}{c + d}} = \frac{\text{Tỷ lệ năng suất cao ở nhóm uống cà phê}}{\text{Tỷ lệ năng suất cao ở nhóm không uống}} \]

Diễn giải

  • RR = 1: Không có sự khác biệt giữa hai nhóm.
  • RR > 1: Nhóm uống cà phê có khả năng đạt năng suất cao hơn.
  • RR < 1: Nhóm uống cà phê có khả năng đạt năng suất thấp hơn (ít gặp).

Ví dụ minh họa

Một khảo sát trên 200 nhân viên văn phòng:

  • 100 người uống cà phê buổi sáng, trong đó 60 người đạt năng suất cao.
  • 100 người không uống cà phê, trong đó 30 người đạt năng suất cao.

Vậy:

  • Nhóm uống cà phê: \(a = 60\), \(b = 40\)
  • Nhóm không uống: \(c = 30\), \(d = 70\)
a <- 60
b <- 40
c <- 30
d <- 70

# Tỷ lệ năng suất cao
risk_cafe <- a / (a + b)
risk_no_cafe <- c / (c + d)

# Relative Risk
RR <- risk_cafe / risk_no_cafe
RR
## [1] 2

Diễn giải kết quả

  • Nếu RR = 2, nghĩa là người uống cà phê có gấp đôi khả năng đạt năng suất cao so với người không uống.
  • Kết luận: Việc uống cà phê buổi sáng có thể là một yếu tố giúp cải thiện hiệu quả làm việc.

Tổng kết

  • Kiểm định Chi-bình phương giúp kiểm tra mối liên hệ giữa hai biến phân loại.
  • Relative Risk định lượng mức độ ảnh hưởng giữa hai nhóm.
  • Trong phân tích dữ liệu thực tế, cả hai công cụ này thường được kết hợp để đưa ra nhận định chặt chẽ và rõ ràng hơn.

2. Tìm hiểu về các nội dung sau của Chương 2

2.1 Phân phối xác suất và mô hình hóa bảng ngẫu nhiên

Bảng ngẫu nhiên và các mô hình xác suất

Bảng ngẫu nhiên là gì?

Bảng ngẫu nhiên (contingency table) là cách tổ chức dữ liệu dùng để trình bày số đếm (frequencies) của các tổ hợp xảy ra giữa hai hay nhiều biến phân loại. Mỗi ô trong bảng thể hiện số quan sát tương ứng với một kết hợp cụ thể giữa các biến.

Ví dụ, một bảng 2 chiều giữa giới tính (nam/nữ) và tình trạng bệnh (có/không) sẽ có 4 ô tương ứng với từng kết hợp giữa các mức của hai biến.


Mô hình phân phối Poisson cho bảng đếm

Khi các số liệu là số đếm không ràng buộc tổng cộng (tức là tổng hàng/cột có thể thay đổi), mô hình phân phối Poisson được sử dụng để mô tả dữ liệu. Đây là mô hình thường gặp trong các tình huống dữ liệu thu thập từ quá trình đếm sự kiện (tai nạn, bệnh nhân, cuộc gọi,…).

  • Giả định: Các số đếm \(N_{ij}\) ở mỗi ô là độc lập và tuân theo phân phối Poisson với trung bình \(\mu_{ij}\):

\[ N_{ij} \sim \text{Poisson}(\mu_{ij}) \]

  • Hàm xác suất (PMF):

\[ P(N_{ij} = n_{ij}) = \frac{e^{-\mu_{ij}} \mu_{ij}^{n_{ij}}}{n_{ij}!} \]

  • Xác suất liên hợp cho toàn bảng (các ô độc lập):

\[ P(\{n_{ij}\}) = \prod_{i,j} \frac{e^{-\mu_{ij}} \mu_{ij}^{n_{ij}}}{n_{ij}!} \]

Mô hình này đặc biệt phù hợp cho các bảng lớn, trong đó tổng số quan sát không cố định, và dữ liệu được thu thập qua quá trình xảy ra ngẫu nhiên trong không gian hoặc thời gian.


Mô hình phân phối Multinomial

Khi tổng số quan sát \(n\) được cố định trước, ta sử dụng mô hình phân phối đa thức (multinomial). Đây là mô hình tự nhiên trong các nghiên cứu khảo sát hoặc thí nghiệm rút mẫu.

  • Mô hình:

\[ (N_{11}, N_{12}, ..., N_{rc}) \sim \text{Multinomial}(n, \{p_{ij}\}) \]

  • Giải thích:
    • \(n\) là tổng số quan sát.
    • \(p_{ij}\) là xác suất một quan sát rơi vào ô \((i,j)\).
    • Các ô phụ thuộc lẫn nhau do tổng \(n\) là cố định.
  • Hàm xác suất:

\[ P(\{n_{ij}\}) = \frac{n!}{\prod_{i,j} n_{ij}!} \prod_{i,j} p_{ij}^{n_{ij}} \]


Mối liên hệ giữa Poisson và Multinomial

Khi các ô trong bảng tuân theo phân phối Poisson độc lập:

\[ N_{ij} \sim \text{Poisson}(\mu_{ij}) \]

và tổng số đếm được ràng buộc bằng một giá trị cố định \(n\), thì phân phối có điều kiện trở thành phân phối Multinomial:

\[ (N_{ij} \mid N = n) \sim \text{Multinomial}\left(n, \left\{ \frac{\mu_{ij}}{\sum_{i,j} \mu_{ij}} \right\} \right) \]

=> Multinomial là một trường hợp đặc biệt của Poisson khi tổng được điều kiện hóa.


Mô hình log-tuyến tính (log-linear model)

Để mô hình hóa mối quan hệ giữa các biến phân loại trong bảng đếm, ta dùng mô hình log-tuyến tính dựa trên phân phối Poisson:

\[ \log(\mu_{ij}) = \lambda + \lambda^{(R)}_i + \lambda^{(C)}_j + \lambda^{(RC)}_{ij} \]

Trong đó:

Ký hiệu Diễn giải
\(\lambda\) Hệ số chặn (intercept)
\(\lambda^{(R)}_i\) Hiệu ứng của biến hàng
\(\lambda^{(C)}_j\) Hiệu ứng của biến cột
\(\lambda^{(RC)}_{ij}\) Tương tác giữa hàng và cột

→ Nếu bỏ thành phần tương tác, mô hình thể hiện giả thuyết độc lập giữa hai biến phân loại.


So sánh hai phân phối

Đặc điểm Multinomial Poisson
Tổng số đếm Cố định Không cố định
Mối quan hệ giữa các ô Phụ thuộc Độc lập
Ứng dụng phù hợp Lấy mẫu khảo sát Dữ liệu đếm sự kiện ngẫu nhiên
Phân tích tương tác Bị hạn chế do ràng buộc tổng Linh hoạt với mô hình log-tuyến tính

2.2 So sánh hai tỷ lệ trong bảng 2×2

Giả sử một bảng ngẫu nhiên 2×2 biểu diễn dữ liệu từ hai nhóm như sau:

Sự kiện (+) Không (+) Tổng
Nhóm 1 \(a\) \(b\) \(a + b\)
Nhóm 2 \(c\) \(d\) \(c + d\)

1. Hiệu tỷ lệ (Difference in Proportions)

\[ \Delta p = \frac{a}{a+b} - \frac{c}{c+d} \]

  • Ý nghĩa: Là sự khác biệt tuyệt đối giữa tỷ lệ xảy ra sự kiện ở Nhóm 1 và Nhóm 2.
  • Giải thích: Nếu \(\Delta p > 0\), tỷ lệ xảy ra sự kiện ở Nhóm 1 cao hơn Nhóm 2. Nếu \(\Delta p < 0\), thì ngược lại.
  • Ưu điểm: Dễ hiểu, biểu diễn chênh lệch thực tế về tỷ lệ giữa hai nhóm.
  • Hạn chế: Không thể hiện rõ mức độ tương đối (ví dụ, “cao gấp bao nhiêu lần”).

2. Tỷ số rủi ro (Relative Risk - RR)

\[ RR = \frac{a / (a+b)}{c / (c+d)} \]

  • Ý nghĩa: So sánh xác suất xảy ra sự kiện giữa hai nhóm. RR cho biết Nhóm 1 có khả năng xảy ra sự kiện gấp bao nhiêu lần Nhóm 2.
  • Diễn giải:
    • \(RR = 1\): Hai nhóm có rủi ro tương đương.
    • \(RR > 1\): Nhóm 1 có nguy cơ cao hơn.
    • \(RR < 1\): Nhóm 1 có nguy cơ thấp hơn.
  • Ưu điểm: Dễ hiểu, phù hợp cho nghiên cứu đoàn hệ (cohort studies).
  • Hạn chế: Không sử dụng được trong nghiên cứu bệnh-chứng (case-control), vì không biết rõ xác suất xảy ra sự kiện trong quần thể.

3. Tỷ số chênh (Odds Ratio - OR)

\[ OR = \frac{a/b}{c/d} = \frac{ad}{bc} \]

  • Ý nghĩa: So sánh odds xảy ra sự kiện giữa hai nhóm. “Odds” là tỷ lệ giữa xác suất xảy ra và không xảy ra sự kiện.
  • Diễn giải:
    • \(OR = 1\): Không có sự khác biệt giữa hai nhóm.
    • \(OR > 1\): Nhóm 1 có odds xảy ra sự kiện cao hơn Nhóm 2.
    • \(OR < 1\): Nhóm 1 có odds thấp hơn.
  • Ưu điểm: Phù hợp cho nghiên cứu bệnh-chứng và được sử dụng phổ biến trong hồi quy logistic.
  • Hạn chế: Khi xác suất sự kiện cao, OR có thể phóng đại mức độ rủi ro so với RR → cần cẩn trọng khi diễn giải.

2.3 Khoảng tin cậy cho OR

Để đánh giá độ chính xác của OR và kiểm định giả thuyết, ta xây dựng khoảng tin cậy (Confidence Interval - CI) cho OR dựa trên phân phối chuẩn của log(OR).


Công thức CI cho OR

  1. Chuyển OR về log(OR): \[ \log(OR) \pm z_{\alpha/2} \cdot \sqrt{ \frac{1}{a} + \frac{1}{b} + \frac{1}{c} + \frac{1}{d} } \]

  2. Lấy mũ để trở về không gian OR: \[ CI_{OR} = \left( e^{L},\ e^{U} \right) \]

Trong đó: - \(z_{\alpha/2}\): giá trị tới hạn từ phân phối chuẩn (ví dụ: 1.96 nếu mức tin cậy là 95%) - \(SE = \sqrt{ \frac{1}{a} + \frac{1}{b} + \frac{1}{c} + \frac{1}{d} }\): sai số chuẩn của log(OR) - \(e^L, e^U\): cận dưới và cận trên của khoảng tin cậy cho OR


Diễn giải CI của OR

  • Nếu khoảng tin cậy chứa 1không có ý nghĩa thống kê, tức chưa thể khẳng định có sự khác biệt giữa hai nhóm.
  • Nếu khoảng tin cậy không chứa 1có ý nghĩa thống kê ở mức \((1 - \alpha) \times 100\)%.
  • Khoảng tin cậy càng hẹp → ước lượng OR càng chính xác.

2.4 Ví dụ minh họa

Một siêu thị muốn đánh giá hiệu quả của chương trình khuyến mãi “mua 1 tặng 1” đối với hành vi mua hàng. Họ khảo sát 200 khách hàng và thu được dữ liệu sau:

Mua hàng Không mua Tổng
Nhìn thấy khuyến mãi 60 40 100
Không thấy khuyến mãi 30 70 100
  • Tính RR (Tỷ số rủi ro):

\[ RR = \frac{60/100}{30/100} = 2.0 \]

→ Nhóm khách hàng nhìn thấy khuyến mãi có xác suất mua hàng gấp đôi so với nhóm không nhìn thấy.

  • Tính OR (Tỷ số chênh):

\[ OR = \frac{60 \cdot 70}{40 \cdot 30} = \frac{4200}{1200} = 3.5 \]

→ Cơ hội mua hàng ở nhóm nhìn thấy khuyến mãi gấp 3.5 lần so với nhóm không nhìn thấy.

  • Tính khoảng tin cậy cho OR:

    • \(SE = \sqrt{1/60 + 1/40 + 1/30 + 1/70} \approx \sqrt{0.0167 + 0.025 + 0.0333 + 0.0143} = \sqrt{0.0893} \approx 0.299\)

    • \(\log(OR) = \log(3.5) \approx 1.253\)

    • \(CI_{\log(OR)} = 1.253 \pm 1.96 \cdot 0.299 = (0.667,\ 1.839)\)

    • \(CI_{OR} = (e^{0.667},\ e^{1.839}) = (1.95,\ 6.29)\)

→ Vì khoảng tin cậy không chứa 1, có thể kết luận rằng việc nhìn thấy khuyến mãi giúp tăng đáng kể khả năng mua hàng.


2.5 Tổng kết

Chỉ số Công thức Diễn giải chính Ứng dụng
Hiệu tỷ lệ \(p_1 - p_2\) Chênh lệch tuyệt đối giữa hai tỷ lệ Dễ hiểu, minh họa trực tiếp
RR \(\frac{p_1}{p_2}\) So sánh xác suất giữa hai nhóm Nghiên cứu y học, tiếp thị
OR \(\frac{ad}{bc}\) So sánh odds giữa hai nhóm Hồi quy logistic, phân tích rủi ro

3. Suy nghĩ về bộ dữ liệu “Supermarket Transactions”

3.1 Đọc bộ dữ liệu

library(DT)
library(csv)
data <- read.csv("F:/PTDLDT/Supermarket Transactions.csv", header = T)
datatable(data)
## Warning in instance$preRenderHook(instance): It seems your data is too big for
## client-side DataTables. You may consider server-side processing:
## https://rstudio.github.io/DT/server.html

3.2 Các bước thực hiện

Tạo bảng chéo giữa Gender và Homeowner

table_gender_home <- table(data$Gender, data$Homeowner)
addmargins(table_gender_home)
##      
##           N     Y   Sum
##   F    2826  4344  7170
##   M    2789  4100  6889
##   Sum  5615  8444 14059

Tính hiệu tỷ lệ (Difference in Proportions)

a <- table_gender_home["F", "Y"]
b <- table_gender_home["F", "N"]
c <- table_gender_home["M", "Y"]
d <- table_gender_home["M", "N"]

# Tính tỷ lệ
p_female <- a / (a + b)
p_male <- c / (c + d)
diff_prop <- p_female - p_male
diff_prop
## [1] 0.01070605
  • Diễn giải: Tỷ lệ sở hữu nhà của nữ cao hơn nam khoảng 1.07%.

Tính Tỷ số nguy cơ (Relative Risk - RR)

library(DescTools)
RelRisk(table_gender_home)
## [1] 0.9735554
library(epitools)
riskratio(table_gender_home)
## $data
##        
##            N    Y Total
##   F     2826 4344  7170
##   M     2789 4100  6889
##   Total 5615 8444 14059
## 
## $measure
##    risk ratio with 95% C.I.
##      estimate     lower    upper
##   F 1.0000000        NA       NA
##   M 0.9823291 0.9561812 1.009192
## 
## $p.value
##    two-sided
##     midp.exact fisher.exact chi.square
##   F         NA           NA         NA
##   M   0.195158    0.1964833  0.1950884
## 
## $correction
## [1] FALSE
## 
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"
  • Diễn giải:

Tỷ lệ có nhà theo từng giới tính được tính như sau:

  • Nữ (F): 4344 / 7170 ≈ 60.60%
  • Nam (M): 4100 / 6889 ≈ 59.50%

Từ đó, tỷ số rủi ro (Risk Ratio - RR) của nhóm nam so với nữ về khả năng sở hữu nhà là: \[ RR = \frac{P(Y|\text{Nam})}{P(Y|\text{Nữ})} = \frac{0.5950}{0.6060} \approx 0.9823 \]

Khoảng tin cậy 95% cho RR là (0.9562 ; 1.0092). Vì khoảng này bao gồm giá trị 1, nên sự khác biệt giữa hai nhóm không có ý nghĩa thống kê.

Kết quả kiểm định Chi-square cho giá trị p ≈ 0.195 (> 0.05), do đó không đủ bằng chứng để kết luận rằng giới tính có ảnh hưởng đáng kể đến khả năng sở hữu nhà.

Tính Odds và Odds Ratio (OR)

OddsRatio(table_gender_home)
## [1] 0.9563518

Tính khoảng tin cậy 95% cho OR

oddsratio(table_gender_home)
## $data
##        
##            N    Y Total
##   F     2826 4344  7170
##   M     2789 4100  6889
##   Total 5615 8444 14059
## 
## $measure
##    odds ratio with 95% C.I.
##     estimate     lower    upper
##   F 1.000000        NA       NA
##   M 0.956381 0.8938974 1.023169
## 
## $p.value
##    two-sided
##     midp.exact fisher.exact chi.square
##   F         NA           NA         NA
##   M   0.195158    0.1964833  0.1950884
## 
## $correction
## [1] FALSE
## 
## attr(,"method")
## [1] "median-unbiased estimate & mid-p exact CI"

Diễn giải kết quả

  • OR = 0.9564 < 1 cho thấy tỷ số chênh (odds ratio) về khả năng sở hữu nhà của Nam thấp hơn một chút so với Nữ.

  • Nói cách khác, trong tập dữ liệu khách hàng này, là Nam có liên quan đến việc giảm nhẹ odds sở hữu nhà so với Nữ. Cụ thể, odds sở hữu nhà của Nam thấp hơn khoảng 4.4% so với Nữ, nếu giữ các yếu tố khác không đổi.

  • Tuy nhiên, mức chênh lệch này là rất nhỏchưa đủ để kết luận chắc chắn về sự khác biệt giữa hai nhóm.

  • Khi xét đến khoảng tin cậy 95% của OR (từ 0.8940 đến 1.0232), ta thấy khoảng này bao gồm giá trị 1, điều đó có nghĩa là kết quả không có ý nghĩa thống kê ở mức tin cậy 95%.

  • Tóm lại, mặc dù OR < 1 cho thấy xu hướng odds sở hữu nhà của Nam thấp hơn Nữ, kết luận này không có ý nghĩa thống kê. Sự khác biệt nhỏ có thể chỉ là do ngẫu nhiên trong mẫu quan sát. Do đó, không có bằng chứng đủ mạnh để khẳng định rằng giới tính có ảnh hưởng đến odds sở hữu nhà trong bộ dữ liệu này.

=> Kết luận: Trong phạm vi dữ liệu hiện tại, giới tính không phải là yếu tố quyết định đến việc sở hữu nhà — odds giữa Nam và Nữ là gần như tương đương nhau.