Chủ đề chính: Đào sâu Suy diễn Thống kê trong Bảng Ngẫu nhiên và Giới thiệu về Mối liên hệ Phức tạp.
1. Ý nghĩa của kiểm định Chi-bình phương về tính độc lập
Kiểm định Chi-bình phương (Chi-square test) về tính độc lập được dùng để kiểm tra xem hai biến phân loại có mối liên hệ thống kê với nhau không.
Giả thuyết kiểm định:
\(H_0\): Hai biến là độc lập
\(H_1\): Hai biến không độc lập
Công thức tính giá trị thống kê kiểm định:
\[ \chi^2 = \sum \frac{(O_{ij} - E_{ij})^2}{E_{ij}} \]
Trong đó:
\(O_{ij}\) là tần số quan sát tại ô hàng \(i\), cột \(j\)
\(E_{ij}\) là tần số kỳ vọng tính như sau:
\[ E_{ij} = \frac{(\text{Tổng hàng } i) \times (\text{Tổng cột } j)}{\text{Tổng toàn bảng}} \]
Diễn giải: Nếu \(p\)-value < 0.05: bác bỏ \(H_0\) → hai biến không độc lập
Nếu \(p\)-value ≥ 0.05: không bác bỏ \(H_0\) → hai biến độc lập
2. Cách tính và diễn giải Relative Risk (RR)
Giả sử ta có bảng dữ liệu với 2 nhóm:
Nhóm | Số người xảy ra sự kiện (Yes) | Số người không xảy ra (No) | Tổng số người |
---|---|---|---|
Nhóm 1 | \(a\) | \(b\) | \(a + b\) |
Nhóm 2 | \(c\) | \(d\) | \(c + d\) |
Cách tính:
\[ Risk_1 = \frac{a}{a + b} \]
\[ Risk_2 = \frac{c}{c + d} \]
\[ RR = \frac{Risk_2}{Risk_1} = \frac{\frac{c}{c + d}}{\frac{a}{a + b}} \]
Diễn giải:
Ví dụ: \(a = 30\), \(b = 70\), \(c = 10\), \(d = 90\)
\[ RR = \frac{30 / (30 + 70)}{10 / (10 + 90)} = \frac{0.3}{0.1} = 3 \]
→ Người uống rượu có nguy cơ bị ung thư gan cao gấp 3 lần so với người không uống.
1. Cấu trúc xác suất của bảng ngẫu nhiên
Bảng ngẫu nhiên (contingency table) là bảng ghi lại tần số quan sát của hai biến phân loại. Các tần số này có thể được sinh ra từ một số mô hình xác suất, phổ biến nhất là:
Phân phối Poisson độc lập
Giả sử mỗi ô trong bảng là một biến ngẫu nhiên độc lập có phân phối Poisson với kỳ vọng \(\lambda_{ij}\).
Mô hình này dùng khi tổng số quan sát không cố định.
Xác suất quan sát \(k\) tại ô \((i,j)\) là:
\[ P(O_{ij} = k) = \frac{e^{-\lambda_{ij}} \lambda_{ij}^k}{k!} \]
Phân phối Multinomial
Dùng khi tổng số quan sát \(n\) là cố định (ví dụ điều tra 1000 người).
Mỗi ô trong bảng có xác suất \(p_{ij}\), sao cho:
\[ \sum_{i,j} p_{ij} = 1,\quad \textbf{O} \sim \text{Multinomial}(n, \{p_{ij}\}) \]
Mô hình này thường được dùng trong kiểm định Chi-bình phương để kiểm tra tính độc lập giữa hai biến.
2. So sánh hai tỷ lệ trong bảng ngẫu nhiên 2x2
Giả sử bảng như sau:
Outcome (+) Outcome (–)
Nhóm A \(a\) \(b\)
Nhóm B \(c\) \(d\)
Hiệu hai tỷ lệ (Difference in proportions)
\[ D = \frac{a}{a + b} - \frac{c}{c + d} \]
Là chênh lệch xác suất xảy ra outcome giữa hai nhóm.
Dễ hiểu, trực quan. Nếu \(D > 0\): nhóm A có tỷ lệ cao hơn.
Rủi ro tương đối – Relative Risk (RR)
Khái niệm đơn giản:
Rủi ro tương đối (RR) là con số cho biết xác suất xảy ra một sự kiện (ví
dụ như mua nhà, bị ốm, hay thành công) ở nhóm này so với nhóm khác. Nói
cách khác, nó giúp ta biết nhóm A có khả năng xảy ra điều gì đó cao hơn
hay thấp hơn nhóm B bao nhiêu lần.
Giả sử có 2 nhóm người:
Nhóm | Số người xảy ra sự kiện (Yes) | Số người không xảy ra (No) | Tổng số người |
---|---|---|---|
Nhóm 1 | \(a\) | \(b\) | \(a + b\) |
Nhóm 2 | \(c\) | \(d\) | \(c + d\) |
Xác suất xảy ra sự kiện ở nhóm 1:
\[ Risk_1 = \frac{a}{a + b} \]
Xác suất xảy ra sự kiện ở nhóm 2:
\[ Risk_2 = \frac{c}{c + d} \]
Rủi ro tương đối giữa nhóm 2 so với nhóm 1 là:
\[ RR = \frac{Risk_2}{Risk_1} = \frac{\frac{c}{c + d}}{\frac{a}{a + b}} \]
Diễn giải:
Nếu RR = 1, nghĩa là cả 2 nhóm có khả năng xảy ra sự kiện như nhau.
Nếu RR > 11, nhóm 2 có khả năng xảy ra sự kiện cao hơn nhóm 1 (ví dụ nam có khả năng mua nhà cao hơn nữ).
Nếu RR < 1, nhóm 2 có khả năng xảy ra sự kiện thấp hơn nhóm 1 (ví dụ nam có khả năng mua nhà thấp hơn nữ).
🔹 Tỷ số chênh – Odds Ratio (OR)
Khái niệm đơn giản:
Odds Ratio (OR) là tỉ số giữa xác suất xảy ra sự kiện và xác suất không xảy ra sự kiện ở nhóm này so với nhóm khác. Nó đo mức độ liên quan giữa hai nhóm với sự kiện, thường dùng trong nghiên cứu y tế, kinh tế, xã hội.
Giả sử có 2 nhóm người:
Nhóm 1: ví dụ là nữ (Female)
Nhóm 2: ví dụ là nam (Male)
Nhóm | Số người xảy ra sự kiện (Yes) | Số người không xảy ra (No) | Tổng số người |
---|---|---|---|
Nhóm 1 | \(a\) | \(b\) | \(a + b\) |
Nhóm 2 | \(c\) | \(d\) | \(c + d\) |
Xác suất xảy ra sự kiện ở nhóm 1:
\[ P_1 = \frac{a}{a + b} \]
Xác suất không xảy ra sự kiện ở nhóm 1:
\[ Q_1 = 1 - P_1 = \frac{b}{a + b} \]
Tỷ lệ chênh (odds) của nhóm 1:
\[ Odds_1 = \frac{P_1}{Q_1} = \frac{a}{b} \]
Tương tự cho nhóm 2:
\[ P_2 = \frac{c}{c + d} \]
\[ Q_2 = 1 - P_2 = \frac{d}{c + d} \]
\[ Odds_2 = \frac{P_2}{Q_2} = \frac{c}{d} \]
Tỷ lệ chênh (Odds Ratio - OR) giữa nhóm 2 so với nhóm 1 là:
\[ OR = \frac{Odds_2}{Odds_1} = \frac{\frac{c}{d}}{\frac{a}{b}} = \frac{c \times b}{a \times d} \]
Diễn giải:
Nếu OR = 1, hai nhóm có tỷ lệ xảy ra sự kiện giống nhau.
Nếu OR > 1, nhóm 2 có tỷ lệ xảy ra sự kiện cao hơn nhóm 1.
Nếu OR < 1, nhóm 2 có tỷ lệ xảy ra sự kiện thấp hơn nhóm 1.
3. Khoảng tin cậy cho Odds Ratio
Để ước lượng độ chính xác của Odds Ratio, ta dùng khoảng tin cậy 95%:
Bước 1: Lấy log(OR)
\[ \log(OR) \pm 1.96 \times \sqrt{\frac{1}{a} + \frac{1}{b} + \frac{1}{c} + \frac{1}{d}} \]
Bước 2: Mũ hoá hai đầu để có khoảng tin cậy cho OR:
\[ CI_{95\%}(OR) = \left[ \exp(\text{LB}), \exp(\text{UB}) \right] \]
Nếu khoảng tin cậy không chứa 1, thì OR có ý nghĩa thống kê.
4. Ví dụ trong kinh doanh sử dụng Odds Ratio
Tình huống:
Một công ty muốn biết quảng cáo online có làm tăng khả năng khách mua hàng hay không.
Nhóm | Outcome (+) | Outcome (–) |
---|---|---|
Có quảng cáo | 80 | 20 |
Không có quảng cáo | 50 | 50 |
\(a = 80\), \(b = 20\), \(c = 50\), \(d = 50\)
Tính OR:
\[ OR = \frac{80 \cdot 50}{20 \cdot 50} = \frac{4000}{1000} = 4 \]
Diễn giải: Odds Ratio = 4 → Người thấy quảng cáo có odds mua hàng gấp 4 lần người không thấy quảng cáo.
➡️ Quảng cáo online có hiệu quả rõ rệt trong việc tăng khả năng mua hàng.
library(ggplot2)
# Tạo dataframe
data <- data.frame(
Nhóm = rep(c("Có quảng cáo", "Không có quảng cáo"), each = 2),
Kết_quả = rep(c("Mua hàng", "Không mua"), times = 2),
Số_lượng = c(80, 20, 50, 50)
)
# Vẽ biểu đồ cột
ggplot(data, aes(x = Nhóm, y = Số_lượng, fill = Kết_quả)) +
geom_bar(stat = "identity", position = "fill") +
labs(title = "Tỷ lệ mua hàng theo nhóm quảng cáo",
y = "Tỷ lệ", x = "Nhóm") +
scale_fill_manual(values = c("deeppink", "green")) +
theme_minimal()
data3 <- read.csv("/Users/lengoctuongvy/Downloads/TLHK2:2025/T2_PHÂN TÍCH DỮ LIỆU ĐỊNH TÍNH/Book2.csv")
# Bảng tần suất chéo
table_gen_hom <- table(data3$Gender, data3$Homeowner)
table_gen_hom
##
## N Y
## F 2826 4344
## M 2789 4100
\[ \text{Odds}_{Female} = \frac{4344}{2826} \approx 1.537 \]
\[ \text{Odds}_{Male} = \frac{4100}{2789} \approx 1.470 \]
\[ OR = \frac{2826 \times 4100}{4344 \times 2789} \approx 1.044 \]
Kết luận: Giá trị OR gần 1, tức là odds sở hữu nhà của Nam và Nữ không khác biệt đáng kể.
# Tạo bảng
tbl <- matrix(c(2826, 4344, 2789, 4100), nrow=2, byrow=TRUE)
rownames(tbl) <- c("Female", "Male")
colnames(tbl) <- c("No", "Yes")
# Tính odds ratio và CI bằng epitools
library(epitools)
oddsratio(tbl)
## $data
## No Yes Total
## Female 2826 4344 7170
## Male 2789 4100 6889
## Total 5615 8444 14059
##
## $measure
## NA
## odds ratio with 95% C.I. estimate lower upper
## Female 1.000000 NA NA
## Male 0.956381 0.8938974 1.023169
##
## $p.value
## NA
## two-sided midp.exact fisher.exact chi.square
## Female NA NA NA
## Male 0.195158 0.1964833 0.1950884
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "median-unbiased estimate & mid-p exact CI"
Diễn giải chi tiết:
Odds Ratio 0.956 có nghĩa là nam giới có odds sở hữu nhà thấp hơn nữ giới khoảng 4.4% (1 - 0.956 = 0.044).
Tuy nhiên, khoảng tin cậy 95% bao gồm số 1 (0.894 đến 1.023), tức là không có bằng chứng thống kê để khẳng định sự khác biệt này là có ý nghĩa.
P-value đều lớn hơn 0.05 (~0.195), nên không bác bỏ giả thuyết không (null hypothesis), nghĩa là không có sự khác biệt đáng kể giữa nam và nữ về odds sở hữu nhà.
Dựa trên dữ liệu và phân tích, giới tính không phải là yếu tố làm tăng hoặc giảm đáng kể odds sở hữu nhà.