Chủ đề chính: Đào sâu Suy diễn Thống kê trong Bảng Ngẫu nhiên và Giới thiệu về Mối liên hệ Phức tạp.

1 .Đọc và Chuẩn bị trước buổi học

1.1 .Ôn lại kiến thức tuần 2

1. Ý nghĩa của kiểm định Chi-bình phương về tính độc lập

Kiểm định Chi-bình phương (Chi-square test) về tính độc lập được dùng để kiểm tra xem hai biến phân loại có mối liên hệ thống kê với nhau không.

Giả thuyết kiểm định:

\(H_0\): Hai biến là độc lập

\(H_1\): Hai biến không độc lập

Công thức tính giá trị thống kê kiểm định:

\[ \chi^2 = \sum \frac{(O_{ij} - E_{ij})^2}{E_{ij}} \]

Trong đó:

\(O_{ij}\) là tần số quan sát tại ô hàng \(i\), cột \(j\)

\(E_{ij}\) là tần số kỳ vọng tính như sau:

\[ E_{ij} = \frac{(\text{Tổng hàng } i) \times (\text{Tổng cột } j)}{\text{Tổng toàn bảng}} \]

Diễn giải: Nếu \(p\)-value < 0.05: bác bỏ \(H_0\) → hai biến không độc lập

Nếu \(p\)-value ≥ 0.05: không bác bỏ \(H_0\) → hai biến độc lập

2. Cách tính và diễn giải Relative Risk (RR)

Giả sử ta có bảng dữ liệu với 2 nhóm:

Nhóm	Số người xảy ra sự kiện (Yes)	Số người không xảy ra (No)	Tổng số người
Nhóm 1	\(a\)	\(b\)	\(a + b\)
Nhóm 2	\(c\)	\(d\)	\(c + d\)

Cách tính:

Xác suất xảy ra sự kiện ở nhóm 1:

\[ Risk_1 = \frac{a}{a + b} \]

Xác suất xảy ra sự kiện ở nhóm 2:

\[ Risk_2 = \frac{c}{c + d} \]

Relative Risk được tính theo công thức:

\[ RR = \frac{Risk_2}{Risk_1} = \frac{\frac{c}{c + d}}{\frac{a}{a + b}} \]

Diễn giải:

Nếu RR = 1: khả năng xảy ra sự kiện ở hai nhóm bằng nhau.
Nếu RR > 1: nhóm 2 có khả năng xảy ra sự kiện cao hơn nhóm 1.
Nếu RR < 1: nhóm 2 có khả năng xảy ra sự kiện thấp hơn nhóm 1.

Ví dụ: \(a = 30\), \(b = 70\), \(c = 10\), \(d = 90\)

\[ RR = \frac{30 / (30 + 70)}{10 / (10 + 90)} = \frac{0.3}{0.1} = 3 \]

→ Người uống rượu có nguy cơ bị ung thư gan cao gấp 3 lần so với người không uống.

1.2 .Tìm hiểu các nội dung của Chương 2

1. Cấu trúc xác suất của bảng ngẫu nhiên

Bảng ngẫu nhiên (contingency table) là bảng ghi lại tần số quan sát của hai biến phân loại. Các tần số này có thể được sinh ra từ một số mô hình xác suất, phổ biến nhất là:

Phân phối Poisson độc lập

Giả sử mỗi ô trong bảng là một biến ngẫu nhiên độc lập có phân phối Poisson với kỳ vọng \(\lambda_{ij}\).

Mô hình này dùng khi tổng số quan sát không cố định.

Xác suất quan sát \(k\) tại ô \((i,j)\) là:

\[ P(O_{ij} = k) = \frac{e^{-\lambda_{ij}} \lambda_{ij}^k}{k!} \]

Phân phối Multinomial

Dùng khi tổng số quan sát \(n\) là cố định (ví dụ điều tra 1000 người).

Mỗi ô trong bảng có xác suất \(p_{ij}\), sao cho:

\[ \sum_{i,j} p_{ij} = 1,\quad \textbf{O} \sim \text{Multinomial}(n, \{p_{ij}\}) \]

Mô hình này thường được dùng trong kiểm định Chi-bình phương để kiểm tra tính độc lập giữa hai biến.

2. So sánh hai tỷ lệ trong bảng ngẫu nhiên 2x2

Giả sử bảng như sau:

Outcome (+) Outcome (–)

Nhóm A \(a\) \(b\)

Nhóm B \(c\) \(d\)

Hiệu hai tỷ lệ (Difference in proportions)

\[ D = \frac{a}{a + b} - \frac{c}{c + d} \]

Là chênh lệch xác suất xảy ra outcome giữa hai nhóm.

Dễ hiểu, trực quan. Nếu \(D > 0\): nhóm A có tỷ lệ cao hơn.

Rủi ro tương đối – Relative Risk (RR)

Khái niệm đơn giản:
Rủi ro tương đối (RR) là con số cho biết xác suất xảy ra một sự kiện (ví dụ như mua nhà, bị ốm, hay thành công) ở nhóm này so với nhóm khác. Nói cách khác, nó giúp ta biết nhóm A có khả năng xảy ra điều gì đó cao hơn hay thấp hơn nhóm B bao nhiêu lần.

Giả sử có 2 nhóm người:

Nhóm 1: ví dụ là nữ (Female)
Nhóm 2: ví dụ là nam (Male)

Nhóm	Số người xảy ra sự kiện (Yes)	Số người không xảy ra (No)	Tổng số người
Nhóm 1	\(a\)	\(b\)	\(a + b\)
Nhóm 2	\(c\)	\(d\)	\(c + d\)

Xác suất xảy ra sự kiện ở nhóm 1:

\[ Risk_1 = \frac{a}{a + b} \]

Xác suất xảy ra sự kiện ở nhóm 2:

\[ Risk_2 = \frac{c}{c + d} \]

Rủi ro tương đối giữa nhóm 2 so với nhóm 1 là:

\[ RR = \frac{Risk_2}{Risk_1} = \frac{\frac{c}{c + d}}{\frac{a}{a + b}} \]

Diễn giải:

Nếu RR = 1, nghĩa là cả 2 nhóm có khả năng xảy ra sự kiện như nhau.
Nếu RR > 11, nhóm 2 có khả năng xảy ra sự kiện cao hơn nhóm 1 (ví dụ nam có khả năng mua nhà cao hơn nữ).
Nếu RR < 1, nhóm 2 có khả năng xảy ra sự kiện thấp hơn nhóm 1 (ví dụ nam có khả năng mua nhà thấp hơn nữ).

🔹 Tỷ số chênh – Odds Ratio (OR)

1.3 Tỷ lệ chênh – Odds Ratio (OR)

Khái niệm đơn giản:

Odds Ratio (OR) là tỉ số giữa xác suất xảy ra sự kiện và xác suất không xảy ra sự kiện ở nhóm này so với nhóm khác. Nó đo mức độ liên quan giữa hai nhóm với sự kiện, thường dùng trong nghiên cứu y tế, kinh tế, xã hội.

Giả sử có 2 nhóm người:

Nhóm 1: ví dụ là nữ (Female)
Nhóm 2: ví dụ là nam (Male)

Nhóm	Số người xảy ra sự kiện (Yes)	Số người không xảy ra (No)	Tổng số người
Nhóm 1	\(a\)	\(b\)	\(a + b\)
Nhóm 2	\(c\)	\(d\)	\(c + d\)

Xác suất xảy ra sự kiện ở nhóm 1:

\[ P_1 = \frac{a}{a + b} \]

Xác suất không xảy ra sự kiện ở nhóm 1:

\[ Q_1 = 1 - P_1 = \frac{b}{a + b} \]

Tỷ lệ chênh (odds) của nhóm 1:

\[ Odds_1 = \frac{P_1}{Q_1} = \frac{a}{b} \]

Tương tự cho nhóm 2:

\[ P_2 = \frac{c}{c + d} \]

\[ Q_2 = 1 - P_2 = \frac{d}{c + d} \]

\[ Odds_2 = \frac{P_2}{Q_2} = \frac{c}{d} \]

Tỷ lệ chênh (Odds Ratio - OR) giữa nhóm 2 so với nhóm 1 là:

\[ OR = \frac{Odds_2}{Odds_1} = \frac{\frac{c}{d}}{\frac{a}{b}} = \frac{c \times b}{a \times d} \]

Diễn giải:

Nếu OR = 1, hai nhóm có tỷ lệ xảy ra sự kiện giống nhau.
Nếu OR > 1, nhóm 2 có tỷ lệ xảy ra sự kiện cao hơn nhóm 1.
Nếu OR < 1, nhóm 2 có tỷ lệ xảy ra sự kiện thấp hơn nhóm 1.

3. Khoảng tin cậy cho Odds Ratio

Để ước lượng độ chính xác của Odds Ratio, ta dùng khoảng tin cậy 95%:

Bước 1: Lấy log(OR)

\[ \log(OR) \pm 1.96 \times \sqrt{\frac{1}{a} + \frac{1}{b} + \frac{1}{c} + \frac{1}{d}} \]

Bước 2: Mũ hoá hai đầu để có khoảng tin cậy cho OR:

\[ CI_{95\%}(OR) = \left[ \exp(\text{LB}), \exp(\text{UB}) \right] \]

Nếu khoảng tin cậy không chứa 1, thì OR có ý nghĩa thống kê.

4. Ví dụ trong kinh doanh sử dụng Odds Ratio

Tình huống:

Một công ty muốn biết quảng cáo online có làm tăng khả năng khách mua hàng hay không.

Nhóm	Outcome (+)	Outcome (–)
Có quảng cáo	80	20
Không có quảng cáo	50	50

\(a = 80\), \(b = 20\), \(c = 50\), \(d = 50\)

Tính OR:

\[ OR = \frac{80 \cdot 50}{20 \cdot 50} = \frac{4000}{1000} = 4 \]

Diễn giải: Odds Ratio = 4 → Người thấy quảng cáo có odds mua hàng gấp 4 lần người không thấy quảng cáo.

➡️ Quảng cáo online có hiệu quả rõ rệt trong việc tăng khả năng mua hàng.

library(ggplot2)

# Tạo dataframe
data <- data.frame(
  Nhóm = rep(c("Có quảng cáo", "Không có quảng cáo"), each = 2),
  Kết_quả = rep(c("Mua hàng", "Không mua"), times = 2),
  Số_lượng = c(80, 20, 50, 50)
)

# Vẽ biểu đồ cột
ggplot(data, aes(x = Nhóm, y = Số_lượng, fill = Kết_quả)) +
  geom_bar(stat = "identity", position = "fill") +
  labs(title = "Tỷ lệ mua hàng theo nhóm quảng cáo",
       y = "Tỷ lệ", x = "Nhóm") +
   scale_fill_manual(values = c("deeppink", "green")) + 
  theme_minimal()

data3 <- read.csv("/Users/lengoctuongvy/Downloads/TLHK2:2025/T2_PHÂN TÍCH DỮ LIỆU ĐỊNH TÍNH/Book2.csv")
# Bảng tần suất chéo
table_gen_hom <- table(data3$Gender, data3$Homeowner)
table_gen_hom

##    
##        N    Y
##   F 2826 4344
##   M 2789 4100

\[ \text{Odds}_{Female} = \frac{4344}{2826} \approx 1.537 \]

\[ \text{Odds}_{Male} = \frac{4100}{2789} \approx 1.470 \]

\[ OR = \frac{2826 \times 4100}{4344 \times 2789} \approx 1.044 \]

Kết luận: Giá trị OR gần 1, tức là odds sở hữu nhà của Nam và Nữ không khác biệt đáng kể.

# Tạo bảng
tbl <- matrix(c(2826, 4344, 2789, 4100), nrow=2, byrow=TRUE)
rownames(tbl) <- c("Female", "Male")
colnames(tbl) <- c("No", "Yes")

# Tính odds ratio và CI bằng epitools

library(epitools)

oddsratio(tbl)

## $data
##          No  Yes Total
## Female 2826 4344  7170
## Male   2789 4100  6889
## Total  5615 8444 14059
## 
## $measure
##                         NA
## odds ratio with 95% C.I. estimate     lower    upper
##                   Female 1.000000        NA       NA
##                   Male   0.956381 0.8938974 1.023169
## 
## $p.value
##          NA
## two-sided midp.exact fisher.exact chi.square
##    Female         NA           NA         NA
##    Male     0.195158    0.1964833  0.1950884
## 
## $correction
## [1] FALSE
## 
## attr(,"method")
## [1] "median-unbiased estimate & mid-p exact CI"

Diễn giải chi tiết:

Odds Ratio 0.956 có nghĩa là nam giới có odds sở hữu nhà thấp hơn nữ giới khoảng 4.4% (1 - 0.956 = 0.044).
Tuy nhiên, khoảng tin cậy 95% bao gồm số 1 (0.894 đến 1.023), tức là không có bằng chứng thống kê để khẳng định sự khác biệt này là có ý nghĩa.
P-value đều lớn hơn 0.05 (~0.195), nên không bác bỏ giả thuyết không (null hypothesis), nghĩa là không có sự khác biệt đáng kể giữa nam và nữ về odds sở hữu nhà.

Dựa trên dữ liệu và phân tích, giới tính không phải là yếu tố làm tăng hoặc giảm đáng kể odds sở hữu nhà.

Nhiệm vụ tuần 3 môn Phân tích dữ liệu định tính

Lê Ngọc Tường Vy

14:13:08, 31 - 05 - 2025

1 .Đọc và Chuẩn bị trước buổi học

1.1 .Ôn lại kiến thức tuần 2

1.2 .Tìm hiểu các nội dung của Chương 2

1.3 Tỷ lệ chênh – Odds Ratio (OR)