Ý nghĩa: Kiểm định Chi - bình phương dùng để kiểm định mối quan hệ giữa hai biến phân loại (độc lập hay không).
Có 2 biến định tính X, Y, lập bảng tần số cho 2 biến này.
Giả thuyết thống kê:
Giả thuyết H0: Hai biến X, Y độc lập (không có mối liên hệ)
Giả thuyết H1: Hai biến X, Y không độc lập (có mối liên hệ)
Giá trị kiểm định Chi - bình phương: \[ \chi^2 = \sum_{i,j} \frac{(O_{ij} - E_{ij})^2}{E_{ij}} \]
trong đó:
\(O_{ij}\) là tần số quan sát của ô ở vị trí hàng \(i\), cột \(j\);
\(E_{ij}\) là tần số kỳ vọng với \(E_{ij} = \frac{\text{tổng hàng } i \times \text{tổng cột } j}{\text{tổng quan sát}}\)
Diễn giải kết quả:
Nếu giá trị p_value < mức ý nghĩa 0.05: bác bỏ H0 ⇒ Hai biến không độc lập, có mối liên hệ.
Nếu p_value ≥ 0.05: chưa đủ chứng cứ/ thông tin/ cơ sở bác bỏ H0 ⇒ Hai biến có thể được coi là độc lập.
Giả sử bảng 2x2 được trình bày như sau:
| Biểu hiện 1 | Biểu hiện 2 | Tổng | |
|---|---|---|---|
| Nhóm 1 | a | b | a + b |
| Nhóm 2 | c | d | c + d |
| Tổng | a + c | b + d | n |
Từ bảng tần số, ta tính được \(\frac{\pi_1}{\pi_2}\), phân số này gọi là Rủi ro tương đối (Ralative Risk) - RR giữa 2 biểu hiện khác nhau của biến phụ thuộc.
Công thức tính Relative Risk
\[ RR = \frac{\pi_1}{\pi_2} = \frac{a/(a+b)}{c/(c+d)} \]
Diễn giải Relative Risk
RR = 1: Không có sự khác biệt giữa 2 nhóm
RR > 1: Nhóm 1 có nguy cơ (rủi ro) cao hơn nhóm 2
RR < 1: Nhóm 2 có nguy cơ (rủi ro) thấp hơn nhóm 1
Ví dụ:
| Bị bệnh | Không bệnh | Tổng | |
|---|---|---|---|
| Có hút thuốc | 40 | 60 | 100 |
| Không hút thuốc | 20 | 80 | 100 |
Ta có : RR = (40/100) / (20/100) = 0.4 / 0.2 = 2
Vậy kết luận rằng: Người hút thuốc có nguy cơ bị bệnh gấp 2 lần so với người không hút thuốc.
Bảng ngẫu nhiên (contingency table) là một bảng chứa tần số quan sát được phân loại theo hai hoặc nhiều biến phân loại. Ví dụ, bảng 2x2 thể hiện tần số kết hợp của hai biến (hay còn gọi là bảng tần số chéo).
a) Phân phối Poisson
Phân phối Poisson là một phân phối rời rạc, mô tả số lần một sự kiện xảy ra trong một khoảng thời gian hoặc không gian cố định khi các sự kiện xảy ra là độc lập.
Biến ngẫu nhiên X có phân phối Poisson được ký hiệu:
\[ X \sim Poisson(\lambda) \]
Hàm xác suất (Probability Mass Function - PMF):
Xác suất để biến ngẫu nhiên này nhận một giá trị cụ thể được tính bằng công thức:
\[ P(X=k) = \frac{e^{-\lambda}\lambda^k}{k!} \]
Trong đó:
\(k\): số lần sự kiện xảy ra (k = 0, 1, 2, …),
\(\lambda\): tham số của phân phối, trung bình số lần xảy ra sự kiện (\(\lambda>0\)),
\(e\): hằng số Euler (cơ số của logarit tự nhiên, \(e ≈ 2.71828\)),
\(k!\): \(k\) giai thừa (\(k×(k−1)×⋯×1\), và \(0!=1\)).
Kỳ vọng và Phương sai: Phân phối Poisson có kỳ vọng và phương sai bằng nhau
\[ \mathbb{E}[\mathbf{X}] = \lambda, \quad \text{Var}(\mathbf{X}) = \lambda \]
Phân phối Poisson trong phân tích bảng đếm
Giả sử ta có bảng 2x2, với ô \((i,j)\) \[ X_{ij} \sim \text{Poisson}(\mu_{ij}). \] Khi đó xác suất được tính bằng công thức:
\[ P(X_{ij} = k_{ij}) = \frac{\lambda_{ij}^{k_{}} e^{-\lambda_{ij}}}{k_{ij}!} \]
b) Phân phối Multinomial
Phân phối Multinomial là mở rộng của phân phối nhị thức (Binomial) sang trường hợp có nhiều hơn hai kết quả phân loại.
Giả sử:
Khi thực hiện n phép thử với một phép thử có k kết quả có thể xảy ra (mỗi phép thử giống nhau và độc lập)
Xác suất xảy ra của mỗi loại kết quả là \(p_{1},p_{2},...,p_{k}\) sao cho:
\[ \sum_{i=1}^{k} p_i = 1, \quad 0 \le p_i \le 1 \]
Khi đó biến ngẫu nhiên \(X = (X_{1},X_{2},...,X_{k})\) đếm số lần mỗi kết quả xảy ra sẽ tuân theo phân phối Multinomial:
\[ X_{ij} \sim \text{Multinomial}(n; p_{11}, \dots, p_{ij}) \]
Hàm xác suất (PMF – Probability Mass Function)
\[ P(X_1 = x_1, \dots, X_k = x_k) = \frac{n!}{x_1!x_2!\cdots x_k!} p_1^{x_1} \cdots p_k^{x_k} \]
Mối liên hệ với phân phối Poisson
Phân phối Multinomial có thể được xem là phân phối Poisson có điều kiện khi tổng số quan sát N là cố định.
Nếu \(X_{ij} \sim \text{Poisson}(\lambda{ij})\) độc lập và
\(N = \sum X_i\) thì:
\[ (X_1, \dots, X_k) | N = n \sim \text{Multinomial}(n; p_1, \dots, p_k), \quad \text{với } p_i = \frac{\lambda_i}{\sum \lambda_j} \]
Hiệu 2 tỷ lệ
Giả sử bảng ngẫu nhiên 2x2 sau:
| Thành công | Thất bại | Tổng | |
|---|---|---|---|
| Nhóm 1 (A) | a | b | a + b |
| Nhóm 2 (B) | c | d | c + d |
| Tổng | a + c | b + d | n |
Lúc này đo lường hiệu tỷ lệ thành công của 2 nhóm A, B là:
\[ \Delta_p = \hat{p}_1 - \hat{p}_2 = \frac{a}{a+b} - \frac{c}{c+d} \]
với \(\hat{p}_1\) là tỷ lệ thành công của nhóm 1 (A), và \(\hat{p}_2\) là tỷ lệ thành công của nhóm 2 (B).
Tỷ số nguy cơ - RR (Relative Risk)
Bảng 2x2 minh họa:
| Sự kiện xảy ra (Yes) | Không xảy ra (No) | Tổng | |
|---|---|---|---|
| Nhóm 1 | \(a\) | \(b\) | \(a + b\) |
| Nhóm 2 | \(c\) | \(d\) | \(c + d\) |
| Tổng | \(a + c\) | \(b + d\) | \(n\) |
\[ RR = \frac{\pi_1}{\pi_2} = \frac{a/(a+b)}{c/(c+d)} \]
Diễn giải Relative Risk
RR = 1: Không có sự khác biệt giữa 2 nhóm
RR > 1: Nhóm 1 có nguy cơ (rủi ro) cao hơn nhóm 2
RR < 1: Nhóm 2 có nguy cơ (rủi ro) thấp hơn nhóm 1
Tỷ số chênh - Odds Ratio
Odds Ratio (tỷ lệ chênh) được định nghĩa là tỷ số của 2 xác suất, giữa xác suất xảy ra sự kiện và xác suất không xảy ra sự kiện đó.
Odd (tỷ lệ cược) của biểu hiện thứ \(i\) được định nghĩa
\[ odd_i = \frac{\pi_i}{1 - \pi_i} \]
với \(\pi_i\) là xác suất xảy ra sự kiện của biểu hiện thứ \(i\) và \(1 -\pi_i\) là xác suất không xảy ra sự kiện của biểu hiện thứ \(i\)
hay
\[ odd_i = \frac{n_{i1}/n_{i+}}{1 - n_{i1}/n_{i+}} = \frac{n_{i1}}{n_{i2}} \]
\[ \theta = \frac{odd_i}{odd_j} = \frac{\frac{\pi_i}{1-\pi_i}}{\frac{\pi_j}{1-\pi_j}} \]
Diễn giải:
Nếu OR = 1, hai nhóm có tỷ lệ xảy ra sự kiện giống nhau.
Nếu OR > 1, nhóm 2 có tỷ lệ xảy ra sự kiện cao hơn nhóm 1.
Nếu OR < 1, nhóm 2 có tỷ lệ xảy ra sự kiện thấp hơn nhóm 1.
Bảng 2x2 minh họa:
| Sự kiện xảy ra (Yes) | Không xảy ra (No) | Tổng | |
|---|---|---|---|
| Nhóm 1 | \(a\) | \(b\) | \(a + b\) |
| Nhóm 2 | \(c\) | \(d\) | \(c + d\) |
| Tổng | \(a + c\) | \(b + d\) | \(n\) |
Tỷ lệ chênh Odds Ratio:
\[ \theta = \frac{a.d}{b.c} \]
Ước lượng khoảng tin cậy odd ratios:
\[ log(\hat{\theta}) - u_{\alpha/2}\times ASE(log(\hat{\theta}))\le log(\theta) \le log(\hat{\theta}) + u_{\alpha/2}\times ASE(log(\hat{\theta})) \]
với:
\(\log(\hat{\theta})\): Logarit tự nhiên của Odds Ratio ước lượng từ dữ liệu.
\(u_{\alpha/2}\): Phân vị (quantile) của phân phối chuẩn chuẩn hóa tương ứng với mức ý nghĩa \(\alpha\). Ví dụ, với mức tin cậy 95% thì \(u_{0.025}≈1.96\).
\(ASE(log(\hat{\theta}))\): Sai số chuẩn xấp xỉ của log Odds Ratio
\[ ASE(log(\hat{\theta}))=\sqrt{\frac{1}{{a}} +\frac{1}{{b}}+\frac{1}{{c}}+\frac{1}{{d}}} \]
Khoảng tin cậy cho tỷ lệ chênh - OR:
\[ CI_{OR} = \left[ e^{\log(\hat{\theta}) - u_{\alpha/2} \cdot ASE} , e^{\log(\hat{\theta}) + u_{\alpha/2} \cdot ASE} \right] \]
Một ngân hàng phân tích 200 khách hàng vay tín chấp để xem liệu thu nhập thấp có làm tăng nguy cơ vỡ nợ (không trả được nợ đúng hạn).
Bảng tần số được thể hiện như sau:
| Vỡ nợ | Không vỡ nợ | Tổng | |
|---|---|---|---|
| Thu nhập thấp | a = 50 | b = 30 | 80 |
| Thu nhập trung/bình cao | c = 20 | d = 100 | 120 |
\[ OR = \theta = \frac{a.d}{b.c} = \frac{50.100}{30.20}≈8.33 \]
Vậy khách hàng có thu nhập thấp có khả năng vỡ nợ cao hơn khoảng 8,33 lần so với người có thu nhập trung bình hoặc cao.
\(\log({\theta})=log(8.33)≈2.1203\)
Sai số chuẩn:
\[ ASE(log(\hat{\theta}))=\sqrt{\frac{1}{{a}} +\frac{1}{{b}}+\frac{1}{{c}}+\frac{1}{{d}}}=\sqrt{\frac{1}{{50}} +\frac{1}{{30}}+\frac{1}{{20}}+\frac{1}{{100}}}≈0.3365 \]
Khoảng tin cậy 95%:
\[ CI_{OR} = \left[ e^{\log(\hat{\theta}) - u_{\alpha/2} \cdot ASE} , e^{\log(\hat{\theta}) + u_{\alpha/2} \cdot ASE} \right] = \left[ e^{2.1203 - 1.96 \cdot 0.3365} , e^{2.1203 + 1.96 \cdot 0.3365} \right]= [e^{1.4608}, e^{2.7798}]=[4.31;16.12] \]
Tạo Bảng tần số chéo giữa Gender và Homeowner:
table_gen_home <- table(t$Gender, t$Homeowner)
table_gen_home
##
## N Y
## F 2826 4344
## M 2789 4100
Tính Tỷ số chênh - Odds Ratio
library(epitools)
# Tách các phần tử trong bảng
a <- table_gen_home["F", "N"]
b <- table_gen_home["F", "Y"]
c <- table_gen_home["M", "N"]
d <- table_gen_home["M", "Y"]
# Tính OR
OR <- (a * d) / (b * c)
OR
## [1] 0.9563518
Kết quả OR = 1.47 > 1, nghĩa là nữ giới có tỷ lệ odds không sở hữu nhà cao hơn 1,47 lần so với nam giới.
Ước lượng khoảng tin cậy 95%
# Log(OR)
logOR <- log(OR)
# Sai số chuẩn của log(OR)
ASE <- sqrt(1/a + 1/b + 1/c + 1/d)
# Khoảng tin cậy 95% cho log(OR)
lower_log <- logOR - 1.96 * ASE
upper_log <- logOR + 1.96 * ASE
# Chuyển về thang OR
CI_lower <- exp(lower_log)
CI_upper <- exp(upper_log)
# In kết quả
c(CI_lower, CI_upper)
## [1] 0.8939162 1.0231482
Với khoảng tin cậy 95%, OR = [1.38; 1.57], ta có thể nói rằng odds của việc không sở hữu nhà ở nhóm Nữ cao hơn khoảng 1.38 đến 1.57 lần so với nhóm Nam