Bài tập tuần 3

1. Ôn lại kiến thức tuần 2

1.1. Ý nghĩa của kiểm định Chi - bình phương về tính độc lập

Ý nghĩa: Kiểm định Chi - bình phương dùng để kiểm định mối quan hệ giữa hai biến phân loại (độc lập hay không).

Có 2 biến định tính X, Y, lập bảng tần số cho 2 biến này.

Giả thuyết thống kê:

Giả thuyết H0: Hai biến X, Y độc lập (không có mối liên hệ)
Giả thuyết H1: Hai biến X, Y không độc lập (có mối liên hệ)

Giá trị kiểm định Chi - bình phương: \[ \chi^2 = \sum_{i,j} \frac{(O_{ij} - E_{ij})^2}{E_{ij}} \]

trong đó:

\(O_{ij}\) là tần số quan sát của ô ở vị trí hàng \(i\), cột \(j\);
\(E_{ij}\) là tần số kỳ vọng với \(E_{ij} = \frac{\text{tổng hàng } i \times \text{tổng cột } j}{\text{tổng quan sát}}\)

Diễn giải kết quả:

Nếu giá trị p_value < mức ý nghĩa 0.05: bác bỏ H0 ⇒ Hai biến không độc lập, có mối liên hệ.
Nếu p_value ≥ 0.05: chưa đủ chứng cứ/ thông tin/ cơ sở bác bỏ H0 ⇒ Hai biến có thể được coi là độc lập.

1.2. Cách tính và diễn giải Relative Risk

Giả sử bảng 2x2 được trình bày như sau:

	Biểu hiện 1	Biểu hiện 2	Tổng
Nhóm 1	a	b	a + b
Nhóm 2	c	d	c + d
Tổng	a + c	b + d	n

Từ bảng tần số, ta tính được \(\frac{\pi_1}{\pi_2}\), phân số này gọi là Rủi ro tương đối (Ralative Risk) - RR giữa 2 biểu hiện khác nhau của biến phụ thuộc.

Công thức tính Relative Risk

\[ RR = \frac{\pi_1}{\pi_2} = \frac{a/(a+b)}{c/(c+d)} \]

Diễn giải Relative Risk

RR = 1: Không có sự khác biệt giữa 2 nhóm
RR > 1: Nhóm 1 có nguy cơ (rủi ro) cao hơn nhóm 2
RR < 1: Nhóm 2 có nguy cơ (rủi ro) thấp hơn nhóm 1

Ví dụ:

	Bị bệnh	Không bệnh	Tổng
Có hút thuốc	40	60	100
Không hút thuốc	20	80	100

Ta có : RR = (40/100) / (20/100) = 0.4 / 0.2 = 2

Vậy kết luận rằng: Người hút thuốc có nguy cơ bị bệnh gấp 2 lần so với người không hút thuốc.

2. Tìm hiểu về các nội dung của chương 2

2.1. Cấu trúc xác suất của bảng ngẫu nhiên

Bảng ngẫu nhiên (contingency table) là một bảng chứa tần số quan sát được phân loại theo hai hoặc nhiều biến phân loại. Ví dụ, bảng 2x2 thể hiện tần số kết hợp của hai biến (hay còn gọi là bảng tần số chéo).

a) Phân phối Poisson

Phân phối Poisson là một phân phối rời rạc, mô tả số lần một sự kiện xảy ra trong một khoảng thời gian hoặc không gian cố định khi các sự kiện xảy ra là độc lập.

Biến ngẫu nhiên X có phân phối Poisson được ký hiệu:

\[ X \sim Poisson(\lambda) \]

Hàm xác suất (Probability Mass Function - PMF):

Xác suất để biến ngẫu nhiên này nhận một giá trị cụ thể được tính bằng công thức:

\[ P(X=k) = \frac{e^{-\lambda}\lambda^k}{k!} \]

Trong đó:

\(k\): số lần sự kiện xảy ra (k = 0, 1, 2, …),
\(\lambda\): tham số của phân phối, trung bình số lần xảy ra sự kiện (\(\lambda>0\)),
\(e\): hằng số Euler (cơ số của logarit tự nhiên, \(e ≈ 2.71828\)),
\(k!\): \(k\) giai thừa (\(k×(k−1)×⋯×1\), và \(0!=1\)).

Kỳ vọng và Phương sai: Phân phối Poisson có kỳ vọng và phương sai bằng nhau

\[ \mathbb{E}[\mathbf{X}] = \lambda, \quad \text{Var}(\mathbf{X}) = \lambda \]

Phân phối Poisson trong phân tích bảng đếm

Giả sử ta có bảng 2x2, với ô \((i,j)\) \[ X_{ij} \sim \text{Poisson}(\mu_{ij}). \] Khi đó xác suất được tính bằng công thức:

\[ P(X_{ij} = k_{ij}) = \frac{\lambda_{ij}^{k_{}} e^{-\lambda_{ij}}}{k_{ij}!} \]

b) Phân phối Multinomial

Phân phối Multinomial là mở rộng của phân phối nhị thức (Binomial) sang trường hợp có nhiều hơn hai kết quả phân loại.

Giả sử:

Khi thực hiện n phép thử với một phép thử có k kết quả có thể xảy ra (mỗi phép thử giống nhau và độc lập)
Xác suất xảy ra của mỗi loại kết quả là \(p_{1},p_{2},...,p_{k}\) sao cho:

\[ \sum_{i=1}^{k} p_i = 1, \quad 0 \le p_i \le 1 \]

Khi đó biến ngẫu nhiên \(X = (X_{1},X_{2},...,X_{k})\) đếm số lần mỗi kết quả xảy ra sẽ tuân theo phân phối Multinomial:

\[ X_{ij} \sim \text{Multinomial}(n; p_{11}, \dots, p_{ij}) \]

Hàm xác suất (PMF – Probability Mass Function)

\[ P(X_1 = x_1, \dots, X_k = x_k) = \frac{n!}{x_1!x_2!\cdots x_k!} p_1^{x_1} \cdots p_k^{x_k} \]

Mối liên hệ với phân phối Poisson

Phân phối Multinomial có thể được xem là phân phối Poisson có điều kiện khi tổng số quan sát N là cố định.

Nếu \(X_{ij} \sim \text{Poisson}(\lambda{ij})\) độc lập và

\(N = \sum X_i\) thì:

\[ (X_1, \dots, X_k) | N = n \sim \text{Multinomial}(n; p_1, \dots, p_k), \quad \text{với } p_i = \frac{\lambda_i}{\sum \lambda_j} \]

2.2. So sánh 2 tỷ lệ trong bảng ngẫu nhiên 2x2

Hiệu 2 tỷ lệ

Giả sử bảng ngẫu nhiên 2x2 sau:

	Thành công	Thất bại	Tổng
Nhóm 1 (A)	a	b	a + b
Nhóm 2 (B)	c	d	c + d
Tổng	a + c	b + d	n

Lúc này đo lường hiệu tỷ lệ thành công của 2 nhóm A, B là:

Hiệu 2 tỷ lệ được tính là:

\[ \Delta_p = \hat{p}_1 - \hat{p}_2 = \frac{a}{a+b} - \frac{c}{c+d} \]

với \(\hat{p}_1\) là tỷ lệ thành công của nhóm 1 (A), và \(\hat{p}_2\) là tỷ lệ thành công của nhóm 2 (B).

Ý nghĩa: Hiệu hai tỷ lệ (difference in proportions) là phép đo chênh lệch giữa xác suất xảy ra một hiện tượng trong hai nhóm độc lập, cho biết xác suất xảy ra một sự kiện giữa 2 nhóm khác nhau.

Tỷ số nguy cơ - RR (Relative Risk)

Bảng 2x2 minh họa:

	Sự kiện xảy ra (Yes)	Không xảy ra (No)	Tổng
Nhóm 1	\(a\)	\(b\)	\(a + b\)
Nhóm 2	\(c\)	\(d\)	\(c + d\)
Tổng	\(a + c\)	\(b + d\)	\(n\)

Công thức tính Relative Risk

\[ RR = \frac{\pi_1}{\pi_2} = \frac{a/(a+b)}{c/(c+d)} \]

Diễn giải Relative Risk
RR = 1: Không có sự khác biệt giữa 2 nhóm
RR > 1: Nhóm 1 có nguy cơ (rủi ro) cao hơn nhóm 2
RR < 1: Nhóm 2 có nguy cơ (rủi ro) thấp hơn nhóm 1

Tỷ số chênh - Odds Ratio

Odds Ratio (tỷ lệ chênh) được định nghĩa là tỷ số của 2 xác suất, giữa xác suất xảy ra sự kiện và xác suất không xảy ra sự kiện đó.

Odd (tỷ lệ cược) của biểu hiện thứ \(i\) được định nghĩa

\[ odd_i = \frac{\pi_i}{1 - \pi_i} \]

với \(\pi_i\) là xác suất xảy ra sự kiện của biểu hiện thứ \(i\) và \(1 -\pi_i\) là xác suất không xảy ra sự kiện của biểu hiện thứ \(i\)

hay

\[ odd_i = \frac{n_{i1}/n_{i+}}{1 - n_{i1}/n_{i+}} = \frac{n_{i1}}{n_{i2}} \]

Tỷ lệ chênh (Odds ratio) được định nghĩa như sau:

\[ \theta = \frac{odd_i}{odd_j} = \frac{\frac{\pi_i}{1-\pi_i}}{\frac{\pi_j}{1-\pi_j}} \]

Diễn giải:
- Nếu OR = 1, hai nhóm có tỷ lệ xảy ra sự kiện giống nhau.
- Nếu OR > 1, nhóm 2 có tỷ lệ xảy ra sự kiện cao hơn nhóm 1.
- Nếu OR < 1, nhóm 2 có tỷ lệ xảy ra sự kiện thấp hơn nhóm 1.

2.3. Khoảng tin cậy cho các tham số đo mối liên hệ

Bảng 2x2 minh họa:

	Sự kiện xảy ra (Yes)	Không xảy ra (No)	Tổng
Nhóm 1	\(a\)	\(b\)	\(a + b\)
Nhóm 2	\(c\)	\(d\)	\(c + d\)
Tổng	\(a + c\)	\(b + d\)	\(n\)

Tỷ lệ chênh Odds Ratio:

\[ \theta = \frac{a.d}{b.c} \]

Ước lượng khoảng tin cậy odd ratios:

\[ log(\hat{\theta}) - u_{\alpha/2}\times ASE(log(\hat{\theta}))\le log(\theta) \le log(\hat{\theta}) + u_{\alpha/2}\times ASE(log(\hat{\theta})) \]

với:

\(\log(\hat{\theta})\): Logarit tự nhiên của Odds Ratio ước lượng từ dữ liệu.
\(u_{\alpha/2}\): Phân vị (quantile) của phân phối chuẩn chuẩn hóa tương ứng với mức ý nghĩa \(\alpha\). Ví dụ, với mức tin cậy 95% thì \(u_{0.025}≈1.96\).
\(ASE(log(\hat{\theta}))\): Sai số chuẩn xấp xỉ của log Odds Ratio
- Công thức sai số xấp xỉ:
\[ ASE(log(\hat{\theta}))=\sqrt{\frac{1}{{a}} +\frac{1}{{b}}+\frac{1}{{c}}+\frac{1}{{d}}} \]

Khoảng tin cậy cho tỷ lệ chênh - OR:

\[ CI_{OR} = \left[ e^{\log(\hat{\theta}) - u_{\alpha/2} \cdot ASE} , e^{\log(\hat{\theta}) + u_{\alpha/2} \cdot ASE} \right] \]

2.4. Ví dụ sử dụng Odds Ratio để mô tả mối liên hệ

Một ngân hàng phân tích 200 khách hàng vay tín chấp để xem liệu thu nhập thấp có làm tăng nguy cơ vỡ nợ (không trả được nợ đúng hạn).

Bảng tần số được thể hiện như sau:

	Vỡ nợ	Không vỡ nợ	Tổng
Thu nhập thấp	a = 50	b = 30	80
Thu nhập trung/bình cao	c = 20	d = 100	120

Tính Odds Ratio (OR)

\[ OR = \theta = \frac{a.d}{b.c} = \frac{50.100}{30.20}≈8.33 \]

Vậy khách hàng có thu nhập thấp có khả năng vỡ nợ cao hơn khoảng 8,33 lần so với người có thu nhập trung bình hoặc cao.

Tính khoảng tin cậy 95% cho tỷ lệ chênh OR

\(\log({\theta})=log(8.33)≈2.1203\)

Sai số chuẩn:

\[ ASE(log(\hat{\theta}))=\sqrt{\frac{1}{{a}} +\frac{1}{{b}}+\frac{1}{{c}}+\frac{1}{{d}}}=\sqrt{\frac{1}{{50}} +\frac{1}{{30}}+\frac{1}{{20}}+\frac{1}{{100}}}≈0.3365 \]

Khoảng tin cậy 95%:

\[ CI_{OR} = \left[ e^{\log(\hat{\theta}) - u_{\alpha/2} \cdot ASE} , e^{\log(\hat{\theta}) + u_{\alpha/2} \cdot ASE} \right] = \left[ e^{2.1203 - 1.96 \cdot 0.3365} , e^{2.1203 + 1.96 \cdot 0.3365} \right]= [e^{1.4608}, e^{2.7798}]=[4.31;16.12] \]

3. Suy nghĩ về bộ dữ liệu “Supermarket Transactions”

Tạo Bảng tần số chéo giữa Gender và Homeowner:

table_gen_home <- table(t$Gender, t$Homeowner)
table_gen_home

##    
##        N    Y
##   F 2826 4344
##   M 2789 4100

Tính Tỷ số chênh - Odds Ratio

library(epitools)

# Tách các phần tử trong bảng
a <- table_gen_home["F", "N"]
b <- table_gen_home["F", "Y"]
c <- table_gen_home["M", "N"]
d <- table_gen_home["M", "Y"]

# Tính OR
OR <- (a * d) / (b * c)
OR

## [1] 0.9563518

Kết quả OR = 1.47 > 1, nghĩa là nữ giới có tỷ lệ odds không sở hữu nhà cao hơn 1,47 lần so với nam giới.

Ước lượng khoảng tin cậy 95%

# Log(OR)
logOR <- log(OR)

# Sai số chuẩn của log(OR)
ASE <- sqrt(1/a + 1/b + 1/c + 1/d)

# Khoảng tin cậy 95% cho log(OR)
lower_log <- logOR - 1.96 * ASE
upper_log <- logOR + 1.96 * ASE

# Chuyển về thang OR
CI_lower <- exp(lower_log)
CI_upper <- exp(upper_log)

# In kết quả
c(CI_lower, CI_upper)

## [1] 0.8939162 1.0231482

Với khoảng tin cậy 95%, OR = [1.38; 1.57], ta có thể nói rằng odds của việc không sở hữu nhà ở nhóm Nữ cao hơn khoảng 1.38 đến 1.57 lần so với nhóm Nam