YÊU CẦU VÀ HOẠT ĐỘNG TUẦN 3: Đào sâu Suy diễn Thống
kê trong Bảng Ngẫu nhiên và Giới thiệu về Mối liên hệ Phức tạp.
A. Đọc và Chuẩn bị trước buổi học
2. Tìm hiểu về các nội dung sau của Chương 2
2.1 Cấu trúc xác suất của bảng ngẫu nhiên
Bảng ngẫu nhiên
Bảng ngẫu nhiên (contingency table) là cách tổ chức dữ liệu dùng để
trình bày số đếm (frequencies) của các tổ hợp xảy ra giữa hai hay nhiều
biến phân loại. Mỗi ô trong bảng thể hiện số quan sát tương ứng với một
kết hợp cụ thể giữa các biến.
- Ví dụ, một bảng 2 chiều giữa giới tính (nam/nữ) và tình trạng bệnh
(có/không) sẽ có 4 ô tương ứng với từng kết hợp giữa các mức của hai
biến.
Phân phối Poisson
Sẽ sử dụng khi:
Các số đếm là kết quả của các quá trình độc lập, số đếm từng ô
không bị ràng buộc tổng hàng/cột.
Không cố định tổng số quan sát.
Thường dùng trong mô hình log-linear và dữ liệu đếm theo thời
gian/không gian
Công thức:
\[
N_{ij} \sim \mathrm{Poisson}(\mu_{ij})
\]
| Ký hiệu |
Ý nghĩa |
| \(N_{ij}\) |
Số đếm ở ô hàng \(i\), cột \(j\), được sinh ra độc lập |
| \(\mu_{ij}\) |
Kỳ vọng của số đếm tại ô \((i,j)\)
– trung bình lý thuyết của phân phối Poisson |
Ý nghĩa
Mỗi ô trong bảng là một biến Poisson độc lập.
Dữ liệu thường đến từ quá trình đếm tự nhiên: tai nạn,
ca bệnh, sự kiện,…
Không cần tổng số đếm phải cố định → các ô độc lập với
nhau.
Hàm xác suất (PMF)
\[
P(N_{ij} = n_{ij}) = \frac{e^{-\mu_{ij}} \mu_{ij}^{n_{ij}}}{n_{ij}!}
\]
- Tổng xác suất liên hợp cho toàn bảng
\[
P(\{n_{ij}\}) = \prod_{i,j} \frac{e^{-\mu_{ij}}
\mu_{ij}^{n_{ij}}}{n_{ij}!}
\]
Phân phối Multinomial
\[
(N_{11}, N_{12}, \ldots, N_{rc}) \sim \mathrm{Multinomial}\left(n,
\{p_{ij}\}\right)
\]
| Ký hiệu |
Ý nghĩa |
| \(N_{ij}\) |
Số quan sát ở ô hàng \(i\), cột
\(j\) của bảng ngẫu nhiên |
| \(n\) |
Tổng số mẫu: \(n = \sum_{i=1}^{r}
\sum_{j=1}^{c} N_{ij}\) |
| \(p_{ij}\) |
Xác suất một quan sát rơi vào ô \((i,j)\), với \(\sum_{i,j} p_{ij} = 1\) |
Ý nghĩa
Phù hợp với dữ liệu dạng lựa chọn phân loại, rút mẫu có tổng cố
định.
Các ô trong bảng có phụ thuộc lẫn nhau, vì tổng \(n\) là cố định.
Mỗi mẫu quan sát rơi vào một trong các ô, với xác suất \(p_{ij}\).
Hàm xác suất (PMF)
\[
P(n_{ij}) = \frac{n!}{\prod_{i,j} n_{ij}!} \prod_{i,j} p_{ij}^{n_{ij}}
\]
Mối liên hệ giữa Poisson và Multinomial
Nếu:
Thì:
\[
(N_{ij} \mid N = n) \sim \mathrm{Multinomial}\left(n, p_{ij} =
\frac{\mu_{ij}}{\sum \mu_{ij}}\right)
\]
Diễn giải
Nếu bạn lấy các đếm Poisson rồi điều kiện hóa theo tổng
số đếm cố định, bạn thu được một phân phối Multinomial.
Tức là: Multinomial là trường hợp đặc biệt của Poisson khi
tổng được ràng buộc.
Mô hình log-tuyến tính (log-linear model)
Dùng để mô hình hóa mối liên hệ giữa các biến phân loại:
\[
\log(\mu_{ij}) = \lambda + \lambda^{(R)}_i + \lambda^{(C)}_j +
\lambda^{(RC)}_{ij}
\]
| Ký hiệu |
Ý nghĩa |
| \(\lambda\) |
Hằng số tổng quát (intercept) |
| \(\lambda^{(R)}_i\) |
Hiệu ứng biến hàng (ví dụ: giới tính) |
| \(\lambda^{(C)}_j\) |
Hiệu ứng biến cột (ví dụ: tình trạng bệnh) |
| \(\lambda^{(RC)}_{ij}\) |
Tương tác giữa hàng và cột (mức độ phụ thuộc giữa 2 biến) |
Ý nghĩa
Cho phép kiểm định độc lập (khi bỏ \(\lambda^{(RC)}_{ij}\)).
Có thể mở rộng cho bảng 3 chiều, 4 chiều,…
Thường được ước lượng bằng mô hình GLM với link log.
Tổng kết bảng so sánh
| Đặc điểm |
Multinomial |
Poisson |
| Tổng số đếm |
Cố định \(n\) |
Không cố định |
| Quan hệ giữa các ô |
Phụ thuộc |
Độc lập |
| Dữ liệu phù hợp |
Rút mẫu, khảo sát |
Dữ liệu đếm tự nhiên |
| Phân tích tương tác |
Giới hạn |
Linh hoạt với log-linear |
| Công thức mô hình |
\(\text{Multinomial}(n,
\{p_{ij}\})\) |
\(\text{Poisson}(\mu_{ij})\) |
| Khi điều kiện hóa tổng |
— |
Cho ra phân phối Multinomial |
2.2 So sánh 2 tỷ lệ trong bảng ngẫu nhiên 2x2
Giả sử một bảng 2x2 được trình bày như sau:
|
Kết quả (+) |
Kết quả (–) |
Tổng |
| Nhóm 1 |
\(a\) |
\(b\) |
\(a+b\) |
| Nhóm 2 |
\(c\) |
\(d\) |
\(c+d\) |
| Tổng |
\(a+c\) |
\(b+d\) |
\(n\) |
Đây là dạng bảng thường dùng để so sánh xác suất thành công, rủi ro,
hoặc phản hồi tích cực giữa hai nhóm.
Hiệu hai tỷ lệ
\[
\Delta p = \frac{a}{a+b} - \frac{c}{c+d}
\]
Ý nghĩa:
Là mức chênh lệch tuyệt đối giữa hai tỷ lệ thành công ở
hai nhóm.
Nếu \(\Delta p > 0\), nhóm 1
có tỷ lệ thành công cao hơn nhóm 2.
Đơn giản và dễ diễn giải, thích hợp khi tập trung vào sự khác
biệt thực tế (absolute difference), thay vì tỷ lệ tương
đối.
Tỷ số nguy cơ - Relative Risk
\[
RR = \frac{a / (a+b)}{c / (c+d)}
\]
Ý nghĩa:
Đo mức tăng (hoặc giảm) nguy cơ của nhóm 1 so với nhóm
2.
\(RR = 1\): Không có khác biệt
nguy cơ.
\(RR > 1\): Nhóm 1 có nguy cơ
cao hơn.
\(RR < 1\): Nhóm 1 có nguy cơ
thấp hơn.
Tỷ số chênh - Odds Ratio
\[
OR = \frac{a/b}{c/d} = \frac{ad}{bc}
\]
Ý nghĩa:
So sánh cơ hội xảy ra sự kiện giữa hai nhóm.
\(OR = 1\): Không có liên
hệ.
\(OR > 1\): Nhóm 1 có cơ hội
cao hơn.
\(OR < 1\): Nhóm 1 có cơ hội
thấp hơn.
Lưu ý:
2.3 Khoảng tin cậy cho các tham số đo mối liên hệ
Công thức:
Tính trên log(OR):
\[
\log(OR) \pm Z_{\alpha/2} \cdot \sqrt{ \frac{1}{a} + \frac{1}{b} +
\frac{1}{c} + \frac{1}{d} }
\]
Sau đó lấy mũ để trở lại OR:
\[
CI_{OR} = \left( e^{L},\ e^{U} \right)
\]
Trong đó:
\(L = \log(OR) - Z_{\alpha/2} \cdot
SE\)
\(U = \log(OR) + Z_{\alpha/2} \cdot
SE\)
\(SE = \sqrt{ \frac{1}{a} + \frac{1}{b}
+ \frac{1}{c} + \frac{1}{d} }\)
Với mức tin cậy 95%, \(Z_{\alpha/2} =
1.96\)
2.4 Ví dụ
Một doanh nghiệp khảo sát tỷ lệ khách hàng gửi lại đánh giá sản phẩ
(feedback)m. Kết quả:
|
Mua hàng |
Không mua |
Tổng |
| Nhóm đánh giá (Nhóm 1) |
40 |
60 |
100 |
| Nhóm không đánh giá (Nhóm 2) |
20 |
80 |
100 |
2.5 Tổng kết
| Chỉ số |
Công thức |
Ý nghĩa chính |
Ưu điểm |
Ứng dụng phổ biến |
| Hiệu tỷ lệ |
\(p_1 - p_2\) |
So sánh tuyệt đối giữa hai tỷ lệ |
Trực quan, dễ hiểu |
So sánh đơn giản |
| RR |
\(\frac{p_1}{p_2}\) |
So sánh xác suất giữa hai nhóm |
Diễn giải tự nhiên |
Nghiên cứu y học, marketing |
| OR |
\(\frac{ad}{bc}\) |
So sánh odds giữa hai nhóm |
Áp dụng linh hoạt trong hồi quy |
Hồi quy logistic, phân tích rủi ro |
3. Suy nghĩ về bộ dữ liệu “Supermarket
Transactions”
3.1 Đọc bộ dữ liệu
library(csv)
## Warning: package 'csv' was built under R version 4.3.3
data <- read.csv("C:/Users/HP/Downloads/Supermarket Transactions.csv", header = T)
3.2 Các bước thực hiện
B1: Tạo bảng chéo giữa Gender và Homeowner
table_gender_home <- table(data$Gender, data$Homeowner)
table_gender_home
##
## N Y
## F 2826 4344
## M 2789 4100
B2: Tính Odds Ratio (tỷ số chênh)
a <- table_gender_home["F", "Y"]
b <- table_gender_home["F", "N"]
c <- table_gender_home["M", "Y"]
d <- table_gender_home["M", "N"]
OR <- (a * d) / (b * c)
OR
## [1] 1.04564
B3: Tính khoảng tin cậy cho OR
log_OR <- log(OR)
SE <- sqrt(1/a + 1/b + 1/c + 1/d)
# 95% CI
z <- 1.96
CI_lower <- exp(log_OR - z * SE)
CI_upper <- exp(log_OR + z * SE)
c(CI_lower, CI_upper)
## [1] 0.9773755 1.1186731
Diễn giải
OR = 1.045 > 1 cho thấy tỷ số chênh (odds ratio) về khả năng
sở hữu nhà của Nữ cao hơn một chút so với Nam.
Nói cách khác, trong tập dữ liệu khách hàng này, là Nữ có liên
quan đến việc tăng nhẹ odds sở hữu nhà so với Nam. Cụ thể, odds sở hữu
nhà của Nữ cao hơn khoảng 4.5% so với Nam, nếu giữ các yếu tố khác không
đổi.
Tuy nhiên, mức chênh lệch này là rất nhỏ và chưa đủ để kết luận
chắc chắn về sự khác biệt giữa hai nhóm.
Khi xét đến khoảng tin cậy 95% của OR (khoảng từ ~0.977 đến
~1.118), ta thấy khoảng này chứa giá trị 1, điều đó có nghĩa là kết quả
không có ý nghĩa thống kê ở mức tin cậy 95%.
Tóm lại, mặc dù OR > 1 cho thấy xu hướng odds sở hữu nhà của
Nữ cao hơn Nam, kết luận này không có ý nghĩa thống kê. Sự khác biệt nhỏ
có thể chỉ là do ngẫu nhiên trong mẫu quan sát. Do đó, không có bằng
chứng đủ mạnh để khẳng định rằng việc là Nữ (so với Nam) làm tăng hoặc
giảm odds của việc sở hữu nhà trong bộ dữ liệu này.
=> Kết luận: Trong phạm vi dữ liệu hiện tại, giới tính không phải
là yếu tố quyết định đến việc sở hữu nhà — odds gần như tương đương nhau
giữa Nam và Nữ.
3.3 GENDER VÀ MARITALSTATUS
Tạo bảng chéo
# Tạo bảng chéo giữa Gender và MaritalStatus
table_gender_marital <- table(data$Gender, data$MaritalStatus)
addmargins(table_gender_marital) # Thêm hàng và cột tổng
##
## M S Sum
## F 3602 3568 7170
## M 3264 3625 6889
## Sum 6866 7193 14059
Tính toán Relative Risk
# Trích xuất số liệu từ bảng chéo
A <- table_gender_marital["F","S"] # nữ độc thân
B <- table_gender_marital["F","M"] # nữ kết hôn
C <- table_gender_marital["M","S"] # nam độc thân
D <- table_gender_marital["M","M"] # nam kết hôn
# Tính RR
RR <- (A/(A+B))/(C/(C+D))
RR
## [1] 0.945701
# Trong đó: A/(A+B) là tỷ lệ phụ nữ độc thân trong tổng số nữ
# Và: C/(C+D) là tỷ lệ nam giới độc thân trong tổng số nam
Ý nghĩa
- RR = 1: Không có sự khác biệt về tỷ lệ độc thân giữa hai giới
tính.
- RR > 1: Nam giới có tỷ lệ độc thân cao hơn phụ nữ.
- RR < 1: Phụ nữ có tỷ lệ độc thân cao hơn nam giới.
Nhận xét
- Tỷ lệ phụ nữ độc thân bằng khoảng 94.57% tỷ lệ nam giới độc thân.
Điều này cho thấy không có sự khác biệt lớn về tỷ lệ độc thân giữa hai
giới tính trong dữ liệu.
install.packages("epitools", repos = "https://cran.rstudio.com/")
## Installing package into 'C:/Users/HP/AppData/Local/R/win-library/4.3'
## (as 'lib' is unspecified)
## package 'epitools' successfully unpacked and MD5 sums checked
##
## The downloaded binary packages are in
## C:\Users\HP\AppData\Local\Temp\Rtmp6jFrrt\downloaded_packages
library(epitools)
riskratio(table_gender_marital, method="wald")
## $data
##
## M S Total
## F 3602 3568 7170
## M 3264 3625 6889
## Total 6866 7193 14059
##
## $measure
## risk ratio with 95% C.I.
## estimate lower upper
## F 1.000000 NA NA
## M 1.057417 1.023813 1.092123
##
## $p.value
## two-sided
## midp.exact fisher.exact chi.square
## F NA NA NA
## M 0.0007045092 0.0007373895 0.0007038837
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"
# Chỉ định phương pháp tính khoảng tin cậy (confidence interval) cho Risk Ratio.
# "wald" là phương pháp sử dụng ước lượng Wald, giả định phân phối chuẩn, để tính khoảng tin cậy.
Nhận xét
---
title: "Nhiem Vu 3"
author: "Hieu Vo"
date: "`r format(Sys.time(), '%H:%M:%S, %d - %m - %Y')`"
output:
  html_document:
    code_download: true
    code_folding: hide
    toc_float: true
    toc: true
    df_print: kable
---

```{r setup, include=FALSE}
knitr::opts_chunk$set(echo = TRUE)
```


**YÊU CẦU VÀ HOẠT ĐỘNG TUẦN 3:** Đào sâu Suy diễn Thống kê trong Bảng Ngẫu nhiên và Giới thiệu về Mối liên hệ Phức tạp.


# ***A. Đọc và Chuẩn bị trước buổi học***

## **2. Tìm hiểu về các nội dung sau của Chương 2**

### **2.1 Cấu trúc xác suất của bảng ngẫu nhiên**

#### *Bảng ngẫu nhiên*

Bảng ngẫu nhiên (contingency table) là cách tổ chức dữ liệu dùng để trình bày số đếm (frequencies) của các tổ hợp xảy ra giữa hai hay nhiều biến phân loại. Mỗi ô trong bảng thể hiện số quan sát tương ứng với một kết hợp cụ thể giữa các biến.

- Ví dụ, một bảng 2 chiều giữa giới tính (nam/nữ) và tình trạng bệnh (có/không) sẽ có 4 ô tương ứng với từng kết hợp giữa các mức của hai biến.

---

#### *Phân phối Poisson*

- Sẽ sử dụng khi:

   - Các số đếm là kết quả của các quá trình độc lập, số đếm từng ô không bị ràng buộc tổng hàng/cột.

   - Không cố định tổng số quan sát.

   - Thường dùng trong mô hình log-linear và dữ liệu đếm theo thời gian/không gian

- Công thức:

$$
N_{ij} \sim \mathrm{Poisson}(\mu_{ij})
$$

- *Thành phần:*

| Ký hiệu | Ý nghĩa |
|--------|--------|
| \(N_{ij}\) | Số đếm ở ô hàng \(i\), cột \(j\), được sinh ra độc lập |
| \(\mu_{ij}\) | Kỳ vọng của số đếm tại ô \( (i,j) \) – trung bình lý thuyết của phân phối Poisson |

- Ý nghĩa

   - Mỗi ô trong bảng là một *biến Poisson độc lập*.
   
   - Dữ liệu thường đến từ *quá trình đếm tự nhiên*: tai nạn, ca bệnh, sự kiện,...
   
   - Không cần tổng số đếm phải cố định → *các ô độc lập với nhau*.

- Hàm xác suất (PMF)

$$
P(N_{ij} = n_{ij}) = \frac{e^{-\mu_{ij}} \mu_{ij}^{n_{ij}}}{n_{ij}!}
$$

- *Tổng xác suất liên hợp cho toàn bảng*

$$
P(\{n_{ij}\}) = \prod_{i,j} \frac{e^{-\mu_{ij}} \mu_{ij}^{n_{ij}}}{n_{ij}!}
$$

---

#### *Phân phối Multinomial*

- *Công thức*

$$
(N_{11}, N_{12}, \ldots, N_{rc}) \sim \mathrm{Multinomial}\left(n, \{p_{ij}\}\right)
$$

- Thành phần

| Ký hiệu | Ý nghĩa |
|--------|--------|
| \(N_{ij}\) | Số quan sát ở ô hàng \(i\), cột \(j\) của bảng ngẫu nhiên |
| \(n\) | Tổng số mẫu: \(n = \sum_{i=1}^{r} \sum_{j=1}^{c} N_{ij}\) |
| \(p_{ij}\) | Xác suất một quan sát rơi vào ô \( (i,j) \), với \( \sum_{i,j} p_{ij} = 1 \) |

- Ý nghĩa

   - Phù hợp với dữ liệu dạng lựa chọn phân loại, rút mẫu có tổng cố định.

   - Các ô trong bảng có *phụ thuộc lẫn nhau*, vì tổng \(n\) là cố định.

   - Mỗi mẫu quan sát rơi vào một trong các ô, với xác suất \(p_{ij}\).

- Hàm xác suất (PMF)

$$
P(n_{ij}) = \frac{n!}{\prod_{i,j} n_{ij}!} \prod_{i,j} p_{ij}^{n_{ij}}
$$

---

#### *Mối liên hệ giữa Poisson và Multinomial*

Nếu:

- Mỗi ô \( N_{ij} \sim \mathrm{Poisson}(\mu_{ij}) \)

- Và tổng \( N = \sum_{i,j} N_{ij} = n \) được cố định

Thì:

$$
(N_{ij} \mid N = n) \sim \mathrm{Multinomial}\left(n, p_{ij} = \frac{\mu_{ij}}{\sum \mu_{ij}}\right)
$$

- Diễn giải

   - Nếu bạn lấy các đếm Poisson rồi *điều kiện hóa* theo tổng số đếm cố định, bạn thu được một phân phối Multinomial.
   
   - Tức là: *Multinomial là trường hợp đặc biệt của Poisson khi tổng được ràng buộc*.

---

#### *Mô hình log-tuyến tính (log-linear model)*

Dùng để *mô hình hóa mối liên hệ giữa các biến phân loại*:

- Mô hình log tuyến tính

$$
\log(\mu_{ij}) = \lambda + \lambda^{(R)}_i + \lambda^{(C)}_j + \lambda^{(RC)}_{ij}
$$

- Thành phần:

| Ký hiệu | Ý nghĩa |
|--------|--------|
| \(\lambda\) | Hằng số tổng quát (intercept) |
| \(\lambda^{(R)}_i\) | Hiệu ứng biến hàng (ví dụ: giới tính) |
| \(\lambda^{(C)}_j\) | Hiệu ứng biến cột (ví dụ: tình trạng bệnh) |
| \(\lambda^{(RC)}_{ij}\) | Tương tác giữa hàng và cột (mức độ phụ thuộc giữa 2 biến) |

- Ý nghĩa

   - Cho phép kiểm định độc lập (khi bỏ \( \lambda^{(RC)}_{ij} \)).

   - Có thể mở rộng cho bảng 3 chiều, 4 chiều,...

   - Thường được ước lượng bằng mô hình GLM với link log.

---

#### Tổng kết bảng so sánh

| Đặc điểm | Multinomial | Poisson |
|----------|-------------|---------|
| Tổng số đếm | Cố định \(n\) | Không cố định |
| Quan hệ giữa các ô | Phụ thuộc | Độc lập |
| Dữ liệu phù hợp | Rút mẫu, khảo sát | Dữ liệu đếm tự nhiên |
| Phân tích tương tác | Giới hạn | Linh hoạt với log-linear |
| Công thức mô hình | \(\text{Multinomial}(n, \{p_{ij}\})\) | \(\text{Poisson}(\mu_{ij})\) |
| Khi điều kiện hóa tổng | — | Cho ra phân phối Multinomial |

---

### *2.2 So sánh 2 tỷ lệ trong bảng ngẫu nhiên 2x2*

Giả sử một bảng 2x2 được trình bày như sau:

|               | Kết quả (+) | Kết quả (–) | Tổng     |
|---------------|-------------|-------------|----------|
| Nhóm 1        | \(a\)       | \(b\)       | \(a+b\)  |
| Nhóm 2        | \(c\)       | \(d\)       | \(c+d\)  |
| **Tổng**      | \(a+c\)     | \(b+d\)     | \(n\)    |

Đây là dạng bảng thường dùng để so sánh xác suất thành công, rủi ro, hoặc phản hồi tích cực giữa hai nhóm.

---

#### *Hiệu hai tỷ lệ*

- Công thức:

\[
\Delta p = \frac{a}{a+b} - \frac{c}{c+d}
\]

- Ý nghĩa:

   - Là *mức chênh lệch tuyệt đối* giữa hai tỷ lệ thành công ở hai nhóm.

   - Nếu \(\Delta p > 0\), nhóm 1 có tỷ lệ thành công cao hơn nhóm 2.

   - Đơn giản và dễ diễn giải, thích hợp khi tập trung vào sự *khác biệt thực tế* (absolute difference), thay vì tỷ lệ tương đối.
   
---

#### *Tỷ số nguy cơ - Relative Risk*

- Công thức:

\[
RR = \frac{a / (a+b)}{c / (c+d)}
\]

- Ý nghĩa:

   - Đo mức tăng (hoặc giảm) *nguy cơ* của nhóm 1 so với nhóm 2.

   - \(RR = 1\): Không có khác biệt nguy cơ.
  
   - \(RR > 1\): Nhóm 1 có nguy cơ cao hơn.
  
   - \(RR < 1\): Nhóm 1 có nguy cơ thấp hơn.
   
---

#### *Tỷ số chênh - Odds Ratio*

- Công thức:

\[
OR = \frac{a/b}{c/d} = \frac{ad}{bc}
\]

- Ý nghĩa:

   - So sánh *cơ hội xảy ra sự kiện* giữa hai nhóm.

   - \(OR = 1\): Không có liên hệ.
  
   - \(OR > 1\): Nhóm 1 có cơ hội cao hơn.
  
   - \(OR < 1\): Nhóm 1 có cơ hội thấp hơn.

- Lưu ý:

   - OR gần giống RR khi xác suất sự kiện thấp.

   - OR thường được sử dụng trong *hồi quy logistic*.
   
---

### *2.3 Khoảng tin cậy cho các tham số đo mối liên hệ*

#### *Công thức:*

Tính trên log(OR):

\[
\log(OR) \pm Z_{\alpha/2} \cdot \sqrt{ \frac{1}{a} + \frac{1}{b} + \frac{1}{c} + \frac{1}{d} }
\]

Sau đó lấy mũ để trở lại OR:

\[
CI_{OR} = \left( e^{L},\ e^{U} \right)
\]

Trong đó:

- \(L = \log(OR) - Z_{\alpha/2} \cdot SE\)

- \(U = \log(OR) + Z_{\alpha/2} \cdot SE\)

- \(SE = \sqrt{ \frac{1}{a} + \frac{1}{b} + \frac{1}{c} + \frac{1}{d} }\)

- Với mức tin cậy 95%, \(Z_{\alpha/2} = 1.96\)

---

### *2.4 Ví dụ*

Một doanh nghiệp khảo sát tỷ lệ khách hàng gửi lại đánh giá sản phẩ (feedback)m. Kết quả:

|                      | Mua hàng | Không mua | Tổng |
|----------------------|----------|-----------|-------|
| Nhóm đánh giá (Nhóm 1)  | 40       | 60        | 100   |
| Nhóm không đánh giá (Nhóm 2)  | 20       | 80        | 100   |

- Tính toán:

   - \(RR = \frac{40/100}{20/100} = 2.0\) → Đánh giá sản phẩm giúp *tăng gấp đôi* xác suất mua hàng.

   - \(OR = \frac{40 \cdot 80}{60 \cdot 20} = \frac{3200}{1200} = 2.67\) → Cơ hội mua hàng cao hơn *2.67 lần*.

- Khoảng tin cậy OR:

   - \(SE = \sqrt{1/40 + 1/60 + 1/20 + 1/80} \approx 0.329\)

   - \(\log(OR) \approx \log(2.67) = 0.981\)

   - \(CI_{log(OR)} = 0.981 \pm 1.96 \cdot 0.329 = (0.336,\ 1.626)\)

   - \(CI_{OR} = (e^{0.336},\ e^{1.626}) = (1.40,\ 5.08)\)

   → *OR có ý nghĩa thống kê*, vì khoảng tin cậy không chứa 1.

---

### *2.5 Tổng kết*

| Chỉ số      | Công thức                     | Ý nghĩa chính                               | Ưu điểm                         | Ứng dụng phổ biến              |
|-------------|-------------------------------|----------------------------------------------|----------------------------------|--------------------------------|
| Hiệu tỷ lệ  | \(p_1 - p_2\)                | So sánh tuyệt đối giữa hai tỷ lệ             | Trực quan, dễ hiểu              | So sánh đơn giản               |
| RR          | \(\frac{p_1}{p_2}\)          | So sánh xác suất giữa hai nhóm               | Diễn giải tự nhiên              | Nghiên cứu y học, marketing    |
| OR          | \(\frac{ad}{bc}\)            | So sánh odds giữa hai nhóm                   | Áp dụng linh hoạt trong hồi quy | Hồi quy logistic, phân tích rủi ro |

---

## **3. Suy nghĩ về bộ dữ liệu “Supermarket Transactions”**

### *3.1 Đọc bộ dữ liệu*

```{r}
library(csv)
data <- read.csv("C:/Users/HP/Downloads/Supermarket Transactions.csv", header = T)
```

### *3.2 Các bước thực hiện*

#### *B1: Tạo bảng chéo giữa Gender và Homeowner*

```{r}
table_gender_home <- table(data$Gender, data$Homeowner)
table_gender_home
```
#### *B2: Tính Odds Ratio (tỷ số chênh)*

```{r}
a <- table_gender_home["F", "Y"]
b <- table_gender_home["F", "N"]
c <- table_gender_home["M", "Y"]
d <- table_gender_home["M", "N"]

OR <- (a * d) / (b * c)
OR
```

#### *B3: Tính khoảng tin cậy cho OR*

```{r}
log_OR <- log(OR)
SE <- sqrt(1/a + 1/b + 1/c + 1/d)

# 95% CI
z <- 1.96
CI_lower <- exp(log_OR - z * SE)
CI_upper <- exp(log_OR + z * SE)

c(CI_lower, CI_upper)
```

### *Diễn giải*

- OR = 1.045 > 1 cho thấy tỷ số chênh (odds ratio) về khả năng sở hữu nhà của Nữ cao hơn một chút so với Nam.

- Nói cách khác, trong tập dữ liệu khách hàng này, là Nữ có liên quan đến việc tăng nhẹ odds sở hữu nhà so với Nam. Cụ thể, odds sở hữu nhà của Nữ cao hơn khoảng 4.5% so với Nam, nếu giữ các yếu tố khác không đổi.

- Tuy nhiên, mức chênh lệch này là rất nhỏ và chưa đủ để kết luận chắc chắn về sự khác biệt giữa hai nhóm.

- Khi xét đến khoảng tin cậy 95% của OR (khoảng từ ~0.977 đến ~1.118), ta thấy khoảng này chứa giá trị 1, điều đó có nghĩa là kết quả không có ý nghĩa thống kê ở mức tin cậy 95%.

- Tóm lại, mặc dù OR > 1 cho thấy xu hướng odds sở hữu nhà của Nữ cao hơn Nam, kết luận này không có ý nghĩa thống kê. Sự khác biệt nhỏ có thể chỉ là do ngẫu nhiên trong mẫu quan sát. Do đó, không có bằng chứng đủ mạnh để khẳng định rằng việc là Nữ (so với Nam) làm tăng hoặc giảm odds của việc sở hữu nhà trong bộ dữ liệu này.

=> Kết luận: Trong phạm vi dữ liệu hiện tại, giới tính không phải là yếu tố quyết định đến việc sở hữu nhà — odds gần như tương đương nhau giữa Nam và Nữ.

---


## **3.3 GENDER VÀ MARITALSTATUS**

### **Tạo bảng chéo**

```{r}
# Tạo bảng chéo giữa Gender và MaritalStatus
table_gender_marital <- table(data$Gender, data$MaritalStatus)
addmargins(table_gender_marital)  # Thêm hàng và cột tổng
```

### **Tính toán Relative Risk**

```{r}
# Trích xuất số liệu từ bảng chéo
A <- table_gender_marital["F","S"] # nữ độc thân
B <- table_gender_marital["F","M"] # nữ kết hôn
C <- table_gender_marital["M","S"] # nam độc thân
D <- table_gender_marital["M","M"] # nam kết hôn

# Tính RR
RR <- (A/(A+B))/(C/(C+D))
RR
# Trong đó: A/(A+B) là tỷ lệ phụ nữ độc thân trong tổng số nữ
# Và: C/(C+D) là tỷ lệ nam giới độc thân trong tổng số nam
```

### **Ý nghĩa**

- RR = 1: Không có sự khác biệt về tỷ lệ độc thân giữa hai giới tính.
- RR > 1: Nam giới có tỷ lệ độc thân cao hơn phụ nữ.
- RR < 1: Phụ nữ có tỷ lệ độc thân cao hơn nam giới.

### **Nhận xét**

- Tỷ lệ phụ nữ độc thân bằng khoảng 94.57% tỷ lệ nam giới độc thân. Điều này cho thấy không có sự khác biệt lớn về tỷ lệ độc thân giữa hai giới tính trong dữ liệu. 

```{r}
install.packages("epitools", repos = "https://cran.rstudio.com/")
library(epitools)
riskratio(table_gender_marital, method="wald")
# Chỉ định phương pháp tính khoảng tin cậy (confidence interval) cho Risk Ratio.
# "wald" là phương pháp sử dụng ước lượng Wald, giả định phân phối chuẩn, để tính khoảng tin cậy.
```
**Nhận xét**

- Relative Risk (RR)

  - F (Female): 1.000000
  - M (Male): 1.057417 (CI: 1.023813 - 1.092123)
  
- Nhận xét về RR:

  - RR của nhóm F (Phụ nữ) là 1 vì nhóm này được lấy làm nhóm tham chiếu.
  - RR của nhóm M (Nam giới) là 1.0574, điều này cho thấy nam giới có tỷ lệ kết hôn (M) cao hơn một chút so với phụ nữ, với tỷ lệ 1.0574 lần so với nhóm phụ nữ. Sự khác biệt này có thể là không lớn, nhưng nó chỉ ra rằng nam giới có một khả năng kết hôn cao hơn phụ nữ trong mẫu nghiên cứu này.
  - Confidence Interval (CI) của RR cho nhóm M là [1.0238, 1.0921], nghĩa là khoảng tin cậy của RR không bao gồm giá trị 1. Điều này cho thấy sự khác biệt giữa hai nhóm F và M là có ý nghĩa thống kê và không phải ngẫu nhiên.
- Kết luận về RR:

  - RR cho thấy nam giới có xu hướng kết hôn cao hơn so với phụ nữ, với RR = 1.0574.
  - Confidence Interval không bao gồm giá trị 1, điều này hỗ trợ cho giả thuyết rằng sự khác biệt giữa tỷ lệ kết hôn của nam và nữ có ý nghĩa thống kê.
  
- p-value từ các kiểm định:

  - Chi-square test: p-value = 0.0007038837
  - Fisher's exact test: p-value = 0.0007373895
  - Midpoint exact test: p-value = 0.0007045092
  
- Nhận xét về p-value:
  - Các p-value từ các kiểm định đều nhỏ hơn mức ý nghĩa thông thường là 0.05, nghĩa là có đủ bằng chứng để bác bỏ giả thuyết null hypothesis (giả thuyết không có sự khác biệt giữa nam và nữ).
  - Điều này chỉ ra rằng có sự khác biệt có ý nghĩa thống kê giữa tỷ lệ kết hôn ở phụ nữ và nam giới.
  
- Tóm tắt và nhận xét tổng quát
  - Relative Risk (RR): Tỷ lệ kết hôn của nam giới là 1.0574 lần so với phụ nữ, điều này cho thấy nam giới có khả năng kết hôn cao hơn phụ nữ trong mẫu nghiên cứu này.
  - Confidence Interval (C.I.): Khoảng tin cậy [1.0238, 1.0921] không bao gồm giá trị 1, điều này có nghĩa là sự khác biệt giữa tỷ lệ kết hôn của nam và nữ là có ý nghĩa thống kê.
  - p-value: Các p-value từ Chi-square, Fisher's exact test và midp.exact đều nhỏ hơn 0.05, cho thấy có sự khác biệt đáng kể giữa tỷ lệ kết hôn của nam và nữ.
  
- Kết luận
  - Tỷ lệ kết hôn giữa nam và nữ có sự khác biệt có ý nghĩa thống kê. Cụ thể, nam giới có tỷ lệ kết hôn cao hơn phụ nữ.
  - Relative Risk cho thấy nam giới có khả năng kết hôn cao hơn phụ nữ (với RR = 1.0574), và kết quả này có ý nghĩa thống kê rõ ràng, vì p-value đều rất nhỏ.
  - Khoảng tin cậy 95% của RR không bao gồm giá trị 1, điều này càng củng cố kết luận về sự khác biệt giữa tỷ lệ kết hôn của hai giới


