##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
## Warning: package 'ggplot2' was built under R version 4.3.3
## Warning: package 'psych' was built under R version 4.3.3
##
## Attaching package: 'psych'
## The following objects are masked from 'package:ggplot2':
##
## %+%, alpha
## Warning: package 'DescTools' was built under R version 4.3.3
##
## Attaching package: 'DescTools'
## The following objects are masked from 'package:psych':
##
## AUC, ICC, SD
## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ forcats 1.0.0 ✔ stringr 1.5.1
## ✔ lubridate 1.9.3 ✔ tibble 3.2.1
## ✔ purrr 1.0.2 ✔ tidyr 1.3.0
## ✔ readr 2.1.5
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ psych::%+%() masks ggplot2::%+%()
## ✖ psych::alpha() masks ggplot2::alpha()
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag() masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors
##
## Attaching package: 'scales'
##
##
## The following object is masked from 'package:purrr':
##
## discard
##
##
## The following object is masked from 'package:readr':
##
## col_factor
##
##
## The following objects are masked from 'package:psych':
##
## alpha, rescale
## Warning: package 'AER' was built under R version 4.3.3
## Loading required package: car
## Warning: package 'car' was built under R version 4.3.3
## Loading required package: carData
## Warning: package 'carData' was built under R version 4.3.3
##
## Attaching package: 'car'
##
## The following object is masked from 'package:purrr':
##
## some
##
## The following object is masked from 'package:DescTools':
##
## Recode
##
## The following object is masked from 'package:psych':
##
## logit
##
## The following object is masked from 'package:dplyr':
##
## recode
##
## Loading required package: lmtest
## Warning: package 'lmtest' was built under R version 4.3.3
## Loading required package: zoo
## Warning: package 'zoo' was built under R version 4.3.3
##
## Attaching package: 'zoo'
##
## The following objects are masked from 'package:base':
##
## as.Date, as.Date.numeric
##
## Loading required package: sandwich
## Warning: package 'sandwich' was built under R version 4.3.3
## Loading required package: survival
##
## Attaching package: 'survival'
##
## The following object is masked from 'package:epitools':
##
## ratetable
## Warning: package 'datarium' was built under R version 4.3.3
d <- read.csv('F:/R/data1/Supermarket Transactions.csv',header=T)
# Lọc dữ liệu (chỉ giữ các biến định tính)
d1 <- subset(d, select=-c(UnitsSold,Revenue,Children,CustomerID))
z <- head(d1,10)
datatable(z)
Bảng tần số tuyệt đối
o1 <- table(d1$Gender, d1$ProductFamily)
addmargins(o1) #thêm tổng số hàng và tổng số cột vào bảng tần số
##
## Drink Food Non-Consumable Sum
## F 669 5149 1352 7170
## M 581 5004 1304 6889
## Sum 1250 10153 2656 14059
Bảng tần suất chéo theo tỷ lệ
prop.table(o1, margin=1) #prop.table: chuyển đổi bảng tần số thành bảng tỷ lệ
##
## Drink Food Non-Consumable
## F 0.09330544 0.71813110 0.18856346
## M 0.08433735 0.72637538 0.18928727
Nhận xét
Bảng tần số tuyệt đối trình bày số lượng tuyệt đối các giao dịch, cho thấy tổng cộng có 14059 giao dịch. Trong đó, Nữ (7170 giao dịch) có số lượng mua hàng tổng thể cao hơn Nam (6889 giao dịch). Cả hai giới tính đều tập trung mua sắm nhiều nhất vào nhóm “Food”, tiếp theo là “Non-Consumable” và cuối cùng là “Drink”. Về mặt số lượng, Nữ thực hiện nhiều giao dịch hơn Nam ở tất cả các nhóm sản phẩm.
Bảng tỷ lệ theo hàng chuyển đổi các con số tuyệt đối sang tỷ lệ phần trăm theo từng giới tính, giúp so sánh xu hướng mua sắm tương đối. Mặc dù số lượng tuyệt đối của Nữ cao hơn, nhưng khi xét về tỷ lệ trong tổng số giao dịch của từng giới tính, Nam lại có xu hướng dành tỷ lệ cao hơn một chút cho “Food” (72.64% so với 71.81% của Nữ) và “Non-Consumable” (18.93% so với 18.86% của Nữ). Ngược lại, Nữ có tỷ lệ mua “Drink” cao hơn đáng kể (9.33% so với 8.43% của Nam) trong tổng số giao dịch của họ. Điều này cho thấy sự khác biệt tinh tế trong phân bổ chi tiêu giữa Nam và Nữ trong môi trường siêu thị.
Thực hiện đánh giá mối quan hệ giữa hai biến Gender và ProductFamily. Xem xét giữa hai biến có mối quan hệ có ý nghĩa thống kê hay không bằng cách sử dụng kiểm định Chi-bình phương.
Đặt giả thuyết:
\[
\begin{cases}
H_0: \text{Biến Gender và biến ProductFamily không có mối quan hệ.} \\
H_1: \text{Biến Gender và biến ProductFamily có mối quan hệ.}
\end{cases}
\]
chisq.test(o1)
##
## Pearson's Chi-squared test
##
## data: o1
## X-squared = 3.5185, df = 2, p-value = 0.1722
Trình bày kết quả kiểm định:
Dữ liệu được sử dụng là bảng tần số hai chiều o1.
Giá trị thống kê Chi-bình phương được tính toán là 3.5185.
Bậc tự do của kiểm định là 2.
Giá trị p của kiểm định là 0.1722.
Nhận xét kết quả kiểm định:
Để đưa ra kết luận, chúng ta so sánh giá trị p-value với mức ý nghĩa
\(\alpha\).
* Mức ý nghĩa \(\alpha\) được chọn là
0.05.
* Giá trị p-value thu được là 0.1722.
Vì \(p-value(0.1722)>\alpha(0.05)\),
chúng ta không có để bằng chứng thống kê để bác bỏ giả thuyết không
\((H_0)\).
Kết luận: với mức ý nghĩa 5%, không có bằng chứng đủ mạnh để kết luận rằng có mối quan hệ có ý nghĩa thống kê giữa biến Gender (giới tính) và biến ProductFamily (dòng sản phẩm). Nói cách khác, dựa trên dữ liệu này, việc lựa chọn dòng sản phẩm dường như không phụ thuộc vào giới tính, hoặc giới tính và dòng sản phẩm là độc lập với nhau.
Bảng tần số tuyệt đối của hai biến Gender và Homeowner
o2 <- table(d1$Gender, d1$Homeowner)
addmargins(o2)
##
## N Y Sum
## F 2826 4344 7170
## M 2789 4100 6889
## Sum 5615 8444 14059
Nguy cơ tương đối được tính cho việc là chủ sở hữu nhà dựa trên yếu tố giới tính.
RelRisk(o2)
## [1] 0.9735554
Bảng tần số
table(d1$Gender,d1$Homeowner)
##
## N Y
## F 2826 4344
## M 2789 4100
Nguy cơ tương đối
o3 <- matrix(c(2826, 2789, 4344, 4100),nrow=2)
RelRisk(o3, conf.level=0.95)
## rel. risk lwr.ci upr.ci
## 0.9735554 0.9348827 1.0138377
Giá trị nguy cơ tương đối được tính toán (rel.risk) là 0.9735554.
Giới hạn dưới của khoảng tin cậy 95% (lwr.ci) là 0.9348827.
Giới hạn trên của khoảng tin cậy 95% (upr.ci) là 1.0138377.
Nhận xét:
Khoảng tin cậy này chứa giá trị 1. Đây là điểm mấu chốt để đánh giá ý nghĩa thống kê của nguy cơ tương đối.
Nếu một khoảng tin cậy cho nguy cơ tương đối (hoặc tỷ số chênh)
chứa 1, điều đó có nghĩa là sự khác biệt quan sát được không có ý nghĩa
thống kê ở mức độ tin cậy đã chọn. Chúng ta không thể bác bỏ giả thuyết
rằng nguy cơ ở hai nhóm là như nhau.
Kết luận chung:
Dựa trên kết quả này, chúng ta có thể kết luận rằng không có bằng chứng thống kê mạnh mẽ cho thấy giới tính có ảnh hưởng đáng kể đến việc sở hữu nhà trong tập dữ liệu được khảo sát. Nguy cơ tương đối rất gần 1 và khoảng tin cậy 95% chứa 1 đều củng cố nhận định rằng tình trạng sở hữu nhà độc lập với giới tính.
riskratio(o2,rev='b')
## $data
##
## Y N Total
## M 4100 2789 6889
## F 4344 2826 7170
## Total 8444 5615 14059
##
## $measure
## risk ratio with 95% C.I.
## estimate lower upper
## M 1.0000000 NA NA
## F 0.9735554 0.934879 1.013832
##
## $p.value
## two-sided
## midp.exact fisher.exact chi.square
## M NA NA NA
## F 0.195158 0.1964833 0.1950884
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"
Nhận xét chung về kết quả:
Tỷ số nguy cơ (estimate = 0.9735554): Giá trị này rất gần 1, cho thấy nguy cơ trở thành chủ sở hữu nhà của Nữ (hoặc nhóm được so sánh) gần như tương đương với Nam (nhóm tham chiếu). Sự khác biệt quan sát được là rất nhỏ.
Khoảng tin cậy 95% ([0.934879, 1.013832]): Khoảng tin cậy này chứa giá trị 1. Điều này là dấu hiệu quan trọng nhất. Khi khoảng tin cậy của tỷ số nguy cơ chứa 1, chúng ta không thể kết luận rằng có mối liên hệ có ý nghĩa thống kê giữa hai biến.
Giá trị p-value (xấp xỉ 0.195): Tất cả các giá trị p-value đều lớn hơn mức ý nghĩa chung α=0.05. Điều này củng cố mạnh mẽ kết luận rằng không có bằng chứng thống kê đủ mạnh để bác bỏ giả thuyết không (H0), tức là giới tính và tình trạng sở hữu nhà là độc lập với nhau.
Dựa trên kết quả riskratio, không có mối quan hệ có ý nghĩa thống kê giữa giới tính và việc là chủ sở hữu nhà. Tỷ lệ trở thành chủ sở hữu nhà không khác biệt đáng kể giữa Nam và Nữ trong tập dữ liệu này.
Bảng ngẫu nhiên (contingency table) là một cách tổ chức dữ liệu tần số của hai hoặc nhiều biến phân loại, cho phép chúng ta khám phá mối quan hệ giữa chúng. Cấu trúc xác suất của bảng ngẫu nhiên thường được mô tả thông qua các phân phối xác suất mà từ đó dữ liệu được sinh ra.
Phân phối Poisson
Định nghĩa: Phân phối Poisson mô tả số lần một sự kiện hiếm xảy ra trong một khoảng thời gian hoặc không gian cố định, khi các sự kiện này xảy ra với một tốc độ trung bình không đổi và độc lập với nhau. Nó là một phân phối xác suất rời rạc.
Ký hiệu: \(X \text{~ Pois}(\lambda)\), với X là biến ngẫu nhiên đếm số sự kiện, và \(\lambda\) là tham số tốc độ (rate parameter) - đây cũng chính là kỳ vọng và phương sai của phân phối.
Đặc điểm:
Kỳ vọng (Mean): \(E[X]=\lambda\).
Phương sai (Variance): \(Var[X]=\lambda\).
Đặc điểm chính: Tốc độ xảy ra sự kiện trung bình λ trong một khoảng thời gian/không gian nhất định. Các sự kiện xảy ra độc lập với nhau.
Ý nghĩa: Trong ngữ cảnh bảng ngẫu nhiên, phân phối Poisson thường được sử dụng khi các ô trong bảng đại diện cho số đếm các sự kiện riêng lẻ, và tổng số sự kiện không cố định. Ví dụ, số ca nhiễm bệnh mỗi ngày ở các khu vực khác nhau hoặc số cuộc gọi đến tổng đài trong một giờ.
Xác định hàm xác suất:
\(P(X = k) = \frac{e^{-\lambda} \lambda^k}{k!}\)
Trong đó:
\(k\) là số lần sự kiện xảy ra (\(k = 0, 1, 2, \dots\)).
\(e\) là hằng số Euler (\(e \approx 2.71828\)).
\(\lambda\) là tốc độ trung bình xảy ra sự kiện trong khoảng thời gian/không gian đã cho.
Phân phối Multinomial
Định nghĩa: Phân phối Multinomial là sự mở rộng của phân phối nhị thức (Binomial) khi có nhiều hơn hai kết quả có thể cho mỗi lần thử. Nó mô tả xác suất của các kết quả cụ thể trong một chuỗi n phép thử độc lập, mỗi phép thử có k kết quả có thể, với xác suất riêng cho mỗi kết quả.
Ký hiệu: \((X_1, X_2, \dots, X_k) \sim \text{Multinomial}(n, p_1, p_2, \dots, p_k)\), với n là tổng số phép thử, và \(p_i\) là xác suất của kết quả thứ \(i\).
Đặc điểm:
Kỳ vọng (Mean): \(E[X_i] = np_i\).
Phương sai (Variance): \(\text{Var}[X_i] = np_i(1 - p_i)\).
Hiệp phương sai (Covariance): \(\text{Cov}[X_i, X_j] = -np_i p_j\) cho \(i \neq j\).
Đặc điểm chính: Tổng số phép thử n là cố định. Mỗi phép thử độc lập và có k kết quả có thể. Xác suất \(p_i\) cho mỗi kết quả là không đổi qua các lần thử.
Ý nghĩa: Phân phối Multinomial thường được sử dụng khi tổng số quan sát trong bảng ngẫu nhiên là cố định (ví dụ: tổng số người được khảo sát), và các ô trong bảng biểu thị số lượng quan sát rơi vào từng danh mục kết hợp của các biến. Ví dụ, trong một bảng 2x2, tổng số người được khảo sát là n, và chúng ta quan tâm đến số người rơi vào 4 ô (VD: Nam/Thích, Nam/Không thích, Nữ/Thích, Nữ/Không thích).
Xác định hàm xác suất:
\[P(X_1 = x_1, \dots, X_k = x_k) =
\frac{n!}{x_1!x_2!\dots x_k!} p_1^{x_1} p_2^{x_2} \dots
p_k^{x_k}\]
trong đó:
\(n\) là tổng số phép thử.
\(x_i\) là số lần kết quả thứ \(i\) xuất hiện, sao cho \(\sum_{i=1}^k x_i = n\)).
\(p_i\) là xác suất của kết quả thứ \(i\), sao cho \(\sum_{i=1}^k p_i = 1\).
Xét một bảng ngẫu nhiên 2x2 với cấu trúc chung:
| Kết quả 1 | Kết quả 2 | Tổng | |
|---|---|---|---|
| Nhóm A | \(a\) | \(b\) | \(a + b\) |
| Nhóm B | \(c\) | \(d\) | \(c + d\) |
| Tổng | \(a + c\) | \(b + d\) | \(N = a + b + c + d\) |
Trong đó \(a, b, c, d\) là số lượng
quan sát trong từng ô.
Tỷ lệ xảy ra Kết quả 1 trong Nhóm A là \(p_1 =
\frac{a}{a+b}\).
Tỷ lệ xảy ra Kết quả 1 trong Nhóm B là \(p_2 =
\frac{c}{c+d}\).
Hiệu hai tỷ lệ:
Định nghĩa: Là sự chênh lệch tuyệt đối về xác suất xảy ra một sự kiện giữa hai nhóm. Nó cho biết mức độ khác biệt về khả năng xảy ra sự kiện giữa hai nhóm một cách trực tiếp.
Công thức tính: \(\text{Difference} = p_1 - p_2 = \frac{a}{a+b} - \frac{c}{c+d}\)
Ý nghĩa giá trị:
\(\text{Difference} > 0\): Tỷ lệ xảy ra sự kiện ở Nhóm A cao hơn Nhóm B. Ví dụ: Nếu hiệu là 0.20, nghĩa là tỷ lệ sự kiện ở Nhóm A cao hơn Nhóm B 20 điểm phần trăm.
\(\text{Difference} = 0\): Tỷ lệ xảy ra sự kiện ở Nhóm A bằng Nhóm B (không có sự khác biệt).
\(\text{Difference} < 0\): Tỷ lệ xảy ra sự kiện ở Nhóm A thấp hơn Nhóm B.
Ví dụ: Trong một nghiên cứu về hiệu quả thuốc, nếu tỷ lệ khỏi bệnh khi dùng thuốc A là 80% (\(p_1 = 0.8\)) và thuốc B là 60% (\(p_2 = 0.6\)), thì hiệu là \(0.8 - 0.6 = 0.2\). Điều này có nghĩa là thuốc A giúp tăng 20% khả năng khỏi bệnh so với thuốc B.
Tỷ số nguy cơ (Relative Risk - RR):
Định nghĩa: Cho biết nguy cơ (hay khả năng) xảy ra một sự kiện ở nhóm phơi nhiễm (hoặc nhóm can thiệp) cao gấp bao nhiêu lần so với nhóm không phơi nhiễm (hoặc nhóm đối chứng). RR thích hợp nhất cho các nghiên cứu đoàn hệ (cohort studies) hoặc thử nghiệm lâm sàng ngẫu nhiên có kiểm soát (RCTs) nơi chúng ta có thể ước tính xác suất tuyệt đối của sự kiện.
Công thức tính: \(\text{RR} = \frac{p_1}{p_2} = \frac{a/(a+b)}{c/(c+d)}\)
Ý nghĩa giá trị:
\(\text{RR} > 1\): Nguy cơ xảy ra sự kiện ở Nhóm A cao hơn Nhóm B. Ví dụ: \(\text{RR} = 1.5\) có nghĩa là nguy cơ ở Nhóm A cao hơn 1.5 lần so với Nhóm B, hay cao hơn 50%.
\(\text{RR} = 1\): Nguy cơ xảy ra sự kiện ở Nhóm A bằng Nhóm B (không có sự khác biệt về nguy cơ).
\(\text{RR} < 1\): Nguy cơ xảy ra sự kiện ở Nhóm A thấp hơn Nhóm B. Ví dụ: \(\text{RR} = 0.8\) có nghĩa là nguy cơ ở Nhóm A thấp hơn 0.8 lần so với Nhóm B, hay thấp hơn 20%.
Ví dụ: Nếu \(\text{RR} = 1.5\) cho nguy cơ mắc bệnh tim ở người hút thuốc so với người không hút thuốc, có nghĩa là người hút thuốc có nguy cơ mắc bệnh tim cao gấp 1.5 lần so với người không hút thuốc.
Tỷ số chênh (Odds Ratio - OR):
Định nghĩa: Là tỷ số giữa “tỷ lệ chênh” (odds) của sự kiện xảy ra ở một nhóm so với “tỷ lệ chênh” của sự kiện xảy ra ở nhóm khác. Odds của một sự kiện là tỷ số giữa xác suất sự kiện xảy ra và xác suất sự kiện không xảy ra (\(P(E)/(1-P(E))\)). OR đặc biệt hữu ích trong các nghiên cứu bệnh chứng (case-control studies) vì nó có thể được ước tính mà không cần biết xác suất tuyệt đối của bệnh trong tổng thể.
Công thức tính: \(\text{OR} = \frac{\text{odds}_1}{\text{odds}_2} = \frac{p_1/(1-p_1)}{p_2/(1-p_2)} = \frac{a/(a+b) / (b/(a+b))}{c/(c+d) / (d/(c+d))} = \frac{a/b}{c/d} = \frac{ad}{bc}\)
Ý nghĩa giá trị:
\(\text{OR} > 1\): Tỷ lệ chênh xảy ra sự kiện ở Nhóm A cao hơn Nhóm B. Ví dụ: \(\text{OR} = 2\) có nghĩa là tỷ lệ chênh của sự kiện ở Nhóm A cao gấp 2 lần so với Nhóm B.
\(\text{OR} = 1\): Tỷ lệ chênh xảy ra sự kiện ở Nhóm A bằng Nhóm B (không có mối liên hệ).
\(\text{OR} < 1\): Tỷ lệ chênh xảy ra sự kiện ở Nhóm A thấp hơn Nhóm B. Ví dụ: \(\text{OR} = 0.5\) có nghĩa là tỷ lệ chênh của sự kiện ở Nhóm A bằng một nửa so với Nhóm B.
Ví dụ: Nếu \(\text{OR} = 2\) cho mối liên hệ giữa việc tham gia khóa học kỹ năng mềm và khả năng được thăng chức, có nghĩa là tỷ lệ chênh được thăng chức ở nhóm tham gia khóa học cao gấp 2 lần so với nhóm không tham gia khóa học.
Khoảng tin cậy (Confidence Interval - CI) là một khoảng giá trị ước lượng cho một tham số tổng thể (ví dụ: OR, RR, Hiệu hai tỷ lệ) dựa trên dữ liệu mẫu, với một mức độ tin cậy nhất định (ví dụ: 95%). Khoảng tin cậy cho chúng ta biết độ chính xác của ước lượng điểm và giúp đưa ra kết luận về mối liên hệ trong tổng thể.
Công thức tính (ví dụ cho OR, thường sử dụng phương pháp log-odds để đảm bảo tính đối xứng và phân phối gần chuẩn hơn):
Đầu tiên, tính log tự nhiên của OR ước lượng: \(\widehat{\ln(\text{OR})} = \ln\left(\frac{ad}{bc}\right)\).
Tính sai số chuẩn của \(\ln(\text{OR})\): \(\text{SE}[\widehat{\ln(\text{OR})}] = \sqrt{\frac{1}{a} + \frac{1}{b} + \frac{1}{c} + \frac{1}{d}}\).
Khoảng tin cậy cho \(\ln(\text{OR})\) là:
\[ \left[ \widehat{\ln(\text{OR})} - Z_{\alpha/2} \cdot \text{SE}[\widehat{\ln(\text{OR})}], \widehat{\ln(\text{OR})} + Z_{\alpha/2} \cdot \text{SE}[\widehat{\ln(\text{OR})}] \right] \]
trong đó \(Z_{\alpha/2}\) là giá trị từ phân phối chuẩn tắc tương ứng với mức tin cậy mong muốn (ví dụ, 1.96 cho 95% CI).
Chuyển về thang OR (+ nhận xét): Để có khoảng tin cậy cho OR, chúng ta lấy hàm mũ (exponential function) của các giới hạn của khoảng tin cậy cho \(\ln(\text{OR})\):
\[ \text{CI}_{\text{OR}} = \left[ e^{\text{Lower Bound of } \ln(\text{OR})}, e^{\text{Upper Bound of } \ln(\text{OR})} \right] \]
Nhận xét về khoảng tin cậy của OR:
Nếu khoảng tin cậy của OR không chứa 1, có bằng chứng thống kê mạnh mẽ về mối liên hệ có ý nghĩa giữa hai biến (OR \(\neq\) 1).
Nếu CI hoàn toàn trên 1 (ví dụ: \([1.2, 2.5]\)), yếu tố phơi nhiễm/can thiệp làm tăng tỷ lệ chênh của sự kiện.
Nếu CI hoàn toàn dưới 1 (ví dụ: \([0.5, 0.9]\)), yếu tố phơi nhiễm/can thiệp làm giảm tỷ lệ chênh của sự kiện.
Nếu khoảng tin cậy của OR chứa 1 (ví dụ: \([0.8, 1.5]\)), không có bằng chứng thống kê đủ mạnh để kết luận có mối liên hệ có ý nghĩa giữa hai biến (OR có thể bằng 1).
Nghiên cứu này nhằm khám phá mối liên hệ giữa việc chi tiêu cao cho quảng cáo trên TV và việc đạt được doanh số bán hàng cao trong lĩnh vực kinh doanh. Chúng ta sẽ sử dụng bộ dữ liệu marketing từ gói datarium để xây dựng một bảng tần số 2x2. Từ bảng này, chúng ta sẽ tính toán Tỷ số chênh (Odds Ratio - OR) và khoảng tin cậy 95% của nó để đánh giá xem có mối liên hệ có ý nghĩa thống kê giữa hai yếu tố này hay không.
data(marketing)
str(marketing)
## 'data.frame': 200 obs. of 4 variables:
## $ youtube : num 276.1 53.4 20.6 181.8 217 ...
## $ facebook : num 45.4 47.2 55.1 49.6 13 ...
## $ newspaper: num 83 54.1 83.2 70.2 70.1 ...
## $ sales : num 26.5 12.5 11.2 22.2 15.5 ...
datatable(marketing)
h1 <- marketing
# Thay đổi giá trị của biến youtube với : "thap" (TV <= 100) và "cao" (TV > 100)
h1$youtube <- dplyr::recode(.x=as.numeric(h1$youtube > 100),`0` = "thap",`1` = "cao")
# Thay đổi giá trị của biến Sales: "thap" (sales <= 15) và "cao" (sales > 15)
h1$sales <- dplyr::recode(.x=as.numeric(h1$sales > 15),`0` = "it",`1` = "nhieu")
h2 <- table(h1$youtube,h1$sales)
addmargins(h2)
##
## it nhieu Sum
## cao 38 103 141
## thap 55 4 59
## Sum 93 107 200
prop.table(h2,margin=1)
##
## it nhieu
## cao 0.26950355 0.73049645
## thap 0.93220339 0.06779661
OddsRatio(h2)
## [1] 0.02683142
oddsratio(h2)
## $data
##
## it nhieu Total
## cao 38 103 141
## thap 55 4 59
## Total 93 107 200
##
## $measure
## odds ratio with 95% C.I.
## estimate lower upper
## cao 1.00000000 NA NA
## thap 0.02828221 0.007967102 0.07509306
##
## $p.value
## two-sided
## midp.exact fisher.exact chi.square
## cao NA NA NA
## thap 0 5.767029e-19 1.043174e-17
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "median-unbiased estimate & mid-p exact CI"
Nhận xét:
Odds Ratio ước lượng là 0.028, với khoảng tin cậy 95% là [0.008, 0.075]. Vì khoảng tin cậy này không chứa 1 và hoàn toàn nằm dưới 1, có bằng chứng thống kê mạnh mẽ cho thấy: nhóm chi phí quảng cáo YouTube “cao” có tỷ lệ chênh đạt doanh số “nhiều” (so với “ít”) thấp hơn đáng kể so với nhóm chi phí quảng cáo YouTube “thấp”. Điều này ngụ ý rằng, trong bộ dữ liệu này, việc chi tiêu quảng cáo YouTube cao lại liên quan đến việc giảm khả năng đạt doanh số cao, một kết quả có thể cần được điều tra thêm về bối cảnh dữ liệu.
Bảng tần số tuyệt đối giữa Gender và Homeowner
l <- table(d1$Gender,d1$Homeowner)
addmargins(l)
##
## N Y Sum
## F 2826 4344 7170
## M 2789 4100 6889
## Sum 5615 8444 14059
Bảng tần suất chéo theo tỷ lệ
prop.table(l,margin=1)
##
## N Y
## F 0.3941423 0.6058577
## M 0.4048483 0.5951517
OddsRatio(l, conf.level = 0.95)
## odds ratio lwr.ci upr.ci
## 0.9563518 0.8939173 1.0231469
oddsratio(l, conf.level = 0.95)
## $data
##
## N Y Total
## F 2826 4344 7170
## M 2789 4100 6889
## Total 5615 8444 14059
##
## $measure
## odds ratio with 95% C.I.
## estimate lower upper
## F 1.000000 NA NA
## M 0.956381 0.8938974 1.023169
##
## $p.value
## two-sided
## midp.exact fisher.exact chi.square
## F NA NA NA
## M 0.195158 0.1964833 0.1950884
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "median-unbiased estimate & mid-p exact CI"
Và kết quả Odds Ratio từ
oddsratio(1, conf.level = 0.95):
Ước lượng Odds Ratio (OR):0.956381 (hoặc làm tròn là 0.956)
Khoảng tin cậy 95% (CI): \([0.8939874, 1.023169]\) (hoặc làm tròn là \([0.894, 1.023])\)
Diễn giải mối quan hệ:
OR = 0.956 (khi so sánh M với F theo
bảng kết quả $measure) có nghĩa là tỷ lệ chênh (odds) của
việc sở hữu nhà (Y) ở nam giới thấp hơn khoảng 0.956 lần so với nữ giới.
(Hay, tỷ lệ chênh sở hữu nhà của nữ giới cao hơn nam giới một chút, nếu
ta lấy 1/OR).
Cụ thể hơn, trong kết quả oddsratio() bạn cung cấp,
nó tính OR cho thấp (ở đây là M) so với
cao (ở đây là F). Tức là, tỷ lệ chênh sở hữu
nhà của nam giới bằng khoảng 95.6% so với nữ giới.
Khoảng tin cậy 95% cho OR là \([0.894, 1.023]\).
Quan trọng nhất, khoảng tin cậy này chứa giá trị 1 (vì \(0.894 < 1 < 1.023\)).
Vì khoảng tin cậy 95% của Odds Ratio chứa giá trị 1, chúng ta không có đủ bằng chứng thống kê mạnh mẽ để kết luận rằng việc là Nữ (so với Nam) có làm tăng hoặc giảm đáng kể tỷ lệ chênh của việc sở hữu nhà trong tổng thể.
Nói cách khác, dựa trên dữ liệu này, không có sự khác biệt có ý nghĩa thống kê về tỷ lệ chênh sở hữu nhà giữa nam và nữ. Mặc dù ước lượng điểm OR là 0.956 (gợi ý nữ giới có odds sở hữu nhà cao hơn một chút), nhưng sự khác biệt này không đủ lớn hoặc dữ liệu không đủ mạnh để khẳng định nó là có thật trong tổng thể.
Khi sử dụng bảng chéo và chỉ số Relative Risk (RR), chúng ta có thể có cái nhìn tổng quan ban đầu về mối liên hệ giữa hai biến định tính. Bảng chéo cho phép chúng ta trực quan hóa tần số đồng thời của các danh mục biến, giúp nhận diện sự phân bố khác biệt. RR, hay Tỷ số Nguy cơ, là thước đo định lượng cho biết khả năng (hay nguy cơ) xảy ra một sự kiện ở nhóm phơi nhiễm (hoặc can thiệp) cao hơn hoặc thấp hơn bao nhiêu lần so với nhóm không phơi nhiễm (hoặc đối chứng). Do đó, RR đặc biệt hữu ích để so sánh mức độ “nguy cơ” hoặc “hiệu quả” giữa hai nhóm trong các tình huống phù hợp.
Tuy nhiên, việc sử dụng bảng chéo và RR cũng có những mặt hạn chế cần lưu ý. Trước hết, bảng chéo chỉ cung cấp số liệu tần số và tỷ lệ phần trăm thô; nó không cho phép chúng ta suy luận về mức độ mạnh yếu của mối liên hệ hay kiểm định ý nghĩa thống kê một cách trực tiếp. Quan trọng hơn, RR chỉ thực sự phù hợp và có ý nghĩa diễn giải trực tiếp trong các nghiên cứu mà chúng ta có thể ước tính được xác suất thực sự của sự kiện trong quần thể, điển hình là các nghiên cứu đoàn hệ (cohort studies) hoặc thử nghiệm lâm sàng ngẫu nhiên có kiểm soát (RCTs), nơi các nhóm được theo dõi từ ban đầu và ghi nhận kết cục. Trong trường hợp dữ liệu được thu thập bằng phương pháp cắt ngang (cross-sectional studies) hoặc đặc biệt là nghiên cứu bệnh-chứng (case-control studies) — nơi tổng số “bệnh” và “không bệnh” đã được cố định từ trước — việc tính toán RR có thể không hợp lệ về mặt ý nghĩa thống kê và gây hiểu nhầm nghiêm trọng về nguy cơ thực sự.
Ngoài ra, một điểm cần chú ý là nếu sự kiện đang xét là hiếm (tỷ lệ mắc bệnh thấp), RR và Odds Ratio (OR) sẽ có giá trị khá giống nhau, cho phép sử dụng OR như một ước lượng xấp xỉ cho RR. Tuy nhiên, nếu sự kiện không hiếm, sự khác biệt giữa hai chỉ số này có thể rất lớn, dẫn đến kết luận sai lệch nếu không được lựa chọn và diễn giải cẩn thận. Hạn chế cốt lõi của cả RR và việc phân tích bảng chéo đơn thuần là chúng chưa kiểm soát được ảnh hưởng của các yếu tố nhiễu (confounding variables) hoặc các biến khác có thể cùng tác động đến mối liên hệ giữa hai biến chính. Do đó, để thực hiện phân tích sâu hơn, chính xác hơn và kiểm soát được các yếu tố ngoại lai, chúng ta cần sử dụng các phương pháp hồi quy tiên tiến hơn như hồi quy logistic, vốn cho phép ước tính Odds Ratio có điều kiện (adjusted Odds Ratio).
Khi chúng ta xây dựng một bảng ngẫu nhiên, đặc biệt là bảng 2x2, chúng ta không chỉ đơn thuần là sắp xếp các con số. Mà thực chất, chúng ta đang trực quan hóa và mô tả một cách cụ thể phân bố xác suất đồng thời (joint probability distribution) của hai biến định tính. Mỗi ô (cell) trong bảng chứa một tần số đếm các trường hợp mà cả hai biến cùng xảy ra một cách đồng thời, phản ánh xác suất chung của sự kết hợp các danh mục đó. Chẳng hạn, trong một bảng 2x2 xem xét mối liên hệ giữa biến A (ví dụ: có/không tham gia khóa học) và biến B (ví dụ: nam/nữ), thì ô nằm ở giao điểm của hàng “có tham gia” và cột “nam” sẽ cho biết số lượng (hoặc xác suất) của những người vừa có đặc điểm “có tham gia khóa học” và vừa là “nam giới”. Việc này là nền tảng để chúng ta hiểu cách các biến tương tác với nhau.
Mục tiêu của việc đào sâu này là:
Hiểu rõ bản chất ngẫu nhiên của dữ liệu: Nhận thức rằng những con số tần số trong bảng không chỉ là những phép đếm đơn thuần từ một mẫu cụ thể, mà chúng còn có thể được xem như là kết quả của một quá trình ngẫu nhiên lớn hơn tuân theo các quy luật của lý thuyết xác suất. Điều này ngụ ý rằng các con số chúng ta quan sát được trong mẫu có thể được sử dụng để suy luận về mối quan hệ trong tổng thể mà mẫu đó đại diện.
Tính toán và diễn giải các xác suất cơ bản: Dựa vào bảng tần số, chúng ta có thể mở rộng để tính toán các loại xác suất khác nhau, là nền tảng cho việc hiểu mối liên hệ:
Xác suất biên (Marginal Probabilities): Là xác suất xảy ra của từng danh mục của một biến riêng lẻ, không phụ thuộc vào biến còn lại. Ví dụ: xác suất một người là nam giới trong tổng thể mẫu, hoặc xác suất một người có đặc điểm A, bất kể giới tính của họ.
Xác suất có điều kiện (Conditional Probabilities): Là xác suất xảy ra của một danh mục của biến này, biết rằng một danh mục cụ thể của biến kia đã xảy ra. Ví dụ: xác suất một người có đặc điểm A, biết rằng người đó là nam; hoặc xác suất một người là nữ, biết rằng người đó không có đặc điểm A. Đây là yếu tố then chốt để hiểu về “nguy cơ” hay “khả năng” của một sự kiện trong một nhóm cụ thể.
Phát triển và ứng dụng các chỉ số đo lường mối liên hệ: Từ việc nắm vững các khái niệm xác suất trên, chúng ta có thể suy ra và áp dụng các chỉ số thống kê mạnh mẽ để định lượng mối liên hệ giữa hai biến:
Tỷ số rủi ro (Relative Risk - RR): So sánh xác suất (hoặc nguy cơ) của một sự kiện xảy ra giữa hai nhóm khác nhau. Rất hữu ích trong nghiên cứu đoàn hệ để đánh giá mức độ ảnh hưởng của một yếu tố.
Tỷ số chênh (Odds Ratio - OR): So sánh “tỷ lệ chênh” (odds) của một sự kiện xảy ra giữa hai nhóm. Đặc biệt quan trọng và phù hợp trong các nghiên cứu bệnh-chứng hoặc khi mô hình hồi quy logistic được sử dụng.
Việc lựa chọn và diễn giải đúng các chỉ số này là tối quan trọng để đưa ra những kết luận chính xác và có giá trị từ dữ liệu kinh doanh hoặc nghiên cứu xã hội.
Trong phân tích bảng ngẫu nhiên 2x2, việc so sánh các tỷ lệ giữa các nhóm là rất quan trọng để hiểu mối quan hệ giữa hai biến. Có ba thước đo chính thường được sử dụng: Hiệu hai tỷ lệ, Tỷ số nguy cơ (Relative Risk - RR), và Tỷ số chênh (Odds Ratio - OR).
Hiệu hai tỷ lệ (Difference in Proportions):
Ý nghĩa: Cho biết mức độ chênh lệch về xác suất xảy ra sự kiện giữa hai nhóm theo đơn vị phần trăm hoặc phần thập phân.
Nếu \(p_1 - p_2 > 0\): Tỷ lệ ở nhóm 1 cao hơn nhóm 2.
Nếu \(p_1 - p_2 = 0\): Tỷ lệ ở hai nhóm bằng nhau.
Nếu \(p_1 - p_2 < 0\): Tỷ lệ ở nhóm 1 thấp hơn nhóm 2.
Khoảng tin cậy: Cung cấp một khoảng giá trị ước lượng cho hiệu hai tỷ lệ trong tổng thể, giúp đánh giá xem sự khác biệt quan sát được có ý nghĩa thống kê hay không (nếu khoảng tin cậy không chứa 0).
Ví dụ với dữ liệu siêu thị: So sánh tỷ lệ sở hữu nhà giữa Nam và Nữ được tính là \(P(\text{Homeowner} = \text{Y}|\text{Gender} = \text{F}) - P(\text{Homeowner} = \text{Y}|\text{Gender} = \text{M})\).
Tỷ số Nguy cơ (Relative Risk - RR):
Đặc biệt là cách diễn giải:
\(\text{RR} = 1\): Nguy cơ xảy ra sự kiện là như nhau ở cả hai nhóm.
\(\text{RR} > 1\): Nguy cơ xảy ra sự kiện ở nhóm phơi nhiễm cao gấp RR lần so với nhóm không phơi nhiễm. Ví dụ, \(\text{RR} = 1.5\) nghĩa là nguy cơ cao gấp 1.5 lần (hoặc cao hơn 50%).
\(\text{RR} < 1\): Nguy cơ xảy ra sự kiện ở nhóm phơi nhiễm thấp hơn RR lần so với nhóm không phơi nhiễm. Ví dụ, \(\text{RR} = 0.8\) nghĩa là nguy cơ bằng 0.8 lần (hoặc thấp hơn 20%).
Phù hợp nhất cho: Các nghiên cứu đoàn hệ (theo dõi từ phơi nhiễm đến kết quả) hoặc thử nghiệm lâm sàng, nơi có thể ước tính xác suất mắc bệnh/sự kiện thực sự.
Tỷ số chênh (Odds Ratio - OR):
Định nghĩa “Odds”: Odds của một sự kiện là tỷ số giữa xác suất sự kiện đó xảy ra và xác suất sự kiện đó không xảy ra. \(\text{Odds} = \frac{p}{1-p}\), với \(p\) là xác suất xảy ra sự kiện.
Định nghĩa Odds Ratio: Là tỷ số giữa odds của kết quả trong nhóm 1 và odds của kết quả trong nhóm 2.
\[ \text{OR} = \frac{\text{Odds của kết quả trong nhóm 1}}{\text{Odds của kết quả trong nhóm 2}} \]
Cách tính OR từ bảng 2x2: Cho bảng 2x2 với các ô \(a, b, c, d\):
| Kết quả có | Kết quả không | |
|---|---|---|
| Nhóm 1 | \(a\) | \(b\) |
| Nhóm 2 | \(c\) | \(d\) |
Thì \(\text{OR} = \frac{ad}{bc}\).
Diễn giải OR (Rất quan trọng!): OR cho biết tỷ lệ chênh (odds) của sự kiện xảy ra ở một nhóm cao gấp bao nhiêu lần so với nhóm kia.
\(\text{OR} = 1\): Tỷ lệ chênh của sự kiện là như nhau ở cả hai nhóm (không có mối liên hệ).
\(\text{OR} > 1\): Tỷ lệ chênh của sự kiện ở nhóm 1 cao gấp OR lần so với nhóm 2. Ví dụ: \(\text{OR} = 2\) nghĩa là odds của việc có kết quả ở nhóm 1 cao gấp 2 lần odds ở nhóm 2.
\(\text{OR} < 1\): Tỷ lệ chênh của sự kiện ở nhóm 1 thấp hơn OR lần so với nhóm 2. Ví dụ: \(\text{OR} = 0.5\) nghĩa là odds của việc có kết quả ở nhóm 1 bằng một nửa odds ở nhóm 2.
Nhấn mạnh sự khác biệt trong diễn giải so với RR: OR nói về “tỷ lệ chênh” (odds), không phải “nguy cơ” hay “xác suất” trực tiếp như RR. Điều này rất quan trọng để tránh nhầm lẫn trong diễn giải.
Khi nào OR xấp xỉ RR?
Tại sao OR quan trọng?
Tính đối xứng: Nếu OR của A so với B là \(x\), thì OR của B so với A là \(1/x\). Tính chất này thuận tiện cho việc tính toán và diễn giải.
Vai trò trong hồi quy logistic: OR là thước đo mối liên hệ tự nhiên được ước tính bởi mô hình hồi quy logistic, một công cụ phân tích rất mạnh mẽ và phổ biến khi biến kết quả là nhị phân (có/không). Hồi quy logistic cho phép chúng ta kiểm soát ảnh hưởng của nhiều biến khác nhau khi ước tính OR.
Phù hợp với nghiên cứu bệnh-chứng: OR có thể được tính toán và diễn giải chính xác trong nghiên cứu bệnh-chứng, nơi RR không thể được ước tính trực tiếp.
Ví dụ với dữ liệu siêu thị: Tính OR cho việc sở hữu nhà giữa Nữ và Nam (tức là so sánh odds sở hữu nhà của Nữ với odds sở hữu nhà của Nam).
Khi chúng ta tính toán một Odds Ratio (OR) từ dữ liệu mẫu, giá trị đó chỉ là một ước lượng điểm (point estimate) của OR thực sự trong tổng thể. Để biết được độ chính xác và tính đại diện của ước lượng này, chúng ta cần tính toán Khoảng tin cậy (Confidence Interval - CI) cho OR.
Giới thiệu cách tính (thường dựa trên log(OR)) và ý nghĩa:
Cách tính: Khoảng tin cậy cho OR thường không được tính trực tiếp trên thang OR vì phân phối của nó không đối xứng. Thay vào đó, chúng ta thường biến đổi OR sang thang logarit tự nhiên (\(\ln(\text{OR})\)), vì trên thang logarit, ước lượng có phân phối gần chuẩn (normal distribution) và đối xứng hơn.
Đầu tiên, tính ước lượng điểm của \(\widehat{\text{OR}}\).
Sau đó, tính \(\widehat{\ln(\text{OR})}\).
Tính sai số chuẩn (Standard Error - SE) của \(\ln(\widehat{\text{OR}})\) dựa trên các tần số trong bảng 2x2.
Xây dựng khoảng tin cậy cho \(\ln(\text{OR})\) bằng công thức: \(\ln(\widehat{\text{OR}}) \pm Z_{\alpha/2} \times \text{SE}(\ln(\widehat{\text{OR}}))\), trong đó \(Z_{\alpha/2}\) là giá trị từ phân phối chuẩn tắc tương ứng với mức tin cậy mong muốn (ví dụ: 1.96 cho 95% CI).
Cuối cùng, lấy hàm mũ (exponential function, \(e^x\)) của giới hạn dưới và giới hạn trên của khoảng tin cậy cho \(\ln(\text{OR})\) để chuyển về lại thang OR ban đầu.
Ý nghĩa: Khoảng tin cậy cung cấp một phạm vi các giá trị mà chúng ta tin rằng OR thực sự của tổng thể có khả năng nằm trong đó, với một mức độ tin cậy nhất định (ví dụ: 95%).
Nếu khoảng tin cậy không chứa giá trị 1: Điều này cho thấy có bằng chứng thống kê mạnh mẽ để kết luận rằng có mối liên hệ có ý nghĩa giữa hai biến (tức là OR thực sự khác 1).
Nếu toàn bộ CI nằm trên 1 (ví dụ: \([1.2, 2.5]\)): OR có ý nghĩa và lớn hơn 1, ngụ ý yếu tố phơi nhiễm làm tăng tỷ lệ chênh của kết cục.
Nếu toàn bộ CI nằm dưới 1 (ví dụ: \([0.5, 0.9]\)): OR có ý nghĩa và nhỏ hơn 1, ngụ ý yếu tố phơi nhiễm làm giảm tỷ lệ chênh của kết cục.
Nếu khoảng tin cậy chứa giá trị 1 (ví dụ: \([0.8, 1.5]\)): Không có đủ bằng chứng thống kê để kết luận rằng có mối liên hệ có ý nghĩa giữa hai biến (tức là OR thực sự có thể bằng 1). Điều này không có nghĩa là không có mối liên hệ, mà chỉ là dữ liệu hiện có không đủ để phát hiện mối liên hệ đó ở mức ý nghĩa đã chọn.
Sử dụng R (Ví dụ: DescTools::OddsRatio()
hoặc các hàm từ package epitools) để tính:
R có nhiều gói và hàm tiện lợi để tính toán Odds Ratio và khoảng tin cậy của nó một cách tự động.
Ví dụ, gói epitools với hàm oddsratio()
hoặc gói DescTools với hàm OddsRatio() là
những lựa chọn phổ biến, chúng tự động thực hiện các bước tính toán trên
và cung cấp cả ước lượng điểm lẫn khoảng tin cậy.
Ví dụ: Tính KTC 95% cho OR đã tính ở trên. Diễn giải nếu KTC chứa 1.
Giả sử chúng ta đã tính được OR cho mối quan hệ giữa Giới tính (Nữ so với Nam) và Sở hữu nhà (Có so với Không) từ bộ dữ liệu siêu thị, và kết quả là:
Ước lượng Odds Ratio (OR): 0.956 (khi so sánh Nam so với Nữ)
Khoảng tin cậy 95% (CI): \([0.894, 1.023]\)
Diễn giải:
Khoảng tin cậy 95% cho Odds Ratio là \([0.894, 1.023]\).
Vì khoảng tin cậy này chứa giá trị 1 (cụ thể, 0.894 nhỏ hơn 1 và 1.023 lớn hơn 1), chúng ta không có đủ bằng chứng thống kê ở mức ý nghĩa 5% để kết luận rằng có sự khác biệt có ý nghĩa về tỷ lệ chênh sở hữu nhà giữa nam và nữ trong tổng thể.
Nói cách khác, mặc dù ước lượng điểm OR là 0.956 (gợi ý nam giới có odds sở hữu nhà thấp hơn nữ một chút, hoặc nữ giới có odds sở hữu nhà cao hơn nam một chút nếu lấy \(1/0.956 \approx 1.046\)), nhưng sự khác biệt quan sát được trong mẫu này không đủ lớn để được coi là có thật và có ý nghĩa trong toàn bộ quần thể. Có thể sự khác biệt này chỉ là do yếu tố ngẫu nhiên của việc lấy mẫu.
Chọn một cặp MaritalStatus và Homeowner biến nhị phân khác từ bộ dữ liệu Supermarket Transactions
k <- table(d1$Gender, d1$MaritalStatus)
k
##
## M S
## F 3602 3568
## M 3264 3625
k2 <-prop.table(k,margin=1)
Bảng tần số cho thấy sự phân bố số lượng và tỷ lệ giữa giới tính (Nữ - F, Nam - M) và tình trạng hôn nhân (Kết hôn - M, Độc thân - S). Cụ thể, trong tổng số phụ nữ được khảo sát, khoảng 50.2% đã kết hôn và 49.8% độc thân. Trong khi đó, ở nam giới, tỷ lệ kết hôn là khoảng 47.4% và độc thân là 52.6%. Điều này gợi ý rằng tỷ lệ độc thân ở nam giới có vẻ cao hơn một chút so với nữ giới trong tập dữ liệu này, mặc dù sự khác biệt không quá lớn.
RD <- k2[1,"S"] - k2[2,"M"]
RD
## [1] 0.0238302
Tỷ lệ nữ giới độc thân cao hơn tỷ lệ nam giới đã kết hôn khoảng 2.38 điểm phần trăm. Nói cách khác, trong tập dữ liệu này, xác suất một người nữ là độc thân cao hơn một người nam đã kết hôn là 2.38%.
RR <- riskratio(k)
RR
## $data
##
## M S Total
## F 3602 3568 7170
## M 3264 3625 6889
## Total 6866 7193 14059
##
## $measure
## risk ratio with 95% C.I.
## estimate lower upper
## F 1.000000 NA NA
## M 1.057417 1.023813 1.092123
##
## $p.value
## two-sided
## midp.exact fisher.exact chi.square
## F NA NA NA
## M 0.0007045092 0.0007373895 0.0007038837
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"
Chỉ số Risk Ratio (RR) ước lượng là 1.057, với khoảng tin cậy 95% là [1.024, 1.092]. Vì khoảng tin cậy này không chứa giá trị 1 và hoàn toàn nằm trên 1, đồng thời giá trị p-value (từ kiểm định chi-square) rất nhỏ (<0.001), có bằng chứng thống kê mạnh mẽ cho thấy: nam giới có nguy cơ (tỷ lệ) kết hôn cao hơn khoảng 5.7% so với nữ giới. Điều này cho thấy có sự khác biệt có ý nghĩa thống kê về tỷ lệ kết hôn giữa hai giới trong bộ dữ liệu này.
or <- oddsratio(k)
or
## $data
##
## M S Total
## F 3602 3568 7170
## M 3264 3625 6889
## Total 6866 7193 14059
##
## $measure
## odds ratio with 95% C.I.
## estimate lower upper
## F 1.000000 NA NA
## M 1.121175 1.049365 1.197914
##
## $p.value
## two-sided
## midp.exact fisher.exact chi.square
## F NA NA NA
## M 0.0007045092 0.0007373895 0.0007038837
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "median-unbiased estimate & mid-p exact CI"
Chỉ số Odds Ratio (OR) ước lượng là 1.121, với khoảng tin cậy 95% là [1.049, 1.198]. Vì khoảng tin cậy này không chứa giá trị 1 và hoàn toàn nằm trên 1, đồng thời giá trị p-value (từ kiểm định chi-square) rất nhỏ (<0.001), có bằng chứng thống kê mạnh mẽ cho thấy: tỷ lệ chênh (odds) của việc kết hôn ở nam giới cao hơn khoảng 12.1% so với nữ giới. Điều này chỉ ra một mối liên hệ có ý nghĩa thống kê giữa giới tính và tình trạng hôn nhân, với nam giới có odds kết hôn cao hơn trong tập dữ liệu này.