library(readxl)
## Warning: package 'readxl' was built under R version 4.3.3
d <- read_excel("C:/Users/Ngo Trang/Documents/adult.xlsx")
Để khám phá dữ liệu ban đầu chúng ta sẽ xem nhanh cấu trúc và nội dung dữ liệu ở 5 quan sát đầu và 5 quan sát cuối bảng.
# Hiển thị một vài dòng đầu của dữ liệu
head(d,5)
# Hiển thị một vài dòng cuối của dữ liệu
tail(d,5)
Qua việc kiểm tra một vài dòng đầu và cuối của bộ dữ liệu, ta nhận thấy bộ dữ liệu có một số giá trị NA. Để khắc phục các biến (NA) chúng ta sẽ loại bỏ những hàng có chứa ít nhất 1 giá trị NA.
sum(is.na(d))
## [1] 4262
Trong bộ dữ liệu d gốc có tổng tất cả 4262 giá trị NA.
d <- na.omit(d)
str(d)
## tibble [30,162 × 15] (S3: tbl_df/tbl/data.frame)
## $ age : num [1:30162] 82 54 41 34 38 74 68 45 38 52 ...
## $ workclass : chr [1:30162] "Private" "Private" "Private" "Private" ...
## $ fnlwgt : num [1:30162] 132870 140359 264663 216864 150601 ...
## $ education : chr [1:30162] "HS-grad" "7th-8th" "Some-college" "HS-grad" ...
## $ education.num : num [1:30162] 9 4 10 9 6 16 9 16 15 13 ...
## $ marital.status: chr [1:30162] "Widowed" "Divorced" "Separated" "Divorced" ...
## $ occupation : chr [1:30162] "Exec-managerial" "Machine-op-inspct" "Prof-specialty" "Other-service" ...
## $ relationship : chr [1:30162] "Not-in-family" "Unmarried" "Own-child" "Unmarried" ...
## $ race : chr [1:30162] "White" "White" "White" "White" ...
## $ gender : chr [1:30162] "Female" "Female" "Female" "Female" ...
## $ capital.gain : num [1:30162] 0 0 0 0 0 0 0 0 0 0 ...
## $ capital.loss : num [1:30162] 4356 3900 3900 3770 3770 ...
## $ hours.per.week: num [1:30162] 18 40 40 45 40 20 40 35 45 20 ...
## $ native.country: chr [1:30162] "United-States" "United-States" "United-States" "United-States" ...
## $ income : chr [1:30162] "<=50K" "<=50K" "<=50K" "<=50K" ...
## - attr(*, "na.action")= 'omit' Named int [1:2399] 1 3 10 15 19 25 45 49 50 66 ...
## ..- attr(*, "names")= chr [1:2399] "1" "3" "10" "15" ...
Dữ liệu d được trích xuất từ cơ sở dữ liệu của Cục điều tra dân số năm 1994 bởi Ronny Kohavi và Barry Becker (Khai thác và trực quan hóa dữ liệu, Silicon Graphics). ). Một tập hợp các bản ghi khá sạch đã được trích xuất bằng cách sử dụng các điều kiện sau: ((AAGE>16) && (AGI>100) && (AFNLWGT>1) && (HRSWK>0)). Bộ dữ liệu data gồm 30162 quan sát với 15 biến bao gồm cả biến định lượng và biến định tính.
names(d)
## [1] "age" "workclass" "fnlwgt" "education"
## [5] "education.num" "marital.status" "occupation" "relationship"
## [9] "race" "gender" "capital.gain" "capital.loss"
## [13] "hours.per.week" "native.country" "income"
age – Tuổi, fnlwgt – Trọng số mẫu, education.num – Mã số trình độ học vấn, capital.gain – Thu nhập từ vốn, capital.loss – Lỗ từ vốn, hours.per.week – Số giờ làm việc mỗi tuần.
workclass – Loại hình công việc, education – Trình độ học vấn, marital.status – Tình trạng hôn nhân, occupation – Nghề nghiệp, relationship – Quan hệ gia đình, race – Nhóm người, gender – Giới tính, native.country – Quốc gia xuất thân, income – Mức thu nhập.
# Bảng tần số
re1 <- table(d$relationship)
re1
##
## Husband Not-in-family Other-relative Own-child Unmarried
## 12463 7726 889 4466 3212
## Wife
## 1406
# Bảng tần suất
re2 <- table(d$relationship)/sum(nrow(d))
re2
##
## Husband Not-in-family Other-relative Own-child Unmarried
## 0.41320204 0.25615012 0.02947417 0.14806710 0.10649161
## Wife
## 0.04661495
Bộ dữ liệu d bao gồm: 12463 người là chồng, chiếm tỷ trọng 41.3202042 %. 1406 người là vợ, chiếm tỷ trọng 4.6614946 %. 7726 người là cá nhân không thuộc gia đình, chiếm tỷ trọng 25.6150123 %. 889 người là người thân khác, chiếm tỷ trọng 2.9474173 % . 4466 người là con ruột, chiếm tỷ trọng 14.8067104 %. Và 3212 người chưa lập gia đình, chiếm tỷ trọng 10.6491612 %.
library(ggplot2)
ggplot(as.data.frame(re2), aes(x = "", y = Freq, fill = Var1)) +
geom_col(width = 1, color = "white") +
coord_polar("y") +
geom_text(aes(label = paste0(round(Freq * 100), "%")),
position = position_stack(vjust = 0.5)) +
labs(title = "Biểu đồ tần suất các mối quan hệ trong gia đình (relationship)", fill = "Mối quan hệ trong gia đình") +
theme_void() +
theme(plot.title = element_text(hjust = 0.5))
Người chồng (Husband) chiếm tỷ lệ cao nhất – khoảng 40.5% tổng số cá nhân. Điều này cho thấy rằng phần lớn các quan sát trong tập dữ liệu là nam giới có vợ và đứng đầu hộ gia đình. Không thuộc gia đình (Not-in-family) đứng thứ hai, chiếm khoảng 25.5%. Bao gồm những cá nhân sống một mình, ở trọ hoặc không có quan hệ gia đình trực tiếp trong hộ. Đây là một nhóm xã hội đặc biệt, có thể là người độc thân, người đi làm xa, hoặc người không lập gia đình. Con ruột (Own-child) chiếm 15.6%, cho thấy có một phần đáng kể là trẻ vị thành niên hoặc thanh niên còn sống với cha mẹ. Không có vợ/chồng (Unmarried) chiếm 10.6%, thể hiện sự hiện diện của nhóm người trưởng thành độc thân hoặc đã ly hôn/góa. Người vợ (Wife) chiếm 4.8%, thấp hơn đáng kể so với “Husband”. Điều này phản ánh sự mất cân bằng giới tính trong vai trò đứng đầu hộ gia đình, hoặc có thể do cách mã hóa hoặc thu thập dữ liệu (ưu tiên ghi nhận người nam là người đứng đầu). Người thân khác (Other-relative) chỉ chiếm 3%, là nhóm nhỏ bao gồm ông bà, cô chú, cháu,…
# Bảng tần số
ra1 <- table(d$race)
ra1
##
## Amer-Indian-Eskimo Asian-Pac-Islander Black Other
## 286 895 2817 231
## White
## 25933
# Bảng tần suất
ra2 <- table(d$race)/sum(nrow(d))
ra2
##
## Amer-Indian-Eskimo Asian-Pac-Islander Black Other
## 0.009482130 0.029673099 0.093395663 0.007658643
## White
## 0.859790465
Bộ dữ liệu d bao gồm: 286 người bản địa châu Mỹ hoặc người Eskimo, chiếm tỷ trọng 0.948213 %. 895 người châu Á hoặc đảo Thái Bình Dương , chiếm tỷ trọng 2.9673099 %. 2817 người da đen, chiếm tỷ trọng 9.3395663 % . 25933 người da trắng, chiếm tỷ trọng 85.9790465 %. Và 231 người khác, chiếm tỷ trọng 0.7658643 %.
library(ggplot2)
ggplot(as.data.frame(ra2), aes(x = "", y = Freq, fill = Var1)) +
geom_col(width = 1, color = "white") +
coord_polar("y") +
geom_text(aes(label = paste0(round(Freq * 100), "%")),
position = position_stack(vjust = 0.5)) +
labs(title = "Biểu đồ tần suất các nhóm người (race)", fill = "Nhóm người") +
theme_void() +
theme(plot.title = element_text(hjust = 0.5))
Biểu đồ tần suất các biểu hiện của biến race (nhóm người) cho thấy sự phân bố dân cư không đồng đều trong bộ dữ liệu. Nhóm người da trắng (White) chiếm tỷ lệ áp đảo, lên tới khoảng 85.4%, cho thấy họ là nhóm chủ đạo và chi phối xu hướng tổng thể trong tập dữ liệu. Nhóm người da đen (Black) đứng thứ hai với 9.6%, tiếp theo là nhóm người châu Á và đảo Thái Bình Dương (Asian-Pac-Islander) chiếm khoảng 3.2%. Các nhóm còn lại gồm người bản địa Mỹ và Eskimo (Amer-Indian-Eskimo) và nhóm khác (Other) lần lượt chiếm tỷ lệ rất nhỏ, dưới 1%. Sự mất cân bằng rõ rệt về mặt chủng tộc trong dữ liệu này là điều cần lưu ý khi phân tích và xây dựng mô hình thống kê hoặc dự báo, bởi nó có thể dẫn đến thiên lệch hoặc thiếu đại diện cho các nhóm thiểu số nếu không xử lý phù hợp.
# Bảng tần số
ge1 <- table(d$gender)
ge1
##
## Female Male
## 9782 20380
# Bảng tần suất
ge2 <- table(d$gender)/sum(nrow(d))
ge2
##
## Female Male
## 0.3243154 0.6756846
Bộ dữ liệu d bao gồm: 9782 người là nữ , chiếm tỷ trọng 32.4315364 %. Và 20380 người là nam, chiếm tỷ trọng 67.5684636 %.
library(ggplot2)
ggplot(as.data.frame(ge2), aes(x = "", y = Freq, fill = Var1)) +
geom_col(width = 1, color = "white") +
coord_polar("y") +
geom_text(aes(label = paste0(round(Freq * 100), "%")),
position = position_stack(vjust = 0.5)) +
labs(title = "Biểu đồ tần suất giới tính (gender)", fill = "Giới tính") +
theme_void() +
theme(plot.title = element_text(hjust = 0.5))
Biểu đồ tần suất giới tính cho thấy nam giới chiếm tỷ lệ gấp đôi nữ giới trong bộ dữ liệu, với khoảng 66.9% là nam và chỉ 33.1% là nữ.
# Bảng tần số
in1 <- table(d$income)
in1
##
## <=50K >50K
## 22654 7508
# Bảng tần suất
in2 <- table(d$income)/sum(nrow(d))
in2
##
## <=50K >50K
## 0.7510775 0.2489225
Bộ dữ liệu d bao gồm: 22654 người có mức thu nhập <= 50k USD, chiếm tỷ trọng 75.1077515 %. Và 7508 người có mức thu nhập > 50k USD, chiếm tỷ trọng 24.8922485 %.
library(ggplot2)
ggplot(as.data.frame(in2), aes(x = "", y = Freq, fill = Var1)) +
geom_col(width = 1, color = "white") +
coord_polar("y") +
geom_text(aes(label = paste0(round(Freq * 100), "%")),
position = position_stack(vjust = 0.5)) +
labs(title = "Biểu đồ tần suất mức thu nhập (income)", fill = "Mức thu nhập") +
theme_void() +
theme(plot.title = element_text(hjust = 0.5))
Biểu đồ tần suất cho thấy phần lớn cá nhân trong bộ dữ liệu có mức thu nhập không vượt quá 50,000 USD/năm, chiếm khoảng 75.9%. Trong khi đó, chỉ có 24.1% người có thu nhập vượt mức này. Sự chênh lệch đáng kể giữa hai nhóm cho thấy dữ liệu bị lệch về phía thu nhập thấp, điều này có thể phản ánh thực tế rằng đa số người lao động tại thời điểm khảo sát không đạt được mức thu nhập cao.
# Số lượng người là nhóm "White"
White <- sum(d$race == "White")
# Kiểm định tỷ lệ 1 mẫu
prop.test(White, sum(nrow(d)), p = 0.86, conf.level = 0.95)
##
## 1-sample proportions test with continuity correction
##
## data: White out of sum(nrow(d)), null probability 0.86
## X-squared = 0.0093274, df = 1, p-value = 0.9231
## alternative hypothesis: true p is not equal to 0.86
## 95 percent confidence interval:
## 0.8558095 0.8636794
## sample estimates:
## p
## 0.8597905
Đặt giả thuyết:
H0:Tỷ lệ người là nhóm người White = 0.86
H1:Tỷ lệ người là nhóm người White ≠ 0.86
Ta thấy giá trị p_value = 0.002978 < 5% bác bỏ H0, nghĩa là tỷ lệ người là nhóm người White trong thực tế không phải là 86%. Ngoài ra, ta có thể ước lượng số người đến từ nhóm người White trong thực tế với độ tin cậy 95% nằm trong khoảng từ 85.03838% đến 85.80793%.
# Số lượng người có mức thu nhập ">50k"
cao <- sum(d$income == "<=50k")
# Kiểm định tỷ lệ 1 mẫu
prop.test(cao, sum(nrow(d)), p = 0.24, conf.level = 0.95)
##
## 1-sample proportions test with continuity correction
##
## data: cao out of sum(nrow(d)), null probability 0.24
## X-squared = 9523.5, df = 1, p-value < 2.2e-16
## alternative hypothesis: true p is not equal to 0.24
## 95 percent confidence interval:
## 0.0000000000 0.0001587641
## sample estimates:
## p
## 0
Đặt giả thuyết:
H0:Tỷ lệ người có mức thu nhập “>50k”= 0.24
H1:Tỷ lệ người có mức thu nhập “>50k” ≠ 0.24
Ta thấy giá trị p-value < 2.2e-16 < 5% bác bỏ H0, nghĩa là tỷ lệ người có mức thu nhập “>50k” trong thực tế không phải là 24%. Ngoài ra, ta có thể ước lượng số người có mức thu nhập “>50k” trong thực tế với độ tin cậy 95% nằm trong khoảng từ 0% đến 14,7%.
vd1 <- table(d$relationship,d$race)
addmargins(vd1)
##
## Amer-Indian-Eskimo Asian-Pac-Islander Black Other White Sum
## Husband 88 358 621 73 11323 12463
## Not-in-family 72 187 733 58 6676 7726
## Other-relative 11 68 146 25 639 889
## Own-child 43 145 484 29 3765 4466
## Unmarried 55 81 700 35 2341 3212
## Wife 17 56 133 11 1189 1406
## Sum 286 895 2817 231 25933 30162
# Tính tỷ lệ phần trăm theo hàng
vd01 <- prop.table(vd1, margin = 1) * 100
vd01
##
## Amer-Indian-Eskimo Asian-Pac-Islander Black Other
## Husband 0.7060900 2.8725026 4.9827489 0.5857338
## Not-in-family 0.9319182 2.4203987 9.4874450 0.7507119
## Other-relative 1.2373453 7.6490439 16.4229471 2.8121485
## Own-child 0.9628303 3.2467532 10.8374384 0.6493506
## Unmarried 1.7123288 2.5217933 21.7932752 1.0896638
## Wife 1.2091038 3.9829303 9.4594595 0.7823613
##
## White
## Husband 90.8529247
## Not-in-family 86.4095263
## Other-relative 71.8785152
## Own-child 84.3036274
## Unmarried 72.8829390
## Wife 84.5661451
Dữ liệu tổng hợp cho thấy trong tổng số 32,561 cá nhân, người da trắng chiếm áp đảo với 27,816 người (khoảng 85.4%), trong đó phần lớn giữ vai trò vợ hoặc chồng, với 11,940 người là chồng (90.5% trong nhóm Husband) và 1,311 người là vợ (83.6% trong nhóm Wife). Người da đen đứng thứ hai với 3,124 người (khoảng 9.6%), tập trung nhiều trong các nhóm “Unmarried” (769 người, chiếm 22.3% nhóm này) và “Not-in-family” (812 người, chiếm 9.8%). Các nhóm chủng tộc khác như Asian-Pac-Islander (1,039 người, 3.2%), Amer-Indian-Eskimo (311 người, 1.0%) và Other (271 người, 0.8%) có số lượng nhỏ hơn và phân bố không đồng đều trong các loại quan hệ gia đình. Điều này cho thấy sự phân bố về số lượng và tỷ lệ phần trăm trong các vai trò gia đình có sự khác biệt đáng kể giữa các nhóm chủng tộc.
ggplot(as.data.frame(vd1), aes(x = Var1, y = Freq, fill = Var2)) +
geom_col(position = position_dodge(width = 0.9)) +
labs(title = "Mối quan hệ trong gia đình và nhóm người",
x = "Mối quan hệ với các thành viên khác",
y = "Số lượng",
fill = "Nhóm người") +
theme_minimal()
Biểu đồ cho thấy sự phân bố khác biệt rõ rệt về chủng tộc trong các mối quan hệ gia đình. Người da trắng chiếm ưu thế với tỷ lệ rất cao trong các vai trò truyền thống như chồng (90.5%) và vợ (83.6%), đồng thời cũng có số lượng lớn nhất trong tổng số các cá nhân. Trong khi đó, người da đen xuất hiện nhiều hơn ở các nhóm quan hệ ngoài hôn nhân như “Unmarried” (22.3%) và “Other-relative” (16.7%), cho thấy cấu trúc gia đình đa dạng hơn trong nhóm này. Các nhóm thiểu số khác như Amer-Indian-Eskimo, Asian-Pac-Islander và Other có tỷ lệ thấp hơn và phân bố không đồng đều, tập trung chủ yếu trong các nhóm như “Other-relative” và “Own-child”. Những kết quả này phản ánh sự khác biệt đáng kể về thành phần và vai trò trong gia đình giữa các nhóm chủng tộc, với người da trắng chủ yếu đảm nhận các vị trí hôn nhân chính thức, còn các nhóm thiểu số thường xuất hiện nhiều hơn trong các mối quan hệ gia đình khác hoặc không chính thức
Giả thuyết:
H₀ :relationships và race độc lập với nhau (không có mối quan hệ).
H₁ :relationships và raci không độc lập (có mối quan hệ).
chisq.test(vd1)
##
## Pearson's Chi-squared test
##
## data: vd1
## X-squared = 1136.9, df = 20, p-value < 2.2e-16
Kết quả cung cấp:
Giá trị Chi-bình phương (X²): 1253.4
Bậc tự do (df): 20
Giá trị p: p-value < 2.2e-16
Qua kết quả kiểm định cho ta p−value < 2.2e−16 < 0.05, nên bác bỏ H0, nghĩa là giữa mối quan hệ của mọi người trong gia đình có quan hệ với nhóm người/chủng tộc.
vd2 <- table(d$gender,d$income)
addmargins(vd2)
##
## <=50K >50K Sum
## Female 8670 1112 9782
## Male 13984 6396 20380
## Sum 22654 7508 30162
# Tính tỷ lệ phần trăm theo hàng
vd02 <- prop.table(vd2, margin = 1) * 100
vd02
##
## <=50K >50K
## Female 88.63218 11.36782
## Male 68.61629 31.38371
Dữ liệu cho thấy trong tổng số 32,561 người, nữ giới chiếm 10,771 và nam giới chiếm 21,790. Phần lớn nữ giới (89.05%) có thu nhập dưới hoặc bằng 50K, trong khi chỉ có 10.95% nữ có thu nhập trên 50K. Ngược lại, nam giới có tỷ lệ thu nhập trên 50K cao hơn đáng kể, với 30.57% trong khi 69.43% còn lại có thu nhập dưới hoặc bằng 50K. Kết quả này phản ánh rõ ràng sự chênh lệch về mức thu nhập giữa nam và nữ, với nam giới có xu hướng có thu nhập cao hơn nhiều so với nữ giới trong tập dữ liệu này.
ggplot(as.data.frame(vd2), aes(x = Var1, y = Freq, fill = Var2)) +
geom_col(position = position_dodge(width = 0.9)) +
geom_text(aes(label = paste0(Freq, " (", round(vd02[cbind(as.character(Var1), as.character(Var2))], 1), "%)")),
position = position_dodge(width = 0.9),
vjust = -0.3, size = 3) +
labs(title = "Giới tính và Mức thu nhập",
x = "Giới tính",
y = "Số lượng",
fill = "Mức thu nhập") +
theme_minimal()
Từ biểu đồ, tỷ lệ nam giới có thu nhập trên 50K là 30.57%, cao gần gấp ba lần so với nữ giới, chỉ ở mức 10.95%. Ngược lại, tỷ lệ nữ có thu nhập từ 50K trở xuống chiếm tới 89.05%, trong khi ở nam giới là 69.43%. Những con số này cho thấy một sự chênh lệch đáng kể về thu nhập giữa hai giới. Cụ thể, nam giới có khả năng đạt mức thu nhập cao (>50K) lớn hơn nhiều so với nữ giới, trong khi nữ giới lại chiếm ưu thế trong nhóm thu nhập thấp (≤50K). Điều này phản ánh sự bất bình đẳng giới trong phân phối thu nhập và có thể liên quan đến nhiều yếu tố như cơ hội việc làm, phân biệt đối xử, hoặc khác biệt trong ngành nghề và thời gian lao động giữa nam và nữ.
Giả thuyết:
H₀ :gender và income độc lập với nhau (không có mối quan hệ).
H₁ :gender và incomi không độc lập (có mối quan hệ).
chisq.test(vd2)
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: vd2
## X-squared = 1415.3, df = 1, p-value < 2.2e-16
Kết quả cung cấp:
Giá trị Chi-bình phương (X²): 1517.8
Bậc tự do (df): 1
Giá trị p: p-value < 2.2e-16
Qua kết quả kiểm định cho ta p−value < 2.2e−16 < 0.05, nên bác bỏ H0, nghĩa là giữa giới tính và mức thu nhập có quan hệ với nhau.
library(epitools)
riskratio(vd2)
## $data
##
## <=50K >50K Total
## Female 8670 1112 9782
## Male 13984 6396 20380
## Total 22654 7508 30162
##
## $measure
## risk ratio with 95% C.I.
## estimate lower upper
## Female 1.00000 NA NA
## Male 2.76075 2.602734 2.928361
##
## $p.value
## two-sided
## midp.exact fisher.exact chi.square
## Female NA NA NA
## Male 0 0 5.862415e-310
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"
Risk Ratio (RR) đo lường tỷ lệ nguy cơ (hoặc khả năng) một nhóm có thu nhập >50K USD so với nhóm tham chiếu. Ở đây, Female là nhóm tham chiếu với RR = 1. Male có RR = 2.79, nghĩa là nam có khả năng có thu nhập >50K USD cao hơn khoảng 2.79 lần so với nữ có khả năng thu nhập >50k USG.
riskratio(vd2, rev = 'c')
## $data
##
## >50K <=50K Total
## Female 1112 8670 9782
## Male 6396 13984 20380
## Total 7508 22654 30162
##
## $measure
## risk ratio with 95% C.I.
## estimate lower upper
## Female 1.000000 NA NA
## Male 0.774169 0.7651742 0.7832696
##
## $p.value
## two-sided
## midp.exact fisher.exact chi.square
## Female NA NA NA
## Male 0 0 5.862415e-310
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"
Risk Ratio (RR) đo lường tỷ lệ nguy cơ (hoặc khả năng) một nhóm có thu nhập <=50K USD so với nhóm tham chiếu. Ở đây, Female là nhóm tham chiếu với RR = 1. Male có RR = 0.7796, nghĩa là Xác suất nam có thu nhập <=50K USD thấp hơn khoảng 0.77 lần so với nữ có thu nhập <=50k USD.
- Nếu “<=50K” ~ Thành công và “>50k” ~ Thất bại
vd2 <- table(d$gender,d$income)
addmargins(vd2)
##
## <=50K >50K Sum
## Female 8670 1112 9782
## Male 13984 6396 20380
## Sum 22654 7508 30162
odds2.1<- vd2["Female", "<=50K"] / vd2["Female", ">50K"]
print(odds2.1)
## [1] 7.796763
Trong nhóm nữ, số người có thu nhập ≤50K cao gấp khoảng 7.79 lần so với số người có thu nhập >50K. Điều này cho thấy phần lớn nữ giới nằm trong nhóm thu nhập thấp.
odds2.2<- vd2["Male", "<=50K"] / vd2["Male", ">50K"]
print(odds2.2)
## [1] 2.186366
Đối với nam, số người có thu nhập ≤50K cao gấp khoảng 2.186 lần so với nhóm thu nhập >50K. Tỷ lệ này thấp hơn nhiều so với nữ, cho thấy nam giới có xu hướng đạt được thu nhập cao (>50K) thường xuyên hơn nữ.
oddsratio(vd2)
## $data
##
## <=50K >50K Total
## Female 8670 1112 9782
## Male 13984 6396 20380
## Total 22654 7508 30162
##
## $measure
## odds ratio with 95% C.I.
## estimate lower upper
## Female 1.000000 NA NA
## Male 3.565578 3.328888 3.82231
##
## $p.value
## two-sided
## midp.exact fisher.exact chi.square
## Female NA NA NA
## Male 0 0 5.862415e-310
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "median-unbiased estimate & mid-p exact CI"
Kết quả phân tích cho thấy tỷ lệ nam giới có thu nhập >50K cao vượt trội so với nữ giới. Cụ thể, nam có khả năng đạt mức thu nhập >50K cao gấp khoảng 3.5656 lần so với nữ.
- Nếu “>50K” ~ Thành công và “<=50k” ~ Thất bại
odds2.3<- vd2["Female", ">50K"] / vd2["Female", "<=50K"]
print(odds2.3)
## [1] 0.1282584
Trong nhóm nữ, số người có thu nhập >50K thấp hơn 0.128 lần so với số người có thu nhập <=50K. Điều này cho thấy phần lớn nữ giới nằm trong nhóm thu nhập thấp.
odds2.4<- vd2["Male", ">50K"] / vd2["Male", "<=50K"]
print(odds2.4)
## [1] 0.4573799
Đối với nam giới, số người có thu nhập >50K thấp hơn khoảng 0.46 lần so với nhóm thu nhập <=50K.
oddsratio(vd2, rev = 'c')
## $data
##
## >50K <=50K Total
## Female 1112 8670 9782
## Male 6396 13984 20380
## Total 7508 22654 30162
##
## $measure
## odds ratio with 95% C.I.
## estimate lower upper
## Female 1.0000000 NA NA
## Male 0.2804836 0.2616219 0.3004006
##
## $p.value
## two-sided
## midp.exact fisher.exact chi.square
## Female NA NA NA
## Male 0 0 5.862415e-310
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "median-unbiased estimate & mid-p exact CI"
Nam giới có khả năng có thu nhập ≤50K USD thấp hơn nữ giới có khả năng có thu nhập <=50k USD khoảng 0.28 lần.