CHƯƠNG 1. GIỚI THIỆU VỀ DỮ LIỆU

library(readxl)

## Warning: package 'readxl' was built under R version 4.3.3

d <- read_excel("C:/Users/Ngo Trang/Documents/adult.xlsx")

Để khám phá dữ liệu ban đầu chúng ta sẽ xem nhanh cấu trúc và nội dung dữ liệu ở 5 quan sát đầu và 5 quan sát cuối bảng.

# Hiển thị một vài dòng đầu của dữ liệu
head(d,5)

# Hiển thị một vài dòng cuối của dữ liệu
tail(d,5)

Qua việc kiểm tra một vài dòng đầu và cuối của bộ dữ liệu, ta nhận thấy bộ dữ liệu có một số giá trị NA. Để khắc phục các biến (NA) chúng ta sẽ loại bỏ những hàng có chứa ít nhất 1 giá trị NA.

sum(is.na(d))

## [1] 4262

Trong bộ dữ liệu d gốc có tổng tất cả 4262 giá trị NA.

d <- na.omit(d)
str(d)

## tibble [30,162 × 15] (S3: tbl_df/tbl/data.frame)
##  $ age           : num [1:30162] 82 54 41 34 38 74 68 45 38 52 ...
##  $ workclass     : chr [1:30162] "Private" "Private" "Private" "Private" ...
##  $ fnlwgt        : num [1:30162] 132870 140359 264663 216864 150601 ...
##  $ education     : chr [1:30162] "HS-grad" "7th-8th" "Some-college" "HS-grad" ...
##  $ education.num : num [1:30162] 9 4 10 9 6 16 9 16 15 13 ...
##  $ marital.status: chr [1:30162] "Widowed" "Divorced" "Separated" "Divorced" ...
##  $ occupation    : chr [1:30162] "Exec-managerial" "Machine-op-inspct" "Prof-specialty" "Other-service" ...
##  $ relationship  : chr [1:30162] "Not-in-family" "Unmarried" "Own-child" "Unmarried" ...
##  $ race          : chr [1:30162] "White" "White" "White" "White" ...
##  $ gender        : chr [1:30162] "Female" "Female" "Female" "Female" ...
##  $ capital.gain  : num [1:30162] 0 0 0 0 0 0 0 0 0 0 ...
##  $ capital.loss  : num [1:30162] 4356 3900 3900 3770 3770 ...
##  $ hours.per.week: num [1:30162] 18 40 40 45 40 20 40 35 45 20 ...
##  $ native.country: chr [1:30162] "United-States" "United-States" "United-States" "United-States" ...
##  $ income        : chr [1:30162] "<=50K" "<=50K" "<=50K" "<=50K" ...
##  - attr(*, "na.action")= 'omit' Named int [1:2399] 1 3 10 15 19 25 45 49 50 66 ...
##   ..- attr(*, "names")= chr [1:2399] "1" "3" "10" "15" ...

Dữ liệu d được trích xuất từ cơ sở dữ liệu của Cục điều tra dân số năm 1994 bởi Ronny Kohavi và Barry Becker (Khai thác và trực quan hóa dữ liệu, Silicon Graphics). ). Một tập hợp các bản ghi khá sạch đã được trích xuất bằng cách sử dụng các điều kiện sau: ((AAGE>16) && (AGI>100) && (AFNLWGT>1) && (HRSWK>0)). Bộ dữ liệu data gồm 30162 quan sát với 15 biến bao gồm cả biến định lượng và biến định tính.

names(d)

##  [1] "age"            "workclass"      "fnlwgt"         "education"     
##  [5] "education.num"  "marital.status" "occupation"     "relationship"  
##  [9] "race"           "gender"         "capital.gain"   "capital.loss"  
## [13] "hours.per.week" "native.country" "income"

Các biến định lượng:

age – Tuổi, fnlwgt – Trọng số mẫu, education.num – Mã số trình độ học vấn, capital.gain – Thu nhập từ vốn, capital.loss – Lỗ từ vốn, hours.per.week – Số giờ làm việc mỗi tuần.

Các biến định tính:

workclass – Loại hình công việc, education – Trình độ học vấn, marital.status – Tình trạng hôn nhân, occupation – Nghề nghiệp, relationship – Quan hệ gia đình, race – Nhóm người, gender – Giới tính, native.country – Quốc gia xuất thân, income – Mức thu nhập.

CHƯƠNG 2. PHÂN TÍCH ĐỘC LẬP CÁC BIẾN ĐỊNH TÍNH

2.1 Phân tích chi tiết các biến

2.1.1 Chi tiết biến relationship

# Bảng tần số
re1 <- table(d$relationship)
re1

## 
##        Husband  Not-in-family Other-relative      Own-child      Unmarried 
##          12463           7726            889           4466           3212 
##           Wife 
##           1406

# Bảng tần suất
re2 <- table(d$relationship)/sum(nrow(d))
re2

## 
##        Husband  Not-in-family Other-relative      Own-child      Unmarried 
##     0.41320204     0.25615012     0.02947417     0.14806710     0.10649161 
##           Wife 
##     0.04661495

Bộ dữ liệu d bao gồm: 12463 người là chồng, chiếm tỷ trọng 41.3202042 %. 1406 người là vợ, chiếm tỷ trọng 4.6614946 %. 7726 người là cá nhân không thuộc gia đình, chiếm tỷ trọng 25.6150123 %. 889 người là người thân khác, chiếm tỷ trọng 2.9474173 % . 4466 người là con ruột, chiếm tỷ trọng 14.8067104 %. Và 3212 người chưa lập gia đình, chiếm tỷ trọng 10.6491612 %.

library(ggplot2)
ggplot(as.data.frame(re2), aes(x = "", y = Freq, fill = Var1)) +
  geom_col(width = 1, color = "white") +
  coord_polar("y") +
  geom_text(aes(label = paste0(round(Freq * 100), "%")),
            position = position_stack(vjust = 0.5)) +
  labs(title = "Biểu đồ tần suất các mối quan hệ trong gia đình (relationship)", fill = "Mối quan hệ trong gia đình") +
  theme_void() +
  theme(plot.title = element_text(hjust = 0.5))

Người chồng (Husband) chiếm tỷ lệ cao nhất – khoảng 40.5% tổng số cá nhân. Điều này cho thấy rằng phần lớn các quan sát trong tập dữ liệu là nam giới có vợ và đứng đầu hộ gia đình. Không thuộc gia đình (Not-in-family) đứng thứ hai, chiếm khoảng 25.5%. Bao gồm những cá nhân sống một mình, ở trọ hoặc không có quan hệ gia đình trực tiếp trong hộ. Đây là một nhóm xã hội đặc biệt, có thể là người độc thân, người đi làm xa, hoặc người không lập gia đình. Con ruột (Own-child) chiếm 15.6%, cho thấy có một phần đáng kể là trẻ vị thành niên hoặc thanh niên còn sống với cha mẹ. Không có vợ/chồng (Unmarried) chiếm 10.6%, thể hiện sự hiện diện của nhóm người trưởng thành độc thân hoặc đã ly hôn/góa. Người vợ (Wife) chiếm 4.8%, thấp hơn đáng kể so với “Husband”. Điều này phản ánh sự mất cân bằng giới tính trong vai trò đứng đầu hộ gia đình, hoặc có thể do cách mã hóa hoặc thu thập dữ liệu (ưu tiên ghi nhận người nam là người đứng đầu). Người thân khác (Other-relative) chỉ chiếm 3%, là nhóm nhỏ bao gồm ông bà, cô chú, cháu,…

2.1.2 Chi tiết biến race

# Bảng tần số
ra1 <- table(d$race)
ra1

## 
## Amer-Indian-Eskimo Asian-Pac-Islander              Black              Other 
##                286                895               2817                231 
##              White 
##              25933

# Bảng tần suất
ra2 <- table(d$race)/sum(nrow(d))
ra2

## 
## Amer-Indian-Eskimo Asian-Pac-Islander              Black              Other 
##        0.009482130        0.029673099        0.093395663        0.007658643 
##              White 
##        0.859790465

Bộ dữ liệu d bao gồm: 286 người bản địa châu Mỹ hoặc người Eskimo, chiếm tỷ trọng 0.948213 %. 895 người châu Á hoặc đảo Thái Bình Dương , chiếm tỷ trọng 2.9673099 %. 2817 người da đen, chiếm tỷ trọng 9.3395663 % . 25933 người da trắng, chiếm tỷ trọng 85.9790465 %. Và 231 người khác, chiếm tỷ trọng 0.7658643 %.

library(ggplot2)
ggplot(as.data.frame(ra2), aes(x = "", y = Freq, fill = Var1)) +
  geom_col(width = 1, color = "white") +
  coord_polar("y") +
  geom_text(aes(label = paste0(round(Freq * 100), "%")),
            position = position_stack(vjust = 0.5)) +
  labs(title = "Biểu đồ tần suất các nhóm người (race)", fill = "Nhóm người") +
  theme_void() +
  theme(plot.title = element_text(hjust = 0.5))

Biểu đồ tần suất các biểu hiện của biến race (nhóm người) cho thấy sự phân bố dân cư không đồng đều trong bộ dữ liệu. Nhóm người da trắng (White) chiếm tỷ lệ áp đảo, lên tới khoảng 85.4%, cho thấy họ là nhóm chủ đạo và chi phối xu hướng tổng thể trong tập dữ liệu. Nhóm người da đen (Black) đứng thứ hai với 9.6%, tiếp theo là nhóm người châu Á và đảo Thái Bình Dương (Asian-Pac-Islander) chiếm khoảng 3.2%. Các nhóm còn lại gồm người bản địa Mỹ và Eskimo (Amer-Indian-Eskimo) và nhóm khác (Other) lần lượt chiếm tỷ lệ rất nhỏ, dưới 1%. Sự mất cân bằng rõ rệt về mặt chủng tộc trong dữ liệu này là điều cần lưu ý khi phân tích và xây dựng mô hình thống kê hoặc dự báo, bởi nó có thể dẫn đến thiên lệch hoặc thiếu đại diện cho các nhóm thiểu số nếu không xử lý phù hợp.

2.1.3 Chi tiết biến gender

# Bảng tần số
ge1 <- table(d$gender)
ge1

## 
## Female   Male 
##   9782  20380

# Bảng tần suất
ge2 <- table(d$gender)/sum(nrow(d))
ge2

## 
##    Female      Male 
## 0.3243154 0.6756846

Bộ dữ liệu d bao gồm: 9782 người là nữ , chiếm tỷ trọng 32.4315364 %. Và 20380 người là nam, chiếm tỷ trọng 67.5684636 %.

library(ggplot2)
ggplot(as.data.frame(ge2), aes(x = "", y = Freq, fill = Var1)) +
  geom_col(width = 1, color = "white") +
  coord_polar("y") +
  geom_text(aes(label = paste0(round(Freq * 100), "%")),
            position = position_stack(vjust = 0.5)) +
  labs(title = "Biểu đồ tần suất giới tính (gender)", fill = "Giới tính") +
  theme_void() +
  theme(plot.title = element_text(hjust = 0.5))

Biểu đồ tần suất giới tính cho thấy nam giới chiếm tỷ lệ gấp đôi nữ giới trong bộ dữ liệu, với khoảng 66.9% là nam và chỉ 33.1% là nữ.

2.1.4 Chi tiết biến income

# Bảng tần số
in1 <- table(d$income)
in1

## 
## <=50K  >50K 
## 22654  7508

# Bảng tần suất
in2 <- table(d$income)/sum(nrow(d))
in2

## 
##     <=50K      >50K 
## 0.7510775 0.2489225

Bộ dữ liệu d bao gồm: 22654 người có mức thu nhập <= 50k USD, chiếm tỷ trọng 75.1077515 %. Và 7508 người có mức thu nhập > 50k USD, chiếm tỷ trọng 24.8922485 %.

library(ggplot2)
ggplot(as.data.frame(in2), aes(x = "", y = Freq, fill = Var1)) +
  geom_col(width = 1, color = "white") +
  coord_polar("y") +
  geom_text(aes(label = paste0(round(Freq * 100), "%")),
            position = position_stack(vjust = 0.5)) +
  labs(title = "Biểu đồ tần suất mức thu nhập (income)", fill = "Mức thu nhập") +
  theme_void() +
  theme(plot.title = element_text(hjust = 0.5))

Biểu đồ tần suất cho thấy phần lớn cá nhân trong bộ dữ liệu có mức thu nhập không vượt quá 50,000 USD/năm, chiếm khoảng 75.9%. Trong khi đó, chỉ có 24.1% người có thu nhập vượt mức này. Sự chênh lệch đáng kể giữa hai nhóm cho thấy dữ liệu bị lệch về phía thu nhập thấp, điều này có thể phản ánh thực tế rằng đa số người lao động tại thời điểm khảo sát không đạt được mức thu nhập cao.

2.2 Ứớc lượng khoảng, kiểm định giả thuyết thống kê cho các biến trong bộ dữ liệu

2.2.1 race - White

# Số lượng người là nhóm "White"
White <- sum(d$race == "White")
# Kiểm định tỷ lệ 1 mẫu
prop.test(White, sum(nrow(d)), p = 0.86, conf.level = 0.95)

## 
##  1-sample proportions test with continuity correction
## 
## data:  White out of sum(nrow(d)), null probability 0.86
## X-squared = 0.0093274, df = 1, p-value = 0.9231
## alternative hypothesis: true p is not equal to 0.86
## 95 percent confidence interval:
##  0.8558095 0.8636794
## sample estimates:
##         p 
## 0.8597905

Đặt giả thuyết:

H0:Tỷ lệ người là nhóm người White = 0.86

H1:Tỷ lệ người là nhóm người White ≠ 0.86

Ta thấy giá trị p_value = 0.002978 < 5% bác bỏ H0, nghĩa là tỷ lệ người là nhóm người White trong thực tế không phải là 86%. Ngoài ra, ta có thể ước lượng số người đến từ nhóm người White trong thực tế với độ tin cậy 95% nằm trong khoảng từ 85.03838% đến 85.80793%.

2.2.2 income - >50k

# Số lượng người có mức thu nhập ">50k"
cao <- sum(d$income == "<=50k")
# Kiểm định tỷ lệ 1 mẫu
prop.test(cao, sum(nrow(d)), p = 0.24, conf.level = 0.95)

## 
##  1-sample proportions test with continuity correction
## 
## data:  cao out of sum(nrow(d)), null probability 0.24
## X-squared = 9523.5, df = 1, p-value < 2.2e-16
## alternative hypothesis: true p is not equal to 0.24
## 95 percent confidence interval:
##  0.0000000000 0.0001587641
## sample estimates:
## p 
## 0

Đặt giả thuyết:

H0:Tỷ lệ người có mức thu nhập “>50k”= 0.24

H1:Tỷ lệ người có mức thu nhập “>50k” ≠ 0.24

Ta thấy giá trị p-value < 2.2e-16 < 5% bác bỏ H0, nghĩa là tỷ lệ người có mức thu nhập “>50k” trong thực tế không phải là 24%. Ngoài ra, ta có thể ước lượng số người có mức thu nhập “>50k” trong thực tế với độ tin cậy 95% nằm trong khoảng từ 0% đến 14,7%.

CHƯƠNG 3. PHÂN TÍCH CẶP BIẾN ĐỊNH TÍNH

3.1 Cặp biến định tính relationship-race

3.1.1 Bảng tần số chéo

vd1 <- table(d$relationship,d$race)
addmargins(vd1)

##                 
##                  Amer-Indian-Eskimo Asian-Pac-Islander Black Other White   Sum
##   Husband                        88                358   621    73 11323 12463
##   Not-in-family                  72                187   733    58  6676  7726
##   Other-relative                 11                 68   146    25   639   889
##   Own-child                      43                145   484    29  3765  4466
##   Unmarried                      55                 81   700    35  2341  3212
##   Wife                           17                 56   133    11  1189  1406
##   Sum                           286                895  2817   231 25933 30162

# Tính tỷ lệ phần trăm theo hàng
vd01 <- prop.table(vd1, margin = 1) * 100
vd01

##                 
##                  Amer-Indian-Eskimo Asian-Pac-Islander      Black      Other
##   Husband                 0.7060900          2.8725026  4.9827489  0.5857338
##   Not-in-family           0.9319182          2.4203987  9.4874450  0.7507119
##   Other-relative          1.2373453          7.6490439 16.4229471  2.8121485
##   Own-child               0.9628303          3.2467532 10.8374384  0.6493506
##   Unmarried               1.7123288          2.5217933 21.7932752  1.0896638
##   Wife                    1.2091038          3.9829303  9.4594595  0.7823613
##                 
##                       White
##   Husband        90.8529247
##   Not-in-family  86.4095263
##   Other-relative 71.8785152
##   Own-child      84.3036274
##   Unmarried      72.8829390
##   Wife           84.5661451

Dữ liệu tổng hợp cho thấy trong tổng số 32,561 cá nhân, người da trắng chiếm áp đảo với 27,816 người (khoảng 85.4%), trong đó phần lớn giữ vai trò vợ hoặc chồng, với 11,940 người là chồng (90.5% trong nhóm Husband) và 1,311 người là vợ (83.6% trong nhóm Wife). Người da đen đứng thứ hai với 3,124 người (khoảng 9.6%), tập trung nhiều trong các nhóm “Unmarried” (769 người, chiếm 22.3% nhóm này) và “Not-in-family” (812 người, chiếm 9.8%). Các nhóm chủng tộc khác như Asian-Pac-Islander (1,039 người, 3.2%), Amer-Indian-Eskimo (311 người, 1.0%) và Other (271 người, 0.8%) có số lượng nhỏ hơn và phân bố không đồng đều trong các loại quan hệ gia đình. Điều này cho thấy sự phân bố về số lượng và tỷ lệ phần trăm trong các vai trò gia đình có sự khác biệt đáng kể giữa các nhóm chủng tộc.

ggplot(as.data.frame(vd1), aes(x = Var1, y = Freq, fill = Var2)) +
  geom_col(position = position_dodge(width = 0.9)) +
  labs(title = "Mối quan hệ trong gia đình và nhóm người",
       x = "Mối quan hệ với các thành viên khác",
       y = "Số lượng",
       fill = "Nhóm người") +
  theme_minimal()

Biểu đồ cho thấy sự phân bố khác biệt rõ rệt về chủng tộc trong các mối quan hệ gia đình. Người da trắng chiếm ưu thế với tỷ lệ rất cao trong các vai trò truyền thống như chồng (90.5%) và vợ (83.6%), đồng thời cũng có số lượng lớn nhất trong tổng số các cá nhân. Trong khi đó, người da đen xuất hiện nhiều hơn ở các nhóm quan hệ ngoài hôn nhân như “Unmarried” (22.3%) và “Other-relative” (16.7%), cho thấy cấu trúc gia đình đa dạng hơn trong nhóm này. Các nhóm thiểu số khác như Amer-Indian-Eskimo, Asian-Pac-Islander và Other có tỷ lệ thấp hơn và phân bố không đồng đều, tập trung chủ yếu trong các nhóm như “Other-relative” và “Own-child”. Những kết quả này phản ánh sự khác biệt đáng kể về thành phần và vai trò trong gia đình giữa các nhóm chủng tộc, với người da trắng chủ yếu đảm nhận các vị trí hôn nhân chính thức, còn các nhóm thiểu số thường xuất hiện nhiều hơn trong các mối quan hệ gia đình khác hoặc không chính thức

3.1.2 Kiểm định chi bình phương

Giả thuyết:

H₀ :relationships và race độc lập với nhau (không có mối quan hệ).

H₁ :relationships và raci không độc lập (có mối quan hệ).

chisq.test(vd1)

## 
##  Pearson's Chi-squared test
## 
## data:  vd1
## X-squared = 1136.9, df = 20, p-value < 2.2e-16

Kết quả cung cấp:

Giá trị Chi-bình phương (X²): 1253.4
Bậc tự do (df): 20
Giá trị p: p-value < 2.2e-16

Qua kết quả kiểm định cho ta p−value < 2.2e−16 < 0.05, nên bác bỏ H0, nghĩa là giữa mối quan hệ của mọi người trong gia đình có quan hệ với nhóm người/chủng tộc.

3.2 Cặp biến định tính gender-income

3.2.1 Bảng tần số chéo

vd2 <- table(d$gender,d$income)
addmargins(vd2)

##         
##          <=50K  >50K   Sum
##   Female  8670  1112  9782
##   Male   13984  6396 20380
##   Sum    22654  7508 30162

# Tính tỷ lệ phần trăm theo hàng
vd02 <- prop.table(vd2, margin = 1) * 100
vd02

##         
##             <=50K     >50K
##   Female 88.63218 11.36782
##   Male   68.61629 31.38371

Dữ liệu cho thấy trong tổng số 32,561 người, nữ giới chiếm 10,771 và nam giới chiếm 21,790. Phần lớn nữ giới (89.05%) có thu nhập dưới hoặc bằng 50K, trong khi chỉ có 10.95% nữ có thu nhập trên 50K. Ngược lại, nam giới có tỷ lệ thu nhập trên 50K cao hơn đáng kể, với 30.57% trong khi 69.43% còn lại có thu nhập dưới hoặc bằng 50K. Kết quả này phản ánh rõ ràng sự chênh lệch về mức thu nhập giữa nam và nữ, với nam giới có xu hướng có thu nhập cao hơn nhiều so với nữ giới trong tập dữ liệu này.

ggplot(as.data.frame(vd2), aes(x = Var1, y = Freq, fill = Var2)) +
  geom_col(position = position_dodge(width = 0.9)) +
  geom_text(aes(label = paste0(Freq, " (", round(vd02[cbind(as.character(Var1), as.character(Var2))], 1), "%)")),
            position = position_dodge(width = 0.9),
            vjust = -0.3, size = 3) +
  labs(title = "Giới tính và Mức thu nhập",
       x = "Giới tính",
       y = "Số lượng",
       fill = "Mức thu nhập") +
  theme_minimal()

Từ biểu đồ, tỷ lệ nam giới có thu nhập trên 50K là 30.57%, cao gần gấp ba lần so với nữ giới, chỉ ở mức 10.95%. Ngược lại, tỷ lệ nữ có thu nhập từ 50K trở xuống chiếm tới 89.05%, trong khi ở nam giới là 69.43%. Những con số này cho thấy một sự chênh lệch đáng kể về thu nhập giữa hai giới. Cụ thể, nam giới có khả năng đạt mức thu nhập cao (>50K) lớn hơn nhiều so với nữ giới, trong khi nữ giới lại chiếm ưu thế trong nhóm thu nhập thấp (≤50K). Điều này phản ánh sự bất bình đẳng giới trong phân phối thu nhập và có thể liên quan đến nhiều yếu tố như cơ hội việc làm, phân biệt đối xử, hoặc khác biệt trong ngành nghề và thời gian lao động giữa nam và nữ.

3.2.2 Kiểm định chi bình phương

Giả thuyết:

H₀ :gender và income độc lập với nhau (không có mối quan hệ).

H₁ :gender và incomi không độc lập (có mối quan hệ).

chisq.test(vd2)

## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  vd2
## X-squared = 1415.3, df = 1, p-value < 2.2e-16

Kết quả cung cấp:

Giá trị Chi-bình phương (X²): 1517.8
Bậc tự do (df): 1
Giá trị p: p-value < 2.2e-16

Qua kết quả kiểm định cho ta p−value < 2.2e−16 < 0.05, nên bác bỏ H0, nghĩa là giữa giới tính và mức thu nhập có quan hệ với nhau.

3.2.3 Rủi ro tương đối (Relative Risk/Risk Ratio)

library(epitools)
riskratio(vd2)

## $data
##         
##          <=50K >50K Total
##   Female  8670 1112  9782
##   Male   13984 6396 20380
##   Total  22654 7508 30162
## 
## $measure
##         risk ratio with 95% C.I.
##          estimate    lower    upper
##   Female  1.00000       NA       NA
##   Male    2.76075 2.602734 2.928361
## 
## $p.value
##         two-sided
##          midp.exact fisher.exact    chi.square
##   Female         NA           NA            NA
##   Male            0            0 5.862415e-310
## 
## $correction
## [1] FALSE
## 
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"

Risk Ratio (RR) đo lường tỷ lệ nguy cơ (hoặc khả năng) một nhóm có thu nhập >50K USD so với nhóm tham chiếu. Ở đây, Female là nhóm tham chiếu với RR = 1. Male có RR = 2.79, nghĩa là nam có khả năng có thu nhập >50K USD cao hơn khoảng 2.79 lần so với nữ có khả năng thu nhập >50k USG.

riskratio(vd2, rev = 'c')

## $data
##         
##          >50K <=50K Total
##   Female 1112  8670  9782
##   Male   6396 13984 20380
##   Total  7508 22654 30162
## 
## $measure
##         risk ratio with 95% C.I.
##          estimate     lower     upper
##   Female 1.000000        NA        NA
##   Male   0.774169 0.7651742 0.7832696
## 
## $p.value
##         two-sided
##          midp.exact fisher.exact    chi.square
##   Female         NA           NA            NA
##   Male            0            0 5.862415e-310
## 
## $correction
## [1] FALSE
## 
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"

Risk Ratio (RR) đo lường tỷ lệ nguy cơ (hoặc khả năng) một nhóm có thu nhập <=50K USD so với nhóm tham chiếu. Ở đây, Female là nhóm tham chiếu với RR = 1. Male có RR = 0.7796, nghĩa là Xác suất nam có thu nhập <=50K USD thấp hơn khoảng 0.77 lần so với nữ có thu nhập <=50k USD.

3.2.4 Tỷ lệ chênh (Odd Ratio)

- Nếu “<=50K” ~ Thành công và “>50k” ~ Thất bại

vd2 <- table(d$gender,d$income)
addmargins(vd2)

##         
##          <=50K  >50K   Sum
##   Female  8670  1112  9782
##   Male   13984  6396 20380
##   Sum    22654  7508 30162

odds2.1<- vd2["Female", "<=50K"] / vd2["Female", ">50K"]
print(odds2.1)

## [1] 7.796763

Trong nhóm nữ, số người có thu nhập ≤50K cao gấp khoảng 7.79 lần so với số người có thu nhập >50K. Điều này cho thấy phần lớn nữ giới nằm trong nhóm thu nhập thấp.

odds2.2<- vd2["Male", "<=50K"] / vd2["Male", ">50K"]
print(odds2.2)

## [1] 2.186366

Đối với nam, số người có thu nhập ≤50K cao gấp khoảng 2.186 lần so với nhóm thu nhập >50K. Tỷ lệ này thấp hơn nhiều so với nữ, cho thấy nam giới có xu hướng đạt được thu nhập cao (>50K) thường xuyên hơn nữ.

oddsratio(vd2)

## $data
##         
##          <=50K >50K Total
##   Female  8670 1112  9782
##   Male   13984 6396 20380
##   Total  22654 7508 30162
## 
## $measure
##         odds ratio with 95% C.I.
##          estimate    lower   upper
##   Female 1.000000       NA      NA
##   Male   3.565578 3.328888 3.82231
## 
## $p.value
##         two-sided
##          midp.exact fisher.exact    chi.square
##   Female         NA           NA            NA
##   Male            0            0 5.862415e-310
## 
## $correction
## [1] FALSE
## 
## attr(,"method")
## [1] "median-unbiased estimate & mid-p exact CI"

Kết quả phân tích cho thấy tỷ lệ nam giới có thu nhập >50K cao vượt trội so với nữ giới. Cụ thể, nam có khả năng đạt mức thu nhập >50K cao gấp khoảng 3.5656 lần so với nữ.

- Nếu “>50K” ~ Thành công và “<=50k” ~ Thất bại

odds2.3<- vd2["Female", ">50K"] / vd2["Female", "<=50K"]
print(odds2.3)

## [1] 0.1282584

Trong nhóm nữ, số người có thu nhập >50K thấp hơn 0.128 lần so với số người có thu nhập <=50K. Điều này cho thấy phần lớn nữ giới nằm trong nhóm thu nhập thấp.

odds2.4<- vd2["Male", ">50K"] / vd2["Male", "<=50K"]
print(odds2.4)

## [1] 0.4573799

Đối với nam giới, số người có thu nhập >50K thấp hơn khoảng 0.46 lần so với nhóm thu nhập <=50K.

oddsratio(vd2, rev = 'c')

## $data
##         
##          >50K <=50K Total
##   Female 1112  8670  9782
##   Male   6396 13984 20380
##   Total  7508 22654 30162
## 
## $measure
##         odds ratio with 95% C.I.
##           estimate     lower     upper
##   Female 1.0000000        NA        NA
##   Male   0.2804836 0.2616219 0.3004006
## 
## $p.value
##         two-sided
##          midp.exact fisher.exact    chi.square
##   Female         NA           NA            NA
##   Male            0            0 5.862415e-310
## 
## $correction
## [1] FALSE
## 
## attr(,"method")
## [1] "median-unbiased estimate & mid-p exact CI"

Nam giới có khả năng có thu nhập ≤50K USD thấp hơn nữ giới có khả năng có thu nhập <=50k USD khoảng 0.28 lần.

Nhiệm vụ 4

Ngọ Thị Trang

2025-06-09 13:46:58