1 Đọc dữ liệu

hoangtinhdulieu là bộ dữ liệu chứa thông tin tổng hợp về nhân khẩu học và đặc điểm kinh tế xã hội của khoảng 25.000 người đang sinh sống và làm việc tại Mỹ. Dữ liệu được xây dựng dựa trên nguồn gốc từ Current Population Survey (CPS) – một chương trình khảo sát dân số uy tín được thực hiện hàng năm bởi Cục điều tra dân số Hoa Kỳ (U.S. Census Bureau) phối hợp với Bureau of Labor Statistics.

Bộ dữ liệu đã được trích lọc, xử lý và tái cấu trúc nhằm phục vụ cho mục tiêu phân tích và huấn luyện mô hình học máy trong các nghiên cứu liên quan đến kinh tế học, hành vi lao động và bất bình đẳng thu nhập.

1.1 Đọc file

d <-read.csv(file.choose(), header=T)

Dòng lệnh d <- read.csv(file.choose(), header = TRUE) dùng để đọc dữ liệu từ một file CSV chọn trên máy tính.

  • file.choose() mở hộp thoại chọn file.
  • read.csv(...) đọc file CSV và trả về dạng bảng dữ liệu (data frame).
  • header = TRUE nghĩa là dòng đầu tiên của file là tên các cột.
  • Kết quả được lưu vào biến d để sử dụng cho các phân tích tiếp theo.

1.2 Hiển thị cấu trúc của dữ liệu

str(d)
## 'data.frame':    25998 obs. of  12 variables:
##  $ age                : int  21 33 19 41 52 49 32 28 54 43 ...
##  $ CensusWeight       : int  433330 278514 236940 112507 89041 189498 323055 31935 88019 69758 ...
##  $ learningLevel      : chr  "Some-college" "HS-grad" "HS-grad" "10th" ...
##  $ learningLevel.num  : int  10 9 9 6 9 9 9 10 10 12 ...
##  $ PartneringState    : chr  "Never-married" "Divorced" "Never-married" "Married-civ-spouse" ...
##  $ FamilyRole         : chr  "Unmarried" "Own-child" "Own-child" "Husband" ...
##  $ Ethnicity          : chr  "White" "White" "White" "White" ...
##  $ Gender             : chr  "Male" "Female" "Male" "Male" ...
##  $ NegativeCapitalFlow: int  0 0 0 0 0 0 0 0 0 0 ...
##  $ WeeklyHours        : int  40 42 40 60 40 50 40 40 55 40 ...
##  $ Nationality        : chr  "United-States" "United-States" "United-States" "United-States" ...
##  $ EarningClass       : chr  "<=50K" "<=50K" "<=50K" "<=50K" ...
  • str(...) là viết tắt của structure – dùng để kiểm tra nhanh thông tin về số dòng, số cột, tên biến và kiểu dữ liệu của từng biến.

  • Khi dùng str(d), bạn sẽ biết được:

  • d có bao nhiêu quan sát (rows) và biến (columns)

  • Tên của các biến

  • Kiểu dữ liệu của từng biến (vd: int, chr, factor, num…)

=> Dữ liệu bao gồm: 32561 quan sát và 12 biến, trong đó có 7 biến định tính

variable_explain <- data.frame(
  Ten_Bien = c("age", "CensusWeight", "learningLevel", "learningLevel.num", "PartneringState", 
               "FamilyRole", "Ethnicity", "Gender", "NegativeCapitalFlow", "WeeklyHours", 
               "Nationality", "EarningClass"),
  Y_Nghia = c(
"Độ tuổi của người được khảo sát",
"Đại diện của cá nhân trong mẫu điều tra dân số",
"Trình độ học vấn chính thức (ví dụ: Tốt nghiệp cấp 3, Đại học chưa hoàn thành)",
"Số năm học tập chính quy tương đương với trình độ học vấn",
"Tình trạng hôn nhân hiện tại (Đã kết hôn, Ly thân, Góa vợ/chồng...)",
"Vai trò trong hộ gia đình (ví dụ: Con cái, Không thuộc hộ gia đình)",
"Chủng tộc hoặc nhóm dân tộc (Người da trắng, Châu Á, v.v.)",
"Giới tính của cá nhân (Nam hoặc Nữ)",
"Mức lỗ tài sản phát sinh từ hoạt động đầu tư vốn",
"Số giờ làm việc trung bình trong một tuần",
"Quốc gia nơi cá nhân sinh sống hoặc khai báo là nơi sinh",
"Thu nhập cá nhân mỗi năm"
  )
)

library(knitr)
kable(variable_explain, caption = "Giải thích các biến trong bộ dữ liệu")
Giải thích các biến trong bộ dữ liệu
Ten_Bien Y_Nghia
age Độ tuổi của người được khảo sát
CensusWeight Đại diện của cá nhân trong mẫu điều tra dân số
learningLevel Trình độ học vấn chính thức (ví dụ: Tốt nghiệp cấp 3, Đại học chưa hoàn thành)
learningLevel.num Số năm học tập chính quy tương đương với trình độ học vấn
PartneringState Tình trạng hôn nhân hiện tại (Đã kết hôn, Ly thân, Góa vợ/chồng…)
FamilyRole Vai trò trong hộ gia đình (ví dụ: Con cái, Không thuộc hộ gia đình)
Ethnicity Chủng tộc hoặc nhóm dân tộc (Người da trắng, Châu Á, v.v.)
Gender Giới tính của cá nhân (Nam hoặc Nữ)
NegativeCapitalFlow Mức lỗ tài sản phát sinh từ hoạt động đầu tư vốn
WeeklyHours Số giờ làm việc trung bình trong một tuần
Nationality Quốc gia nơi cá nhân sinh sống hoặc khai báo là nơi sinh
EarningClass Thu nhập cá nhân mỗi năm
  • variable_explain <- data.frame(...) : Tạo một bảng dữ liệu (data frame) gồm 2 cột

  • Ten_Bien: Tên biến trong bộ dữ liệu.

  • Y_Nghia: Ý nghĩa mô tả của từng biến đó.

  • kable(variable_explain, caption = "Giải thích các biến"): Hàm kable() dùng để hiển thị bảng mô tả trên dưới dạng trình bày rõ ràng, dễ đọc.

  • caption = "Giải thích các biến" đặt tiêu đề cho bảng là “Giải thích các biến”.

1.3 Hiển thị một vài dòng đầu và cuối của dữ liệu

  • head(d): Hiển thị 6 dòng đầu của bộ dữ liệu
# Hiển thị 6 dòng đầu của bộ dữ liệu
head(d)
##   age CensusWeight learningLevel learningLevel.num    PartneringState
## 1  21       433330  Some-college                10      Never-married
## 2  33       278514       HS-grad                 9           Divorced
## 3  19       236940       HS-grad                 9      Never-married
## 4  41       112507          10th                 6 Married-civ-spouse
## 5  52        89041       HS-grad                 9 Married-civ-spouse
## 6  49       189498       HS-grad                 9 Married-civ-spouse
##   FamilyRole Ethnicity Gender NegativeCapitalFlow WeeklyHours   Nationality
## 1  Unmarried     White   Male                   0          40 United-States
## 2  Own-child     White Female                   0          42 United-States
## 3  Own-child     White   Male                   0          40 United-States
## 4    Husband     White   Male                   0          60 United-States
## 5    Husband     White   Male                   0          40 United-States
## 6    Husband     White   Male                   0          50 United-States
##   EarningClass
## 1        <=50K
## 2        <=50K
## 3        <=50K
## 4        <=50K
## 5        <=50K
## 6         >50K
  • tail(d): Hiển thị 6 dòng cuối của bộ dữ liệu
# Hiển thị 6 dòng cuối của bộ dữ liệu
tail(d)
##       age CensusWeight learningLevel learningLevel.num PartneringState
## 25993  34       216864       HS-grad                 9        Divorced
## 25994  41       264663  Some-college                10       Separated
## 25995  54       140359       7th-8th                 4        Divorced
## 25996  66       186061  Some-college                10         Widowed
## 25997  82       132870       HS-grad                 9         Widowed
## 25998  90        77053       HS-grad                 9         Widowed
##          FamilyRole Ethnicity Gender NegativeCapitalFlow WeeklyHours
## 25993     Unmarried     White Female                3770          45
## 25994     Own-child     White Female                3900          40
## 25995     Unmarried     White Female                3900          40
## 25996     Unmarried     Black Female                4356          40
## 25997 Not-in-family     White Female                4356          18
## 25998 Not-in-family     White Female                4356          40
##         Nationality EarningClass
## 25993 United-States        <=50K
## 25994 United-States        <=50K
## 25995 United-States        <=50K
## 25996 United-States        <=50K
## 25997 United-States        <=50K
## 25998 United-States        <=50K

1.4 Kiểm tra giá trị thiếu

sum(is.na(d))
## [1] 0
  • sum(is.na(d)): Kiểm tra tổng số giá trị NA trong toàn bộ bảng.

=> Kết quả: Trong bộ dữ liệu không có giá trị thiếu (NA).

1.5 Chuyển đổi các biến cần thiết

# Đọc dữ liệu
d <- read.csv("hoangtinhdulieu.csv")

# Danh sách các biến định tính (categorical variables)
cols_to_factor <- c("learningLevel", "PartneringState", "FamilyRole",
                    "Ethnicity", "Gender", "Nationality", "EarningClass")

# Chuyển các cột đó sang factor
d[cols_to_factor] <- lapply(d[cols_to_factor], as.factor)

# Kiểm tra lại cấu trúc dữ liệu
str(d)
## 'data.frame':    25998 obs. of  12 variables:
##  $ age                : int  21 33 19 41 52 49 32 28 54 43 ...
##  $ CensusWeight       : int  433330 278514 236940 112507 89041 189498 323055 31935 88019 69758 ...
##  $ learningLevel      : Factor w/ 16 levels "10th","11th",..: 16 12 12 1 12 12 12 16 16 8 ...
##  $ learningLevel.num  : int  10 9 9 6 9 9 9 10 10 12 ...
##  $ PartneringState    : Factor w/ 7 levels "Divorced","Married-AF-spouse",..: 5 1 5 3 3 3 3 1 1 3 ...
##  $ FamilyRole         : Factor w/ 6 levels "Husband","Not-in-family",..: 5 4 4 1 1 1 1 2 2 1 ...
##  $ Ethnicity          : Factor w/ 5 levels "Amer-Indian-Eskimo",..: 5 5 5 5 5 5 5 5 5 2 ...
##  $ Gender             : Factor w/ 2 levels "Female","Male": 2 1 2 2 2 2 2 1 2 2 ...
##  $ NegativeCapitalFlow: int  0 0 0 0 0 0 0 0 0 0 ...
##  $ WeeklyHours        : int  40 42 40 60 40 50 40 40 55 40 ...
##  $ Nationality        : Factor w/ 42 levels "?","Cambodia",..: 40 40 40 40 40 40 40 40 40 40 ...
##  $ EarningClass       : Factor w/ 2 levels "<=50K",">50K": 1 1 1 1 1 2 1 1 1 1 ...

Đầu tiên, cần xác định các biến có giá trị rời rạc và mang tính phân loại, thường dùng để biểu diễn thông tin định tính như giới tính, học vấn, tình trạng hôn nhân, v.v. Danh sách này sẽ được sử dụng để chuyển sang kiểu dữ liệu factor.

Sau đó, áp dụng hàm lapply(…, as.factor) để chuyển đổi từng biến trong danh sách thành kiểu factor.

Cuối cùng, cập nhật bảng dữ liệu d với các cột đã được chuyển đổi sang dạng phân loại.

Các biến định tính bao gồm:

learningLevel: biểu thị trình độ học vấn với 16 cấp độ khác nhau (ví dụ: HS-grad, Bachelors, Some-college…)

PartneringState: thể hiện tình trạng quan hệ như Married, Divorced, Widowed, Separated, Never-married

FamilyRole: mô tả vị trí của cá nhân trong hộ gia đình, như Own-child, Not-in-family, Husband, Wife…

Ethnicity: gồm 5 nhóm chủng tộc chính trong dữ liệu

Gender: 2 giá trị (Male, Female)

Nationality: quốc gia xuất xứ, với hơn 30 quốc gia (phần lớn là United-States)

EarningClass: phân loại thu nhập cá nhân thành 2 nhóm (<=50K, >50K)

2 Phân tích Mô tả Một biến Định tính

# Danh sách biến định tính thực tế trong file
tbdt <- c("learningLevel", "PartneringState", "FamilyRole",
          "Ethnicity", "Gender", "Nationality", "EarningClass")

# Tạo bảng con chỉ gồm các biến định tính
dq <- d[, tbdt]

# Kiểm tra
str(dq)
## 'data.frame':    25998 obs. of  7 variables:
##  $ learningLevel  : Factor w/ 16 levels "10th","11th",..: 16 12 12 1 12 12 12 16 16 8 ...
##  $ PartneringState: Factor w/ 7 levels "Divorced","Married-AF-spouse",..: 5 1 5 3 3 3 3 1 1 3 ...
##  $ FamilyRole     : Factor w/ 6 levels "Husband","Not-in-family",..: 5 4 4 1 1 1 1 2 2 1 ...
##  $ Ethnicity      : Factor w/ 5 levels "Amer-Indian-Eskimo",..: 5 5 5 5 5 5 5 5 5 2 ...
##  $ Gender         : Factor w/ 2 levels "Female","Male": 2 1 2 2 2 2 2 1 2 2 ...
##  $ Nationality    : Factor w/ 42 levels "?","Cambodia",..: 40 40 40 40 40 40 40 40 40 40 ...
##  $ EarningClass   : Factor w/ 2 levels "<=50K",">50K": 1 1 1 1 1 2 1 1 1 1 ...
  • Đây là danh sách (vector) chứa tên các cột – đều là biến định tính.

  • Lấy toàn bộ các cột trong danh sách tbdt từ bảng dữ liệu d, và tạo ra một bảng mới tên là dq.

=> Kết quả là bảng dq chỉ chứa các biến định tính.

2.1 Biến learningLevel

2.1.1 Giải thích biến

# Tạo bảng giải thích các mức của biến learningLevel
learningLevel_levels <- data.frame(
  Gia_tri = c("Preschool", "1st-4th", "5th-6th", "7th-8th", "9th", "10th",
              "11th", "12th", "HS-grad", "Some-college", "Assoc-acdm", 
              "Assoc-voc", "Bachelors", "Masters", "Prof-school", "Doctorate"),
  Y_nghia = c(
    "Trình độ mầm non",
    "Học hết lớp 1 đến lớp 4",
    "Học hết lớp 5 hoặc lớp 6",
    "Học hết lớp 7 hoặc lớp 8",
    "Học hết lớp 9",
    "Học hết lớp 10",
    "Học hết lớp 11",
    "Học hết lớp 12 nhưng không tốt nghiệp",
    "Tốt nghiệp trung học phổ thông (HS-grad)",
    "Học đại học/cao đẳng nhưng chưa có bằng",
    "Bằng cao đẳng học thuật (Associate in Academic Program)",
    "Bằng cao đẳng nghề (Associate in Vocational Program)",
    "Bằng cử nhân (Đại học)",
    "Bằng thạc sĩ",
    "Bằng chuyên ngành sau đại học (luật, y khoa…)",
    "Bằng tiến sĩ"
  )
)

# Hiển thị bảng
knitr::kable(learningLevel_levels, caption = "Giải thích các mức độ trong biến learningLevel")
Giải thích các mức độ trong biến learningLevel
Gia_tri Y_nghia
Preschool Trình độ mầm non
1st-4th Học hết lớp 1 đến lớp 4
5th-6th Học hết lớp 5 hoặc lớp 6
7th-8th Học hết lớp 7 hoặc lớp 8
9th Học hết lớp 9
10th Học hết lớp 10
11th Học hết lớp 11
12th Học hết lớp 12 nhưng không tốt nghiệp
HS-grad Tốt nghiệp trung học phổ thông (HS-grad)
Some-college Học đại học/cao đẳng nhưng chưa có bằng
Assoc-acdm Bằng cao đẳng học thuật (Associate in Academic Program)
Assoc-voc Bằng cao đẳng nghề (Associate in Vocational Program)
Bachelors Bằng cử nhân (Đại học)
Masters Bằng thạc sĩ
Prof-school Bằng chuyên ngành sau đại học (luật, y khoa…)
Doctorate Bằng tiến sĩ
  • learningLevel_levels <- data.frame(…): Tạo một bảng dữ liệu có hai cột: Gia_tri (giá trị gốc trong biến learningLevel) và Y_nghia (ý nghĩa tiếng Việt tương ứng).

  • Gia_tri = c(…): Tập hợp 16 mức trình độ học vấn được mã hoá trong dữ liệu, ví dụ “Preschool”, “Bachelors”, “Doctorate”…

  • Y_nghia = c(…): Cung cấp giải thích tiếng Việt cho từng mức trong Gia_tri. Ví dụ “Preschool” tương ứng với “Trình độ mầm non”, “Bachelors” là “Bằng cử nhân”…

  • knitr::kable(learningLevel_levels, caption = “Giải thích các mức độ trong biến learningLevel”): Dùng hàm kable() để in bảng ra đẹp hơn khi tạo báo cáo R Markdown. caption là tiêu đề hiển thị trên bảng.

2.1.2 Thống kê tần suất

# Tạo bảng tần suất cho learningLevel
ts_edu <- table(d$learningLevel)

# Tạo bảng dữ liệu
ts_edu_df <- data.frame(
  Gia_tri = names(ts_edu),
  Tan_so = as.vector(ts_edu),
  Ty_le = round((as.vector(ts_edu) / sum(ts_edu)) * 100, 2)
)

# Hiển thị kết quả
ts_edu_df
##         Gia_tri Tan_so Ty_le
## 1          10th    734  2.82
## 2          11th    926  3.56
## 3          12th    328  1.26
## 4       1st-4th    125  0.48
## 5       5th-6th    251  0.97
## 6       7th-8th    506  1.95
## 7           9th    401  1.54
## 8    Assoc-acdm    831  3.20
## 9     Assoc-voc   1104  4.25
## 10    Bachelors   4377 16.84
## 11    Doctorate    342  1.32
## 12      HS-grad   8360 32.16
## 13      Masters   1406  5.41
## 14    Preschool     37  0.14
## 15  Prof-school    482  1.85
## 16 Some-college   5788 22.26
  • Gia_tri = names(ts_edu): Lấy tên các mức giá trị (mức học vấn) từ bảng tần suất ts_edu, ví dụ: “Preschool”, “Bachelors”, “Doctorate”…

  • Tan_so = as.vector(ts_edu): Chuyển bảng tần suất thành vector để lưu số lượng xuất hiện của từng mức học vấn.

  • Ty_le = round((as.vector(ts_edu) / sum(ts_edu)) * 100, 2): Tính tỷ lệ phần trăm của mỗi mức học vấn so với tổng toàn bộ (dựa trên tần suất), rồi làm tròn đến 2 chữ số thập phân.

  • ts_edu_df: Hiển thị bảng kết quả ts_edu_df, gồm tên mức học vấn, tần suất và tỷ lệ phần trăm tương ứng.

Bộ dữ liệu này ghi nhận nhiều mức trình độ học vấn khác nhau của người tham gia. Trong đó:

3 mức đầu tiên gồm:

10th: 734 người (chiếm 2.82%),

11th: 926 người (chiếm 3.56%),

12th: 328 người (chiếm 1.26%).

3 mức cuối cùng gồm:

Some-college: 5788 người (chiếm 22.26%),

Preschool: 37 người (chiếm 0.14%),

Prof-school: 482 người (chiếm 1.85%).

2.1.3 Trực quan hóa

library(ggplot2)

# Vẽ biểu đồ cột cho biến learningLevel
ggplot(ts_edu_df, aes(x = reorder(Gia_tri, -Tan_so), y = Tan_so, fill = Gia_tri)) +
  geom_col(color = "white", width = 0.7) +
  geom_text(aes(label = Tan_so),
            vjust = -0.5, size = 4, fontface = "bold", color = "lightblue") +
  labs(
    title = "Biểu đồ cột: Phân bố trình độ học vấn (learningLevel)",
    x = "Trình độ học vấn",
    y = "Tần số"
  ) +
  theme_minimal(base_size = 12) +
  theme(
    plot.title = element_text(hjust = 0.5, face = "bold"),
    axis.text.x = element_text(angle = 45, hjust = 1)
  )

  • ```{r fig.width=12, fig.height=6}: Đây là phần mở đầu của một khối mã R trong R Markdown, thiết lập kích thước hình ảnh đầu ra: chiều rộng 12 đơn vị, chiều cao 6 đơn vị.

  • library(ggplot2): Nạp thư viện ggplot2 để sử dụng các hàm vẽ biểu đồ trong hệ thống đồ họa ggplot.

  • ggplot(ts_edu_df, aes(x = reorder(Gia_tri, -Tan_so), y = Tan_so, fill = Gia_tri)) : Khởi tạo biểu đồ cột từ bảng ts_edu_df. Trục x là biến Gia_tri (tên mức học vấn), được sắp xếp theo Tan_so giảm dần. Trục y là Tan_so. Màu sắc của từng cột được phân biệt theo Gia_tri.

  • geom_col(color = “white”, width = 0.7) : Vẽ các cột biểu đồ với viền trắng và độ rộng 0.7.

  • geom_text(aes(label = Tan_so), vjust = -0.5, size = 4, fontface = “bold”, color = “black”) : Thêm nhãn số liệu (giá trị tần số) trên đầu mỗi cột, canh chỉnh nhãn hơi cao hơn cột (vjust = -0.5), chữ đậm màu đen và cỡ 4.

  • labs(…) : Đặt tiêu đề biểu đồ là “Biểu đồ cột: Phân bố trình độ học vấn (learningLevel)”, trục x là “Trình độ học vấn” và trục y là “Tần số”.

  • theme_minimal(base_size = 12) : Áp dụng giao diện tối giản cho biểu đồ với cỡ chữ cơ bản là 12.

  • theme(…): Tuỳ chỉnh thêm cho biểu đồ:

  • plot.title = element_text(hjust = 0.5, face = “bold”): Căn giữa tiêu đề và in đậm.

  • axis.text.x = element_text(angle = 45, hjust = 1): Xoay nhãn trục x 45 độ, canh lề cho dễ đọc.

library(ggplot2)

# Vẽ biểu đồ cột cho tỷ lệ phần trăm trình độ học vấn
ggplot(ts_edu_df, aes(x = reorder(Gia_tri, -Ty_le), y = Ty_le, fill = Gia_tri)) +
  geom_col(color = "white", width = 0.7) +
  geom_text(aes(label = paste0(Ty_le, "%")),
            vjust = -0.5, size = 4, fontface = "bold", color = "lightblue") +
  labs(
    title = "Biểu đồ cột: Tỷ lệ trình độ học vấn (learningLevel)",
    x = "Trình độ học vấn",
    y = "Tỷ lệ (%)"
  ) +
  theme_minimal(base_size = 12) +
  theme(
    plot.title = element_text(hjust = 0.5, face = "bold"),
    axis.text.x = element_text(angle = 45, hjust = 1)
  )

### Nhận xét

HS-grad (tốt nghiệp phổ thông) là trình độ học vấn phổ biến nhất với 10.501 người, chiếm ~32.3% tổng mẫu. Điều này cho thấy phần lớn người tham gia khảo sát chỉ dừng lại ở trình độ trung học.

Some-college (đã học đại học nhưng chưa tốt nghiệp) đứng thứ hai với 7.291 người, tương đương ~22.4%, phản ánh xu hướng khá nhiều người từng tiếp cận bậc học đại học nhưng không hoàn tất.

Bachelors (cử nhân) là trình độ học vấn đầy đủ cấp đại học phổ biến nhất với 5.355 người (~16.5%), cao hơn hẳn so với các trình độ sau đại học.

Các trình độ học vấn thấp như:

  • 11th (lớp 11) – 1.175 người

  • 10th (lớp 10) – 1.067 người

  • 7th-8th – 933 người

→ Những mức này cho thấy còn có một bộ phận dân số không hoàn thành bậc phổ thông.

Các cấp độ sau đại học như:

  • Masters (thạc sĩ) – 576 người (~1.8%)

  • Doctorate (tiến sĩ) – 413 người (~1.3%)

  • Prof-school (chuyên khoa như y, luật) – 514 người (~1.6%)

→ Tổng lại chỉ khoảng 1.500 người (~4.6%), chứng tỏ số người học cao học vẫn là thiểu số.

Các trình độ rất thấp như:

  • 1st-4th (lớp 1–4) – 168 người

  • Preschool (mẫu giáo) – 51 người

→ Cực kỳ hiếm gặp trong mẫu khảo sát (chưa đến 0.7% tổng số), thường thuộc nhóm người di cư hoặc cao tuổi.

Các trình độ ngắn hạn hoặc liên kết như:

  • Assoc-voc – 1.382 người

  • Assoc-acdm – 1.723 người

→ Chiếm khoảng 3.2% và 5.3% tương ứng, thể hiện mô hình giáo dục nghề/ngắn hạn có mặt nhưng không chiếm ưu thế.

2.2 Biến MaritalStatus

2.2.1 Giải thích biến

# Giải thích các mức của biến PartneringState
marital_levels <- data.frame(
  Gia_tri = c("Divorced", "Married-AF-spouse", "Married-civ-spouse",
              "Married-spouse-absent", "Never-married", "Separated", "Widowed"),
  Y_nghia = c(
    "Ly dị",
    "Kết hôn với người trong lực lượng vũ trang",
    "Đã kết hôn hợp pháp",
    "Kết hôn nhưng sống ly thân",
    "Chưa từng kết hôn",
    "Ly thân có pháp lý",
    "Góa"
  )
)

knitr::kable(marital_levels, caption = "Giải thích các mức trong biến PartneringState")
Giải thích các mức trong biến PartneringState
Gia_tri Y_nghia
Divorced Ly dị
Married-AF-spouse Kết hôn với người trong lực lượng vũ trang
Married-civ-spouse Đã kết hôn hợp pháp
Married-spouse-absent Kết hôn nhưng sống ly thân
Never-married Chưa từng kết hôn
Separated Ly thân có pháp lý
Widowed Góa

2.2.2 Thống kê Tần suất

# Tạo bảng tần suất cho PartneringState
ts_marital <- table(d$PartneringState)

# Tạo bảng dữ liệu
ts_marital_df <- data.frame(
  Gia_tri = names(ts_marital),
  Tan_so = as.vector(ts_marital),
  Ty_le = round((as.vector(ts_marital) / sum(ts_marital)) * 100, 2)
)

# Hiển thị kết quả
ts_marital_df
##                 Gia_tri Tan_so Ty_le
## 1              Divorced   3526 13.56
## 2     Married-AF-spouse     17  0.07
## 3    Married-civ-spouse  12115 46.60
## 4 Married-spouse-absent    334  1.28
## 5         Never-married   8398 32.30
## 6             Separated    812  3.12
## 7               Widowed    796  3.06
  • Đã ly dị (Divorced): có 3526 người (chiếm 13.56%).

  • Kết hôn với người trong quân đội (Married-AF-spouse): có 17 người (chiếm 0.07%).

  • Đã kết hôn hợp pháp (Married-civ-spouse): có 12115 người (chiếm 46.6%).

  • Ly thân (Married-spouse-absent): có 334 người (chiếm 1.28%).

  • Chưa từng kết hôn (Never-married): có 8398 người (chiếm 32.3%).

  • Ly thân có pháp lý (Separated): có 812 người (chiếm 3.12%).

  • Góa (Widowed): có 796 người (chiếm 3.06%).

2.2.3 Trực quan hóa

ggplot(ts_marital_df, aes(x = reorder(Gia_tri, -Tan_so), y = Tan_so, fill = Gia_tri)) +
  geom_col(width = 0.5, color = "pink") +
  geom_text(aes(label = Tan_so), vjust = -0.3, size = 4, fontface = "bold") +
  labs(
    title = "Biểu đồ cột: Tình trạng hôn nhân (PartneringState)",
    x = "Tình trạng hôn nhân",
    y = "Tần số"
  ) +
  theme_minimal(base_size = 13) +
  theme(
    plot.title = element_text(hjust = 0.5, face = "bold"),
    axis.text.x = element_text(angle = 45, hjust = 1),
    
  )

ggplot(ts_marital_df, aes(x = reorder(Gia_tri, Ty_le), y = Ty_le, fill = Gia_tri)) +
  geom_col(width = 0.6, color = "lightpink") +
  geom_text(aes(label = paste0(Ty_le, "%")),
            hjust = -0.1, size = 4, fontface = "bold", color = "lightyellow") +
  coord_flip() +
  labs(
    title = "Biểu đồ cột ngang: Tỷ lệ tình trạng hôn nhân (PartneringState)",
    x = "Tình trạng hôn nhân",
    y = "Tỷ lệ (%)"
  ) +
  theme_minimal(base_size = 13) +
  theme(
    plot.title = element_text(hjust = 0.5, face = "bold")
  )

  • ggplot(ts_marital_df, aes(x = reorder(Gia_tri, Tan_so), y = Tan_so, fill = Gia_tri)) : Tạo biểu đồ cột từ bảng ts_marital_df. Trục hoành (x) là biến Gia_tri – các mức của tình trạng hôn nhân – được sắp xếp tăng dần theo Tan_so. Trục tung (y) là tần số tương ứng. Mỗi cột có màu khác nhau theo giá trị của Gia_tri.

  • geom_col(width = 0.6, color = “white”): Vẽ các cột với chiều rộng là 0.6 và viền màu trắng, giúp cột tách biệt rõ ràng.

  • geom_text(aes(label = Tan_so), hjust = -0.1, size = 4, fontface = “bold”, color = “black”) : Thêm nhãn số liệu (Tan_so) cho từng cột. Nhãn được đặt hơi lệch trái (hjust = -0.1), cỡ chữ 4, in đậm và màu đen.

  • coord_flip() : Lật hệ trục tọa độ để biểu đồ hiển thị theo chiều ngang – tức là các cột sẽ nằm ngang thay vì dọc.

  • labs(…) : Đặt tiêu đề biểu đồ là “Biểu đồ cột ngang: Tình trạng hôn nhân (PartneringState)”, trục x là “Tình trạng hôn nhân”, trục y là “Tần số”.

  • theme_minimal(base_size = 13) : Áp dụng giao diện tối giản (minimal) cho biểu đồ với cỡ chữ mặc định là 13.

  • theme(plot.title = element_text(hjust = 0.5, face = “bold”), …) Tuỳ chỉnh tiêu đề biểu đồ để căn giữa (hjust = 0.5) và in đậm (face = “bold”).

2.2.4 Nhận xét

  • “Married-civ-spouse” (kết hôn hợp pháp) chiếm 43.94%, cao nhất trong toàn bộ dữ liệu – cho thấy cấu trúc gia đình truyền thống vẫn chiếm ưu thế.

  • “Never-married” đạt 32.81%, là nhóm lớn thứ hai, phản ánh sự hiện diện mạnh mẽ của người độc thân.

  • Các nhóm còn lại như “Divorced” (12.29%), “Married-spouse-absent” (4.79%), “Separated” (3.13%), và “Widowed” (3.05%) góp phần tạo nên tính đa dạng trong tình trạng hôn nhân, nhưng đều chiếm tỷ lệ thấp hơn

2.3 Biến FamilyRole

2.3.1 Giải thích biến

# Giải thích các mức của biến FamilyRole
FamilyRole_levels <- data.frame(
  Gia_tri = c("Husband", "Not-in-family", "Other-relative", 
              "Own-child", "Unmarried", "Wife"),
  Y_nghia = c(
    "Chồng",
    "Không cùng gia đình (bạn trọ, bạn bè)",
    "Họ hàng khác (cháu, cô, chú...)",
    "Con ruột",
    "Không kết hôn (độc thân, ly dị...)",
    "Vợ"
  )
)

knitr::kable(FamilyRole_levels, caption = "Giải thích các mức trong biến FamilyRole")
Giải thích các mức trong biến FamilyRole
Gia_tri Y_nghia
Husband Chồng
Not-in-family Không cùng gia đình (bạn trọ, bạn bè)
Other-relative Họ hàng khác (cháu, cô, chú…)
Own-child Con ruột
Unmarried Không kết hôn (độc thân, ly dị…)
Wife Vợ

2.3.2 Thống kê Tần suất

# Tạo bảng tần suất cho FamilyRole
ts_FamilyRole <- table(d$FamilyRole)

# Tạo bảng dữ liệu
ts_FamilyRole_df <- data.frame(
  Gia_tri = names(ts_FamilyRole),
  Tan_so = as.vector(ts_FamilyRole),
  Ty_le = round((as.vector(ts_FamilyRole) / sum(ts_FamilyRole)) * 100, 2)
)

# Hiển thị kết quả
ts_FamilyRole_df
##          Gia_tri Tan_so Ty_le
## 1        Husband  10660 41.00
## 2  Not-in-family   6628 25.49
## 3 Other-relative    747  2.87
## 4      Own-child   3979 15.31
## 5      Unmarried   2702 10.39
## 6           Wife   1282  4.93
  • Biến FamilyRole (mối quan hệ trong hộ gia đình) bao gồm 6 mức như sau:

    • Không trong gia đình (Not-in-family): có 6628 người (chiếm 25.49%).
  • Họ hàng khác (Other-relative): có 747 người (chiếm 2.87%).

  • Con ruột (Own-child): có 3979 người (chiếm 15.31%).

  • Độc thân (Unmarried): có 2702 người (chiếm 10.39%).

  • Vợ (Wife): có 1282 người (chiếm 4.93%).

2.3.3 Trực quan hóa

ggplot(ts_FamilyRole_df, aes(x = reorder(Gia_tri, -Tan_so), y = Tan_so, fill = Gia_tri)) +
  geom_col(width = 0.5, color = "skyblue") +
  geom_text(aes(label = Tan_so), vjust = -0.3, size = 4, fontface = "bold") +
  labs(
    title = "Biểu đồ cột: Mối quan hệ trong hộ (FamilyRole)",
    x = "Mối quan hệ",
    y = "Tần số"
  ) +
  theme_minimal(base_size = 13) +
  theme(
    plot.title = element_text(hjust = 0.5, face = "bold"),
    axis.text.x = element_text(angle = 45, hjust = 1),
  
  )

ggplot(ts_FamilyRole_df, aes(x = "", y = Ty_le, fill = Gia_tri)) +
  geom_col(width = 1, color = "skyblue") +
  coord_polar(theta = "y") +
  scale_fill_brewer(palette = "Set2") +
  labs(title = "Biểu đồ tròn: Mối quan hệ trong hộ") +
  geom_text(aes(label = paste0(Ty_le, "%")),
            position = position_stack(vjust = 0.5),
            size = 4, color = "pink") +
  theme_void() +
  theme(
    plot.title = element_text(hjust = 0.5, face = "bold"),
    legend.title = element_blank()
  )

  • coord_polar(theta = “y”) : Chuyển biểu đồ cột thành biểu đồ tròn bằng cách sử dụng hệ tọa độ cực (polar coordinate system), trong đó phần trăm (Ty_le) được xoay theo trục y để tạo ra các phần hình quạt.

  • scale_fill_brewer(palette = “Set2”) : Áp dụng bảng màu “Set2” từ thư viện RColorBrewer để phân biệt trực quan các phần khác nhau của biểu đồ tròn bằng các màu sắc hài hòa.

  • theme_void() : Xóa tất cả thành phần nền của biểu đồ (trục, lưới, nhãn trục…), giúp biểu đồ tròn trông gọn gàng và nổi bật hơn.

  • legend.title = element_blank(): Ẩn tiêu đề của phần chú giải (legend) để giao diện biểu đồ trở nên đơn giản và dễ đọc hơn.

2.3.4 Nhận xét

  • Nhóm “Husband” chiếm tỷ lệ cao nhất với 38.1%, phản ánh vai trò trụ cột của nam giới trong hộ gia đình vẫn còn phổ biến. Điều này có thể liên quan đến thói quen khai báo người đứng đầu hộ là nam giới.

  • “Not-in-family” xếp thứ hai với 26.4%, cho thấy có nhiều cá nhân sống độc lập hoặc không thuộc hộ truyền thống – phản ánh xu hướng sống đơn thân trong xã hội hiện đại.

  • “Own-child” chiếm 15.7%, cho thấy tỷ lệ người phụ thuộc đáng kể trong hộ, trong khi “Wife” chỉ đạt 7.2%, có thể do nam giới là người được khảo sát nhiều hơn.

  • Các nhóm “Unmarried” (11.2%) và “Other-relative” (1.4%) có tỷ lệ thấp, nhưng góp phần làm rõ tính đa dạng trong cấu trúc hộ gia đình hiện nay. ## Biến Ethnicity

2.3.5 Giải thích biến

# Giải thích các mức của biến Ethnicity
Ethnicity_levels <- data.frame(
  Gia_tri = c("Amer-Indian-Eskimo", "Asian-Pac-Islander", "Black", "Other", "White"),
  Y_nghia = c(
    "Người da đỏ/Thổ dân Bắc Mỹ",
    "Người châu Á hoặc dân đảo Thái Bình Dương",
    "Người da đen",
    "Khác",
    "Người da trắng"
  )
)

knitr::kable(Ethnicity_levels, caption = "Giải thích các mức trong biến Ethnicity")
Giải thích các mức trong biến Ethnicity
Gia_tri Y_nghia
Amer-Indian-Eskimo Người da đỏ/Thổ dân Bắc Mỹ
Asian-Pac-Islander Người châu Á hoặc dân đảo Thái Bình Dương
Black Người da đen
Other Khác
White Người da trắng

2.3.6 Thống kê Tần suất

# Tạo bảng tần suất cho Ethnicity
ts_Ethnicity <- table(d$Ethnicity)

# Tạo bảng dữ liệu
ts_Ethnicity_df <- data.frame(
  Gia_tri = names(ts_Ethnicity),
  Tan_so = as.vector(ts_Ethnicity),
  Ty_le = round((as.vector(ts_Ethnicity) / sum(ts_Ethnicity)) * 100, 2)
)

# Hiển thị kết quả
ts_Ethnicity_df
##              Gia_tri Tan_so Ty_le
## 1 Amer-Indian-Eskimo    245  0.94
## 2 Asian-Pac-Islander    805  3.10
## 3              Black   2451  9.43
## 4              Other    221  0.85
## 5              White  22276 85.68
  • Biến Ethnicity (chủng tộc) có 5 nhóm như sau:

    • Người da đỏ/Thổ dân Bắc Mỹ (Amer-Indian-Eskimo): 245 người (chiếm 0.94%).
  • Người châu Á/Thái Bình Dương (Asian-Pac-Islander): 805 người (chiếm 3.1%).

  • Người da đen (Black): 2451 người (chiếm 9.43%).

  • Khác (Other): 221 người (chiếm 0.85%).

  • Người da trắng (White): 22276 người (chiếm 85.68%).

2.3.7 Trực quan hóa

ggplot(ts_Ethnicity_df, aes(x = reorder(Gia_tri, -Tan_so), y = Tan_so, fill = Gia_tri)) +
  geom_col(width = 0.5, color = "lightgreen") +
  geom_text(aes(label = Tan_so), vjust = -0.3, size = 4, fontface = "bold") +
  labs(
    title = "Biểu đồ cột: Chủng tộc (Ethnicity)",
    x = "Chủng tộc",
    y = "Tần số"
  ) +
  theme_minimal(base_size = 13) +
  theme(
    plot.title = element_text(hjust = 0.5, face = "bold"),
    axis.text.x = element_text(angle = 45, hjust = 1),
    
  )

ggplot(ts_Ethnicity_df, aes(x = reorder(Gia_tri, Ty_le), y = Ty_le, fill = Gia_tri)) +
  geom_col(width = 0.6, color = "white") +
  geom_text(aes(label = paste0(Ty_le, "%")), 
            hjust = -0.1, size = 4, fontface = "bold", color = "purple") +
  coord_flip() +
  scale_fill_brewer(palette = "Dark2") +
  labs(
    title = "Biểu đồ cột ngang: Tỷ lệ chủng tộc (Ethnicity)",
    x = "Chủng tộc",
    y = "Tỷ lệ (%)"
  ) +
  theme_minimal(base_size = 13) +
  theme(
    plot.title = element_text(hjust = 0.5, face = "bold"),
    
  )

2.3.8 Nhận xét

  • “White” là nhóm chiếm đa số áp đảo với 27.191 người (83.54%), thể hiện sự thống trị về số lượng trong mẫu khảo sát.

  • “Black” chiếm 2.830 người (8.69%), là nhóm thiểu số lớn nhất sau người da trắng.

  • Các nhóm “Asian-Pac-Islander”, “Amer-Indian-Eskimo”, và “Other” lần lượt có tỷ lệ thấp hơn nhiều, mỗi nhóm dưới 3%, cho thấy tính đa dạng chủng tộc có nhưng chưa thật sự cân bằng.

2.4 Biến Nationality

2.4.1 Giải thích biến

# Giải thích một số mức phổ biến trong biến Nationality
# (Nếu cần giải thích toàn bộ có thể mở rộng thêm)
country_levels <- data.frame(
  Gia_tri = c("United-States", "Mexico", "Philippines", "Vietnam", "Germany"),
  Y_nghia = c(
    "Hoa Kỳ",
    "Mexico",
    "Philippines",
    "Việt Nam",
    "Đức"
  )
)

knitr::kable(country_levels, caption = "Giải thích một số mức phổ biến trong biến Nationality")
Giải thích một số mức phổ biến trong biến Nationality
Gia_tri Y_nghia
United-States Hoa Kỳ
Mexico Mexico
Philippines Philippines
Vietnam Việt Nam
Germany Đức

2.4.2 Thống kê Tần suất

# Tạo bảng tần suất cho Nationality
ts_country <- table(d$Nationality)

# Tạo bảng dữ liệu
ts_country_df <- data.frame(
  Gia_tri = names(ts_country),
  Tan_so = as.vector(ts_country),
  Ty_le = round((as.vector(ts_country) / sum(ts_country)) * 100, 2)
)

# Hiển thị kết quả
ts_country_df
##                       Gia_tri Tan_so Ty_le
## 1                           ?    466  1.79
## 2                    Cambodia     16  0.06
## 3                      Canada    101  0.39
## 4                       China     61  0.23
## 5                    Columbia     48  0.18
## 6                        Cuba     75  0.29
## 7          Dominican-Republic     54  0.21
## 8                     Ecuador     19  0.07
## 9                 El-Salvador     77  0.30
## 10                    England     75  0.29
## 11                     France     22  0.08
## 12                    Germany    109  0.42
## 13                     Greece     24  0.09
## 14                  Guatemala     52  0.20
## 15                      Haiti     39  0.15
## 16         Holand-Netherlands      1  0.00
## 17                   Honduras      8  0.03
## 18                       Hong     12  0.05
## 19                    Hungary     11  0.04
## 20                      India     76  0.29
## 21                       Iran     36  0.14
## 22                    Ireland     19  0.07
## 23                      Italy     57  0.22
## 24                    Jamaica     61  0.23
## 25                      Japan     50  0.19
## 26                       Laos      8  0.03
## 27                     Mexico    499  1.92
## 28                  Nicaragua     25  0.10
## 29 Outlying-US(Guam-USVI-etc)      8  0.03
## 30                       Peru     23  0.09
## 31                Philippines    157  0.60
## 32                     Poland     53  0.20
## 33                   Portugal     28  0.11
## 34                Puerto-Rico     97  0.37
## 35                   Scotland     10  0.04
## 36                      South     65  0.25
## 37                     Taiwan     43  0.17
## 38                   Thailand     15  0.06
## 39            Trinadad&Tobago     12  0.05
## 40              United-States  23322 89.71
## 41                    Vietnam     53  0.20
## 42                 Yugoslavia     11  0.04
  • Biến Nationality (quốc gia xuất thân) có nhiều mức, dưới đây là một số mức phổ biến:

  • Hoa Kỳ (United-States): 23322 người (chiếm 89.71%).

  • Mexico: 499 người (chiếm 1.92%).

  • Philippines: 157 người (chiếm 0.6%).

  • Việt Nam: 53 người (chiếm 0.2%).

  • Đức (Germany): 109 người (chiếm 0.42%).

2.4.3 Trực quan hóa

library(dplyr)
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
top_country <- ts_country_df %>% 
  arrange(desc(Tan_so)) %>% 
  slice(1:10)

ggplot(top_country, aes(x = reorder(Gia_tri, -Tan_so), y = Tan_so, fill = Gia_tri)) +
  geom_col(width = 0.5, color = "lightblue") +
  geom_text(aes(label = Tan_so), vjust = -0.3, size = 4, fontface = "bold") +
  labs(
    title = "Biểu đồ cột: 10 quốc gia phổ biến (Nationality)",
    x = "Quốc gia",
    y = "Tần số"
  ) +
  theme_minimal(base_size = 13) +
  theme(
    plot.title = element_text(hjust = 0.5, face = "bold"),
    axis.text.x = element_text(angle = 45, hjust = 1),
    
  )

library(dplyr)
library(ggplot2)

# Lấy top 10 quốc gia có tỷ lệ cao nhất
top_country <- ts_country_df %>% 
  arrange(desc(Ty_le)) %>% 
  slice(1:10)

# Vẽ biểu đồ
ggplot(top_country, aes(x = reorder(Gia_tri, Ty_le), y = Ty_le, fill = Gia_tri)) +
  geom_col(width = 0.6, color = "lightpink") +
  geom_text(aes(label = paste0(Ty_le, "%")), hjust = -0.1, size = 4, fontface = "bold") +
  coord_flip() +
  labs(
    title = "Biểu đồ cột ngang: Tỷ lệ 10 quốc gia phổ biến nhất (Nationality)",
    x = "Quốc gia",
    y = "Tỷ lệ (%)"
  ) +
  theme_minimal(base_size = 13) +
  theme(
    plot.title = element_text(hjust = 0.5, face = "bold")
  )

2.4.4 Nhận xét

  • “United-States” chiếm áp đảo với 89.59%, cho thấy phần lớn đối tượng khảo sát sống tại hoặc xuất thân từ Hoa Kỳ – phù hợp với việc dữ liệu này được thu thập từ hệ thống thống kê dân số Mỹ.

  • “Mexico” đứng thứ hai với 1.97%, là quốc gia gốc phổ biến tiếp theo, phản ánh sự hiện diện đáng kể của người nhập cư từ Mexico.

  • “Philippines” và “Germany” lần lượt chiếm 0.61% và 0.42%, là các quốc gia gốc ít phổ biến hơn.

  • Đặc biệt, có tới 1.79% giá trị là dấu hỏi “?” – nhiều khả năng là dữ liệu thiếu hoặc không xác định.

2.5 Biến Gender

2.5.1 Giải thích biến

# Giải thích các mức của biến Gender
Gender_levels <- data.frame(
  Gia_tri = c("Female", "Male"),
  Y_nghia = c("Nữ", "Nam")
)

knitr::kable(Gender_levels, caption = "Giải thích các mức trong biến Gender")
Giải thích các mức trong biến Gender
Gia_tri Y_nghia
Female Nữ
Male Nam

2.5.2 Thống kê Tần suất

# Tạo bảng tần suất cho Gender
ts_Gender <- table(d$Gender)

# Tạo bảng dữ liệu
ts_Gender_df <- data.frame(
  Gia_tri = names(ts_Gender),
  Y_nghia = c("Nam", "Nữ"),  # Male, Female
  Tan_so = as.vector(ts_Gender),
  Ty_le = round((as.vector(ts_Gender) / sum(ts_Gender)) * 100, 2)
)

# Hiển thị kết quả
ts_Gender_df
##   Gia_tri Y_nghia Tan_so Ty_le
## 1  Female     Nam   8515 32.75
## 2    Male      Nữ  17483 67.25
  • Biến Gender (giới tính) bao gồm 2 mức:

    • Nữ (Female): 8515 người (chiếm 32.75%).
  • Nam (Male): 17483 người (chiếm 67.25%).

2.5.3 Trực quan hóa

ggplot(ts_Gender_df, aes(x = Gia_tri, y = Tan_so, fill = Gia_tri)) +
  geom_col(width = 0.5, color = "white") +
  geom_text(aes(label = Tan_so), vjust = -0.3, size = 4, fontface = "bold") +
  labs(
    title = "Biểu đồ cột: Giới tính (Gender)",
    x = "Giới tính",
    y = "Tần số"
  ) +
  scale_fill_manual(values = c("#FF8", "skyblue")) +
  theme_minimal(base_size = 13) +
  theme(
    plot.title = element_text(hjust = 0.5, face = "bold"),
  
  )

Gender_colors <- c("Female" = "#FFB6C1", "Male" = "#87CEFA")  # màu tuỳ chỉnh

ggplot(ts_Gender_df, aes(x = "", y = Ty_le, fill = Gia_tri)) +
  geom_col(width = 1, color = "red") +
  coord_polar(theta = "y") +
  scale_fill_manual(values = Gender_colors) +
  labs(title = "Biểu đồ tròn: Giới tính") +
  geom_text(aes(label = paste0(Ty_le, "%")),
            position = position_stack(vjust = 0.5),
            size = 5, color = "blue") +
  theme_void() +
  theme(
    plot.title = element_text(hjust = 0.5, face = "bold"),
    legend.title = element_blank()
  )

2.5.4 Nhận xét

  • “Male” chiếm 66.94%, cao hơn rõ rệt so với “Female” (33.06%), cho thấy dữ liệu khảo sát có thể nghiêng về phía nam giới – do đặc điểm chọn mẫu hoặc tỉ lệ tham gia khảo sát.

2.6 Biến EarningClass

2.6.1 Giải thích biến

# Giải thích các mức của biến EarningClass
EarningClass_levels <- data.frame(
  Gia_tri = c("<=50K", ">50K"),
  Y_nghia = c("Thu nhập dưới hoặc bằng 50.000 USD/năm", "Thu nhập trên 50.000 USD/năm")
)

knitr::kable(EarningClass_levels, caption = "Giải thích các mức trong biến EarningClass")
Giải thích các mức trong biến EarningClass
Gia_tri Y_nghia
<=50K Thu nhập dưới hoặc bằng 50.000 USD/năm
>50K Thu nhập trên 50.000 USD/năm

2.6.2 Thống kê Tần suất

# Tạo bảng tần suất cho EarningClass
ts_EarningClass <- table(d$EarningClass)

# Tạo bảng dữ liệu
ts_EarningClass_df <- data.frame(
  Gia_tri = names(ts_EarningClass),
  Y_nghia = c("≤50K", ">50K"),
  Tan_so = as.vector(ts_EarningClass),
  Ty_le = round((as.vector(ts_EarningClass) / sum(ts_EarningClass)) * 100, 2)
)

# Hiển thị kết quả
ts_EarningClass_df
##   Gia_tri Y_nghia Tan_so Ty_le
## 1   <=50K    ≤50K  19415 74.68
## 2    >50K    >50K   6583 25.32
  • Biến EarningClass (thu nhập) có 2 mức:

    • Thu nhập dưới hoặc bằng 50K (<=50K): 19415 người (chiếm 74.68%).
  • Thu nhập trên 50K (>50K): 6583 người (chiếm 25.32%).

2.6.3 Trực quan hóa

ggplot(ts_EarningClass_df, aes(x = Gia_tri, y = Tan_so, fill = Gia_tri)) +
  geom_col(width = 0.5, color = "white") +
  geom_text(aes(label = Tan_so), vjust = -0.3, size = 4, fontface = "bold") +
  labs(
    title = "Biểu đồ cột: Thu nhập (EarningClass)",
    x = "Nhóm thu nhập",
    y = "Tần số"
  ) +
  scale_fill_manual(values = c("#6D597A", "#FFB703")) +
  theme_minimal(base_size = 13) +
  theme(
    plot.title = element_text(hjust = 0.5, face = "bold"),
    
  )

EarningClass_colors <- c("<=50K" = "#FDB863", ">50K" = "#5E3C99")

ggplot(ts_EarningClass_df, aes(x = "", y = Ty_le, fill = Gia_tri)) +
  geom_col(width = 1, color = "white") +
  coord_polar(theta = "y") +
  scale_fill_manual(values = EarningClass_colors) +
  labs(title = "Biểu đồ tròn: Thu nhập") +
  geom_text(aes(label = paste0(Ty_le, "%")),
            position = position_stack(vjust = 0.5),
            size = 5, color = "black") +
  theme_void() +
  theme(
    plot.title = element_text(hjust = 0.5, face = "bold"),
    legend.title = element_blank()
  )

2.6.4 Nhận xét

  • Nhóm có thu nhập <=50K chiếm 75.92%, cho thấy phần lớn người trong mẫu khảo sát có thu nhập thấp hơn ngưỡng trung bình.

  • Chỉ 24.08% thuộc nhóm thu nhập >50K, phản ánh mức thu nhập cao là thiểu số trong cộng đồng được khảo sát.

3 Ước lượng Khoảng và Kiểm định Giả thuyết cho Tỷ lệ

3.1 Xác định Hạng mục Quan tâm

Ta chọn 3 hạng mục từ 3 biến trong danh sách các biến định tính, bao gồm:

  • Hạng mục “Never-married” của biến MaritalStatus – Tình trạng hôn nhân

  • Hạng mục “Male” của biến Gender – Giới tính

  • Hạng mục “Bachelors” của biến learningLevel – Trình độ học vấn

3.2 Ước lượng Khoảng Tin cậy và Kiểm định Giả thuyết

Ước lượng tỷ lệ (Proportion Estimation)

Ước lượng tỷ lệ là quá trình sử dụng dữ liệu từ một mẫu để suy luận về tỷ lệ tương ứng trong tổng thể. Trong thống kê mô tả, tỷ lệ mẫu (ký hiệu thường là p̂) được tính bằng số lượng các phần tử thỏa điều kiện chia cho tổng số phần tử trong mẫu. Đây được gọi là ước lượng điểm (point estimate) cho tỷ lệ tổng thể p. Tuy nhiên, do tính ngẫu nhiên của việc chọn mẫu, ước lượng điểm không thể đảm bảo phản ánh chính xác tỷ lệ thực sự trong tổng thể, do đó cần đi kèm với một khoảng tin cậy để đo lường độ bất định.

Khoảng tin cậy

Khoảng tin cậy là một khoảng giá trị cho ta biết giá trị thật của một tỷ lệ hay trung bình trong tổng thể có khả năng nằm trong khoảng đó. Nó được tính từ dữ liệu mẫu, và đi kèm với một mức độ tin tưởng – thường là 95%.

Mức ý nghĩa (Significance Level – α)

Mức ý nghĩa, ký hiệu là α (alpha), là xác suất chấp nhận sai lầm loại I – tức là xác suất bác bỏ giả thuyết không (H₀) khi nó thực sự đúng. Trong kiểm định giả thuyết thống kê, mức ý nghĩa thể hiện ngưỡng mà tại đó ta quyết định có bác bỏ H₀ hay không. Mức ý nghĩa phổ biến nhất là α = 0.05, nghĩa là ta chấp nhận 5% rủi ro cho việc kết luận sai. Kết quả kiểm định thường được đánh giá thông qua p-value, và so sánh với α để đưa ra quyết định:

Nếu p-value < α → bác bỏ H₀ (có bằng chứng thống kê).

Nếu p-value ≥ α → không bác bỏ H₀ (không đủ bằng chứng thống kê).

3.2.1 Hạng mục “Bachelors” của biến Trình độ học vấn (learningLevel)

Ta thực hiện khoảng ước lượng với độ tin cậy 95% cho tỷ lệ người có bằng cử nhân (Bachelors), ta thực hiện như sau:

# Số người có trình độ Bachelors
n_bachelors <- sum(d$learningLevel == "Bachelors")

# Tổng số quan sát
n_total <- nrow(d)

# Ước lượng khoảng tin cậy 95% cho tỷ lệ người có trình độ Bachelors
prop.test(n_bachelors, n_total, conf.level = 0.95)
## 
##  1-sample proportions test with continuity correction
## 
## data:  n_bachelors out of n_total, null probability 0.5
## X-squared = 11436, df = 1, p-value < 2.2e-16
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
##  0.1638407 0.1729759
## sample estimates:
##         p 
## 0.1683591
  • n_bachelors <- sum(d$learningLevel == “Bachelors”): Tính tổng số người có trình độ học vấn là “Bachelors” (cử nhân) trong dữ liệu d, bằng cách đếm số dòng có giá trị “Bachelors” trong biến learningLevel.

  • n_total <- nrow(d): Lấy tổng số quan sát trong bộ dữ liệu d, tức là số hàng của bảng dữ liệu – dùng để làm mẫu số trong tính toán tỷ lệ.

  • prop.test(n_bachelors, n_total, conf.level = 0.95): Thực hiện phép ước lượng khoảng tin cậy cho tỷ lệ người có trình độ cử nhân, với độ tin cậy 95%. Hàm prop.test() trả về khoảng tin cậy và kiểm định giả thuyết tỷ lệ (nếu cần).

Phân tích kết quả

  • Phép kiểm định được thực hiện là kiểm định tỷ lệ 1 mẫu (1-sample proportion test) với chỉnh liên tục (continuity correction) – giúp cải thiện độ chính xác khi sử dụng phân phối xấp xỉ.

  • Dữ liệu đầu vào là số người có trình độ “Bachelors” (n_bachelors) trong tổng số quan sát (n_total). Giả thuyết gốc (H₀) giả định rằng tỷ lệ thực sự p = 0.5 (tức 50% dân số có bằng cử nhân).

  • Giá trị thống kê kiểm định là X-squared = 14662, với df = 1 (1 bậc tự do). Giá trị này rất lớn, cho thấy có sự khác biệt đáng kể giữa tỷ lệ mẫu và tỷ lệ giả định.

  • Giá trị p-value < 2.2e-16, tức là xác suất để quan sát được dữ liệu này nếu giả thuyết H₀ đúng là gần bằng 0. → Kết quả có ý nghĩa thống kê rất mạnh mẽ.

  • Giả thuyết đối (H₁) là: tỷ lệ thực tế p khác 0.5. Đây là kiểm định hai phía, kiểm tra xem tỷ lệ có khác (lớn hơn hoặc nhỏ hơn) so với 50%.

  • Khoảng tin cậy 95% cho tỷ lệ người có trình độ Bachelors nằm trong khoảng [16.05%; 16.85%], nghĩa là ta có thể tin rằng tỷ lệ thật sự trong tổng thể rơi vào khoảng này.

  • Tỷ lệ mẫu ước lượng được là 16.45%, tỷ lệ này tương đương với khoảng 16 người có bằng cử nhân trên mỗi 100 người trong dữ liệu. – thấp hơn rất nhiều so với mức 50% giả định ban đầu.

Bài toán kiểm định:

Giả thuyết kiểm định:

Giả thuyết không H₀: p = 0.5 (tỷ lệ người có bằng cử nhân bằng 50%)

Giả thuyết đối H₁: p ≠ 0.5 (tỷ lệ người có bằng cử nhân khác 50%)

Mức ý nghĩa: α = 0.05

Kết luận:

Với p-value < 2.2e-16 < 0.05, ta bác bỏ giả thuyết H₀.

Có bằng chứng thống kê cho thấy tỷ lệ người có bằng cử nhân khác 50%, với độ tin cậy 95%.

Tỷ lệ mẫu là 16.45%, với khoảng tin cậy nằm trong [16.05%; 16.85%]. Mức chênh lệch hơn 33 điểm phần trăm so với 50% cho thấy sự khác biệt là rõ ràng và có ý nghĩa thống kê.

3.2.2 Hạng mục “Never-married” của biến Tình trạng hôn nhân (PartneringState)

# Số người chưa từng kết hôn
n_never_married <- sum(d$PartneringState == "Never-married")

# Tổng số quan sát
n_total <- nrow(d)

# Ước lượng khoảng tin cậy 95% cho tỷ lệ người chưa từng kết hôn
prop.test(n_never_married, n_total, conf.level = 0.95)
## 
##  1-sample proportions test with continuity correction
## 
## data:  n_never_married out of n_total, null probability 0.5
## X-squared = 3256.3, df = 1, p-value < 2.2e-16
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
##  0.3173478 0.3287543
## sample estimates:
##         p 
## 0.3230248

Phân tích kết quả

  • Phép kiểm định được sử dụng là kiểm định tỷ lệ 1 mẫu (1-sample proportions test) với chỉnh liên tục, nhằm cải thiện độ chính xác khi sử dụng phân phối xấp xỉ.

  • Dữ liệu đầu vào: đang kiểm định tỷ lệ người có tình trạng “Never-married” (n_never_married) trong tổng số quan sát (n_total), với giả thuyết gốc H₀: p = 0.5.

  • Giá trị thống kê kiểm định là X-squared = 3848.3 với df = 1, cho thấy mức độ chênh lệch lớn giữa tỷ lệ quan sát và tỷ lệ giả định.

  • Giá trị p-value < 2.2e-16, cực kỳ nhỏ, đồng nghĩa với việc kết quả là rất có ý nghĩa thống kê – xác suất xảy ra sai lầm khi bác bỏ H₀ gần như bằng 0.

  • Giả thuyết đối (H₁): Tỷ lệ thực sự khác 0.5 (kiểm định hai phía: khác lớn hơn hoặc nhỏ hơn đều được xem xét).

  • Khoảng tin cậy 95% cho tỷ lệ người chưa kết hôn nằm trong khoảng [32.30%; 33.32%], thể hiện tỷ lệ thực sự khá ổn định quanh mức 33%.

  • Tỷ lệ mẫu ước lượng là 32.81%, tức là gần 1/3 dân số trong mẫu khảo sát chưa từng kết hôn.

Bài toán kiểm định:

Giả thuyết kiểm định:

Giả thuyết không H₀: p = 0.5 (tỷ lệ người chưa từng kết hôn bằng 50%)

Giả thuyết đối H₁: p ≠ 0.5 (tỷ lệ người chưa từng kết hôn khác 50%)

Mức ý nghĩa: α = 0.05

Kết luận:

Với p-value < 2.2e-16 < 0.05, ta bác bỏ giả thuyết H₀.

Có bằng chứng thống kê mạnh cho thấy tỷ lệ người chưa từng kết hôn khác 50%, với độ tin cậy 95%.

Tỷ lệ ước lượng là 32.81%, với khoảng tin cậy nằm trong [32.30%; 33.32%]. Tỷ lệ này thấp hơn đáng kể so với mức 50%, và sự chênh lệch (~17 điểm phần trăm) là có ý nghĩa thống kê rõ rệt.

3.2.3 Hạng mục “Male” của biến Giới tính (Gender)

# Số người là nam giới
n_male <- sum(d$Gender == "Male")

# Tổng số quan sát
n_total <- nrow(d)

# Ước lượng khoảng tin cậy 95% cho tỷ lệ nam giới
prop.test(n_male, n_total, conf.level = 0.95)
## 
##  1-sample proportions test with continuity correction
## 
## data:  n_male out of n_total, null probability 0.5
## X-squared = 3092.8, df = 1, p-value < 2.2e-16
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
##  0.6667256 0.6781729
## sample estimates:
##         p 
## 0.6724748

Phân tích kết quả

  • Phép kiểm định được sử dụng là kiểm định tỷ lệ 1 mẫu với chỉnh liên tục, nhằm đảm bảo kết quả chính xác hơn với dữ liệu rời rạc.

  • Dữ liệu đầu vào: đang xét tỷ lệ người là “Male” trong tổng số quan sát, với giả thuyết gốc H₀: p = 0.5 (tức giả định tỷ lệ nam là 50%).

  • Giá trị kiểm định là X-squared = 3728.3, với df = 1, cho thấy sự chênh lệch lớn giữa tỷ lệ quan sát và tỷ lệ giả định.

  • Giá trị p-value < 2.2e-16, rất nhỏ, khẳng định rằng có bằng chứng mạnh để bác bỏ H₀.

  • Giả thuyết đối (H₁) là tỷ lệ thực tế khác 0.5 (kiểm định hai phía).

  • Khoảng tin cậy 95% cho tỷ lệ nam giới nằm trong khoảng [66.41%; 67.43%], cho thấy tỷ lệ này khá ổn định và cao hơn mức giả định.

  • Tỷ lệ mẫu ước lượng là 66.92%, tức là gần 2/3 người trong mẫu khảo sát là nam giới.

Bài toán kiểm định:

Giả thuyết kiểm định:

Giả thuyết không H₀: p = 0.5 (tỷ lệ nam giới bằng 50%)

Giả thuyết đối H₁: p ≠ 0.5 (tỷ lệ nam giới khác 50%)

Mức ý nghĩa: α = 0.05

Kết luận:

Với p-value < 2.2e-16 < 0.05, ta bác bỏ giả thuyết H₀.

Do đó, có bằng chứng thống kê rõ ràng cho thấy tỷ lệ nam giới khác 50%, với độ tin cậy 95%.

Cụ thể, tỷ lệ nam giới ước lượng là 66.92%, cao hơn đáng kể so với 50%, với khoảng tin cậy nằm trong khoảng từ 66.41% đến 67.43%. Mức chênh lệch gần 17 điểm phần trăm là đủ lớn để tạo ra ý nghĩa thống kê mạnh.

4 Phân tích Mối quan hệ giữa Hai biến Định tính (Bivariate Analysis)

Chọn ba cặp biến định tính :

  • Cặp 1: Gender – EarningClass → Phân tích mối liên hệ giữa giới tính và mức thu nhập.

Câu hỏi đặt ra: Giới tính có ảnh hưởng đến khả năng thuộc nhóm thu nhập >50K không?

  • Cặp 2: Nationality – EarningClass → Xem xét xem quốc gia gốc có ảnh hưởng đến thu nhập hay không.

Câu hỏi đặt ra: Người đến từ Hoa Kỳ có tỷ lệ thu nhập >50K cao hơn các quốc gia khác không?

  • Cặp 3: Ethnicity – EarningClass → Tìm hiểu xem chủng tộc có liên quan đến thu nhập không.

Câu hỏi đặt ra: Tỷ lệ thu nhập >50K có chênh lệch rõ rệt giữa các nhóm chủng tộc không?

4.1 Gender - EarningClass

4.1.1 Bảng tần số chéo

# Bảng tần số chéo: giới tính và thu nhập
table_Gender_EarningClass <- table(d$Gender, d$EarningClass)
table_Gender_EarningClass
##         
##          <=50K  >50K
##   Female  7526   989
##   Male   11889  5594
# Tỷ lệ theo hàng (từng giới tính)
prop.table(table_Gender_EarningClass, margin = 1)
##         
##             <=50K     >50K
##   Female 0.883852 0.116148
##   Male   0.680032 0.319968
  • Trong số nam giới (Male): có 15,128 người thu nhập <=50K và 6,662 người thu nhập >50K → tỷ lệ >50K là 30.6%.

  • Trong số nữ giới (Female): có 9,592 người thu nhập <=50K và 1,179 người thu nhập >50K → tỷ lệ >50K là 10.9%.

Kết luận: → Nam giới (Male) có tỷ lệ thu nhập >50K gần gấp 3 lần nữ giới (Female), cho thấy sự chênh lệch thu nhập rất đáng kể giữa hai giới.

4.1.2 Trực quan hóa

library(ggplot2)

# Tạo bảng dữ liệu từ bảng tần suất chéo
table_Gender_EarningClass <- table(d$Gender, d$EarningClass)
df_group <- as.data.frame(as.table(table_Gender_EarningClass))
colnames(df_group) <- c("Gender", "EarningClass", "Freq")  # Đổi tên cột

# Vẽ biểu đồ cột nhóm
ggplot(df_group, aes(x = EarningClass, y = Freq, fill = Gender)) +
  geom_bar(stat = "identity", position = position_dodge(width = 0.8), width = 0.6) +
  geom_text(aes(label = Freq),
            position = position_dodge(width = 0.8),
            vjust = -0.4, size = 4, color = "white", fontface = "bold") +
  labs(title = "Biểu đồ cột nhóm: Gender vs EarningClass",
       x = "Mức thu nhập",
       y = "Tần số") +
  scale_fill_manual(
    values = c("Female" = "#FF9999", "Male" = "#6699CC"),
    name = "Giới tính",
    labels = c("Nữ", "Nam")
  ) +
  theme_minimal(base_size = 13) +
  theme(
    plot.title = element_text(hjust = 0.5, face = "bold"),
    legend.position = "right"
  )

  • library(ggplot2): Nạp thư viện ggplot2 để sử dụng các chức năng vẽ biểu đồ.

  • table_Gender_EarningClass <- table(d\(Gender, d\)EarningClass): Tạo bảng tần suất chéo giữa hai biến định tính là giới tính (Gender) và thu nhập (EarningClass), cho biết số lượng từng tổ hợp.

  • df_group <- as.data.frame(as.table(table_Gender_EarningClass)): Chuyển bảng tần suất vừa tạo sang dạng bảng dữ liệu (data.frame) gồm ba cột.

  • colnames(df_group) <- c(“Gender”, “EarningClass”, “Freq”): Đặt tên cho ba cột là: giới tính (Gender), mức thu nhập (EarningClass) và tần số (Freq).

  • ggplot(df_group, aes(x = EarningClass, y = Freq, fill = Gender)): Khởi tạo biểu đồ cột, trục hoành là thu nhập, trục tung là tần số, các cột được tô màu theo giới tính.

  • geom_bar(stat = “identity”, position = position_dodge(width = 0.8), width = 0.6): Vẽ biểu đồ cột nhóm, đặt các cột nam và nữ cạnh nhau để dễ so sánh.

  • geom_text(…): Thêm nhãn số lượng lên mỗi cột để hiển thị giá trị Freq, đặt ở trên đầu cột.

  • labs(…): Thêm tiêu đề biểu đồ và nhãn cho các trục.

  • scale_fill_manual(…): Tùy chỉnh màu sắc của từng giới tính và thiết lập chú thích (legend).

  • theme_minimal(…) + theme(…): Áp dụng phong cách tối giản cho biểu đồ, căn giữa tiêu đề và đặt chú giải bên phải.

# Tạo bảng dữ liệu từ bảng tần suất chéo
table_Gender_EarningClass <- table(d$Gender, d$EarningClass)
df_stack <- as.data.frame(as.table(table_Gender_EarningClass))
colnames(df_stack) <- c("Gender", "EarningClass", "Freq")  # Đổi tên cột

# Vẽ biểu đồ cột chồng
ggplot(df_stack, aes(x = EarningClass, y = Freq, fill = Gender)) +
  geom_bar(stat = "identity", width = 0.6) +
  geom_text(aes(label = Freq),
            position = position_stack(vjust = 0.5),
            color = "green", size = 4, fontface = "bold") +
  scale_fill_manual(
    values = c("Female" = "red", "Male" = "#6699CC"),
    name = "Giới tính",
    labels = c("Nữ", "Nam")
  ) +
  labs(title = "Biểu đồ cột chồng: Gender vs EarningClass",
       x = "Mức thu nhập",
       y = "Tần số") +
  theme_minimal(base_size = 13) +
  theme(
    plot.title = element_text(hjust = 0.5, face = "bold"),
    legend.position = "right"
  )

  • geom_bar(stat = “identity”, width = 0.6): Vẽ biểu đồ cột chồng (stacked bar chart), trong đó mỗi nhóm thu nhập hiển thị một cột có phần chồng theo giới tính.

  • geom_text(position = position_stack(vjust = 0.5), …): Hiển thị nhãn số lượng (tần số) bên trong từng phần chồng của cột, tức là ở giữa mỗi khối màu.

4.1.3 Nhận xét mô tả

  • Biểu đồ cột nhóm cho thấy nam giới áp đảo rõ rệt về số lượng ở nhóm thu nhập >50K – các cột màu xanh (Male) cao hơn đáng kể so với nữ (Female) trong nhóm này.

  • Ở nhóm thu nhập <=50K, nữ giới vẫn chiếm số lượng lớn, nhưng cột biểu diễn của họ thu nhỏ mạnh khi sang nhóm thu nhập cao.

  • Biểu đồ cột chồng củng cố quan sát này: tỷ lệ nam giới chiếm phần lớn trong cột >50K, còn nữ giới gần như chỉ tập trung ở nhóm thu nhập thấp.

→ Kết luận trực quan: Giới tính là yếu tố ảnh hưởng đáng kể đến phân phối thu nhập trong dữ liệu. Biểu đồ cho thấy sự phân tầng giới tính rất rõ về thu nhập.

4.1.4 Kiểm định thống kê (Kiểm định Chi-bình phương)

Giả thuyết kiểm định:

H₀ (Giả thuyết không): Giới tính và mức thu nhập độc lập nhau.

H₁ (Giả thuyết đối):Giới tính và mức thu nhập có liên hệ..

# Thực hiện kiểm định Chi-bình phương
chisq.test(table_Gender_EarningClass)
## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  table_Gender_EarningClass
## X-squared = 1256.9, df = 1, p-value < 2.2e-16

Kết quả kiểm định Chi-bình phương:

Chi-squared = 1517.81

Bậc tự do (df) = 1

Giá trị p-value = 0.0000

Kết luận thống kê: Vì p < 0.05, ta bác bỏ giả thuyết H₀.

Điều này cho thấy có mối liên hệ có ý nghĩa thống kê giữa giới tính và mức thu nhập.

Thảo luận thêm về bản chất mối quan hệ:

Kiểm định Chi-bình phương cho thấy có sự phụ thuộc giữa giới tính và thu nhập.

Từ góc độ thống kê, điều này có nghĩa là: việc một người là nam hay nữ ảnh hưởng đến xác suất họ thuộc nhóm thu nhập cao hoặc thấp – hai biến không độc lập nhau.

Quan sát biểu đồ cho thấy:

  • Nam giới có mặt áp đảo ở nhóm thu nhập >50K, tức là họ có nhiều khả năng hơn để đạt mức thu nhập cao.

  • Ngược lại, nữ giới chủ yếu phân bố ở nhóm thu nhập <=50K, tức ít khả năng thuộc tầng lớp thu nhập cao.

Bản chất mối liên hệ: Không chỉ là khác biệt về con số – mà là một mô hình phân bố có xu hướng rõ ràng theo giới tính.

Có thể phản ánh sự phân tầng xã hội hoặc sự khác biệt trong đặc điểm nghề nghiệp, kinh nghiệm, hoặc thời gian làm việc giữa hai giới.

→ Kết luận sâu hơn: Không chỉ có mối liên hệ thống kê, mà biểu đồ còn thể hiện tính định hướng của mối liên hệ này – nam giới có xác suất đạt thu nhập cao cao hơn một cách có hệ thống so với nữ.

4.1.5 Hiệu tỷ lệ

# Lập bảng tần số chéo giữa Gender và EarningClass
table_Gender_EarningClass <- table(d$Gender, d$EarningClass)

# Thêm tổng hàng và tổng cột
table_Gender_EarningClass_margins <- addmargins(table_Gender_EarningClass)

# Hiển thị bảng
table_Gender_EarningClass_margins
##         
##          <=50K  >50K   Sum
##   Female  7526   989  8515
##   Male   11889  5594 17483
##   Sum    19415  6583 25998

Tỷ lệ thu nhập cao theo giới tính được ký hiệu như sau:

  • \(p_1 = P(\text{EarningClass} = \text{">50K"} \mid \text{Gender} = \text{"Female"})\): Tỷ lệ nữ giới có thu nhập cao.
  • \(p_2 = P(\text{EarningClass} = \text{">50K"} \mid \text{Gender} = \text{"Male"})\): Tỷ lệ nam giới có thu nhập cao.

Giả thuyết kiểm định:

  • \(H_0: p_1 - p_2 = 0\): Không có sự khác biệt về tỷ lệ thu nhập cao giữa nam và nữ.
  • \(H_1: p_1 - p_2 < 0\): Tỷ lệ thu nhập cao ở nữ thấp hơn nam.
# Tạo bảng tần số chéo giữa Gender và EarningClass
table_Gender_EarningClass <- table(d$Gender, d$EarningClass)

# Số người có thu nhập >50K trong từng giới
counts_EarningClass_high <- c(table_Gender_EarningClass["Female", ">50K"], table_Gender_EarningClass["Male", ">50K"])

# Tổng số người theo từng giới
totals_EarningClass <- c(sum(table_Gender_EarningClass["Female", ]), sum(table_Gender_EarningClass["Male", ]))

# Kiểm định tỉ lệ một phía: p1 < p2
test_EarningClass_less <- prop.test(counts_EarningClass_high, totals_EarningClass, alternative = "less", correct = FALSE)

# Hiển thị kết quả
test_EarningClass_less
## 
##  2-sample test for equality of proportions without continuity correction
## 
## data:  counts_EarningClass_high out of totals_EarningClass
## X-squared = 1258, df = 1, p-value < 2.2e-16
## alternative hypothesis: less
## 95 percent confidence interval:
##  -1.0000000 -0.1956781
## sample estimates:
##   prop 1   prop 2 
## 0.116148 0.319968

Mục tiêu kiểm định: So sánh tỷ lệ người có thu nhập cao (biến EarningClass có giá trị “>50K”) giữa hai giới tính (Gender là “Female” và “Male”).

Định nghĩa:

p1 = P(EarningClass == “>50K” | Gender == “Female”): tỷ lệ nữ giới có thu nhập cao.

p2 = P(EarningClass == “>50K” | Gender == “Male”): tỷ lệ nam giới có thu nhập cao.

Giả thuyết kiểm định:

H0: p1 - p2 = 0: Không có sự khác biệt về tỷ lệ thu nhập cao giữa nam và nữ.

H1: p1 - p2 < 0: Tỷ lệ thu nhập cao ở nữ thấp hơn nam.

Kết quả từ prop.test():

Tỷ lệ nữ: khoảng 10.95%.

Tỷ lệ nam: khoảng 30.57%.

X-squared = 1518.9, df = 1, p-value < 2.2e-16.

Khoảng tin cậy 95% cho p1 - p2: từ -1.0000000 đến -0.1891457.

Kết luận: Có bằng chứng thống kê mạnh để bác bỏ giả thuyết H0. Tỷ lệ nữ có thu nhập cao thấp hơn nam một cách có ý nghĩa thống kê.

4.1.6 Tỷ số nguy cơ

Liệu giới tính (nam/nữ) có ảnh hưởng đến nguy cơ có thu nhập cao không (>50K)?

→ Mục tiêu: So sánh nguy cơ có thu nhập cao ở nam giới so với nữ giới.

install.packages("epitools", repos = "https://cloud.r-project.org")
## Installing package into 'C:/Users/ADMIN/AppData/Local/R/win-library/4.5'
## (as 'lib' is unspecified)
## package 'epitools' successfully unpacked and MD5 sums checked
## 
## The downloaded binary packages are in
##  C:\Users\ADMIN\AppData\Local\Temp\RtmpsnEVqe\downloaded_packages
library(epitools)

Tính Relative Risk

riskratio(table_Gender_EarningClass)
## $data
##         
##          <=50K >50K Total
##   Female  7526  989  8515
##   Male   11889 5594 17483
##   Total  19415 6583 25998
## 
## $measure
##         risk ratio with 95% C.I.
##          estimate    lower    upper
##   Female  1.00000       NA       NA
##   Male    2.75483 2.588052 2.932356
## 
## $p.value
##         two-sided
##          midp.exact  fisher.exact    chi.square
##   Female         NA            NA            NA
##   Male            0 3.875868e-303 1.532559e-275
## 
## $correction
## [1] FALSE
## 
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"

Nhận xét kết quả

$data: đây là bảng dữ liệu chéo 2x2

  • Trong số 10,771 nữ, có 1,179 người (10.95%) có thu nhập trên 50K.

  • Trong số 21,790 nam, có 6,662 người (30.57%) có thu nhập trên 50K.

$measure: tỷ số nguy cơ(RR)

Tỷ số nguy cơ (RR) là so sánh xác suất xảy ra outcome (ở đây là: có thu nhập >50K) giữa hai nhóm:

  • RR = 1 → nguy cơ như nhau.

  • RR > 1 → nhóm Male có nguy cơ cao hơn.

  • RR < 1 → nhóm Male có nguy cơ thấp hơn.

$p.value

# Cài gói nếu cần
install.packages("knitr")  # chỉ cần 1 lần nếu chưa cài
## Warning: package 'knitr' is in use and will not be installed
# Nạp thư viện
library(knitr)

# Tạo bảng dữ liệu
explanation <- data.frame(
  Cột = c("two-sided", "midp.exact", "fisher.exact", "chi.square"),
  Ý_nghĩa = c(
    "Kiểm định hai phía – kiểm tra xem RR có khác 1. Đây là loại kiểm định phổ biến nhất.",
    "Kiểm định chính xác – cho p-value chính xác dựa trên phân phối chính xác.",
    "Fisher’s exact test – dùng trong bảng 2x2 với cỡ mẫu nhỏ.",
    "Chi-squared test – kiểm định xấp xỉ phân phối chuẩn, dùng khi mẫu đủ lớn."
  )
)

# In bảng
kable(explanation, align = "l")
Cột Ý_nghĩa
two-sided Kiểm định hai phía – kiểm tra xem RR có khác 1. Đây là loại kiểm định phổ biến nhất.
midp.exact Kiểm định chính xác – cho p-value chính xác dựa trên phân phối chính xác.
fisher.exact Fisher’s exact test – dùng trong bảng 2x2 với cỡ mẫu nhỏ.
chi.square Chi-squared test – kiểm định xấp xỉ phân phối chuẩn, dùng khi mẫu đủ lớn.

Kết quả

  • Tỷ số nguy cơ (RR) = 2.79 → Nam giới có nguy cơ có thu nhập trên 50K cao hơn đáng kể so với nữ giới, cụ thể là gấp 2.79 lần.

  • Khoảng tin cậy 95% = [2.64, 2.96] → Không bao gồm 1 → nghĩa là sự khác biệt này có ý nghĩa thống kê.

  • p-value = 0.000 ở tất cả các phương pháp kiểm định (mid-p exact, Fisher, chi-square) → rất nhỏ hơn 0.05 → cho thấy có bằng chứng thống kê mạnh mẽ về sự khác biệt giữa nam và nữ về mức thu nhập.

Kết luận

  • Dựa trên kết quả phân tích, nam giới có khả năng đạt thu nhập cao (>50K) cao hơn rõ rệt so với nữ giới trong bộ dữ liệu này. Tỷ số nguy cơ là 2.79 với khoảng tin cậy hẹp và p-value bằng 0 cho thấy sự khác biệt là có ý nghĩa thống kê mạnh mẽ. Điều này hàm ý rằng giới tính là một yếu tố có ảnh hưởng rõ ràng đến khả năng đạt được mức thu nhập cao, ít nhất là trong phạm vi mẫu khảo sát này.

4.1.7 Tỷ số Chênh (Odds Ratio - OR)

or_result2 <- oddsratio(table_Gender_EarningClass)
print(or_result2)
## $data
##         
##          <=50K >50K Total
##   Female  7526  989  8515
##   Male   11889 5594 17483
##   Total  19415 6583 25998
## 
## $measure
##         odds ratio with 95% C.I.
##          estimate    lower    upper
##   Female  1.00000       NA       NA
##   Male    3.57994 3.327669 3.854999
## 
## $p.value
##         two-sided
##          midp.exact  fisher.exact    chi.square
##   Female         NA            NA            NA
##   Male            0 3.875868e-303 1.532559e-275
## 
## $correction
## [1] FALSE
## 
## attr(,"method")
## [1] "median-unbiased estimate & mid-p exact CI"

Ước lượng Odds Ratio (OR) cho nhóm nam giới là 3.58 (với khoảng tin cậy 95% từ 3.35 đến 3.83), so với nhóm nữ giới được sử dụng làm nhóm tham chiếu (OR = 1). Điều này cho thấy:

–> Nam giới có khả năng có thu nhập cao (>50K) cao hơn khoảng 3.6 lần so với nữ giới.

Khoảng tin cậy 95% không bao gồm giá trị 1, điều này củng cố rằng sự khác biệt là có ý nghĩa thống kê.

Kết quả kiểm định với các phương pháp phổ biến đều cho p-value bằng 0:

  • Mid-p exact test: 0

  • Fisher’s exact test: 0

  • Chi-squared test: 0

Các p-value bằng 0 cho thấy sự khác biệt quan sát được về tỷ lệ thu nhập cao giữa nam và nữ là rất rõ ràng và không thể giải thích do ngẫu nhiên trong mẫu.

Tóm lại: Kết quả phân tích chỉ ra rằng giới tính có ảnh hưởng đáng kể đến mức thu nhập, trong đó nam giới có xu hướng đạt mức thu nhập cao hơn nữ giới một cách rõ rệt và có ý nghĩa thống kê.

4.2 PartneringState – EarningClass

4.2.1 Bảng tần số chéo

# Bảng tần số chéo và tỷ lệ theo hàng giữa tình trạng hôn nhân và thu nhập
table_marital_EarningClass <- table(d$PartneringState, d$EarningClass)              # Bảng tần số chéo
table_marital_EarningClass                                                   # Hiển thị bảng
##                        
##                         <=50K >50K
##   Divorced               3141  385
##   Married-AF-spouse         9    8
##   Married-civ-spouse     6516 5599
##   Married-spouse-absent   305   29
##   Never-married          7964  434
##   Separated               752   60
##   Widowed                 728   68
prop.table(table_marital_EarningClass, margin = 1)                           # Tính tỷ lệ theo từng tình trạng hôn nhân
##                        
##                              <=50K       >50K
##   Divorced              0.89081112 0.10918888
##   Married-AF-spouse     0.52941176 0.47058824
##   Married-civ-spouse    0.53784565 0.46215435
##   Married-spouse-absent 0.91317365 0.08682635
##   Never-married         0.94832103 0.05167897
##   Separated             0.92610837 0.07389163
##   Widowed               0.91457286 0.08542714
  • Trong nhóm Married-civ-spouse: có 8,284 người thu nhập <=50K và 6,692 người thu nhập >50K → tỷ lệ >50K là 44.7%.

  • Trong nhóm Never-married: có 10,192 người thu nhập <=50K và 491 người thu nhập >50K → tỷ lệ >50K là 4.6%.

  • Trong nhóm Divorced: có 3,980 người thu nhập <=50K và 463 người thu nhập >50K → tỷ lệ >50K là 10.4%.

  • Trong nhóm Married-spouse-absent: có 384 người thu nhập <=50K và 34 người thu nhập >50K → tỷ lệ >50K là 8.1%.

  • Trong nhóm Widowed: có 908 người thu nhập <=50K và 85 người thu nhập >50K → tỷ lệ >50K là 8.6%.

  • Trong nhóm Separated: có 959 người thu nhập <=50K và 66 người thu nhập >50K → tỷ lệ >50K là 6.4%.

  • Trong nhóm Married-AF-spouse: có 13 người thu nhập <=50K và 10 người thu nhập >50K → tỷ lệ >50K là 43.5% (nhưng mẫu nhỏ).

Kết luận: → Nhóm Married-civ-spouse có tỷ lệ thu nhập >50K cao nhất trong các nhóm đông dân số, trong khi nhóm Never-married có tỷ lệ thấp nhất. → Điều này phản ánh sự chênh lệch đáng kể về thu nhập theo tình trạng hôn nhân, đặc biệt là lợi thế của người đã kết hôn hợp pháp.

4.2.2 Trực quan hóa

# Tạo bảng dữ liệu từ bảng tần suất chéo
table_marital_EarningClass <- table(d$PartneringState, d$EarningClass)
df_group_marital <- as.data.frame(as.table(table_marital_EarningClass))
colnames(df_group_marital) <- c("MaritalStatus", "EarningClass", "Freq")

# Vẽ biểu đồ cột nhóm
ggplot(df_group_marital, aes(x = MaritalStatus, y = Freq, fill = EarningClass)) +
  geom_bar(stat = "identity", position = position_dodge(width = 0.8), width = 0.6) +
  geom_text(aes(label = Freq),
            position = position_dodge(width = 0.8),
            vjust = -0.4, size = 4, color = "black", fontface = "bold") +
  scale_fill_manual(
    values = c("<=50K" = "red", ">50K" = "#20B2AA"),
    name = "Thu nhập"
  ) +
  labs(title = "Biểu đồ cột nhóm: MaritalStatus vs EarningClass",
       x = "Tình trạng hôn nhân",
       y = "Tần số") +
  theme_minimal(base_size = 13) +
  theme(
    plot.title = element_text(hjust = 0.5, face = "bold"),
    legend.position = "right"
  )

# Tạo bảng dữ liệu từ bảng tần suất chéo
table_marital_EarningClass <- table(d$PartneringState, d$EarningClass)
df_stack_marital <- as.data.frame(as.table(table_marital_EarningClass))
colnames(df_stack_marital) <- c("MaritalStatus", "EarningClass", "Freq")

# Vẽ biểu đồ cột chồng 
ggplot(df_stack_marital, aes(x = MaritalStatus, y = Freq, fill = EarningClass)) +
  geom_bar(stat = "identity", width = 0.6) +
  geom_text(
    aes(label = Freq),
    position = position_stack(vjust = 0.5),
    vjust = 0.5, size = 4, color = "red", fontface = "bold"
  ) +
  scale_fill_manual(
    values = c("<=50K" = "yellow", ">50K" = "#20B2AA"),
    name = "Thu nhập"
  ) +
  labs(
    title = "Biểu đồ cột chồng: MaritalStatus vs EarningClass",
    x = "Tình trạng hôn nhân",
    y = "Tần số"
  ) +
  theme_minimal(base_size = 13) +
  theme(
    plot.title = element_text(hjust = 0.5, face = "bold"),
    legend.position = "right"
  )

4.2.3 Nhận xét mô tả

  • Biểu đồ cột nhóm cho thấy những người đã kết hôn hợp pháp (Married-civ-spouse) có số lượng vượt trội ở nhóm thu nhập >50K – thanh cột ở nhóm này cao rõ rệt.

  • Ngược lại, nhóm Never-married gần như chỉ xuất hiện ở mức thu nhập thấp. Các nhóm “Divorced” hay “Separated” cũng có tỷ lệ thu nhập cao rất thấp.

  • Biểu đồ cột chồng cho thấy cột của nhóm Married-civ-spouse có phần màu thu nhập cao chiếm gần một nửa, trong khi các nhóm khác phần màu này rất mỏng.

→ Kết luận trực quan: Tình trạng hôn nhân có liên quan chặt chẽ đến thu nhập. Biểu đồ phản ánh rõ rằng người đã kết hôn có lợi thế lớn về kinh tế so với các nhóm còn lại.

4.2.4 Kiểm định thống kê(Kiểm định Chi-bình phương)

Giả thuyết kiểm định:

H₀ (Giả thuyết không):Tình trạng hôn nhân và mức thu nhập độc lập với nha.

H₁ (Giả thuyết đối):Tình trạng hôn nhân và mức thu nhập có mối liên hệ với nhau.

chisq.test(table_marital_EarningClass)
## Warning in chisq.test(table_marital_EarningClass): Chi-squared approximation
## may be incorrect
## 
##  Pearson's Chi-squared test
## 
## data:  table_marital_EarningClass
## X-squared = 5297.3, df = 6, p-value < 2.2e-16

Kết quả kiểm định:

Chi-squared = 6517.74

Bậc tự do (df) = 6

Giá trị p-value = 0.0000

Kết luận thống kê:

Vì p < 0.05, ta bác bỏ giả thuyết H₀.

Có mối liên hệ thống kê rõ rệt giữa tình trạng hôn nhân và mức thu nhập

Thảo luận thêm về bản chất mối quan hệ:

Biểu đồ cho thấy nhóm đã kết hôn (Married-civ-spouse) có phần thu nhập >50K chiếm ưu thế tuyệt đối.

Ngược lại, nhóm độc thân (Never-married) hầu như chỉ tập trung ở mức thu nhập thấp.

Các nhóm ly hôn, ly thân, hoặc góa cũng có tỷ lệ thu nhập cao thấp đáng kể.

→ Giải thích mối liên hệ: Kiểm định cho thấy tình trạng hôn nhân không chỉ liên quan đến thu nhập, mà còn có xu hướng rõ ràng – người đã lập gia đình có nhiều khả năng đạt thu nhập cao hơn. Điều này có thể phản ánh mức độ ổn định tài chính, độ tuổi, hoặc cam kết nghề nghiệp cao hơn trong nhóm đã kết hôn.

4.2.5 Hiệu tỷ lệ

# Lập bảng tần số chéo giữa PartneringState và EarningClass
table_marital_EarningClass <- table(d$PartneringState, d$EarningClass)

# Thêm tổng hàng và tổng cột
table_marital_EarningClass1 <- addmargins(table_marital_EarningClass)

# Hiển thị bảng
table_marital_EarningClass1
##                        
##                         <=50K  >50K   Sum
##   Divorced               3141   385  3526
##   Married-AF-spouse         9     8    17
##   Married-civ-spouse     6516  5599 12115
##   Married-spouse-absent   305    29   334
##   Never-married          7964   434  8398
##   Separated               752    60   812
##   Widowed                 728    68   796
##   Sum                   19415  6583 25998
  • \(p_1 = P(\text{EarningClass} = \text{">50K"} \mid \text{PartneringState} = \text{"Never-married"})\) (Tỷ lệ người chưa từng kết hôn có thu nhập cao)

  • \(p_2 = P(\text{EarningClass} = \text{">50K"} \mid \text{PartneringState} = \text{"Married-civ-spouse"})\) (Tỷ lệ người đang kết hôn hợp pháp có thu nhập cao)

Giả thuyết kiểm định:

  • \(H_0: p_1 - p_2 = 0\) (Không có sự khác biệt về tỷ lệ thu nhập cao giữa hai nhóm tình trạng hôn nhân)

  • \(H_1: p_1 - p_2 < 0\) (Tỷ lệ thu nhập cao ở nhóm “Never-married” thấp hơn nhóm “Married-civ-spouse”)

# Lập bảng tần số chéo giữa PartneringState và EarningClass
table_marital_EarningClass <- table(d$PartneringState, d$EarningClass)

# Số người có thu nhập >50K trong từng nhóm
counts_EarningClass_high <- c(table_marital_EarningClass["Never-married", ">50K"],
                        table_marital_EarningClass["Married-civ-spouse", ">50K"])

# Tổng số người trong từng nhóm
totals_EarningClass <- c(sum(table_marital_EarningClass["Never-married", ]),
                   sum(table_marital_EarningClass["Married-civ-spouse", ]))

# Kiểm định tỉ lệ một phía: p1 < p2
test_marital_EarningClass <- prop.test(counts_EarningClass_high, totals_EarningClass,
                                 alternative = "less", correct = FALSE)

# Hiển thị kết quả
test_marital_EarningClass
## 
##  2-sample test for equality of proportions without continuity correction
## 
## data:  counts_EarningClass_high out of totals_EarningClass
## X-squared = 4025.3, df = 1, p-value < 2.2e-16
## alternative hypothesis: less
## 95 percent confidence interval:
##  -1.0000000 -0.4020315
## sample estimates:
##     prop 1     prop 2 
## 0.05167897 0.46215435

Kết quả kiểm định cho thấy:

  • Tỷ lệ người chưa từng kết hôn có thu nhập >50K (prop 1) là khoảng 4.60%.

  • Tỷ lệ người đang kết hôn hợp pháp có thu nhập >50K (prop 2) là khoảng 44.65%.

Với p-value < 2.2e-16, nhỏ hơn mức ý nghĩa 0.05, chúng ta có đủ bằng chứng để bác bỏ giả thuyết H0. Điều này có nghĩa là:

–> Tỷ lệ người chưa từng kết hôn có thu nhập cao thấp hơn tỷ lệ người đang kết hôn hợp pháp một cách có ý nghĩa thống kê.

4.2.6 Relative Risk

Liệu tình trạng hôn nhân (đã kết hôn vs chưa bao giờ kết hôn) có ảnh hưởng đến nguy cơ có thu nhập cao không (>50K)?

→ Mục tiêu: So sánh nguy cơ có thu nhập cao ở người đã kết hôn với người chưa từng kết hôn.

riskratio(table_marital_EarningClass)
## Warning in chisq.test(xx, correct = correction): Chi-squared approximation may
## be incorrect
## $data
##                        
##                         <=50K >50K Total
##   Divorced               3141  385  3526
##   Married-AF-spouse         9    8    17
##   Married-civ-spouse     6516 5599 12115
##   Married-spouse-absent   305   29   334
##   Never-married          7964  434  8398
##   Separated               752   60   812
##   Widowed                 728   68   796
##   Total                 19415 6583 25998
## 
## $measure
##                        risk ratio with 95% C.I.
##                          estimate     lower     upper
##   Divorced              1.0000000        NA        NA
##   Married-AF-spouse     4.3098549 2.5804634 7.1982608
##   Married-civ-spouse    4.2326136 3.8443498 4.6600905
##   Married-spouse-absent 0.7951940 0.5545947 1.1401723
##   Never-married         0.4732988 0.4149945 0.5397947
##   Separated             0.6767321 0.5212132 0.8786547
##   Widowed               0.7823794 0.6117121 1.0006629
## 
## $p.value
##                        two-sided
##                           midp.exact fisher.exact    chi.square
##   Divorced                        NA           NA            NA
##   Married-AF-spouse     0.0002350404 2.099833e-04  2.206261e-06
##   Married-civ-spouse    0.0000000000 0.000000e+00 3.394002e-315
##   Married-spouse-absent 0.2039864131 2.293204e-01  2.068318e-01
##   Never-married         0.0000000000 1.299681e-27  9.178227e-30
##   Separated             0.0020700706 2.515660e-03  2.801647e-03
##   Widowed               0.0447670745 4.724980e-02  4.806052e-02
## 
## $correction
## [1] FALSE
## 
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"

Nhận xét kết quả

Kết quả

  • Trong số 14,976 người đã kết hôn, có 6,692 người (44.69%) có thu nhập >50K.

  • Trong số 10,683 người chưa bao giờ kết hôn, chỉ có 491 người (4.60%) có thu nhập >50K.

  • Tỷ số nguy cơ (RR) = 9.72 → Người đã kết hôn có xác suất có thu nhập >50K cao hơn gần 10 lần so với người chưa từng kết hôn.

  • Khoảng tin cậy 95% = [8.90, 10.62] → Không bao gồm 1 → khác biệt có ý nghĩa thống kê mạnh mẽ.

  • p-value = 0.000 ở tất cả các kiểm định → xác nhận kết quả là cực kỳ có ý nghĩa thống kê.

Kết luận

  • Dựa trên kết quả phân tích, người đã kết hôn có nguy cơ có thu nhập cao vượt trội so với người chưa từng kết hôn. Tỷ số nguy cơ là 9.72, khoảng tin cậy 95% là [8.90, 10.62], và p-value bằng 0 cho thấy mối liên hệ rất mạnh mẽ và có ý nghĩa thống kê. Tình trạng hôn nhân là một yếu tố quan trọng ảnh hưởng đến khả năng đạt mức thu nhập cao trong bộ dữ liệu này.

4.2.7 Odds Ratio - OR

# Ước lượng odds ratio từng nhóm so với nhóm "Divorced"
or_result <- oddsratio(table_marital_EarningClass)
## Warning in chisq.test(xx, correct = correction): Chi-squared approximation may
## be incorrect
# In kết quả
print(or_result)
## $data
##                        
##                         <=50K >50K Total
##   Divorced               3141  385  3526
##   Married-AF-spouse         9    8    17
##   Married-civ-spouse     6516 5599 12115
##   Married-spouse-absent   305   29   334
##   Never-married          7964  434  8398
##   Separated               752   60   812
##   Widowed                 728   68   796
##   Total                 19415 6583 25998
## 
## $measure
##                        odds ratio with 95% C.I.
##                          estimate     lower      upper
##   Divorced              1.0000000        NA         NA
##   Married-AF-spouse     7.2601735 2.6702852 19.3690321
##   Married-civ-spouse    7.0071752 6.2745384  7.8468167
##   Married-spouse-absent 0.7794386 0.5141804  1.1382620
##   Never-married         0.4446159 0.3852993  0.5132525
##   Separated             0.6523984 0.4869573  0.8596325
##   Widowed               0.7634811 0.5782843  0.9938652
## 
## $p.value
##                        two-sided
##                           midp.exact fisher.exact    chi.square
##   Divorced                        NA           NA            NA
##   Married-AF-spouse     0.0002350404 2.099833e-04  2.206261e-06
##   Married-civ-spouse    0.0000000000 0.000000e+00 3.394002e-315
##   Married-spouse-absent 0.2039864131 2.293204e-01  2.068318e-01
##   Never-married         0.0000000000 1.299681e-27  9.178227e-30
##   Separated             0.0020700706 2.515660e-03  2.801647e-03
##   Widowed               0.0447670745 4.724980e-02  4.806052e-02
## 
## $correction
## [1] FALSE
## 
## attr(,"method")
## [1] "median-unbiased estimate & mid-p exact CI"

Ước lượng Odds Ratio (OR) cho các nhóm tình trạng hôn nhân, tham chiếu là “Divorced” - Nhóm Married-civ-spouse có OR = 6.94 (95% CI: 6.28 – 7.69), p-value = 0.0000. –> Người đang kết hôn hợp pháp có khả năng có thu nhập >50K cao hơn gần 7 lần so với người đã ly hôn. Sự khác biệt này có ý nghĩa thống kê rất cao.

  • Nhóm Never-married có OR = 0.41 (95% CI: 0.36 – 0.47), p-value = 0.0000. –> Những người chưa từng kết hôn có khả năng đạt thu nhập cao chỉ bằng 41% so với nhóm ly hôn. Đây là sự khác biệt có ý nghĩa thống kê rõ rệt.

  • Nhóm Separated có OR = 0.59 (95% CI: 0.45 – 0.77), p-value = 0.0001. –> Những người ly thân có xác suất thu nhập cao thấp hơn đáng kể so với người ly hôn, và sự khác biệt này có ý nghĩa thống kê.

  • Nhóm Widowed có OR = 0.81 (95% CI: 0.63 – 1.02), p-value = 0.0750. –> Mặc dù có xu hướng thu nhập thấp hơn nhóm ly hôn, nhưng vì khoảng tin cậy bao gồm 1 và p-value > 0.05 nên chưa đủ bằng chứng thống kê để kết luận.

  • Nhóm Married-AF-spouse có OR = 6.63 (95% CI: 2.79 – 15.29), p-value ≈ 0.00006. –> Mặc dù nhóm này rất nhỏ (n = 23), kết quả cho thấy khả năng có thu nhập cao cũng cao hơn nhiều so với người ly hôn và có ý nghĩa thống kê.

  • Nhóm Married-spouse-absent có OR = 0.76 (95% CI: 0.52 – 1.08), p-value ≈ 0.135. –> Không có đủ bằng chứng thống kê để kết luận có sự khác biệt về thu nhập so với nhóm ly hôn.

Tóm lại:

Kết quả phân tích cho thấy tình trạng hôn nhân có mối liên hệ đáng kể với mức thu nhập. Nhóm đang sống trong hôn nhân hợp pháp (Married-civ-spouse) có xác suất đạt thu nhập cao vượt trội so với các nhóm khác, đặc biệt là người ly hôn, chưa kết hôn hay ly thân. Những khác biệt này có ý nghĩa thống kê rõ ràng, ngoại trừ một số nhóm có quy mô mẫu nhỏ hoặc khoảng tin cậy chứa 1.

4.3 Ethnicity - EarningClass

4.3.1 Bảng tần số chéo

# Bảng tần số chéo: chủng tộc và thu nhập
table_Ethnicity_EarningClass <- table(d$Ethnicity, d$EarningClass)
table_Ethnicity_EarningClass
##                     
##                      <=50K  >50K
##   Amer-Indian-Eskimo   215    30
##   Asian-Pac-Islander   585   220
##   Black               2119   332
##   Other                203    18
##   White              16293  5983
# Tỷ lệ theo hàng (từng chủng tộc)
prop.table(table_Ethnicity_EarningClass, margin = 1)
##                     
##                           <=50K       >50K
##   Amer-Indian-Eskimo 0.87755102 0.12244898
##   Asian-Pac-Islander 0.72670807 0.27329193
##   Black              0.86454508 0.13545492
##   Other              0.91855204 0.08144796
##   White              0.73141498 0.26858502
  • White: có 20,699 người thu nhập <=50K và 7,117 người thu nhập >50K → tỷ lệ >50K là 25.6%.

  • Asian-Pac-Islander: có 763 người thu nhập <=50K, 276 người thu nhập >50K → tỷ lệ >50K là 26.6%.

  • Black: có 2,737 người thu nhập <=50K, 387 người thu nhập >50K → tỷ lệ >50K là 12.4%.

  • Amer-Indian-Eskimo: có 275 người thu nhập <=50K, 36 người thu nhập >50K → tỷ lệ >50K là 11.6%.

  • Other: có 246 người thu nhập <=50K, 25 người thu nhập >50K → tỷ lệ >50K là 9.2%.

Kết luận: → Nhóm Asian-Pac-Islander và White có tỷ lệ thu nhập >50K cao nhất, trong khi các nhóm còn lại như Black, Amer-Indian-Eskimo, và đặc biệt là Other có tỷ lệ rất thấp. Điều này cho thấy có sự khác biệt rõ rệt về thu nhập giữa các nhóm chủng tộc.

4.3.2 Trực quan hóa

# Tạo bảng dữ liệu từ bảng tần suất chéo
table_Ethnicity_EarningClass <- table(d$Ethnicity, d$EarningClass)
df_group_Ethnicity <- as.data.frame(as.table(table_Ethnicity_EarningClass))
colnames(df_group_Ethnicity) <- c("Ethnicity", "EarningClass", "Freq")

# Vẽ biểu đồ cột nhóm
ggplot(df_group_Ethnicity, aes(x = Ethnicity, y = Freq, fill = EarningClass)) +
  geom_bar(stat = "identity", position = position_dodge(width = 0.8), width = 0.6) +
  geom_text(aes(label = Freq),
            position = position_dodge(width = 0.8),
            vjust = -0.4, size = 4, color = "red", fontface = "bold") +
  scale_fill_manual(
    values = c("<=50K" = "#FFD700", ">50K" = "purple"),
    name = "Thu nhập"
  ) +
  labs(title = "Biểu đồ cột nhóm: Ethnicity vs EarningClass",
       x = "Chủng tộc",
       y = "Tần số") +
  theme_minimal(base_size = 13) +
  theme(
    plot.title = element_text(hjust = 0.5, face = "bold"),
    legend.position = "right"
  )

# Tạo bảng dữ liệu từ bảng tần suất chéo
table_Ethnicity_EarningClass <- table(d$Ethnicity, d$EarningClass)
df_stack_Ethnicity <- as.data.frame(as.table(table_Ethnicity_EarningClass))
colnames(df_stack_Ethnicity) <- c("Ethnicity", "EarningClass", "Freq")

# Vẽ biểu đồ cột chồng
ggplot(df_stack_Ethnicity, aes(x = Ethnicity, y = Freq, fill = EarningClass)) +
  geom_bar(stat = "identity", width = 0.6) +
  geom_text(aes(label = Freq),
          position = position_dodge(width = 0.8),
          vjust = 1.5, size = 4, color = "green", fontface = "bold"
 ) +
  scale_fill_manual(
    values = c("<=50K" = "red", ">50K" = "#4169E1"),
    name = "Thu nhập"
  ) +
  labs(title = "Biểu đồ cột chồng: Ethnicity vs EarningClass",
       x = "Chủng tộc",
       y = "Tần số") +
  theme_minimal(base_size = 13) +
  theme(
    plot.title = element_text(hjust = 0.5, face = "bold"),
    legend.position = "right"
  )

4.3.3 Nhận xét mô tả

  • Nhóm Asian-Pac-Islander tuy có quy mô nhỏ hơn, nhưng cột thu nhập >50K vẫn khá nổi bật, cho thấy tỷ lệ thu nhập cao không hề kém cạnh.

  • Biểu đồ cột chồng thể hiện sự phân hóa rõ: nhóm White có sự phân bố thu nhập đều hơn, trong khi nhóm Black hay Amer-Indian-Eskimo gần như bị dồn hết vào phần thu nhập thấp.

4.3.4 Kiểm định thống kê

Giả thuyết kiểm định:

H₀ (Giả thuyết không): Chủng tộc và mức thu nhập độc lập nhau.

H₁ (Giả thuyết đối):Chủng tộc và mức thu nhận có liên hệ với nhau.

# Thực hiện kiểm định Chi-bình phương
chisq.test(table_Ethnicity_EarningClass)
## 
##  Pearson's Chi-squared test
## 
## data:  table_Ethnicity_EarningClass
## X-squared = 265.93, df = 4, p-value < 2.2e-16

Kết quả kiểm định:

Chi-squared = 330.92

Bậc tự do (df) = 4

p-value < 2.2e-16

Kết luận thống kê:

Vì p-value rất nhỏ (< 0.05), ta bác bỏ H₀.

Có bằng chứng thống kê rất mạnh cho thấy mức thu nhập và chủng tộc có mối liên hệ đáng kể.

Thảo luận thêm về bản chất mối quan hệ:

Kết quả kiểm định cho thấy chủng tộc và thu nhập có mối liên hệ có ý nghĩa thống kê (p-value < 2.2e-16). Dù sự chênh lệch giữa các nhóm không quá lớn, nhưng với cỡ mẫu đủ lớn, các khác biệt nhỏ vẫn mang ý nghĩa thống kê.

Biểu đồ cho thấy nhóm White có số lượng thu nhập >50K cao nhất, trong khi Asian-Pac-Islander lại có tỷ lệ thu nhập cao nổi bật dù quy mô nhỏ. Ngược lại, Black và Amer-Indian-Eskimo có tỷ lệ thu nhập cao thấp hơn đáng kể.

Những chênh lệch này có thể đến từ sự khác biệt về cơ hội giáo dục, nghề nghiệp và điều kiện kinh tế – xã hội giữa các chủng tộc. Ngoài ra, phân bố mẫu hoặc đặc thù khu vực cũng có thể ảnh hưởng đến kết quả quan sát.

→ Tổng thể, chủng tộc là một yếu tố liên quan đáng kể đến khả năng đạt thu nhập cao trong tập dữ liệu này.

4.3.5 Hiệu tỷ lệ

# Lập bảng tần số chéo giữa Ethnicity và EarningClass
table_Ethnicity_EarningClass <- table(d$Ethnicity, d$EarningClass)

# Thêm tổng hàng và tổng cột
table_Ethnicity_EarningClass_margins <- addmargins(table_Ethnicity_EarningClass)

# Hiển thị bảng
table_Ethnicity_EarningClass_margins
##                     
##                      <=50K  >50K   Sum
##   Amer-Indian-Eskimo   215    30   245
##   Asian-Pac-Islander   585   220   805
##   Black               2119   332  2451
##   Other                203    18   221
##   White              16293  5983 22276
##   Sum                19415  6583 25998
  • \(p_1 = P(\text{EarningClass} = \text{">50K"} \mid \text{Ethnicity} = \text{"Black"})\) (Tỷ lệ người da đen có thu nhập cao)

  • \(p_2 = P(\text{EarningClass} = \text{">50K"} \mid \text{Ethnicity} = \text{"White"})\) (Tỷ lệ người da trắng có thu nhập cao)

Giả thuyết kiểm định:

  • \(H_0: p_1 - p_2 = 0\) (Không có sự khác biệt về tỷ lệ thu nhập cao giữa người da đen và người da trắng)

  • \(H_1: p_1 - p_2 < 0\) (Tỷ lệ người da đen có thu nhập cao thấp hơn người da trắng)

# Số người có thu nhập >50K
counts_EarningClass_high <- c(table_Ethnicity_EarningClass["Black", ">50K"], table_Ethnicity_EarningClass["White", ">50K"])

# Tổng số người trong mỗi nhóm
totals_EarningClass <- c(sum(table_Ethnicity_EarningClass["Black", ]), sum(table_Ethnicity_EarningClass["White", ]))

# Kiểm định tỉ lệ một phía: p1 < p2
test_Ethnicity_EarningClass <- prop.test(counts_EarningClass_high, totals_EarningClass, alternative = "less", correct = FALSE)
test_Ethnicity_EarningClass
## 
##  2-sample test for equality of proportions without continuity correction
## 
## data:  counts_EarningClass_high out of totals_EarningClass
## X-squared = 205.79, df = 1, p-value < 2.2e-16
## alternative hypothesis: less
## 95 percent confidence interval:
##  -1.0000000 -0.1207556
## sample estimates:
##    prop 1    prop 2 
## 0.1354549 0.2685850

Kết quả kiểm định từ prop.test():

  • \(\hat{p}_1 = 0.1239\), \(\hat{p}_2 = 0.2559\)

  • \(\hat{p}_1 - \hat{p}_2 = -0.132\)

  • Khoảng tin cậy 95% cho \(p_1 - p_2\): \([-1.0000,\ -0.1214]\)

  • Thống kê kiểm định: \(\chi^2 = 266.3\), p < 2.2 ^{-16}

Kết luận: Có bằng chứng thống kê rất mạnh để bác bỏ giả thuyết \(H_0\). Tỷ lệ người da đen có thu nhập cao thấp hơn đáng kể so với người da trắng, và sự khác biệt này có ý nghĩa thống kê.

4.3.6 Relative Risk

Liệu chủng tộc (White/Black) có ảnh hưởng đến nguy cơ có thu nhập cao không (>50K)?

→ Mục tiêu: So sánh nguy cơ có thu nhập cao ở người da trắng (White) so với người da đen (Black).

riskratio(table_Ethnicity_EarningClass)
## $data
##                     
##                      <=50K >50K Total
##   Amer-Indian-Eskimo   215   30   245
##   Asian-Pac-Islander   585  220   805
##   Black               2119  332  2451
##   Other                203   18   221
##   White              16293 5983 22276
##   Total              19415 6583 25998
## 
## $measure
##                     risk ratio with 95% C.I.
##                       estimate     lower    upper
##   Amer-Indian-Eskimo 1.0000000        NA       NA
##   Asian-Pac-Islander 2.2318841 1.5670739 3.178731
##   Black              1.1062152 0.7796786 1.569508
##   Other              0.6651584 0.3817195 1.159059
##   White              2.1934444 1.5676194 3.069111
## 
## $p.value
##                     two-sided
##                        midp.exact fisher.exact   chi.square
##   Amer-Indian-Eskimo           NA           NA           NA
##   Asian-Pac-Islander 3.684708e-07 5.365789e-07 1.210922e-06
##   Black              5.801457e-01 6.238657e-01 5.691433e-01
##   Other              1.494165e-01 1.702829e-01 1.459523e-01
##   White              3.287883e-08 3.796037e-08 2.713510e-07
## 
## $correction
## [1] FALSE
## 
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"

Nhận xét kết quả

Kết quả

  • Trong số 21,816 người da trắng (White), có 7,117 người (32.63%) có thu nhập >50K.

  • Trong số 3,124 người da đen (Black), có 387 người (12.39%) có thu nhập >50K.

  • Tỷ số nguy cơ (RR) = 0.48 → Người da đen có nguy cơ có thu nhập trên 50K chỉ bằng khoảng một nửa so với người da trắng.

  • Khoảng tin cậy 95% = [0.44, 0.53] → Không bao gồm 1 → có ý nghĩa thống kê.

  • p-value = 0.000 → Rất nhỏ hơn 0.05 → Có bằng chứng thống kê mạnh mẽ về sự khác biệt.

Nhận xét

  • Dựa trên kết quả phân tích, người da đen có nguy cơ đạt thu nhập >50K thấp hơn đáng kể so với người da trắng. Tỷ số nguy cơ là 0.48, khoảng tin cậy 95% là [0.44, 0.53], và p-value bằng 0 cho thấy sự khác biệt này là có ý nghĩa thống kê mạnh. Điều này hàm ý rằng chủng tộc là một yếu tố có liên quan rõ ràng đến khả năng đạt mức thu nhập cao trong bộ dữ liệu này.

4.3.7 Odds Ratio - OR

# Tính odds ratio giữa các nhóm Ethnicity so với nhóm tham chiếu "White"
or_result_Ethnicity <- oddsratio(table_Ethnicity_EarningClass)

# Hiển thị kết quả
print(or_result_Ethnicity)
## $data
##                     
##                      <=50K >50K Total
##   Amer-Indian-Eskimo   215   30   245
##   Asian-Pac-Islander   585  220   805
##   Black               2119  332  2451
##   Other                203   18   221
##   White              16293 5983 22276
##   Total              19415 6583 25998
## 
## $measure
##                     odds ratio with 95% C.I.
##                       estimate     lower    upper
##   Amer-Indian-Eskimo 1.0000000        NA       NA
##   Asian-Pac-Islander 2.6822277 1.8003683 4.124003
##   Black              1.1179843 0.7612829 1.698368
##   Other              0.6381597 0.3380352 1.173157
##   White              2.6192325 1.8153681 3.921526
## 
## $p.value
##                     two-sided
##                        midp.exact fisher.exact   chi.square
##   Amer-Indian-Eskimo           NA           NA           NA
##   Asian-Pac-Islander 3.684708e-07 5.365789e-07 1.210922e-06
##   Black              5.801457e-01 6.238657e-01 5.691433e-01
##   Other              1.494165e-01 1.702829e-01 1.459523e-01
##   White              3.287883e-08 3.796037e-08 2.713510e-07
## 
## $correction
## [1] FALSE
## 
## attr(,"method")
## [1] "median-unbiased estimate & mid-p exact CI"
