##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
## Warning: package 'ggplot2' was built under R version 4.3.3
## Warning: package 'psych' was built under R version 4.3.3
##
## Attaching package: 'psych'
## The following objects are masked from 'package:ggplot2':
##
## %+%, alpha
## Warning: package 'DescTools' was built under R version 4.3.3
##
## Attaching package: 'DescTools'
## The following objects are masked from 'package:psych':
##
## AUC, ICC, SD
## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ forcats 1.0.0 ✔ stringr 1.5.1
## ✔ lubridate 1.9.3 ✔ tibble 3.2.1
## ✔ purrr 1.0.2 ✔ tidyr 1.3.0
## ✔ readr 2.1.5
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ psych::%+%() masks ggplot2::%+%()
## ✖ psych::alpha() masks ggplot2::alpha()
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag() masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors
##
## Attaching package: 'scales'
##
##
## The following object is masked from 'package:purrr':
##
## discard
##
##
## The following object is masked from 'package:readr':
##
## col_factor
##
##
## The following objects are masked from 'package:psych':
##
## alpha, rescale
## Warning: package 'AER' was built under R version 4.3.3
## Loading required package: car
## Warning: package 'car' was built under R version 4.3.3
## Loading required package: carData
## Warning: package 'carData' was built under R version 4.3.3
##
## Attaching package: 'car'
##
## The following object is masked from 'package:purrr':
##
## some
##
## The following object is masked from 'package:DescTools':
##
## Recode
##
## The following object is masked from 'package:psych':
##
## logit
##
## The following object is masked from 'package:dplyr':
##
## recode
##
## Loading required package: lmtest
## Warning: package 'lmtest' was built under R version 4.3.3
## Loading required package: zoo
## Warning: package 'zoo' was built under R version 4.3.3
##
## Attaching package: 'zoo'
##
## The following objects are masked from 'package:base':
##
## as.Date, as.Date.numeric
##
## Loading required package: sandwich
## Warning: package 'sandwich' was built under R version 4.3.3
## Loading required package: survival
##
## Attaching package: 'survival'
##
## The following object is masked from 'package:epitools':
##
## ratetable
## Warning: package 'Ecdat' was built under R version 4.3.3
## Loading required package: Ecfun
## Warning: package 'Ecfun' was built under R version 4.3.3
##
## Attaching package: 'Ecfun'
##
## The following object is masked from 'package:DescTools':
##
## BoxCox
##
## The following object is masked from 'package:base':
##
## sign
##
##
## Attaching package: 'Ecdat'
##
## The following object is masked from 'package:carData':
##
## Mroz
##
## The following object is masked from 'package:datasets':
##
## Orange
## Warning: package 'datarium' was built under R version 4.3.3
## Warning: package 'ISLR' was built under R version 4.3.3
Trong bối cảnh thị trường lao động ngày càng biến động mạnh mẽ bởi
các tác động của quá trình toàn cầu hóa và tự động hóa thì công đoàn
giữa vai trò như một thiết chế đại diện cho quyền lợi người lao động là
một tổ chức không thể thiếu. Việc tham gia công đoàn không chỉ phản ánh
mức độ gắn kết xã hội giữa người lao động mà còn là một yếu tố tác động
đến mức lương và điều kiện, môi trường làm việc. Tuy nhiên việc tham gia
công đoàn không chỉ dựa trên yếu tố kinh tế mà còn chịu ảnh hưởng bởi
nhiều đặc điểm nhân khẩu học như giới tính, chủng tộc, trình độ học vấn,
khu vực sinh sống và tình trạng hôn nhân.
Tại Hoa kỳ, tỷ lệ tham gia công đoàn đã giảm dần trong những thập kỷ gần
đây, nhưng mức độ tham gia vẫn có sự khác biệt giữa những nhóm dân cư
khác nhau. Việc hiểu rõ các yếu tố nhâu khẩu học ảnh hướng đến khả năng
tham gia công đoàn sẽ giúp các nhà hoạt định chính sách lao động, các tổ
chức công đoàn thiết kế chiến lược phù hợp nhằm nâng cao tỷ lệ đại diện
và đảm bảo công bằng trong tiếp cận quyền lợi lao động.
Bộ dữ liệu Wages từ Ecdat là một bộ dữ liệu phù hợp để
thực hiện nghiên cứu này, vì nó cung cấp thông tin chi tiết về các đặc
điểm nhân khẩu học, tình trạng lao động và mối liên hệ với việc tham gia
công đoàn. Việc sử dụng các phương pháp thống kê và mô hình hóa kinh tế
lượng để phân tích tác động của các biến định tính như giới tính (sex),
chủng tộc (black), tình trạng hôn nhân (married), khu vực cư trú (south,
smsa) đến quyết định tham gia công đoàn (union) sẽ mang lại những kết
quả có giá trị thực tiễn và góp phần làm sáng tỏ mối quan hệ giữa nhân
khẩu học và hành vi tham gia tổ chức lao động.
Mục tiêu của nghiên cứu này là phân tích sự tác động của các yếu tố nhân khẩu học ảnh hướng đến việc tham gia công đoàn của người lao động tại Hoa Kỳ, thông qua việc sử dụng dữ liệu khảo sát và các phương pháp phân tích định lượng.
Đối tượng nghiên cứu trong đề tài là người lao động tại Hoa Kỳ, với
các đặc điểm nhân khẩu học cụ thể như giới tính, tình trạng hôn nhân,
ngành nghề, khu vực cư trú, chủng tộc. Trong đó, biến phụ thuộc chính
trong nghiên cứu là biến định tính union, biến thể hiện
việc người lao động có tham gia công đoàn hay không.
Phạm vi của đề tài nghiên cứu tập trung vào thị trường lao động tại Hoa Kỳ. Với bộ dữ liệu gồm 4165 người lao động thực hiện khảo sát với tổng 12 biến.
Nghiên cứu sử dụng phương pháp nghiên cứu thống kê và các mô hình hồi quy để phân tích trên bộ dữ liệu Wages. Từ nhận hiểu rõ về sự tác động và mức độ tác động của các yếu tố nhân khẩu học đến quyết định tham gia công đoàn của người lao động tại Hoa Kỳ.
Chương 1: Tổng quan nghiên cứu.
Chương 2: Dữ liệu nghiên cứu.
Chương 3: Phân tích và đưa ra kết quả.
Bộ dữ liệu Wages được lấy từ package
Ecdat, chứa thông tin về các đặt điểm nhân khẩu học, quá
trình làm việc và thu nhập của người lao động tại Hoa Kỳ. Bộ dữ liệu
Wages chứa 12 biến với tổng cộng 4165 quan sát.
Dữ liệu này thường được sử dụng trong phân tích kinh tế lao động và các
mô hình kinh tế lượng để kiểm định tác động của giới tính, chủng
tộc, học vấn và tình trạng hôn nhân đến thu nhập.
d <- Wages
datatable(Wages)
Dưới đây là giải thích chi tiết về các biến trong bộ dữ liệu:
Biến định lượng (Quantitative Variables)
| Tên biến | Kiểu dữ liệu | Ý nghĩa |
|---|---|---|
exp |
Numeric | Số năm kinh nghiệm làm việc toàn thời gian. |
wks |
Numeric | Số tuần làm việc của cá nhân trong một năm. |
ed |
Numeric | Số năm học vấn (trình độ học vấn) của cá nhân. |
lwage |
Numeric | Logarit tự nhiên của tiền lương. |
Biến định tính (Qualitative Variables)
| Tên biến | Kiểu dữ liệu | Ý nghĩa |
|---|---|---|
bluecol |
factor | Loại công việc: 1 (nhóm ngành lao động chân tay hoặc kỹ thuật), 0 (nhóm ngành văn phòng, hành chính, chuyên môn). |
ind |
integer | Ngành công nghiệp: 1 (sản xuất), 0 (không phải sản xuất). |
south |
factor | Khu vực cư trú: Yes (miền Nam Hoa Kỳ), No (không phải miền Nam Hoa Kỳ). |
smsa |
factor | Khu vực đô thị: Yes (cư trú trong Khu vực thống kê đô thị tiêu chuẩn), No (không cư trú trong Khu vực thống kê đô thị tiêu chuẩn). |
married |
factor | Tình trạng hôn nhân: Yes (đã kết hôn), No (chưa kết hôn). |
sex |
factor | Giới tính của cá nhân: male, female. |
union |
factor | Thành viên công đoàn: Yes (có), No (không). |
black |
factor | Chủng tộc: Yes (người da đen), No (không phải người da đen). |
Bộ dữ liệu Wages có cấu trúc rõ ràng, đa dạng về biến và quy mô mẫu lớn, thích hợp để sử dụng trong các mô hình kinh tế định lượng. Là một bộ dữ liệu có giá trị thực tiễn cao, phục vụ tốt cho việc nghiên cứu và mô hình hóa trong lĩnh vực kinh tế lao động và chính sách thị trường lao động.
# Lọc dữ liệu định tính
d1 <- subset(d, select=-c(exp,wks,ed,lwage))
# Hiển thị cấu trúc dữ liệu
str(d1)
## 'data.frame': 4165 obs. of 8 variables:
## $ bluecol: Factor w/ 2 levels "no","yes": 1 1 1 1 1 1 1 2 2 2 ...
## $ ind : int 0 0 0 0 1 1 1 0 0 1 ...
## $ south : Factor w/ 2 levels "no","yes": 2 2 2 2 2 2 2 1 1 1 ...
## $ smsa : Factor w/ 2 levels "no","yes": 1 1 1 1 1 1 1 1 1 1 ...
## $ married: Factor w/ 2 levels "no","yes": 2 2 2 2 2 2 2 2 2 2 ...
## $ sex : Factor w/ 2 levels "female","male": 2 2 2 2 2 2 2 2 2 2 ...
## $ union : Factor w/ 2 levels "no","yes": 1 1 1 1 1 1 1 1 1 2 ...
## $ black : Factor w/ 2 levels "no","yes": 1 1 1 1 1 1 1 1 1 1 ...
Dữ liệu đã được làm sạch và sắp xếp rõ
ràng. Hầu hết các biến phân loại đã được
mã hóa dưới dạng factor, điều này cực kỳ thuận
tiện và phù hợp để sử dụng trong các
mô hình hồi quy hoặc các phân tích định
lượng khác. Điều này cho thấy bộ dữ liệu Wages có thể dùng để
phân tích chuyên sâu. Riêng biến ind đang ở dạng dữ liệu
biến nhị phân dạng số (integer). Do nghiên cứu cần thực hiện hồi quy
tuyến tính,logistic và các mô hình mà ý nghĩa định tính của biến quan
trọng hơn giá trị số nên cần thực hiện chuyển dạng dữ liệu của biến
ind từ integer sang
factor.
indd1$ind <- factor(d1$ind, levels = c(0, 1), labels = c("non-industrial", "industrial"))
str(d1)
## 'data.frame': 4165 obs. of 8 variables:
## $ bluecol: Factor w/ 2 levels "no","yes": 1 1 1 1 1 1 1 2 2 2 ...
## $ ind : Factor w/ 2 levels "non-industrial",..: 1 1 1 1 2 2 2 1 1 2 ...
## $ south : Factor w/ 2 levels "no","yes": 2 2 2 2 2 2 2 1 1 1 ...
## $ smsa : Factor w/ 2 levels "no","yes": 1 1 1 1 1 1 1 1 1 1 ...
## $ married: Factor w/ 2 levels "no","yes": 2 2 2 2 2 2 2 2 2 2 ...
## $ sex : Factor w/ 2 levels "female","male": 2 2 2 2 2 2 2 2 2 2 ...
## $ union : Factor w/ 2 levels "no","yes": 1 1 1 1 1 1 1 1 1 2 ...
## $ black : Factor w/ 2 levels "no","yes": 1 1 1 1 1 1 1 1 1 1 ...
Sau chuyển dạng dữ biệu integer của biến ind với hai
trạng thái 1 và 0 sang dạng dữ liệu factor thì biến
ind là biến nhị phân với hai trạng thái. Trạng thái
0 tương ứng với non-industrial, trạng
thái 1 tương ứng với industrial
print("Kiểm tra bộ dữ liệu có các giá trị thiếu hay không:")
## [1] "Kiểm tra bộ dữ liệu có các giá trị thiếu hay không:"
z <- is.na(d1)
datatable(z)
print("Số giá trị bị thiếu:")
## [1] "Số giá trị bị thiếu:"
sum(is.na(d1))
## [1] 0
Bộ dữ liệu Wages không có giá trị bị thiếu ở các
biến định tính - các biến dạng factor đã được định danh đầy
đủ, không có giá trị rỗng hoặc không xác định. Cho thấy bộ dữ liệu có
chất lượng tốt.
unionBiến union là một biến định tính nhị phân với hai giá
trị. “No” là người lao động không tham gia công đoàn và “Yes” là người
lao động tham gia công đoàn. Biến này giúp phân biệt giữa những người
lao động được khảo sát có những người lao động nào nhận được sự hỗ trợ
từ tổ chức công đoàn về mặt quyền lợi, thương lượng lương, điều kiện
việc làm,… và những người nào không có. Một yếu tố có thể ảnh hưởng đến
điều kiện lao động và phúc lợi.
table(d1$union)
##
## no yes
## 2649 1516
union1 <- table(d1$union)/sum(nrow(d1))
union1
##
## no yes
## 0.6360144 0.3639856
# Chuyển thành data frame để ggplot xử lý
union_df <- as.data.frame(union1)
colnames(union_df) <- c("union", "proportion")
# Đổi nhãn thành tiếng Việt
union_df$union <- factor(union_df$union,
levels = c("no", "yes"),
labels = c("Không tham gia công đoàn", "Tham gia công đoàn"))
ggplot(union_df, aes(x = union, y = proportion, fill = union)) +
geom_col(width = 0.6) +
geom_text(aes(label = paste0(round(proportion * 100, 1), "%")),
vjust = -0.3, size = 5, fontface = "bold") +
labs(title = "Tỷ lệ người lao động theo tình trạng tham gia công đoàn",
x = "Tình trạng tham gia công đoàn",
y = "Tỷ lệ") +
scale_fill_manual(values = c("Không tham gia công đoàn" = "lightgreen",
"Tham gia công đoàn" = "darkgreen")) +
ylim(0, max(union_df$proportion) + 0.05) +
theme_minimal()
Nhận xét:
Tỷ lệ người lao động không tham gia công đoàn chiếm phần lớn trong bộ dữ
liệu này, cụ thể là 63.6%, tương ứng với 2649 người và tỷ lệ người lao
động tham gia công đoàn chiếm phần nhỏ hơn, với 36.4% tương ứng với 1516
người. Co thấy đa số người lao động được khảo sát trong bộ dữ liệu này
không phải là thành viên của công đoàn. Tỷ lệ không tham gia công đoàn
gần gấp đôi tỷ lệ tham gia.
Biến bluecol
Biến bluecol (Blue-collar workers: thuật ngữ chỉ những
người làm công việc lao động chân tay hoặc kỹ thuật): là một biến định
tính nhị phân cho biết người lao động có làm công việc thuộc nhóm lao
động chân tay hoặc kỹ thuật hay không.
table(d1$bluecol)
##
## no yes
## 2036 2129
bluecol1 <- table(d1$bluecol)/sum(nrow(d1))
bluecol1
##
## no yes
## 0.4888355 0.5111645
Vậy trong bộ dữ liệu này có 48.8835534% người lao động không làm việc trong nhóm ngành lao động chân tay và kỹ thuật và 51.1164466% người lao động làm việc trong nhóm ngành lao động chân tay và kỹ thuật.
pie(bluecol1,
labels = paste(names(bluecol1), round(bluecol1*100,2), "%"),
main = "Biểu đồ tròn: Tỷ lệ người lao động làm việc trong nhóm ngành lao động chân tay và kỹ thuật")
bluecol là khá cân bằng và nhóm công nhân lao động chân tay
hoặc kỹ thuật chiếm ưu thế hơn một chút.Biến ind
Biến Ind xác định người lao động có làm việc trong ngành
sản suất hay không. Là một biến nhị phân với hai trạng thái lần lượt là
làm việc trong ngành sản xuất (industrial) và không làm việc trong ngành
sản suất (non-industrial).
table(d1$ind)
##
## non-industrial industrial
## 2518 1647
ind1 <- table(d1$ind)/sum(nrow(d1))
ind1
##
## non-industrial industrial
## 0.6045618 0.3954382
Vậy trong bộ dữ liệu này có 60.4561825% người lao động không làm việc trong ngành sản xuất và 39.5438175% người lao động làm việc trong ngành sản xuất.
pie(ind1,
labels = paste(names(ind1), round(ind1*100,2), "%"),
main = "Biểu đồ tròn: Tỷ lệ người lao động làm việc trong ngành sản xuất",col=c("lightblue", "blue"))
non-industrial chiếm khoảng 60.46% và còn lại 39.54% người
lao động làm việc trong ngành sản xuất. Biểu đồ tròn minh họa trực quan
một cách chính xác các số liệu được tính toán ở bảng tần số và bảng tần
suất.Biến south
Biến south thể hiện khu vực địa lý nơi cư trú của người lao
động, cụ thể hơn là xác định người lao động đó có sống ở miền Nam Hoa Kỳ
hay không. Là một biến nhị phân với biểu hiện Yes là người lao động cư
trú tại miền Nam Hoa Kỳ và No là người lao động không cư trú tại miền
Nam Hoa Kỳ.
table(d1$south)
##
## no yes
## 2956 1209
south1 <- table(d1$south)/sum(nrow(d1))
south1
##
## no yes
## 0.7097239 0.2902761
Vậy trong bộ dữ liệu này có 70.972389% người lao động không cư trú tại miền Nam Hoa Kỳ và 29.027611% người lao động cư trú tại miền Nam Hoa kỳ.
# Chuyển thành data frame để ggplot xử lý
south_df <- as.data.frame(south1)
colnames(south_df) <- c("south", "proportion")
# Đổi nhãn thành tiếng Việt
south_df$south <- factor(south_df$south,
levels = c("no", "yes"),
labels = c("Không cư trú tại miền Nam", "Cư trú tại miền Nam"))
ggplot(south_df, aes(x = south, y = proportion, fill = south)) +
geom_col(width = 0.6) +
geom_text(aes(label = paste0(round(proportion * 100, 1), "%")),
vjust = -0.3, size = 5, fontface = "bold") +
labs(title = "Tỷ lệ người lao động theo khu vực cư trú",
x = "Khu vực cư trú",
y = "Tỷ lệ",
fill = "Khu vực cư trú") +
scale_fill_manual(values = c("Không cư trú tại miền Nam" = "pink",
"Cư trú tại miền Nam" = "steelblue")) +
scale_y_continuous(labels = scales::percent_format(accuracy = 1),
limits = c(0, max(south_df$proportion) + 0.1)) +
theme_minimal(base_size = 14)
Biến smsa
Biến smsa là một biến nhị phân biểu thị liệu người lao động
có cư trú tại khu vực đô thị lớn của Hoa Kỳ hay không. Với biệu hiện
“No” là người lao động không cư trú tại vùng đô thị lớn (tức là người
lao động sinh sống tại khu vực nông thôn hoặc thị trấn nhỏ) và biểu hiện
“Yes” là người lao động cư trú tại vùng đô thị lớn.
table(d1$smsa)
##
## no yes
## 1442 2723
smsa1 <- table(d1$smsa)/sum(nrow(d1))
smsa1
##
## no yes
## 0.3462185 0.6537815
Vậy trong bộ dữ liệu này có 34.6218487% người lao động không cư trú tại vùng đô thị lớn của Hoa Kỳ và 29.027611% người lao động cư trú tại vùng đô thị lớn của Hoa kỳ.
# Chuyển thành data frame để ggplot xử lý
smsa_df <- as.data.frame(smsa1)
colnames(smsa_df) <- c("smsa", "proportion")
# Đổi nhãn thành tiếng Việt
smsa_df$smsa <- factor(smsa_df$smsa,
levels = c("no", "yes"),
labels = c("Không sống ở đô thị lớn", "Sống ở đô thị lớn"))
ggplot(smsa_df, aes(x = smsa, y = proportion, fill = smsa)) +
geom_col(width = 0.6) +
geom_text(aes(label = paste0(round(proportion * 100, 1), "%")),
vjust = -0.3, size = 5, fontface = "bold") +
labs(title = "Tỷ lệ người lao động theo vùng đô thị",
x = "Vùng đô thị",
y = "Tỷ lệ") +
scale_fill_manual(values = c("Không sống ở đô thị lớn" = "orange",
"Sống ở đô thị lớn" = "steelblue")) +
ylim(0, max(smsa_df$proportion) + 0.05) +
theme_minimal()
Biến married
Biến married là một biến nhị phân biểu thị trạng thái hôn
nhân của người lao động được khảo sát. Với trạng thái “No” là chưa kết
hơn và “Yes” là đã kết hôn.
table(d1$married)
##
## no yes
## 773 3392
married1 <- table(d1$married)/ sum(nrow(d1))
married1
##
## no yes
## 0.1855942 0.8144058
# Chuyển thành data frame để ggplot xử lý
married_df <- as.data.frame(married1)
colnames(married_df) <- c("married", "proportion")
# Đổi nhãn thành tiếng Việt
married_df$married <- factor(married_df$married,
levels = c("no", "yes"),
labels = c("Chưa kết hôn", "Đã kết hôn"))
ggplot(married_df, aes(x = married, y = proportion, fill = married)) +
geom_col(width = 0.6) +
geom_text(aes(label = paste0(round(proportion * 100, 1), "%")),
vjust = -0.3, size = 5, fontface = "bold") +
labs(title = "Tỷ lệ người lao động theo tình trạng hôn nhân",
x = "Trạng thái hôn nhân",
y = "Tỷ lệ") +
scale_fill_manual(values = c("Chưa kết hôn" = "lightblue",
"Đã kết hôn" = "darkblue")) +
ylim(0, max(married_df$proportion) + 0.05) +
theme_minimal()
Biến sex
Biến sex trong bộ dữ liệu này là một biến nhị phân cho biết
giới tính của từng người lao động tại Hoa Kỳ được khảo sát. Với trạng
thái “female” là giới tính nữ và “male” là giới tính nam.
table(d1$sex)
##
## female male
## 469 3696
sex1 <- table(d1$sex)/sum(nrow(d1))
sex1
##
## female male
## 0.112605 0.887395
# Chuyển thành data frame để ggplot xử lý
sex_df <- as.data.frame(sex1)
colnames(sex_df) <- c("sex", "proportion")
# Đổi nhãn thành tiếng Việt
sex_df$sex <- factor(sex_df$sex,
levels = c("female", "male"),
labels = c("Giới tính nữ", "Giới tính nam"))
ggplot(sex_df, aes(x = sex, y = proportion, fill = sex)) +
geom_col(width = 0.6) +
geom_text(aes(label = paste0(round(proportion * 100, 1), "%")),
vjust = -0.3, size = 5, fontface = "bold") +
labs(title = "Tỷ lệ người lao động theo tình trạng giới tính",
x = "Tình trạng giới tính",
y = "Tỷ lệ") +
scale_fill_manual(values = c("Giới tính nữ" = "orange",
"Giới tính nam" = "seagreen")) +
ylim(0, max(sex_df$proportion) + 0.05) +
theme_minimal()
Biến black
Biến black biểu thị người lao động có phải là người da đen
hay không. Với “No” là người lao động không phải là người da đen và
“Yes” là người lao động là người da đen.
table(d1$black)
##
## no yes
## 3864 301
black1 <- table(d1$black)/sum(nrow(d1))
black1
##
## no yes
## 0.92773109 0.07226891
# Chuyển thành data frame để ggplot xử lý
black_df <- as.data.frame(black1)
colnames(black_df) <- c("black", "proportion")
# Đổi nhãn thành tiếng Việt
black_df$black <- factor(black_df$black,
levels = c("no", "yes"),
labels = c("Không phải người da đen", "Người da đen"))
ggplot(black_df, aes(x = black, y = proportion, fill = black)) +
geom_col(width = 0.6) +
geom_text(aes(label = paste0(round(proportion * 100, 1), "%")),
vjust = -0.3, size = 5, fontface = "bold") +
labs(title = "Tỷ lệ người lao động theo tình trạng chủng tộc",
x = "Tình trạng chủng tộc",
y = "Tỷ lệ") +
scale_fill_manual(values = c("Không phải người da đen" = "salmon",
"Người da đen" = "red")) +
ylim(0, max(black_df$proportion) + 0.05) +
theme_minimal()
unionKiểm định Chi bình phương (Chi-squared test) được sử dụng để đánh giá
mối quan hệ giữa hai biến. Cụ thể là kiểm định này xác định hai biến có
độc lập với nhau không.
Giả thuyết kiểm định:
\[
\begin{cases}
H_0: \text{Hai biến là độc lập (không có mối liên hệ).} \\
H_1: \text{Hai biến không độc lập (mối liên hệ).}
\end{cases}
\] Thống kê Chi bình phương:
\[ \chi^2 = \sum \frac{(O_{ij} -
E_{ij})^2}{E_{ij}} \]
Trong đó:
\(O_{ij}\) là tần suất quan
sát,
Giá trị kỳ vọng \(E_{ij}\) tại ô
\((i, j)\) được tính bằng công
thức:\[ E_{ij} = \frac{n_i \times n_{j}}{n}
\] Với:
\(n_{i}\): tổng tần suất hàng \(i\),
\(n_{j}\): tổng tần suất cột \(j\),
\(n\): tổng tất cả quan sát.
Biến union và biến
bluecol
Giả thuyết:
\[
\begin{cases}
H_0: \text{union và bluecol là độc lập.} \\
H_1: \text{union và bluecol là không độc lập.}
\end{cases}
\]
chisq.test(table(d1$union,d1$bluecol))
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: table(d1$union, d1$bluecol)
## X-squared = 594.86, df = 1, p-value < 2.2e-16
Nhận xét:Kết quả kiểm định cho thấy p-value \(< 2.2 \times 10^{-16}\), vậy p-value \(<0.05\). Bác bỏ giả thuyết \(H_0\). Kết luận được rằng có mối quan hệ có ý nghĩa thống kê giữa việc người lao động có tham gia công đoàn (union) hay không và việc họ có làm việc thuộc nhóm ngành chân tay hoặc kỹ thuật hay không.
union và biến
indchisq.test(table(d1$union,d1$ind))
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: table(d1$union, d1$ind)
## X-squared = 88.732, df = 1, p-value < 2.2e-16
Nhận xét: Kết quả kiểm định cho thấy p-value \(< 2.2 \times 10^{-16}\), vậy p-value \(<0.05\). Bác bỏ giả thuyết \(H_0\). Kết luận được rằng có mối quan hệ có ý nghĩa thống kê giữa việc người lao động có tham gia công đoàn hay không và việc họ có làm việc trong ngành sản xuất hay không.
union và biến
southchisq.test(table(d1$union,d1$south))
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: table(d1$union, d1$south)
## X-squared = 109.61, df = 1, p-value < 2.2e-16
Nhận xét: Kết quả kiểm định cho thấy p-value \(< 2.2 \times 10^{-16}\), vậy p-value \(<0.05\). Bác bỏ giả thuyết \(H_0\). Kết luận được rằng có mối quan hệ có ý nghĩa thống kê giữa việc người lao động có tham gia công đoàn hay không và việc họ có cư trú tại miền Nam Hoa Kỳ hay không.
union và biến
smsachisq.test(table(d1$union,d1$smsa))
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: table(d1$union, d1$smsa)
## X-squared = 2.9485, df = 1, p-value = 0.08596
Nhận xét: Kết quả kiểm định cho thấy p-value \(=0.08596\), vậy p-value \(>0.05\). Không có cơ sở bác bỏ giả thuyết \(H_0\). Kết luận được rằng không có mối quan hệ có ý nghĩa thống kê giữa việc người lao động có tham gia công đoàn hay không và việc họ có cư trú tại các vùng đô thị lớn của Hoa Kỳ hay không.
union và biến
marriedchisq.test(table(d1$union,d1$married))
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: table(d1$union, d1$married)
## X-squared = 54.181, df = 1, p-value = 1.828e-13
Nhận xét: Kết quả kiểm định cho thấy p-value \(=1.828 \times e^{-13}\), vậy p-value \(<0.05\). Bác bỏ giả thuyết \(H_0\). Kết luận được rằng có mối quan hệ có ý nghĩa thống kê giữa việc người lao động có tham gia công đoàn hay không và tình trạng hôn nhân của họ.
union và biến
sexchisq.test(table(d1$union,d1$sex))
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: table(d1$union, d1$sex)
## X-squared = 52.63, df = 1, p-value = 4.027e-13
Nhận xét: Kết quả kiểm định cho thấy p-value \(= 4.027 \times e^{-13}\), vậy p-value \(<0.05\). Bác bỏ giả thuyết \(H_0\). Kết luận được rằng có mối quan hệ có ý nghĩa thống kê giữa việc người lao động có tham gia công đoàn hay không và giới tính của họ.
union và biến
blackchisq.test(table(d1$union,d1$black))
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: table(d1$union, d1$black)
## X-squared = 8.8659, df = 1, p-value = 0.002906
Nhận xét: Kết quả kiểm định cho thấy p-value \(=0.002906\), vậy p-value \(<0.05\). Bác bỏ giả thuyết \(H_0\). Kết luận được rằng có mối quan hệ có ý nghĩa thống kê giữa việc người lao động có tham gia công đoàn hay không và chủng tộc của họ.
Kết luận: Sau khi thực hiện kiểm định tính độc lập cho các cặp biến, kết quả nhận được cho thấy chỉ có duy nhất biến smsa là không có ảnh hướng đến biến union. Tiếp theo thực hiện thống kê mô tả hai biến để có cái nhìn rõ ràng hơn về mức độ ảnh hưởng của các đặc điểm nhân khẩu học khác lên đặc điểm tình trạng tham gia công đoàn của người lao động được khảo sát.
union và biến bluecol# Bảng tần suất chéo với nhãn rõ ràng, không tạo thêm cột
s <- table(factor(d1$union, levels = c("no", "yes"),
labels = c("Non-union", "Union")),
factor(d1$bluecol, levels = c("no", "yes"),
labels = c("Non-blue-collar", "Blue-collar")))
addmargins(s)
##
## Non-blue-collar Blue-collar Sum
## Non-union 1674 975 2649
## Union 362 1154 1516
## Sum 2036 2129 4165
s1 <- prop.table(s, margin=1)
s1
##
## Non-blue-collar Blue-collar
## Non-union 0.6319366 0.3680634
## Union 0.2387863 0.7612137
s2 <- as.data.frame(s1)
colnames(s2) <- c("union", "bluecol", "Proportion")
ggplot(s2, aes(x = bluecol, y = Proportion, fill = union)) +
geom_bar(stat = "identity", position = "dodge") +
labs(
title = "Tỷ lệ tham gia công đoàn theo loại lao động",
x = "Loại lao động",
y = "Tỷ lệ",
fill = "Tình trạng tham gia công đoàn"
) +
theme_minimal() +
scale_y_continuous(labels = scales::percent) +
scale_fill_manual(values = c("Non-union" = "darkblue", "Union" = "pink")) +
geom_text(aes(label = scales::percent(Proportion, accuracy = 0.1)),
position = position_dodge(width = 0.9),
vjust = -0.3, size=5, fontface = "bold")
Nhận xét:
Các bảng tần suất và biểu đồ trên minh họa mối quan hệ giữa tình trạng
tham gia công đoàn (union) và ngành nghề của người lao động
(bluecol), có thể nhận thấy được sự phân hóa rõ rệt, trong
khi 63.2% (1674/2036) người lao động thuộc nhóm “Non_blue_collar” không
tham gia công đoàn, chỉ có 23.9% (362/2036) trong số họ là thành viên
công đoàn. Ngược lại, đối với nhóm “Blue_collar”, tỷ lệ tham gia công
đoàn lên đến 76.1% (1154/2129), cao hơn đáng kể so với tỷ lệ không tham
gia là 36.8% (975/2129). Điều này cho thấy công đoàn có sức ảnh hưởng và
sự hiện diện mạnh mẽ đáng kể trong các ngành nghề lao động chân tây hoặc
kỹ thuật hơn so với các ngành nghề văn phòng, hành chính hoặc chuyên
môn.
union và biến indf <- table(d1$union,d1$ind)
addmargins(f)
##
## non-industrial industrial Sum
## no 1745 904 2649
## yes 773 743 1516
## Sum 2518 1647 4165
f1 <- prop.table(f, margin=1)
f1
##
## non-industrial industrial
## no 0.6587391 0.3412609
## yes 0.5098945 0.4901055
f2 <- as.data.frame(f1)
colnames(f2) <- c("union", "ind", "Proportion")
ggplot(f2, aes(x = ind, y = Proportion, fill = union)) +
geom_bar(stat = "identity", position = "dodge") +
labs(
title = "So sáng tỷ lệ tham gia công đoàn giữa ngành công nghiệp và phi công nghiệp",
x = "Ngành nghề",
y = "Tỷ lệ",
fill = "Tình trạng tham gia công đoàn"
) +
theme_minimal() +
scale_y_continuous(labels = scales::percent) +scale_x_discrete(labels = c("non-industrial" = "Phi công nghiệp", "industrial" = "Công nghiệp")) +
scale_fill_manual(values = c("no" = "salmon", "yes" = "darkblue")) +
geom_text(aes(label = scales::percent(Proportion, accuracy = 0.1)),
position = position_dodge(width = 0.9),
vjust = -0.3, size=5, fontface = "bold")
Nhận xét: Trong tổng số 4165 người lao động được khảo sát tại Hoa Kỳ, mặc dù số lượng người không tham gia công đoàn chiếm đa số (2649 người) so với người tham gia (1516 người) và số lượng lao động trong nhóm ngành phi công nghiệp (2518 người) cũng đông hơn nhóm ngành công nghiệp (1647 người) nhưng tỷ lệ tham gia công đoàn lại thể hiện sự khác biệt đáng kể giữa hai nhóm ngành. Cụ thể, trong khi 65.9% người lao động trong nhóm ngành phi công nghiệp không phải là thành viên công đoàn và chỉ có 51% tham gia, thì ở ngành công nghiệp, tỷ lệ tham gia công đoàn là 49%, cao hơn so với tỷ lệ không tham gia là 34.1%. Điều này chỉ ra rằng, người lao động trong ngành công nghiệp sản xuất có xu hướng gia nhập công đoàn nhiều hơn những người làm việc trong các lĩnh vực phi công nghiệp. Phản ảnh sự đặc thù về điều kiện lao động hoặc nhận thức về lợi ích của việc tham gia công đoàn trong từng nhóm ngành nghề khác nhau.
union và biến south# Bảng tần suất chéo với nhãn rõ ràng
g <- table(factor(d1$union, levels = c("no", "yes"),
labels = c("Không tham gia công đoàn", "Tham gia công đoàn")),
factor(d1$south, levels = c("no", "yes"),
labels = c("Không sống tại miền Nam", "Sống tại miền Nam")))
addmargins(g)
##
## Không sống tại miền Nam Sống tại miền Nam Sum
## Không tham gia công đoàn 1732 917 2649
## Tham gia công đoàn 1224 292 1516
## Sum 2956 1209 4165
g1 <- prop.table(g, margin=1)
g1
##
## Không sống tại miền Nam Sống tại miền Nam
## Không tham gia công đoàn 0.6538316 0.3461684
## Tham gia công đoàn 0.8073879 0.1926121
df <- as.data.frame(g1)
colnames(df) <- c("Union", "South", "Proportion")
# Vẽ biểu đồ
ggplot(df, aes(x = Union, y = Proportion, fill = South)) +
geom_col(position = "dodge") +
geom_text(aes(label = scales::percent(Proportion, accuracy = 0.1)),
position = position_dodge(width = 0.9), vjust = -0.5, size = 5,fontface = "bold") +
labs(title = "Tỷ lệ tham gia công đoàn theo khu vực cư trú",
x = "Tình trạng công đoàn",
y = "Tỷ lệ",
fill = "Khu vực cư trú") +
scale_fill_manual(values = c("Không sống tại miền Nam" = "salmon",
"Sống tại miền Nam" = "blue")) +
ylim(0, 1) +
theme_minimal()
Nhận xét:
Trong số những người không tham gia công đoàn, 65.4% tỷ lệ người lao
động không số tại miền Nam Hoa kỳ, trong khi 34.6% sống tại miền Nam Hoa
Kỳ. Điều đáng chú ý là trong nhóm tham gia công đoàn, đại đa số (80.7%)
không sống tại miền Nam và chỉ có 19.3% đến từ miền Nam Hoa Kỳ. Cho thấy
những lao động sống bên ngoài khu vực miền Nam Hoa kỳ có khả năng tham
gia công đoàn cao hơn đáng kể so với những người sống tại miền Nam.
union và biến married# Bảng tần suất chéo với nhãn rõ ràng
j <- table(factor(d1$union, levels = c("no", "yes"),
labels = c("Non-union", "Union")),
factor(d1$married, levels = c("no", "yes"),
labels = c("Single", "Married")))
addmargins(j)
##
## Single Married Sum
## Non-union 581 2068 2649
## Union 192 1324 1516
## Sum 773 3392 4165
j1 <- prop.table(j, margin=1)
j1
##
## Single Married
## Non-union 0.2193280 0.7806720
## Union 0.1266491 0.8733509
j2 <- as.data.frame(j1)
colnames(j2) <- c("union", "married", "Proportion")
ggplot(j2, aes(x = union, y = Proportion, fill = married)) +
geom_bar(stat = "identity", position = "dodge") +
labs(
title = "Tỷ lệ tham gia công đoàn theo tình trạng hôn nhân",
x = "Tình trạng tham gia công đoàn",
y = "Tỷ lệ",
fill = "Tình trạng hôn nhân"
) +
theme_minimal() +
scale_y_continuous(labels = scales::percent) +
scale_fill_manual(values = c("Single" = "yellow", "Married" = "darkblue")) +
geom_text(aes(label = scales::percent(Proportion, accuracy = 0.1)),
position = position_dodge(width = 0.9),
vjust = -0.3, size=5, fontface = "bold")
Nhận xét:
Khi xem xét mối quan hệ giữa hai biến, trong số những người không tham
gia công đoàn, 78.1% đã kết hôn và 21.9% độc thân. Tuy nhiên, trong nhóm
những người tham gia công đoàn, tỷ lệ người đã kết hôn thậm chí còn cao
hơn, chiếm tới 87.3%, trong khi chỉ có 12.7% là người độc thân. Có thể
thấy được, những người đã kết hôn có xu hướng tham gia công đoàn nhiều
hơn đáng kẻ so với những người độc thân.
union và biến sexBảng tuần suất chéo
# Bảng tần suất chéo với nhãn rõ ràng
k <- table(factor(d1$union, levels = c("no", "yes"),
labels = c("Non-union", "Union")),
factor(d1$sex, levels = c("female", "male"),
labels = c("female", "male")))
addmargins(k)
##
## female male Sum
## Non-union 370 2279 2649
## Union 99 1417 1516
## Sum 469 3696 4165
Bảng tuần suất chéo theo tỷ lệ hàng
k1 <- prop.table(k, margin=1)
k1
##
## female male
## Non-union 0.13967535 0.86032465
## Union 0.06530343 0.93469657
Trực quan hóa
k2 <- as.data.frame(k1)
colnames(k2) <- c("union", "sex", "Proportion")
ggplot(k2, aes(x = union, y = Proportion, fill = sex)) +
geom_bar(stat = "identity", position = "dodge") +
labs(
title = "Tỷ lệ tham gia công đoàn theo tình trạng giới tính",
x = "Tình trạng tham gia công đoàn",
y = "Tỷ lệ",
fill = "Tình trạng giới tính"
) +
theme_minimal() +
scale_y_continuous(labels = scales::percent) +
scale_fill_manual(values = c("female" = "yellow", "male" = "darkgreen")) +
geom_text(aes(label = scales::percent(Proportion, accuracy = 0.1)),
position = position_dodge(width = 0.9),
vjust = -0.3, size=5, fontface = "bold")
Nhận xét:
Trong nhóm những người không tham gia công đoàn, nam giới chiếm 86%
(2279 người), trong khi nữ giới chiếm 14% (370 người). Trong nhóm những
người tham gia công đoàn: nam giới chiếm tới chiếm 93.5% (1417 người) và
nữ giới chiếm 6.5% (99 người). Cả trong nhóm tham gia công đoàn và không
tham gia công đoàn thì nam giới luôn là nhóm chiếm phần lớn hơn.
union và biến blackBảng tần suất chéo
# Bảng tần suất chéo với nhãn rõ ràng
l <- table(factor(d1$union, levels = c("no", "yes"),
labels = c("Non-union", "Union")),
factor(d1$black, levels = c("no", "yes"),
labels = c("Non-black", "Black")))
addmargins(l)
##
## Non-black Black Sum
## Non-union 2482 167 2649
## Union 1382 134 1516
## Sum 3864 301 4165
Bảng tuần suất chéo theo tỷ lệ hàng
l1 <- prop.table(l, margin=1)
l1
##
## Non-black Black
## Non-union 0.93695734 0.06304266
## Union 0.91160950 0.08839050
Trực quan hóa
l2 <- as.data.frame(l1)
colnames(l2) <- c("union", "black", "Proportion")
ggplot(l2, aes(x = union, y = Proportion, fill = black)) +
geom_bar(stat = "identity", position = "dodge") +
labs(
title = "Tỷ lệ tham gia công đoàn theo tình trạng chủng tộc",
x = "Tình trạng tham gia công đoàn",
y = "Tỷ lệ",
fill = "Tình trạng chủng tộc"
) +
theme_minimal() +
scale_y_continuous(labels = scales::percent) +
scale_fill_manual(values = c("Non-black" = "pink", "Black" = "gray")) +
geom_text(aes(label = scales::percent(Proportion, accuracy = 0.1)),
position = position_dodge(width = 0.9),
vjust = -0.3, size=5, fontface = "bold")
Nhận xét:
Nhóm những người không tham gia công đoàn, những người lao động không
thuộc chủng tộc người da đen chiếm tỷ lệ áp đảo là 93.7% và người lao
động thuộc chủng tộc người da đen chỉ chiếm 6.3%. Và tương tự, những
người lao động không phải người da đen cũng chiếm tỷ lệ rất cao 91.2%,
trong khi người da đen chiếm 8.8%. Cho thấy trong cả hai nhóm, người
không phải người da đen đều chiếm tỷ áp đảo so với người da đen.
Relative Risk (RR), hay còn gọi là nguy cơ tương đối. Là một chỉ số
thống kê để so sánh xác suất một sự kiện (ví dụ: tham gia công đoàn)
giữa hai nhóm đối tượng khác nhau, trong đó một nhóm là đặc điểm hoặc
yếu tố được quan tâm (ví dụ như đặc điểm người lao động là nam, là người
da đen, đã kết hôn,…).
Nói cách khác, RR cho biết nguy cơ xảy ra sự kiện ở nhóm có yếu tố được
quan tâm cao hơn, thấp hơn, hay bằng với nhóm không phải yếu tố được
quan tâm.
\[ RR = \frac{P(\text{Sự kiện xảy ra } |
\text{ Nhóm có yếu tố})}{\text{P(Sự kiện xảy ra } | \text{ Nhóm không có
yếu tố)}} \] Trong đó:
Tử số là xác suất xảy ra sự kiện ở nhóm có đặc điểm hoặc yếu tố được quan tâm.
Mẫu số là xác suất xảy ra sự kiện ở nhóm không có đặc điểm hoặc yếu tố cần quan tâm.
Diễn giải:
Nếu \(RR=1\): không có sự khác biệt về nguy cơ giữa hai nhóm.
Nếu \(RR>1\): Nhóm có yếu tố cần quan tâm có nguy cơ xảy ra sự kiện cao hơn so với nhóm không có yếu tố cần quan tâm.
Nếu \(RR<1\): Nhóm có yếu tố cần quan tâm có nguy cơ xảy ra sự kiện thấp hơn so với nhóm không có yếu tố cần quan tâm.
Ví dụ:
\[ RR = \frac{P(\text{Tham gia công đoàn } |
\text{ Giới tính nam})}{\text{P(Tham gia công đoàn } | \text{ Giới tính
nữ)}} \]
Diễn giải:
Nếu \(RR=1\): Không có sự khác biệt về khả năng tham gia công đoàn giữa nam và nữ.
Nếu \(RR>1\): Nam giới có khả năng tham gia công đoàn cao hơn nữ giới.
Nếu \(RR<1\): Nam giới có khả năng tham gia công đoàn thấp hơn so với nữ giới.
union và biến bluecolp <- table(factor(d1$bluecol, levels = c("no", "yes"),
labels = c("Non-blue-collar", "Blue-collar")),
factor(d1$union, levels = c("no", "yes"),
labels = c("Non-union", "Union")))
riskratio(p,rev="b")
## $data
##
## Union Non-union Total
## Blue-collar 1154 975 2129
## Non-blue-collar 362 1674 2036
## Total 1516 2649 4165
##
## $measure
## risk ratio with 95% C.I.
## estimate lower upper
## Blue-collar 1.000000 NA NA
## Non-blue-collar 1.795348 1.707047 1.888218
##
## $p.value
## two-sided
## midp.exact fisher.exact chi.square
## Blue-collar NA NA NA
## Non-blue-collar 0 1.622863e-136 1.00038e-131
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"
Nhận xét:
Có sự khác biệt giữa khả năng không tham gia công đoàn ở hai biểu
hiện của biến bluecol. Kết quả thu được RR \(\approx 1.8\). Tức là những người không làm
việc trong nhóm lao động chân tay có khả năng không tham gia công đoàn
cao hơn 1.8 lần so với những người trong nhóm lao động chân tay.
Khoảng tin cậy cho thấy rằng, với độ tin cậy 95%, chúng ta có thể kết luận rằng khả năng người lao động không tham gia công đoàn của người không thuộc nhóm lao động chân tay cao hơn từ 1.707 đến 1.888 lần so với người thuộc nhóm lao động chân tay.
Kết quả kiểm định Chi-square cho thấy có mối liên hệ có ý nghĩa thống kê giữa loại lao động và khả năng tham gia công đoàn. Điều này cho thấy việc là lao động chân tay hay không có ảnh hưởng đáng kể đến khả năng không tham gia công đoàn.
\[ RR = \frac{P(\text{Union } | \text{ Blue-collar})}{\text{P(Union } | \text{ Non-blue-collar)}} \]
riskratio(p)
## $data
##
## Non-union Union Total
## Non-blue-collar 1674 362 2036
## Blue-collar 975 1154 2129
## Total 2649 1516 4165
##
## $measure
## risk ratio with 95% C.I.
## estimate lower upper
## Non-blue-collar 1.000000 NA NA
## Blue-collar 3.048592 2.755063 3.373395
##
## $p.value
## two-sided
## midp.exact fisher.exact chi.square
## Non-blue-collar NA NA NA
## Blue-collar 0 1.622863e-136 1.00038e-131
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"
Nhận xét:
Có sự khác biệt về khả năng tham gia công đoàn ở hai biểu hiện của
biến bluecol. Kết quả nhận được cho thấy những người thuộc
nhóm lao động chân tay có khả năng tham gia công đoàn cao hơn 3.05 lần
so với những người không thuộc nhóm lao động chân tay.
Với độ tin cậy 95%, khả năng tham gia công đoàn ở nhóm lao động chân tay có thể cao hơn khoảng từ 2.76 đến 3.37 lần so với nhóm không lao động chân tay.
Kết quả kiểm định cho thấy có mối liên hệ giữa loại lao động và khả năng tham gia công đoàn.
union và biến indp1 <- table(d1$ind,
factor(d1$union, levels = c("no", "yes"),
labels = c("Non-union", "Union")))
riskratio(p1)
## $data
##
## Non-union Union Total
## non-industrial 1745 773 2518
## industrial 904 743 1647
## Total 2649 1516 4165
##
## $measure
## risk ratio with 95% C.I.
## estimate lower upper
## non-industrial 1.000000 NA NA
## industrial 1.469506 1.357533 1.590716
##
## $p.value
## two-sided
## midp.exact fisher.exact chi.square
## non-industrial NA NA NA
## industrial 0 5.01e-21 3.301405e-21
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"
Nhận xét:
Kết quả cho thấy giá trị Relative Risk nhận được là 1.47, lớn hơn 1. Tức là những người lao động thuộc nhóm ngành sản xuất có khả năng tham gia công đoàn cao hơn 1.47 lần so với những người không thuộc nhóm ngành sản xuất.
Với độ tin cậy 95%, khả năng tham gia công đoàn ở nhóm ngành sản xuất có thể cao hơn từ 1.357 đến 1.59 lần so với nhóm không thuộc ngành sản xuất.
Kết quả kiểm định Chi-square cho thấy có mối liên hệ thống kê giữa ngành nghề và khả năng tham gia công đoàn.
\[ RR = \frac{P(\text{Non-union } | \text{ non-industrial})}{\text{P(Non-union } | \text{ industrial)}} \]
riskratio(p1,rev="b")
## $data
##
## Union Non-union Total
## industrial 743 904 1647
## non-industrial 773 1745 2518
## Total 1516 2649 4165
##
## $measure
## risk ratio with 95% C.I.
## estimate lower upper
## industrial 1.000000 NA NA
## non-industrial 1.262597 1.199916 1.328553
##
## $p.value
## two-sided
## midp.exact fisher.exact chi.square
## industrial NA NA NA
## non-industrial 0 5.01e-21 3.301405e-21
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"
Nhận xét:
Giá trị Relative Risk là 1.263, lớn hơn 1. Nghĩa là những người lao động không thuộc nhóm ngành sản xuất có khả năng không tham gia công đoàn cao hơn 1.263 lần so với những người thuộc nhóm ngành sản xuất.
Với mức tin cậy 95%, khả năng không tham gia công đoàn ở nhóm không thuộc ngành sản xuất cao cao hơn từ khoảng 1.1999 đến 1.329 lần so với nhóm thuộc ngành sản xuất.
Kết quả kiểm định cho thấy có mối quan hệ có ý nghĩa thống kê giữa ngành nghề và khả năng không tham gia công đoàn.
union và biến southp2 <- table(factor(d1$south, levels = c("no", "yes"),
labels = c("Không cư trú tại miền Nam", "Cư trú tại miền Nam")),
factor(d1$union, levels = c("no", "yes"),
labels = c("Non-union", "Union")))
riskratio(p2)
## $data
##
## Non-union Union Total
## Không cư trú tại miền Nam 1732 1224 2956
## Cư trú tại miền Nam 917 292 1209
## Total 2649 1516 4165
##
## $measure
## risk ratio with 95% C.I.
## estimate lower upper
## Không cư trú tại miền Nam 1.0000000 NA NA
## Cư trú tại miền Nam 0.5832833 0.5232012 0.650265
##
## $p.value
## two-sided
## midp.exact fisher.exact chi.square
## Không cư trú tại miền Nam NA NA NA
## Cư trú tại miền Nam 0 1.068543e-26 8.18368e-26
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"
Nhận xét:
Giá trị Relative Risk nhận được là 0.5833, nhỏ hơn 1. Những người lao động cư trú tại miền Nam Hoa Kỳ có khả năng tham gia công đoàn thấp hơn 0.5833 lần so với những người không cư trú tại miền Nam Hoa Kỳ.
Với độ tin cậy 95%, khả năng tham gia công đoàn của nhóm người lao
động cư trú tại miền Nam thấp hơn từ khoảng 0.523 đến 0.65 lần so với
nhóm những người không cư trú tại miền Nam Hoa Kỳ.
Kết quả kiểm định Chi-square cho thấy có mối liên hệ có ý nghĩa thống kê
giữa khu vực cư trú và khả năng tham gia công đoàn.
\[ RR = \frac{P(\text{Non-union } | \text{ Không cư trú tại miền Nam Hoa Kỳ})}{\text{P(Non-union } | \text{ Cư trú tại miền Nam Hoa Kỳ)}} \]
riskratio(p2,rev="b")
## $data
##
## Union Non-union Total
## Cư trú tại miền Nam 292 917 1209
## Không cư trú tại miền Nam 1224 1732 2956
## Total 1516 2649 4165
##
## $measure
## risk ratio with 95% C.I.
## estimate lower upper
## Cư trú tại miền Nam 1.0000000 NA NA
## Không cư trú tại miền Nam 0.7725034 0.7392993 0.8071989
##
## $p.value
## two-sided
## midp.exact fisher.exact chi.square
## Cư trú tại miền Nam NA NA NA
## Không cư trú tại miền Nam 0 1.068543e-26 8.18368e-26
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"
Nhận xét:
Giá trị của Relative Risk là 0.773, nhỏ hơn 1. Nghĩa là những người lao động không cư trú tại miền Nam Hoa kỳ có khả năng không tham gia công đoàn thấp hơn 0.773 lần so với những người lao động cư trú tại miền Nam Hoa kỳ.
Với độ tin cậy 95%, khả năng không tham gia công đoàn của những người không cư trú tại miền Nam thấp hơn khoảng từ 0.74 đến 0.807 lần so với những người cư trú tại miền Nam Hoa kỳ.
Kết quả kiểm định Chi-square cho thấy có mối liên hệ có ý nghĩa thống kê giữa khu vực cư trú và khả năng không tham gia công đoàn.
union và biến marriedp3 <- table(factor(d1$married, levels = c("no", "yes"),
labels = c("Chưa kết hôn", "Đã kết hôn")),
factor(d1$union, levels = c("no", "yes"),
labels = c("Non-union", "Union")))
riskratio(p3)
## $data
##
## Non-union Union Total
## Chưa kết hôn 581 192 773
## Đã kết hôn 2068 1324 3392
## Total 2649 1516 4165
##
## $measure
## risk ratio with 95% C.I.
## estimate lower upper
## Chưa kết hôn 1.000000 NA NA
## Đã kết hôn 1.571486 1.380409 1.789011
##
## $p.value
## two-sided
## midp.exact fisher.exact chi.square
## Chưa kết hôn NA NA NA
## Đã kết hôn 3.863576e-14 5.029762e-14 1.339327e-13
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"
Nhận xét:
Giá trị Relative Risk nhận được là 1.57, lớn hơn 1. Những người lao đông đã kết hôn có khả năng tham gia công đoàn cao hơn 1.57 lần so với những người lao động chưa kết hôn.
Độ tin cậy 95%, khả năng tham gia công đoàn của những người lao động đã kết hôn cao hơn khoảng từ 1.38 đến 1.79 lần so với những người lao động chưa kết hôn.
Kết quả kiểm định cho thấy có mối quan hệ có ý nghĩa thống kê giữa tình trạng hôn nhân và khả năng tham gia công đoàn.
riskratio(p3,rev="b")
## $data
##
## Union Non-union Total
## Đã kết hôn 1324 2068 3392
## Chưa kết hôn 192 581 773
## Total 1516 2649 4165
##
## $measure
## risk ratio with 95% C.I.
## estimate lower upper
## Đã kết hôn 1.000000 NA NA
## Chưa kết hôn 1.232826 1.174279 1.294293
##
## $p.value
## two-sided
## midp.exact fisher.exact chi.square
## Đã kết hôn NA NA NA
## Chưa kết hôn 3.863576e-14 5.029762e-14 1.339327e-13
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"
Nhận xét:
Giá trị Relative Risk nhận được là 1.233, lớn hơn 1. Những người lao động chưa kết hôn có khả năng không tham gia công đoàn cao hơn 1.233 lần so với những người lao động đã kết hôn.
Với độ tin cậy 95%, khả năng không tham gia công đoàn của những người lao động chưa kết hôn cao hơn khoảng từ 1.174 đến 1.29 lần so với những người lao động đã kết hôn.
Kết quả kiểm định Chi-square cho thấy có mối quan hệ có ý nghĩa thống kê giữa tình trạng hôn nhân với khả năng không tham gia công đoàn.
union và biến sexTH1: Giới tính nữ làm tham chiếu
\[ RR = \frac{P(\text{Union } | \text{
male})}{\text{P(Union } | \text{ female)}} \]
p4 <- table(d1$sex,
factor(d1$union, levels = c("no", "yes"),
labels = c("Non-union", "Union")))
riskratio(p4)
## $data
##
## Non-union Union Total
## female 370 99 469
## male 2279 1417 3696
## Total 2649 1516 4165
##
## $measure
## risk ratio with 95% C.I.
## estimate lower upper
## female 1.00000 NA NA
## male 1.81625 1.517551 2.173741
##
## $p.value
## two-sided
## midp.exact fisher.exact chi.square
## female NA NA NA
## male 3.819167e-14 4.377756e-14 2.760744e-13
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"
Nhận xét:
Giá trị Relative Risk nhận được là 1.82, lớn hơn 1. Những người lao động nam có khả năng tham gia công đoàn cao hơn 1.82 lần so với những người lao động có giới tính nữ.
Với độ tin cậy 95%, khả năng tham gia công đoàn của người lao động nam cao hơn từ 1.52 đến 2.17 lần so với người lao động nữ.
Kết quả kiểm định Chi-square cho thấy có mối quan hệ có ý nghĩa thống kê giữa giới tính và khả năng tham gia công đoàn.
TH2: Giới tính nam làm tham chiếu
\[ RR = \frac{P(\text{Non-union } | \text{
female})}{\text{P(Non-union } | \text{ male)}} \]
riskratio(p4, rev="b")
## $data
##
## Union Non-union Total
## male 1417 2279 3696
## female 99 370 469
## Total 1516 2649 4165
##
## $measure
## risk ratio with 95% C.I.
## estimate lower upper
## male 1.00000 NA NA
## female 1.27943 1.213057 1.349435
##
## $p.value
## two-sided
## midp.exact fisher.exact chi.square
## male NA NA NA
## female 3.819167e-14 4.377756e-14 2.760744e-13
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"
Nhận xét:
Giá trị Relative Risk nhận được là 1.28, lớn hơn 1. Những người lao động nữ có khả năng không tham gia công đoàn cao hơn 1.28 lần so với những người lao động nam.
Với độ tin cậy 95%, khả năng không tham gia công đoàn của những người lao động nữ cao hơn so với những người lao động nam khoảng từ 1.21 đến 1.35 lần.
Kết quả kiểm định Chi-square cho thấy có mối quan hệ có ý nghĩa thống kê giữa giới tính và khả năng không tham gia công đoàn.
union và biến blackp5 <- table(factor(d1$black, levels = c("no", "yes"),
labels = c("Không phải người da đen", "Người da đen")),
factor(d1$union, levels = c("no", "yes"),
labels = c("Non-union", "Union")))
riskratio(p5)
## $data
##
## Non-union Union Total
## Không phải người da đen 2482 1382 3864
## Người da đen 167 134 301
## Total 2649 1516 4165
##
## $measure
## risk ratio with 95% C.I.
## estimate lower upper
## Không phải người da đen 1.000000 NA NA
## Người da đen 1.244708 1.089691 1.421777
##
## $p.value
## two-sided
## midp.exact fisher.exact chi.square
## Không phải người da đen NA NA NA
## Người da đen 0.002686077 0.002795506 0.002367777
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"
Nhận xét:
Giá trị Relative Risk là 1.245, lớn hơn 1. Những người lao động là người da đen có khả năng tham gia công đoàn cao hơn 1.245 lần so với những người lao động không phải là người da đen.
Với độ tin cậy 95%, khả năng tham gia công đoàn của người da đen cao hơn so với những người không phải người da đen khoảng từ 1.089 đến 1.422 lần.
Kết quả kiểm định Chi-square cho thấy có mối quan hệ có ý nghĩa thống kê giữa chủng tộc và khả năng tham gia công đoàn.
\[ RR = \frac{P(\text{Non-union } | \text{ Không phải người da đen})}{\text{P(Non-union } | \text{ Người da đen)}} \]
riskratio(p5,rev="b")
## $data
##
## Union Non-union Total
## Người da đen 134 167 301
## Không phải người da đen 1382 2482 3864
## Total 1516 2649 4165
##
## $measure
## risk ratio with 95% C.I.
## estimate lower upper
## Người da đen 1.00000 NA NA
## Không phải người da đen 1.15775 1.043504 1.284504
##
## $p.value
## two-sided
## midp.exact fisher.exact chi.square
## Người da đen NA NA NA
## Không phải người da đen 0.002686077 0.002795506 0.002367777
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"
Nhận xét:
Giá trị Relative Risk là 1.158, cao hơn 1. Những người lao động không phải người da đen có khả năng không tham gia công đoàn cao hơn 1.158 lần so với những người da đen.
Với độ tin cậy 95%, khả năng không tham gia công đoàn của những người lao động không phải người da đen cao hơn so với người lao động da đen là khoảng từ 1.044 đến 1.285 lần.
Kết quả kiểm định Chi-square cho thấy có mối liên hệ có ý nghĩa thống kê giữa chủng tộc và khả năng không tham gia công đoàn.
Tổng hợp Relative Risk (RR) cho khả năng tham gia công đoàn của người lao động tại Hoa Kỳ:
| Biến độc lập | Tham chiếu | So sánh với | Relative Risk (RR) | Giải thích |
|---|---|---|---|---|
| bluecol (lao động chân tay) | Không phải lao động chân tay | Lao động chân tay | 3.05 | Lao động chân tay có khả năng tham gia công đoàn cao hơn 3.05 lần so với người không lao động chân tay. |
| ind (ngành sản xuất) | Không thuộc ngành sản xuất | Thuộc ngành sản xuất | 1.47 | Người làm trong ngành sản xuất có khả năng tham gia công đoàn cao hơn 1.47 lần so với người khác. |
| south (khu vực miền Nam) | Không cư trú miền Nam | Cư trú tại miền Nam | 0.583 | Người sống tại miền Nam có khả năng tham gia công đoàn thấp hơn 0.5833 lần. |
| married (tình trạng hôn nhân) | Chưa kết hôn | Đã kết hôn | 1.57 | Người đã kết hôn có khả năng tham gia công đoàn cao hơn 1.57 lần so với người chưa kết hôn. |
| sex (giới tính) | Nữ | Nam | 1.82 | Nam giới có khả năng tham gia công đoàn cao hơn 1.82 lần so với nữ giới. |
| black (chủng tộc) | Không phải người da đen | Người da đen | 1.245 | Người da đen có khả năng tham gia công đoàn cao hơn 1.245 lần so với người không phải da đen. |
Odds - tỷ lệ chênh lệch: là tỷ lệ giữa xảy ra sự kiện và xác suất không xảy ra sự kiện.
Nếu xác suất xảy ra sự kiện là \(p\) thì” \[ \text{Odds} = \frac{p}{1-p} \]
Odds Ratio - tỷ lệ chênh lệch giữa hai nhóm: là tỷ số giữa hai Odds, dùng để so sánh xác suất xảy ra giữa kiện giữa nhóm có biểu hiện cần quan tâm và nhóm không có biểu hiện cần quan tâm.
\[ \text{OR} = \frac{\frac{P(\text{Sự kiện
xảy ra } | \text{ Nhóm có biểu hiện cần quan tâm})}{P(\text{Không xảy ra
sự kiện } | \text{ Nhóm có biểu hiện cần quan tâm})}}{\frac{P(\text{Sự
kiện xảy ra } | \text{ Nhóm không có biểu hiện cần quan
tâm})}{P(\text{Không xảy ra sự kiện} | \text{ Nhóm không có biểu hiện
quan tâm})}} \] Hay viết gọn hơn:
\[ \text{OR} = \frac{\text{Odds}(\text{Sự
kiện xảy ra } | \text{ Nhóm có biểu hiện cần quan
tâm})}{\text{Odds}(\text{Sự kiện xảy ra } | \text{ nhóm không có biểu
hiện cần quan tâm})} \] Diễn giải:
Nếu \(OR=1\): odds xảy ra sự kiện ở hai nhóm là như nhau.
Nếu \(OR>1\): nhóm có biểu hiện cần quan tâm có khả năng xảy ra sự kiện cao hơn nhóm không có biểu hiện cần quan tâm.
Nếu \(OR<1\): nhóm có biểu hiện cần quan tâm có khả năng xảy ra sự kiện thấp hơn nhóm không có biểu hiện cần quan tâm.
union và biến bluecolp11 <- table(factor(d1$union, levels = c("no", "yes"),
labels = c("Non-union", "Union")),factor(d1$bluecol, levels = c("no", "yes"),
labels = c("Non-blue-collar", "Blue-collar")))
oddsratio(p11)
## $data
##
## Non-blue-collar Blue-collar Total
## Non-union 1674 975 2649
## Union 362 1154 1516
## Total 2036 2129 4165
##
## $measure
## odds ratio with 95% C.I.
## estimate lower upper
## Non-union 1.000000 NA NA
## Union 5.469562 4.749438 6.310394
##
## $p.value
## two-sided
## midp.exact fisher.exact chi.square
## Non-union NA NA NA
## Union 0 1.622863e-136 1.00038e-131
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "median-unbiased estimate & mid-p exact CI"
Nhận xét:
Giá trị \(OR=5.47\), tức là tỷ lệ chênh để một người lao động tham gia công đoàn làm việc trong nhóm lao động chân tay so với một người lao động tham gia công đoàn không làm loại công việc chân tay cao hơn 5.47 lần tỷ lệ chênh tương ứng của người không tham gia công đoàn.
Nói cách khác, người tham gia công đoàn có khả năng làm việc trong nhóm lao động chân tay cap hơn gấp hơn 5 lần so với người không tham công đoàn.
Khoảng tin cậy của OR với độ tin cậy 95% là (4.75; 6.31), không chứa giá trị 1, nên sự khác biệt về odds loại lao động giữa 2 nhóm là có ý nghĩa thống kê.
Các giá trị p-value của các kiểm định khẳng định sự khác biệt odds là có ý nghĩa thống kê mạnh.
union và biến indp6 <- table(factor(d1$union, levels = c("no", "yes"),
labels = c("Non-union", "Union")),d1$ind)
oddsratio(p6)
## $data
##
## non-industrial industrial Total
## Non-union 1745 904 2649
## Union 773 743 1516
## Total 2518 1647 4165
##
## $measure
## odds ratio with 95% C.I.
## estimate lower upper
## Non-union 1.000000 NA NA
## Union 1.855052 1.630995 2.110364
##
## $p.value
## two-sided
## midp.exact fisher.exact chi.square
## Non-union NA NA NA
## Union 0 5.01e-21 3.301405e-21
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "median-unbiased estimate & mid-p exact CI"
Nhận xét:
Odds ratio \(=1.855\), điều này có nghĩa là tỷ lệ chênh lệch để một người lao động tham gia công đoàn không làm việc trong ngành sản xuất so với người lao động tham gia công đoàn làm việc trong ngành sản xuất cho hơn 1.855 lần so với người lao động không tham gia công đoàn.
Nói cách khác, người tham gia công đoàn có khả năng không làm việc trong ngành sản xuất cao hơn gần gấp đôi so với người không tham gia công đoàn.
Khoảng tin cậy của OR là (1.631;2.110), không chứa giá trị 1, có thể kết luận sự khác biệt này có ý nghĩa thống kê ở mức tin cậy 95%.
Các giá trị p-value cho kiểm định ý nghĩa OR gần như bằng 0, có thể kết luận rằng sự khác biệt odds giữa nhóm tham gia công đoàn và nhóm không tham gia công đoàn là có ý nghĩa thống kê.
Khoảng tin cậy 95% cho odds ratio là (1.631;2.11), không bao gồm giá trị 1, cho thấy sự khác biệt này có ý nghĩa thống kê.
union và biến southp7 <- table(factor(d1$union, levels = c("no", "yes"),
labels = c("Non-union", "Union")),factor(d1$south, levels = c("no", "yes"),
labels = c("non-south", "south")))
oddsratio(p7)
## $data
##
## non-south south Total
## Non-union 1732 917 2649
## Union 1224 292 1516
## Total 2956 1209 4165
##
## $measure
## odds ratio with 95% C.I.
## estimate lower upper
## Non-union 1.000000 NA NA
## Union 0.450803 0.3872669 0.5235685
##
## $p.value
## two-sided
## midp.exact fisher.exact chi.square
## Non-union NA NA NA
## Union 0 1.068543e-26 8.18368e-26
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "median-unbiased estimate & mid-p exact CI"
Nhận xét:
Giá trị \(OR=0.451\), có nghĩa là tỷ lệ chênh lệch để một người lao động tham gia công đoàn không sống tại miền Nam Hoa Kỳ so với người lao động tham gia công đoàn sống tại miền Nam Hoa Kỳ chỉ bằng khoảng 45.1% tỷ lệ chênh của người không tham gia công đoàn.
Nói cách khác, người tham gia công đoàn có khả năng sống tại miền Nam thấp hơn 55% so với người không tham gia công đoàn.
Khoảng tin cậy của OR với độ tin cậy 95% là (0.3873;0.5236), không chứa giá trị 1, cho thấy sự khác biệt đáng kể về odds giữa nhóm tham gia công đoàn và không tham gia công đoàn là có ý nghĩa thống kê.
Giá trị p-value từ các kiểm định đều gần bằng 0, càng khẳng định rằng odds giữa hai nhóm là có ý nghĩa.
union và biến marriedp8 <- table(factor(d1$union, levels = c("no", "yes"),
labels = c("Non-union", "Union")),factor(d1$married, levels = c("no", "yes"),
labels = c("Single", "Married")))
oddsratio(p8)
## $data
##
## Single Married Total
## Non-union 581 2068 2649
## Union 192 1324 1516
## Total 773 3392 4165
##
## $measure
## odds ratio with 95% C.I.
## estimate lower upper
## Non-union 1.000000 NA NA
## Union 1.936146 1.624601 2.316163
##
## $p.value
## two-sided
## midp.exact fisher.exact chi.square
## Non-union NA NA NA
## Union 3.863576e-14 5.029762e-14 1.339327e-13
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "median-unbiased estimate & mid-p exact CI"
Nhận xét:
Giá trị \(OR=1.936\), tức là tỷ lệ chênh để một người lao động tham gia công đoàn chưa kết hôn so với người lao động tham gia công đoàn đã kết hôn cao hơn gần 1.94 lần so với người không tham gia công đoàn.
Nói cách khác, người tham gia công đoàn có khả năng độc thân cao hơn gần gấp đôi so với người không tham gia công đoàn.
Khoảng tin cậy của OR là (1.625;2.316), không chứa 1, do đó sự khác
biệt odds về trạng thái hôn nhân giữa nhóm tham gia công đoàn và không
tham gia công đoàn là có ý nghĩa thống kê.
Các giá trị p-value của các kiểm định đều thấp hơn so với 0.05, kết luận
sự khác biệt là có ý nghĩa thống kê mạnh.
union và biến sexp9 <- table(factor(d1$union, levels = c("no", "yes"),
labels = c("Non-union", "Union")),d1$sex)
oddsratio(p9)
## $data
##
## female male Total
## Non-union 370 2279 2649
## Union 99 1417 1516
## Total 469 3696 4165
##
## $measure
## odds ratio with 95% C.I.
## estimate lower upper
## Non-union 1.000000 NA NA
## Union 2.320732 1.848487 2.939374
##
## $p.value
## two-sided
## midp.exact fisher.exact chi.square
## Non-union NA NA NA
## Union 3.819167e-14 4.377756e-14 2.760744e-13
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "median-unbiased estimate & mid-p exact CI"
Nhận xét:
Giá trị \(OR=2.32\), tức là tỷ lệ chênh để một người lao động nữ tham gia công đoàn so với người lao động nam tham gia công đoàn cao hơn khoảng 2.32 lần odds tương ứng với nhóm không tham gia công đoàn.
Nói cách khác, người tham gia công đoàn có khả năng là nữ cao hơn 2 lần so với người không tham gia công đoàn.
Khoảng tin cậy của OR là (1.85; 2.94),không chứa 1, do đó sự khác biệt odds về trạng thái hôn nhân giữa nhóm tham gia công đoàn và không tham gia công đoàn là có ý nghĩa thống kê.
Các giá trị p-value của các kiểm định đều thấp hơn so với 0.05, kết luận sự khác biệt là có ý nghĩa thống kê mạnh.
union và biến blackp10 <- table(factor(d1$union, levels = c("no", "yes"),
labels = c("Non-union", "Union")),factor(d1$black, levels = c("no", "yes"),
labels = c("non-black", "black")))
oddsratio(p10)
## $data
##
## non-black black Total
## Non-union 2482 167 2649
## Union 1382 134 1516
## Total 3864 301 4165
##
## $measure
## odds ratio with 95% C.I.
## estimate lower upper
## Non-union 1.000000 NA NA
## Union 1.441248 1.136079 1.825309
##
## $p.value
## two-sided
## midp.exact fisher.exact chi.square
## Non-union NA NA NA
## Union 0.002686077 0.002795506 0.002367777
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "median-unbiased estimate & mid-p exact CI"
Nhận xét:
Giá trị \(OR=1.441\), cho thấy tỷ lệ
chênh để một người lao động tham gia công đoàn là người da đen so với
người lao động tham gia công đoàn không phải là người da đen cao hơn
khoảng 1.441 lần odds tương ứng của nhóm không tham gia công đoàn.
Nói cách khác, người tham công đoàn có khả năng là người da đen cao hơn khoảng 44% so với người không tham gia công đoàn.
Khoảng tin cậy của OR là (1.136;1825), không chứa giá trị 1, sự khác biệt về odds chủng tộc giữa hai nhóm có ý nghĩa thống kê.
Các giá trị thu được từ các kiểm định đều cho thấy sự khác biệt về odds có ý nghĩa thống kê.
Bảng tổng hợp Odds Ratio (OR) cho khả năng tham gia công đoàn của người lao động tại Hoa Kỳ:
| Biến độc lập | Tham chiếu | So sánh với | Odds Ratio (OR) | Giải thích |
|---|---|---|---|---|
| bluecol (lao động chân tay) | Không phải lao động chân tay | Lao động chân tay | 3.97 | Người thuộc nhóm lao động chân tay có odds tham gia công đoàn cao hơn 3.97 lần so với người không thuộc nhóm lao động chân tay. |
| ind (ngành sản xuất) | Không thuộc ngành sản xuất | Thuộc ngành sản xuất | 2.11 | Người trong ngành sản xuất có odds tham gia công đoàn cao hơn 2.11 lần so với người ngoài ngành. |
| south (khu vực miền Nam) | Không cư trú tại miền Nam | Cư trú tại miền Nam | 0.452 | Người sống tại miền Nam có odds tham gia công đoàn thấp hơn 0.452 lần so với nơi khác. |
| married (tình trạng hôn nhân) | Chưa kết hôn | Đã kết hôn | 1.41 | Người đã kết hôn có odds tham gia công đoàn cao hơn 1.41 lần so với người chưa kết hôn. |
| sex (giới tính) | Nữ | Nam | 1.61 | Nam giới có odds tham gia công đoàn cao hơn 1.61 lần so với nữ giới. |
| black (chủng tộc) | Không phải người da đen | Người da đen | 1.86 | Người da đen có odds tham gia công đoàn cao hơn 1.86 lần so với người không phải da đen. |
bluecol📌 Thành phần mô hình:
Random component:
\(Y \sim \text{Bernoulli}(p)\)
Systematic component:
\(\eta = \beta_0 + \beta_1 \times
\text{bluecol}\)
Link function:
\(g(p) =
\log\left(\frac{p}{1-p}\right)\)
📌 Phương trình mô hình:
\[ \log \left(\frac{p_i}{1-p_i}\right) = \beta_0 + \beta_1 \times \text{bluecol}_i \]
Trong đó:
\(p_i\) là xác suất người lao
động thứ \(i\) tham gia công đoàn
\(\text{bluecol}_i\) là biến
loại lao động: no hoặc yes
\(\beta_0\) là hệ số chặn
(intercept)
\(\beta_1\) là hệ số ảnh hưởng của loại lao động đến xác suất tham gia công đoàn
Ước lượng mô hình:
d1$union_bin <- ifelse(d1$union == "yes", 1, 0)
logit_model1 <- glm(union_bin ~ bluecol, data = d1, family = binomial(link = "logit"))
summary(logit_model1)
##
## Call:
## glm(formula = union_bin ~ bluecol, family = binomial(link = "logit"),
## data = d1)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -1.53133 0.05796 -26.42 <2e-16 ***
## bluecolyes 1.69988 0.07247 23.46 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 5461.8 on 4164 degrees of freedom
## Residual deviance: 4842.2 on 4163 degrees of freedom
## AIC: 4846.2
##
## Number of Fisher Scoring iterations: 4
Nhận xét:
Ta có hàm hồi quy :
\(\log \left(\frac{p_i}{1-p_i}\right) =
-1.53133 + 1.69988 \times \text{bluecol}_i\)
Trong đó:
\(\beta_0=-1.53133\) là giá trị log-odds của việc tham gia công đoàn khi người lao động không thuộc nhóm lao động chân tay. Tức là người lao động không thuộc nhóm lao động chân tay có khoảng \[ p = \frac{e^{-1.53133}}{1 + e^{-1.53133}}\times100 \approx 17.8 \% \] khả năng tham gia công đoàn.
\(\beta_1=1.69988\): khi
bluecolyes thay đổi từ 0 sang 1 thì giá trị log-odds của
việc tham gia công đoàn tăng thêm 1.69988. Ý nghĩa là người lao động
thuộc nhóm lao động chân tay có tỷ lệ chênh tham gia công đoàn cao gấp
khoảng \(OR=e^{1.69988}\approx 5.48\)
lần so với nhóm không làm việc lao động chân tay.
Dự báo
new_worker1 <- data.frame(bluecol = "no")
predict(logit_model1, newdata = new_worker1, type = "response")
## 1
## 0.1777996
Kết quả dự báo nhận được phù hợp với kết quả đã được tính toán trước đó, nhóm lao động không làm công việc chân tay có xu hướng ít tham gia công đoàn hơn nhóm làm công việc chân tay.
ind📌 Thành phần mô hình:
Random component:
\(Y \sim \text{Bernoulli}(p)\)
Systematic component:
\(\eta = \beta_0 + \beta_1 \times
\text{ind}\)
Link function:
\(g(p) =
\log\left(\frac{p}{1-p}\right)\)
📌 Phương trình mô hình:
\[
\log \left(\frac{p_i}{1-p_i}\right) = \beta_0 + \beta_1 \times
\text{ind}_i
\]
Trong đó:
\(p_i\) là xác suất người lao
động thứ \(i\) tham gia công đoàn
\(\text{ind}_i\) là biến ngành
nghề: non-industrial hoặc industrial
\(\beta_0\) là hệ số chặn
(intercept)
\(\beta_1\) là hệ số ảnh hưởng của ngành nghề đến xác suất tham gia công đoàn
Ước lượng mô hình:
logit_model2 <- glm(union_bin ~ ind, data = d1, family = binomial(link = "logit"))
summary(logit_model2)
##
## Call:
## glm(formula = union_bin ~ ind, family = binomial(link = "logit"),
## data = d1)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -0.81423 0.04321 -18.845 <2e-16 ***
## indindustrial 0.61810 0.06572 9.405 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 5461.8 on 4164 degrees of freedom
## Residual deviance: 5373.0 on 4163 degrees of freedom
## AIC: 5377
##
## Number of Fisher Scoring iterations: 4
Nhận xét:
Ta có hàm hồi quy :
\(\log \left(\frac{p_i}{1-p_i}\right) =
-0.81423 + 0.61610 \times \text{ind}_i\)
Trong đó:
\(\beta_0=-0.81423\) là giá trị
log-odds của việc tham gia công đoàn khi người lao động không làm việc
trong ngành sản xuất. Tức là người lao động ngoài ngành sản xuất có xác
suất tham gia công đoàn là khoảng \[ p =
\frac{e^{-0.81423}}{1 + e^{-0.81423}}\times 100 \approx 30.7 \%
\].
\(\beta_1=0.61810\): khi
ind thay đổi từ non-industrial sang industrial thì giá trị
log-odds của việc tham gia công đoàn tăng thêm 0.61810. Ý nghĩa là người
lao động trong ngành sản xuất có tỷ lệ chênh tham gia công đoàn cao gấp
khoảng \(OR=e^{0.61810}\approx 1.855\)
lần so với những người lao động ngoài ngành sản xuất.
Dư báo
new_worker2 <- data.frame(ind = "non-industrial")
predict(logit_model2, newdata = new_worker2, type = "response")
## 1
## 0.3069897
Kết quả dự báo nhận được phù hợp với kết quả đã được tính toán trước đó, với mô hình hồi quy logistic sử dụng biến ind làm biến giải thích, xác suất dự đoán để một người lao động ngoài ngành sản xuất tham gia công đoàn là khoảng 30.7%.
south📌 Thành phần mô hình:
Random component:
\(Y \sim \text{Bernoulli}(p)\)
Systematic component:
\(\eta = \beta_0 + \beta_1 \times
\text{south}\)
Link function:
\(g(p) =
\log\left(\frac{p}{1-p}\right)\)
📌 Phương trình mô hình:
\[
\log \left(\frac{p_i}{1-p_i}\right) = \beta_0 + \beta_1 \times
\text{south}_i
\]
Trong đó:
\(p_i\) là xác suất người lao
động thứ \(i\) tham gia công đoàn
\(\text{south}_i\) là biến khu
vực cư trú: no hoặc yes
\(\beta_0\) là hệ số chặn
(intercept)
\(\beta_1\) là hệ số ảnh hưởng của khu vực cư trú đến xác suất tham gia công đoàn
Ước lượng mô hình:
logit_model3 <- glm(union_bin ~ south, data = d1, family = binomial(link = "logit"))
summary(logit_model3)
##
## Call:
## glm(formula = union_bin ~ south, family = binomial(link = "logit"),
## data = d1)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -0.34715 0.03734 -9.297 <2e-16 ***
## southyes -0.79720 0.07687 -10.370 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 5461.8 on 4164 degrees of freedom
## Residual deviance: 5346.9 on 4163 degrees of freedom
## AIC: 5350.9
##
## Number of Fisher Scoring iterations: 4
Nhận xét:
Ta có hàm hồi quy :
\(\log \left(\frac{p_i}{1-p_i}\right) =
-0.34715 -0.79720 \times \text{south}_i\)
Trong đó:
\(\beta_0=-0.34715\) là giá trị
log-odds của việc tham gia công đoàn khi người lao động không cư trú tại
miền Nam Hoa Kỳ. Tức là người lao động không sống tại miền Nam có xác
suất tham gia công đoàn là khoảng \[ p =
\frac{e^{-0.34715}}{1 + e^{-0.34715}}\times 100 \approx 41.4 \%
\].
\(\beta_1=-0.79720\): khi
south thay đổi từ no sang yes thì giá trị log-odds của việc
tham gia công đoàn giảm đi 0.79720. Ý nghĩa là người lao động không cư
trú tại miền nam có tỷ lệ chênh tham gia công đoàn thấp khoảng \(OR=e^{-0.79720}\approx 0.451\) lần so với
những người lao động cư trú tại miền Nam.
Dự báo
new_worker3 <- data.frame(south = "no")
predict(logit_model3, newdata = new_worker3, type = "response")
## 1
## 0.4140731
Kết quả dự báo nhận được phù hợp với kết quả đã được tính toán trước đó, Mô hình hồi quy logistic dự đoán rằng một người lao động không sống ở miền Nam có xác suất tham gia công đoàn là khoảng 41.4%.
married📌 Thành phần mô hình:
Random component:
\(Y \sim \text{Bernoulli}(p)\)
Systematic component:
\(\eta = \beta_0 + \beta_1 \times
\text{married}\)
Link function:
\(g(p) =
\log\left(\frac{p}{1-p}\right)\)
📌 Phương trình mô hình:
\[
\log \left(\frac{p_i}{1-p_i}\right) = \beta_0 + \beta_1 \times
\text{married}_i
\]
Trong đó:
\(p_i\) là xác suất người lao
động thứ \(i\) tham gia công đoàn
\(\text{married}_i\) là biến
tình trạng hôn nhân: no hoặc yes
\(\beta_0\) là hệ số chặn
(intercept)
\(\beta_1\) là hệ số ảnh hưởng của tình trạng hôn nhân đến xác suất tham gia công đoàn.
Ước lượng mô hình:
logit_model4 <- glm(union_bin ~ married, data = d1, family = binomial(link = "logit"))
summary(logit_model4)
##
## Call:
## glm(formula = union_bin ~ married, family = binomial(link = "logit"),
## data = d1)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -1.10726 0.08324 -13.301 < 2e-16 ***
## marriedyes 0.66133 0.09038 7.317 2.53e-13 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 5461.8 on 4164 degrees of freedom
## Residual deviance: 5404.4 on 4163 degrees of freedom
## AIC: 5408.4
##
## Number of Fisher Scoring iterations: 4
Nhận xét:
Ta có hàm hồi quy :
\(\log \left(\frac{p_i}{1-p_i}\right) =
-1.10726 + 0.66133 \times \text{married}_i\)
Trong đó:
\(\beta_0=-1.10726\) là giá trị
log-odds của việc tham gia công đoàn khi người lao động chưa kết hôn.
Tức là người lao động chưa kết hôn có xác suất tham gia công đoàn là
khoảng \[ p = \frac{e^{-1.10726}}{1 +
e^{-1.10726}}\times 100 \approx 24.8 \% \].
\(\beta_1=0.66133\): khi
married thay đổi từ no sang yes thì giá trị log-odds của
việc tham gia công đoàn tăng thêm 0.66133. Ý nghĩa là người lao động đã
kết hôn có tỷ lệ chênh tham gia công đoàn cao gấp khoảng \(OR=e^{0.66133}\approx 1.937\) lần so với
những người lao động chưa kết hôn.
Dự báo
new_worker4 <- data.frame(married = "no")
predict(logit_model4, newdata = new_worker4, type = "response")
## 1
## 0.2483829
Kết quả dự báo nhận được phù hợp với kết quả đã được tính toán trước đó, khi người lao động chưa kết hôn, thì xác suất dự đoán họ tham gia công đoàn là khoảng 24.8%.
sex📌 Thành phần mô hình:
Random component:
\(Y \sim \text{Bernoulli}(p)\)
Systematic component:
\(\eta = \beta_0 + \beta_1 \times
\text{sex}\)
Link function:
\(g(p) =
\log\left(\frac{p}{1-p}\right)\)
📌 Phương trình mô hình:
\[
\log \left(\frac{p_i}{1-p_i}\right) = \beta_0 + \beta_1 \times
\text{sex}_i
\]
Trong đó:
\(p_i\) là xác suất người lao
động thứ \(i\) tham gia công đoàn
\(\text{sex}_i\) là biến giới
tính: female hoặc male
\(\beta_0\) là hệ số chặn
(intercept)
\(\beta_1\) là hệ số ảnh hưởng của giới tính đến xác suất tham gia công đoàn.
Ước lượng mô hình:
logit_model5 <- glm(union_bin ~ sex, data = d1, family = binomial(link = "logit"))
summary(logit_model5)
##
## Call:
## glm(formula = union_bin ~ sex, family = binomial(link = "logit"),
## data = d1)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -1.3184 0.1132 -11.651 < 2e-16 ***
## sexmale 0.8432 0.1181 7.139 9.37e-13 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 5461.8 on 4164 degrees of freedom
## Residual deviance: 5404.3 on 4163 degrees of freedom
## AIC: 5408.3
##
## Number of Fisher Scoring iterations: 4
Nhận xét:
Ta có hàm hồi quy :
\(\log \left(\frac{p_i}{1-p_i}\right) =
-1.3184 + 0.8432 \times \text{sex}_i\)
Trong đó:
\(\beta_0=-1.3184\) là giá trị
log-odds của việc tham gia công đoàn khi người lao động là nữ. Tức là
người lao động nữ có xác suất tham gia công đoàn là khoảng \[ p = \frac{e^{-1.3184}}{1 + e^{-1.3184}}\times
100 \approx 21.1 \% \].
\(\beta_1=0.8432\): khi
sex thay đổi từ female sang male thì giá trị log-odds của
việc tham gia công đoàn tăng thêm 0.8432. Ý nghĩa là người lao động nam
có tỷ lệ chênh tham gia công đoàn cao gấp khoảng \(OR=e^{0.8432}\approx 2.32\) lần so với
những người lao động nữ.
Dự báo
new_worker5 <- data.frame(sex = "female")
predict(logit_model5, newdata = new_worker5, type = "response")
## 1
## 0.2110874
Kết quả dự báo nhận được phù hợp với kết quả đã được tính toán trước đó, mô hình dự đoán rằng một người lao động nữ có xác suất tham gia công đoàn là khoảng 21.1%.
black📌 Thành phần mô hình:
Random component:
\(Y \sim \text{Bernoulli}(p)\)
Systematic component:
\(\eta = \beta_0 + \beta_1 \times
\text{black}\)
Link function:
\(g(p) =
\log\left(\frac{p}{1-p}\right)\)
📌 Phương trình mô hình:
\[
\log \left(\frac{p_i}{1-p_i}\right) = \beta_0 + \beta_1 \times
\text{black}_i
\]
Trong đó:
\(p_i\) là xác suất người lao
động thứ \(i\) tham gia công đoàn
\(\text{black}_i\) là biến chủng
tộc: no hoặc yes
\(\beta_0\) là hệ số chặn
(intercept)
\(\beta_1\) là hệ số ảnh hưởng của chủng tộc đến xác suất tham gia công đoàn
Ước lượng mô hình:
logit_model6 <- glm(union_bin ~ black, data = d1, family = binomial(link = "logit"))
summary(logit_model6)
##
## Call:
## glm(formula = union_bin ~ black, family = binomial(link = "logit"),
## data = d1)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -0.58553 0.03356 -17.446 < 2e-16 ***
## blackyes 0.36538 0.12074 3.026 0.00248 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 5461.8 on 4164 degrees of freedom
## Residual deviance: 5452.8 on 4163 degrees of freedom
## AIC: 5456.8
##
## Number of Fisher Scoring iterations: 4
Nhận xét:
Ta có hàm hồi quy :
\(\log \left(\frac{p_i}{1-p_i}\right) =
-0.58553 + 0.36538 \times \text{black}_i\)
Trong đó:
\(\beta_0=-0.58553\) là giá trị
log-odds của việc tham gia công đoàn khi người lao động không phải người
da đen. Tức là người lao động không phải người da đen có xác suất tham
gia công đoàn là khoảng \[ p =
\frac{e^{-0.58553}}{1 + e^{-0.58553}}\times 100 \approx 35.8 \%
\].
\(\beta_1=0.36538\): khi
black thay đổi từ no sang yes thì giá trị log-odds của việc
tham gia công đoàn tăng thêm 0.36538. Ý nghĩa là người lao động da đen
có tỷ lệ chênh tham gia công đoàn cao gấp khoảng \(OR=e^{0.36538}\approx 1.44\) lần so với
những người lao động không phải da đen.
Dự báo
new_worker6 <- data.frame(black = "no")
predict(logit_model6, newdata = new_worker6, type = "response")
## 1
## 0.3576605
Kết quả dự báo nhận được phù hợp với kết quả đã được tính toán trước đó, một người lao động không phải là người da đen có xác suất tham gia công đoàn khoảng 35.8%.
bluecol📌 Thành phần mô hình:
Random component:
\(Y \sim \text{Bernoulli}(p)\)
Systematic component:
\(\eta = \beta_0 + \beta_1 \times
\text{bluecol}\)
Link function:
\(g(p) = \Phi^{-1}(p)\)
📌 Phương trình mô hình:
\[
\Phi^{-1}(p_i) = \beta_0 + \beta_1 \times \text{bluecol}_i
\]
Trong đó:
\(\Phi^{-1}\) là hàm phân phối tích lũy chuẩn nghịch đảo (inverse CDF)
Các ký hiệu khác như mô hình Logistic (áp dụng cho trường hợp này là mô hình Probit, với \(p_i\) là xác suất người lao động thứ \(i\) tham gia công đoàn, \(\text{bluecol}_i\) là biến loại lao động, \(\beta_0\) là hệ số chặn và \(\beta_1\) là hệ số ảnh hưởng của loại lao động).
Ước lượng mô hình:
probit_model1 <- glm(union_bin ~ bluecol, data = d1, family = binomial(link = "probit"))
summary(probit_model1)
##
## Call:
## glm(formula = union_bin ~ bluecol, family = binomial(link = "probit"),
## data = d1)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -0.92378 0.03254 -28.39 <2e-16 ***
## bluecolyes 1.02935 0.04242 24.26 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 5461.8 on 4164 degrees of freedom
## Residual deviance: 4842.2 on 4163 degrees of freedom
## AIC: 4846.2
##
## Number of Fisher Scoring iterations: 3
Phương trình hồi quy probit:
\[
\Phi^{-1}(p_i) = -0.92378 + 1.02935 \times \text{bluecol}_i
\] Nhận xét:
Với người không làm việc trong nhóm lao động chân tay thì giá trị kỳ
vọng của biến ẩn trong mô hình là –0.92378. Xác suất thực tế tham gia
công đoàn: \[ \text{Pr}(\text{union} = 1 \ |
\ \text{bluecol} = \text{"no"}) = \Phi(-0.92378) \approx
0.1779 \], tức khoảng 17.8% khả năng tham gia công đoàn nếu người
lao động không thuộc nhóm ngành lao động chân tay.
\(\beta_1=1.02935\): đại diện cho khuynh hướng tham gia công đoàn, khi người lao động làm việc trong nhóm lao động chân tay so với nhóm không làm việc chân tay. Cho thấy rằng nếu một người làm việc trong ngành lao động chân tay, thì giá trị ngưỡng tăng thêm khoảng 1.03, từ đó làm tăng xác suất tham gia công đoàn.
Dự báo:
Dự báo với typr = response
new_worker11 <- data.frame(bluecol = "no")
predict(probit_model1, newdata = new_worker11, type = "response")
## 1
## 0.1777996
Nếu một người không làm việc trong ngành lao động chân tay, thì xác suất họ tham gia công đoàn theo ước lượng từ mô hình probit là khoảng 17.78%.
indThành phần mô hình:
Random component:
\(Y \sim \text{Bernoulli}(p)\)
Systematic component:
\(\eta = \beta_0 + \beta_1 \times
\text{ind}\)
Link function:
\(g(p) = \Phi^{-1}(p)\)
📌 Phương trình mô hình:
\[
\Phi^{-1}(p_i) = \beta_0 + \beta_1 \times \text{ind}_i
\]
Trong đó:
\(\Phi^{-1}\) là hàm phân phối tích lũy chuẩn nghịch đảo (inverse CDF)
Các ký hiệu khác như mô hình Logistic (áp dụng cho trường hợp này là mô hình Probit, với \(p_i\) là xác suất người lao động thứ \(i\) tham gia công đoàn, \(\text{ind}_i\) là biến ngành nghề, \(\beta_0\) là hệ số chặn và \(\beta_1\) là hệ số ảnh hưởng của ngành nghề).
Ước lượng mô hình:
probit_model2 <- glm(union_bin ~ ind, data = d1, family = binomial(link = "probit"))
summary(probit_model2)
##
## Call:
## glm(formula = union_bin ~ ind, family = binomial(link = "probit"),
## data = d1)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -0.50440 0.02617 -19.277 <2e-16 ***
## indindustrial 0.38158 0.04054 9.412 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 5461.8 on 4164 degrees of freedom
## Residual deviance: 5373.0 on 4163 degrees of freedom
## AIC: 5377
##
## Number of Fisher Scoring iterations: 4
Phương trình hồi quy probit:
\[
\Phi^{-1}(p_i) = -0.50440 + 0.38158 \times \text{ind}_i
\] Nhận xét:
Với người không làm việc trong ngành công nghiệp thì giá trị kỳ vọng của
biến ẩn trong mô hình là –0.50440. Xác suất thực tế tham gia công đoàn:
\[ \text{Pr}(\text{union} = 1 \ | \
\text{ind} = \text{"non-industrial"}) = \Phi(-0.50440) \approx
0.307 \], tức khoảng 30.7% khả năng tham gia công đoàn đối với
người lao động không làm trong ngành công nghiệp.
\(\beta_1=0.38158\): đại diện cho sự thay đổi trong giá trị biến ẩn khi người lao động làm việc trong ngành công nghiệp so với người không làm trong ngành này. Cụ thể, nếu một người làm trong ngành công nghiệp, giá trị ngưỡng latent tăng thêm khoảng 0.38 đơn vị, từ đó làm tăng xác suất tham gia công đoàn.
Dự báo:
Dự báo với typr = response
new_worker12 <- data.frame(ind = "non-industrial")
predict(probit_model2, newdata = new_worker12, type = "response")
## 1
## 0.3069897
Với người lao động không làm trong ngành công nghiệp, mô hình probit ước tính xác suất tham gia công đoàn là khoảng 30.7%.
south📌 Thành phần mô hình:
Random component:
\(Y \sim \text{Bernoulli}(p)\)
Systematic component:
\(\eta = \beta_0 + \beta_1 \times
\text{south}\)
Link function:
\(g(p) = \Phi^{-1}(p)\)
📌 Phương trình mô hình:
\[ \Phi^{-1}(p_i) = \beta_0 + \beta_1 \times \text{south}_i \] Trong đó:
\(\Phi^{-1}\) là hàm phân phối tích lũy chuẩn nghịch đảo (inverse CDF)
Các ký hiệu khác như mô hình Logistic (áp dụng cho trường hợp này là mô hình Probit, với \(p_i\) là xác suất người lao động thứ \(i\) tham gia công đoàn, \(\text{south}_i\) là biến khu vực cư trú, \(\beta_0\) là hệ số chặn và \(\beta_1\) là hệ số ảnh hưởng của khu vực cư trú).
Ước lượng mô hình:
probit_model3 <- glm(union_bin ~ south, data = d1, family = binomial(link = "probit"))
summary(probit_model3)
##
## Call:
## glm(formula = union_bin ~ south, family = binomial(link = "probit"),
## data = d1)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -0.21708 0.02325 -9.337 <2e-16 ***
## southyes -0.48434 0.04580 -10.575 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 5461.8 on 4164 degrees of freedom
## Residual deviance: 5346.9 on 4163 degrees of freedom
## AIC: 5350.9
##
## Number of Fisher Scoring iterations: 4
Phương trình hồi quy probit:
\[
\Phi^{-1}(p_i) = -0.21708 - 0.48434 \times \text{south}_i
\] Nhận xét:
Với người không cư trú tại miền Nam thì giá trị kỳ vọng của biến ẩn
trong mô hình là –0.21708. Xác suất thực tế tham gia công đoàn: \[ \text{Pr}(\text{union} = 1 \ | \ \text{south} =
\text{"no"}) = \Phi(-0.21708) \approx 0.414 \], tức
khoảng 41.4% khả năng tham gia công đoàn đối với người lao động không cư
trú tại miền Nam.
\(\beta_1=0.48434\): đại diện cho sự thay đổi trong giá trị biến ẩn khi người lao động cư trú ở miền Nam so với người không sống ở miền Nam. Cụ thể, nếu một người sống ở miền Nam, giá trị ngưỡng latent sẽ giảm đi khoảng 0.48 đơn vị, từ đó làm giảm xác suất tham gia công đoàn..
Dự báo:
Dự báo với typr = response
new_worker13 <- data.frame(south = "no")
predict(probit_model3, newdata = new_worker13, type = "response")
## 1
## 0.4140731
Với người lao động không sống ở miền Nam, mô hình probit ước tính xác suất tham gia công đoàn là khoảng 41.4%.
married📌 Thành phần mô hình:
Random component:
\(Y \sim \text{Bernoulli}(p)\)
Systematic component:
\(\eta = \beta_0 + \beta_1 \times
\text{married}\)
Link function:
\(g(p) = \Phi^{-1}(p)\)
📌 Phương trình mô hình:
\[
\Phi^{-1}(p_i) = \beta_0 + \beta_1 \times \text{married}_i
\]
Trong đó:
\(\Phi^{-1}\) là hàm phân phối tích lũy chuẩn nghịch đảo (inverse CDF)
Các ký hiệu khác như mô hình Logistic (áp dụng cho trường hợp này là mô hình Probit, với \(p_i\) là xác suất người lao động thứ \(i\) tham gia công đoàn, \(\text{married}_i\) là biến tình trạng hôn nhân, \(\beta_0\) là hệ số chặn và \(\beta_1\) là hệ số ảnh hưởng của tình trạng hôn nhân).
Ước lượng mô hình:
probit_model4 <- glm(union_bin ~ married, data = d1, family = binomial(link = "probit"))
summary(probit_model4)
##
## Call:
## glm(formula = union_bin ~ married, family = binomial(link = "probit"),
## data = d1)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -0.67959 0.04907 -13.848 < 2e-16 ***
## marriedyes 0.40113 0.05371 7.469 8.1e-14 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 5461.8 on 4164 degrees of freedom
## Residual deviance: 5404.4 on 4163 degrees of freedom
## AIC: 5408.4
##
## Number of Fisher Scoring iterations: 4
Phương trình hồi quy probit:
\[
\Phi^{-1}(p_i) = -0.67959 + 0.40113 \times \text{married}_i
\] Nhận xét:
Với người chưa kết hôn thì giá trị kỳ vọng của biến ẩn trong mô hình là
–0.67959. Xác suất thực tế tham gia công đoàn: \[ \text{Pr}(\text{union} = 1 \ | \ \text{married}
= \text{"no"}) = \Phi(-0.67959) \approx 0.248 \], tức
khoảng 24.8% khả năng tham gia công đoàn đối với người lao động chưa kết
hôn.
\(\beta_1=0.40113\): đại diện cho sự thay đổi trong giá trị biến ẩn khi người lao động đã kết hôn so với người chưa kết hôn. Cụ thể, nếu một người đã kết hôn, giá trị ngưỡng latent sẽ tăng thêm khoảng 0.40 đơn vị, từ đó làm tăng xác suất tham gia công đoàn.
Dự báo:
Dự báo với typr = response
new_worker14 <- data.frame(married = "no")
predict(probit_model4, newdata = new_worker14, type = "response")
## 1
## 0.2483829
Với người lao động chưa kết hôn, thì mô hình probit ước tính xác suất tham gia công đoàn là khoảng 24.8%.
sex📌 Thành phần mô hình:
Random component:
\(Y \sim \text{Bernoulli}(p)\)
Systematic component:
\(\eta = \beta_0 + \beta_1 \times
\text{sex}\)
Link function:
\(g(p) = \Phi^{-1}(p)\)
📌 Phương trình mô hình:
\[
\Phi^{-1}(p_i) = \beta_0 + \beta_1 \times \text{sex}_i
\]
Trong đó:
\(\Phi^{-1}\) là hàm phân phối
tích lũy chuẩn nghịch đảo (inverse CDF)
Các ký hiệu khác như mô hình Logistic (áp dụng cho trường hợp này là mô hình Probit, với \(p_i\) là xác suất người lao động thứ \(i\) tham gia công đoàn, \(\text{sex}_i\) là biến giới tính, \(\beta_0\) là hệ số chặn và \(\beta_1\) là hệ số ảnh hưởng của giới tính).
Ước lượng mô hình:
probit_model5 <- glm(union_bin ~ sex, data = d1, family = binomial(link = "probit"))
summary(probit_model5)
##
## Call:
## glm(formula = union_bin ~ sex, family = binomial(link = "probit"),
## data = d1)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -0.80265 0.06518 -12.313 < 2e-16 ***
## sexmale 0.50606 0.06847 7.391 1.46e-13 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 5461.8 on 4164 degrees of freedom
## Residual deviance: 5404.3 on 4163 degrees of freedom
## AIC: 5408.3
##
## Number of Fisher Scoring iterations: 4
Phương trình hồi quy probit:
\[
\Phi^{-1}(p_i) = -0.80265 + 0.50606 \times \text{sex}_i
\] Nhận xét:
Với người lao động là nữ thì giá trị kỳ vọng của biến ẩn trong mô hình là –0.80265. Xác suất thực tế tham gia công đoàn: \[ \text{Pr}(\text{union} = 1 \ | \ \text{sex} = \text{"female"}) = \Phi(-0.80265) \approx 0.211 \], tức khoảng 21.1% khả năng tham gia công đoàn nếu người lao động là nữ.
\(\beta_1=0.50606\): đại diện cho sự thay đổi trong giá trị latent khi người lao động là nam so với nữ. Cụ thể, nếu một người lao động là nam thì giá trị ẩn tăng thêm khoảng 0.51 đơn vị, từ đó làm tăng xác suất tham gia công đoàn.
Dự báo:
Dự báo với typr = response
new_worker15 <- data.frame(sex = "female")
predict(probit_model5, newdata = new_worker15, type = "response")
## 1
## 0.2110874
Nếu một người lao động là nữ, thì xác suất họ tham gia công đoàn theo ước lượng từ mô hình probit là khoảng 21.1%.
black📌 Thành phần mô hình:
Random component:
\(Y \sim \text{Bernoulli}(p)\)
Systematic component:
\(\eta = \beta_0 + \beta_1 \times
\text{black}\)
Link function:
\(g(p) = \Phi^{-1}(p)\)
📌 Phương trình mô hình:
\[ \Phi^{-1}(p_i) = \beta_0 + \beta_1 \times \text{black}_i \]
Trong đó:
\(\Phi^{-1}\) là hàm phân phối tích lũy chuẩn nghịch đảo (inverse CDF)
Các ký hiệu khác như mô hình Logistic (áp dụng cho trường hợp này là mô hình Probit, với \(p_i\) là xác suất người lao động thứ \(i\) tham gia công đoàn, \(\text{black}_i\) là biến chủng tộc, \(\beta_0\) là hệ số chặn và \(\beta_1\) là hệ số ảnh hưởng của chủng tộc).
Ước lượng mô hình:
probit_model6 <- glm(union_bin ~ black, data = d1, family = binomial(link = "probit"))
summary(probit_model6)
##
## Call:
## glm(formula = union_bin ~ black, family = binomial(link = "probit"),
## data = d1)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -0.36472 0.02066 -17.66 < 2e-16 ***
## blackyes 0.22688 0.07538 3.01 0.00261 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 5461.8 on 4164 degrees of freedom
## Residual deviance: 5452.8 on 4163 degrees of freedom
## AIC: 5456.8
##
## Number of Fisher Scoring iterations: 4
Phương trình hồi quy probit:
\[
\Phi^{-1}(p_i) = -0.36472 + 0.22688 \times \text{black}_i
\] Nhận xét:
Với người không phải là người da đen thì giá trị kỳ vọng của biến ẩn trong mô hình là –0.36472. Xác suất thực tế tham gia công đoàn: \[ \text{Pr}(\text{union} = 1 \ | \ \text{black} = \text{"no"}) = \Phi(-0.36472) \approx 0.3578 \], tức khoảng 35.78% khả năng tham gia công đoàn nếu người lao động không phải người da đen.
\(\beta_1=1.022688\): đại diện cho khuynh hướng tham gia công đoàn khi người lao động là người da đen so với người không phải da đen. Cho thấy rằng nếu một người là người da đen, thì giá trị ngưỡng tăng thêm khoảng 0.227, từ đó làm tăng xác suất tham gia công đoàn.
Dự báo:
Dự báo với typr = response
new_worker16 <- data.frame(black = "no")
predict(probit_model6, newdata = new_worker16, type = "response")
## 1
## 0.3576605
Nếu một người không phải là người da đen, thì xác suất họ tham gia công đoàn theo ước lượng từ mô hình probit là khoảng 35.8%.
bluecol📌 Thành phần mô hình:
Random component:
\(Y \sim \text{Bernoulli}(p)\)
Systematic component:
\(\eta = \beta_0 + \beta_1 \times
\text{bluecol}\)
Link function:
\(g(p) = \log(-\log(1-p))\)
📌 Phương trình mô hình:
\[ \log \left( -\log(1-p_i) \right) = \beta_0 + \beta_1 \times \text{bluecol}_i \]
cloglog_model21 <- glm(union_bin ~ bluecol, data = d1, family = binomial(link = "cloglog"))
summary(cloglog_model21)
##
## Call:
## glm(formula = union_bin ~ bluecol, family = binomial(link = "cloglog"),
## data = d1)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -1.63081 0.05264 -30.98 <2e-16 ***
## bluecolyes 1.38359 0.06069 22.80 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 5461.8 on 4164 degrees of freedom
## Residual deviance: 4842.2 on 4163 degrees of freedom
## AIC: 4846.2
##
## Number of Fisher Scoring iterations: 5
\[ \log \left( -\log(1-p_i) \right) = -1.63081 + 1.38359 \times \text{bluecol}_i \] Nhận xét:
Với người không làm việc trong nhóm lao động chân tay giá trị kỳ vọng của biến ẩn theo mô hình cloglog là -1.63081. Do đó, xác suất tham gia công đoàn được tính bằng: \[ \text{Pr}(\text{union} = 1 \ | \ \text{bluecol} = \text{"no"}) = 1 - \exp(-\exp(-1.63081)) \approx 0.1694 \], tức khoảng 16.9% khả năng tham gia công đoàn với người không làm việc chân tay.
\(\beta=1.38359\): cho biết mức thay đổi của giá trị log(-log(1 - p)) khi người lao động làm việc trong nhóm lao động chân tay so với người không làm. Khi đó, giá trị ngưỡng tăng thêm khoảng 1.38, làm tăng đáng kể xác suất tham gia công đoàn. Nói cách khác, người làm việc chân tay có xu hướng tham gia công đoàn cao hơn đáng kể so với người không làm việc chân tay.
Dự báo:
new_worker21 <- data.frame(bluecol = "no")
predict(cloglog_model21, newdata = new_worker21, type = "response")
## 1
## 0.1777996
Nếu người lao động không thuộc nhóm lao động chân tay thì khả năng tham gia công đoàn là 17.8%.
ind📌 Thành phần mô hình:
Random component:
\(Y \sim \text{Bernoulli}(p)\)
Systematic component:
\(\eta = \beta_0 + \beta_1 \times
\text{ind}\)
Link function:
\(g(p) = \log(-\log(1-p))\)
📌 Phương trình mô hình:
\[ \log \left( -\log(1-p_i) \right) = \beta_0 + \beta_1 \times \text{ind}_i \]
cloglog_model22 <- glm(union_bin ~ ind, data = d1, family = binomial(link = "cloglog"))
summary(cloglog_model22)
##
## Call:
## glm(formula = union_bin ~ ind, family = binomial(link = "cloglog"),
## data = d1)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -1.00318 0.03617 -27.74 <2e-16 ***
## indindustrial 0.49216 0.05191 9.48 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 5461.8 on 4164 degrees of freedom
## Residual deviance: 5373.0 on 4163 degrees of freedom
## AIC: 5377
##
## Number of Fisher Scoring iterations: 5
\[ \log \left( -\log(1-p_i) \right) = -1.00318 + 0.49216 \times \text{ind}_i \] Nhận xét:
Với người không làm việc trong ngành công nghiệp, giá trị kỳ vọng của biến ẩn theo mô hình cloglog là −1.00318. Do đó, xác suất tham gia công đoàn được tính bằng: \[ \text{Pr}(\text{union} = 1 \ | \ \text{ind} = \text{"non-industrial"}) = 1 - \exp(-\exp(−1.00318)) \approx 0.264 \], tức khoảng 26.4% khả năng tham gia công đoàn đối với người lao động không làm trong ngành công nghiệp.
\(\beta=0.49216\): đại diện cho mức thay đổi ngưỡng tham gia công đoàn khi người lao động làm việc trong ngành công nghiệp so với nhóm không làm trong ngành công nghiệp. Giá trị dương của hệ số này cho thấy nếu người lao động thuộc ngành công nghiệp, thì giá trị hàm liên kết tăng thêm khoảng 0.49, từ đó làm tăng xác suất tham gia công đoàn.
Dự báo:
new_worker22 <- data.frame(ind = "non-industrial")
predict(cloglog_model22, newdata = new_worker22, type = "response")
## 1
## 0.3069897
Nếu người lao động không thuộc nhóm ngành sản xuất thì khả năng tham
gia công đoàn là 30.7%.
#### Biến south 📌 Thành phần mô hình:
Random component:
\(Y \sim \text{Bernoulli}(p)\)
Systematic component:
\(\eta = \beta_0 + \beta_1 \times
\text{south}\)
Link function:
\(g(p) = \log(-\log(1-p))\)
📌 Phương trình mô hình:
\[ \log \left( -\log(1-p_i) \right) = \beta_0 + \beta_1 \times \text{south}_i \]
cloglog_model23 <- glm(union_bin ~ south, data = d1, family = binomial(link = "cloglog"))
summary(cloglog_model23)
##
## Call:
## glm(formula = union_bin ~ south, family = binomial(link = "cloglog"),
## data = d1)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -0.62631 0.02892 -21.65 <2e-16 ***
## southyes -0.65945 0.06545 -10.08 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 5461.8 on 4164 degrees of freedom
## Residual deviance: 5346.9 on 4163 degrees of freedom
## AIC: 5350.9
##
## Number of Fisher Scoring iterations: 5
\[ \log \left( -\log(1-p_i) \right) = −0.62631 + −0.65945 \times \text{south}_i \] Nhận xét:
Với người không sống ở miền Nam , giá trị kỳ vọng của biến ẩn theo mô hình cloglog là − 0.62631 −0.62631. Do đó, xác suất tham gia công đoàn được tính bằng: \[ \text{Pr}(\text{union} = 1 \ | \ \text{south} = \text{"no"}) = 1 - \exp(-\exp(− 0.62631 −0.62631)) \approx 0.356 \], tức khoảng 35.6% khả năng tham gia công đoàn nếu người lao động không sống ở miền Nam.
\(\beta=−0.65945\): biểu thị sự thay đổi trong giá trị ngưỡng khi người lao động sống ở miền Nam so với người không sống ở miền Nam. Giá trị âm của hệ số này cho thấy người sống ở miền Nam có xu hướng có xác suất tham gia công đoàn thấp hơn, vì giá trị hàm liên kết giảm, dẫn đến xác suất tham gia giảm.
Dự báo:
new_worker23 <- data.frame(south = "no")
predict(cloglog_model23, newdata = new_worker23, type = "response")
## 1
## 0.4140731
Nếu người lao động không cư trú tại miền Nam thì khả năng tham gia công đoàn là 41.4%.
married📌 Thành phần mô hình:
Random component:
\(Y \sim \text{Bernoulli}(p)\)
Systematic component:
\(\eta = \beta_0 + \beta_1 \times
\text{married}\)
Link function:
\(g(p) = \log(-\log(1-p))\)
📌 Phương trình mô hình:
\[ \log \left( -\log(1-p_i) \right) = \beta_0 + \beta_1 \times \text{married}_i \]
cloglog_model24 <- glm(union_bin ~ married, data = d1, family = binomial(link = "cloglog"))
summary(cloglog_model24)
##
## Call:
## glm(formula = union_bin ~ married, family = binomial(link = "cloglog"),
## data = d1)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -1.25341 0.07241 -17.31 < 2e-16 ***
## marriedyes 0.54989 0.07755 7.09 1.34e-12 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 5461.8 on 4164 degrees of freedom
## Residual deviance: 5404.4 on 4163 degrees of freedom
## AIC: 5408.4
##
## Number of Fisher Scoring iterations: 5
\[ \log \left( -\log(1-p_i) \right) = −1.25341 + 0.54989 \times \text{married}_i \] Nhận xét:
Với người chưa kết hôn, giá trị kỳ vọng của biến ẩn theo mô hình cloglog là −1.25341. Do đó, xác suất tham gia công đoàn được tính bằng: \[ \text{Pr}(\text{union} = 1 \ | \ \text{marriedl} = \text{"no"}) = 1 - \exp(-\exp(−1.25341)) \approx 0.213 \], tức khoảng 21.3% khả năng tham gia công đoàn nếu người lao động chưa kết hôn.
\(\beta=0.54989\): biểu thị mức thay đổi trong giá trị ngưỡng tham gia công đoàn khi người lao động đã kết hôn so với người chưa kết hôn. Hệ số dương này cho thấy người đã kết hôn có xu hướng có xác suất tham gia công đoàn cao hơn, nhờ giá trị hàm liên kết tăng lên làm xác suất tiến gần đến 1 hơn.
Dự báo:
new_worker24 <- data.frame(married = "no")
predict(cloglog_model24, newdata = new_worker24, type = "response")
## 1
## 0.2483829
Nếu người lao động chưa kết hôn thì khả năng tham gia công đoàn là 24.8%.
sex📌 Thành phần mô hình:
Random component:
\(Y \sim \text{Bernoulli}(p)\)
Systematic component:
\(\eta = \beta_0 + \beta_1 \times
\text{sex}\)
Link function:
\(g(p) = \log(-\log(1-p))\)
📌 Phương trình mô hình:
\[ \log \left( -\log(1-p_i) \right) = \beta_0 + \beta_1 \times \text{sex}_i \]
cloglog_model25 <- glm(union_bin ~ sex, data = d1, family = binomial(link = "cloglog"))
summary(cloglog_model25)
##
## Call:
## glm(formula = union_bin ~ sex, family = binomial(link = "cloglog"),
## data = d1)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -1.4393 0.1007 -14.287 < 2e-16 ***
## sexmale 0.7126 0.1042 6.836 8.17e-12 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 5461.8 on 4164 degrees of freedom
## Residual deviance: 5404.3 on 4163 degrees of freedom
## AIC: 5408.3
##
## Number of Fisher Scoring iterations: 5
\[ \log \left( -\log(1-p_i) \right) = −1.4393 + 0.7126 \times \text{sex}_i \] Nhận xét:
Với nữ giới, giá trị kỳ vọng của biến ẩn theo mô hình cloglog là −1.4393. Do đó, xác suất tham gia công đoàn được tính bằng: \[ \text{Pr}(\text{union} = 1 \ | \ \text{sex} = \text{"female"}) = 1 - \exp(-\exp(−1.4393)) \approx 0.18 \], tức khoảng 18% khả năng tham gia công đoàn nếu người lao động là nữ.
\(\beta=0.7126\): biểu thị sự thay đổi giá trị ngưỡng khi người lao động là nam giới so với nữ giới. Hệ số dương này cho thấy nam giới có xu hướng có xác suất tham gia công đoàn cao hơn đáng kể so với nữ giới, do giá trị hàm liên kết tăng lên kéo xác suất tiến gần đến 1 hơn..
Dự báo:
new_worker25 <- data.frame(sex = "female")
predict(cloglog_model25, newdata = new_worker25, type = "response")
## 1
## 0.2110874
Nếu người lao động là nữ giới thì khả năng tham gia công đoàn là 21.1%.
black📌 Thành phần mô hình:
Random component:
\(Y \sim \text{Bernoulli}(p)\)
Systematic component:
\(\eta = \beta_0 + \beta_1 \times
\text{black}\)
Link function:
\(g(p) = \log(-\log(1-p))\)
📌 Phương trình mô hình:
\[ \log \left( -\log(1-p_i) \right) = \beta_0 + \beta_1 \times \text{black}_i \]
cloglog_model26 <- glm(union_bin ~ black, data = d1, family = binomial(link = "cloglog"))
summary(cloglog_model26)
##
## Call:
## glm(formula = union_bin ~ black, family = binomial(link = "cloglog"),
## data = d1)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -0.81500 0.02712 -30.052 < 2e-16 ***
## blackyes 0.28587 0.09174 3.116 0.00183 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 5461.8 on 4164 degrees of freedom
## Residual deviance: 5452.8 on 4163 degrees of freedom
## AIC: 5456.8
##
## Number of Fisher Scoring iterations: 5
\[ \log \left( -\log(1-p_i) \right) = −0.81500 + 0.28587 \times \text{black}_i \]
Nhận xét:
Với người không phải là người da đen, giá trị kỳ vọng của biến ẩn theo mô hình cloglog là −0.81500. Do đó, xác suất tham gia công đoàn được tính bằng: \[ \text{Pr}(\text{union} = 1 \ | \ \text{black} = \text{"no"}) = 1 - \exp(-\exp(−0.81500)) \approx 0.306 \], tức khoảng 30.6% khả năng tham gia công đoàn nếu người lao động không phải là người da đen.
\(\beta=0.28587\): biểu thị sự thay đổi giá trị ngưỡng khi người lao động là người da đen so với không phải. Hệ số dương này cho thấy người lao động là người da đen có xu hướng có xác suất tham gia công đoàn cao hơn, do giá trị hàm liên kết tăng lên kéo xác suất tiến gần đến 1 hơn.
Dự báo:
new_worker26 <- data.frame(black = "no")
predict(cloglog_model26, newdata = new_worker26, type = "response")
## 1
## 0.3576605
Nếu người lao động không phải là người da đen thì khả năng tham gia công đoàn là 35.7%.
logit_model31 <- glm(union_bin ~ bluecol + ind + south + married + sex + black, data = d1, family = binomial(link = "logit"))
summary(logit_model31)
##
## Call:
## glm(formula = union_bin ~ bluecol + ind + south + married + sex +
## black, family = binomial(link = "logit"), data = d1)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -2.13582 0.14147 -15.097 < 2e-16 ***
## bluecolyes 1.73416 0.07666 22.622 < 2e-16 ***
## indindustrial 0.19094 0.07403 2.579 0.009898 **
## southyes -1.04577 0.08532 -12.257 < 2e-16 ***
## marriedyes 0.46988 0.13967 3.364 0.000768 ***
## sexmale 0.37611 0.18285 2.057 0.039696 *
## blackyes 0.66653 0.14144 4.712 2.45e-06 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 5461.8 on 4164 degrees of freedom
## Residual deviance: 4614.3 on 4158 degrees of freedom
## AIC: 4628.3
##
## Number of Fisher Scoring iterations: 4
Phương trình hồi quy:
\[
\log\left(\frac{P(\text{union}=1)}{1-P(\text{union}=1)}\right) = -2.136
+ 1.734 \cdot \text{bluecolyes} + 0.191 \cdot \text{indindustrial} -
1.046 \cdot \text{southyes} + 0.470 \cdot \text{marriedyes} + 0.376
\cdot \text{sexmale} + 0.667 \cdot \text{blackyes} \]
Intercept (-2.136): Đây là logit của xác suất tham gia
công đoàn khi tất cả các biến độc lập bằng 0 (người không lao động chân
tay, không làm ngành công nghiệp, không sống ở miền Nam, chưa kết hôn,
là nữ, và không phải người da đen).
bluecolyes = 1.734 (p < 0.001): Người lao động chân tay (blue-collar) có log odds tham gia công đoàn cao hơn người không chân tay là 1.734 đơn vị. Odds ratio = \(e^{1.734} \approx 5.66\), tức là cao hơn khoảng 5.66 lần.
industrial = 0.191 (p \(\approx\) 0.0099): Người làm trong ngành công nghiệp có odds tham gia công đoàn cao hơn khoảng \(e^{0.191} \approx 1.21\) lần.
southyes = -1.046 (p < 0.001): Người sống ở miền Nam có odds tham gia công đoàn thấp hơn người không sống ở miền Nam, với odds giảm khoảng \(e^{-1.046} \approx 0.35\) lần, tức giảm 65%.
marriedyes = 0.470 (p \(\approx\) 0.00077): Người đã kết hôn có odds tham gia công đoàn cao hơn người chưa kết hôn, với odds cao hơn khoảng \(e^{0.470} \approx 1.60\) lần.
sexmale = 0.376 (p \(\approx\) 0.04): Nam giới có odds tham gia công đoàn cao hơn nữ giới khoảng \(e^{0.376} \approx 1.46\) lần.
blackyes = 0.667 (p < 0.001): Người da đen có odds tham gia công đoàn cao hơn người không phải da đen khoảng \(e^{0.667} \approx 1.95\) lần.
probit_model32 <- glm(union_bin ~ bluecol + ind + south + married + sex + black, data = d1, family = binomial(link = "probit"))
summary(probit_model32)
##
## Call:
## glm(formula = union_bin ~ bluecol + ind + south + married + sex +
## black, family = binomial(link = "probit"), data = d1)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -1.23046 0.07910 -15.556 < 2e-16 ***
## bluecolyes 1.04038 0.04472 23.263 < 2e-16 ***
## indindustrial 0.10058 0.04446 2.262 0.02369 *
## southyes -0.63340 0.05012 -12.638 < 2e-16 ***
## marriedyes 0.27461 0.08248 3.329 0.00087 ***
## sexmale 0.19008 0.10578 1.797 0.07235 .
## blackyes 0.41434 0.08442 4.908 9.21e-07 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 5461.8 on 4164 degrees of freedom
## Residual deviance: 4617.6 on 4158 degrees of freedom
## AIC: 4631.6
##
## Number of Fisher Scoring iterations: 4
\[ \Phi^{-1}(P(\text{union\_bin}=1)) = -1.23046 + 1.04038 \cdot \text{bluecolyes} + 0.10058 \cdot \text{indindustrial} - 0.63340 \cdot \text{southyes} + 0.27461 \cdot \text{marriedyes} + 0.19008 \cdot \text{sexmale} + 0.41434 \cdot \text{blackyes} \]
bluecolyes = 1.0404: Lao động chân tay có khả năng
tham gia công đoàn cao hơn đáng kể so với lao động không chân tay.
indindustrial = 0.1006: Làm việc trong ngành công
nghiệp làm tăng nhẹ khả năng tham gia công đoàn so với ngoài
ngành.
southyes = -0.6334: Người sống ở miền Nam có khả năng
tham gia công đoàn thấp hơn đáng kể so với người không sống ở miền
Nam.
marriedyes = 0.2746: Người đã kết hôn có khả năng tham
gia công đoàn cao hơn người chưa kết hôn.
sexmale = 0.1901: Nam giới có khả năng tham gia công
đoàn cao hơn nữ, nhưng mức ảnh hưởng không mạnh.
blackyes = 0.4143: Người da đen có khả năng tham gia
công đoàn cao hơn người không da đen.
cloglog_model33 <- glm(union_bin ~ bluecol + ind + south + married + sex + black, data = d1, family = binomial(link = "cloglog"))
summary(cloglog_model33)
##
## Call:
## glm(formula = union_bin ~ bluecol + ind + south + married + sex +
## black, family = binomial(link = "cloglog"), data = d1)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -2.18235 0.11880 -18.370 < 2e-16 ***
## bluecolyes 1.38074 0.06211 22.232 < 2e-16 ***
## indindustrial 0.19355 0.05419 3.571 0.000355 ***
## southyes -0.80602 0.06693 -12.043 < 2e-16 ***
## marriedyes 0.34997 0.10742 3.258 0.001122 **
## sexmale 0.37301 0.14671 2.542 0.011007 *
## blackyes 0.56663 0.10005 5.664 1.48e-08 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 5461.8 on 4164 degrees of freedom
## Residual deviance: 4600.5 on 4158 degrees of freedom
## AIC: 4614.5
##
## Number of Fisher Scoring iterations: 6
\[ \log(-\log(1-P(\text{union\_bin}=1))) = -2.1824 + 1.3807 \cdot \text{bluecolyes} + 0.1936 \cdot \text{indindustrial} - 0.8060 \cdot \text{southyes} + 0.3500 \cdot \text{marriedyes} + 0.3730 \cdot \text{sexmale} + 0.5666 \cdot \text{blackyes} \]
bluecolyes = 1.3807: Người lao động chân tay có xác
suất tham gia công đoàn cao hơn nhiều so với lao động không chân tay
(hiệu ứng mạnh và rất có ý nghĩa).
indindustrial = 0.1936: Làm việc trong ngành công
nghiệp làm tăng xác suất tham gia công đoàn.
southyes = -0.8060: Sống ở miền Nam làm giảm đáng kể
xác suất tham gia công đoàn.
marriedyes = 0.3500: Người đã kết hôn có xác suất tham
gia công đoàn cao hơn người chưa kết hôn.
sexmale = 0.3730: Nam giới có khả năng tham gia công
đoàn cao hơn nữ.
blackyes = 0.5666: Người da đen có xác suất tham gia
công đoàn cao hơn người không da đen.
AIC(logit_model31)
## [1] 4628.306
AIC(probit_model32)
## [1] 4631.645
AIC(cloglog_model33)
## [1] 4614.499
Nhận xét:Mô hình Logit và Probit đều không phù hợp bằng mô hình Cloglog trong việc giải thích sự tác động của các đặc điểm nhân khẩu học đến quyết định tham gia công đoàn của người lao động tại Hoa Kỳ. Vì mô hình Cloglog có AIC thấp nhất, phù hợp nhất với dữ liệu, tức là cân bằng tốt giữa độ phù hợp và độ phức tạp của mô hình.
Brier Score là một chỉ số để đánh giá độ chính xác của mô hình dự báo xác suất nhị phân. Nó đo trung bình bình phương sai số giữa xác suất dự báo và giá trị thực tế (0 hoặc 1).
Công thức Brier Score:
\[ \text{Brier Score} = \frac{1}{N} \sum_{i=1}^N (\hat{p}_i - y_i)^2 \]
Trong đó:
Ý nghĩa:
BrierScore(logit_model31)
## [1] 0.1863312
BrierScore(probit_model32)
## [1] 0.1867089
BrierScore(cloglog_model33)
## [1] 0.1856089
Nhận xét:Mô hình Cloglog có chỉ số Brier Score thấp nhất, cho thấy nó dự báo xác suất gần nhất với dữ liệu thực tế so với hai mô hình còn lại.
Kết luận: mô hình Cloglog đều có chỉ số AIC và Brier Score thấp nhất trong 3 mô hình. Cho thấy mô hình Cloglog có hiệu suất dự báo tốt nhất.
new_worker33 <- data.frame(
bluecol = "yes",
ind = "industrial",
south = "yes",
married = "yes",
sex = "male",
black = "yes")
new_worker34 <- data.frame(
bluecol = "no",
ind = "non-industrial",
south = "no",
married = "no",
sex = "female",
black = "no")
# Dự báo xác suất tham gia công đoàn
predict(cloglog_model33, newdata = new_worker33, type = "response")
## 1
## 0.5864454
predict(cloglog_model33, newdata = new_worker34, type = "response")
## 1
## 0.1066499
📌 Nhận xét:
Mô hình cloglog cho thấy với các đặc điểm nhân khẩu học như người lao
động nam, đã kết hôn, thuộc loại lao động chân tay, làm việc trong ngành
sản xuất và sinh sống tại miền Nam Hoa Kỳ thì xác suất tham gia công
đoàn là \(\approx 58.6\%\).
Mô hình cloglog cho thấy với các đặc điểm nhân khẩu học như người lao động nữ, chưa kết hôn, không thuộc loại lao động chân tay, không làm việc trong ngành sản xuất và không sống tại miền Nam Hoa Kỳ thì xác suất tham gia công đoàn là \(\approx 10.665\%\).
Trong nghiên cứu này, tác giả thực hiện phân tích tác động của các đặc điểm nhân khẩu học đến khả năng tham gia công đoàn của người lao động tại Hoa Kỳ. Dựa trên bộ dữ liệu Wages với biến union là biến phụ thuộc, tác giả thực hiện thống kê mô tả biến union với từng biến độc lập như bluecol, ind, south,smsa, married, sex, black để hiểu rõ hơn về mối quan hệ giữa các biến. Cụ thể, khi kiểm định mối liên hệ giữa biến phụ thuộc và các biến độc lập thì hầu hết các cặp biến đều có mối liên hệ có ý nghĩa thống kê, chỉ riêng biến định tính smsa là không có mối liên hệ có ý nghĩa thống kê với biến union.
Khi thực hiện phân tích tỷ lệ nguy cơ tương đối và tỷ lệ chênh lêch, kết quả nhận được đều cho thấy các đặc điểm nhân khẩu học có ảnh hưởng rõ rệt đến quyết định tham gia công đoàn của người lao động tại Hoa Kỳ. Chi tiết hơn, người lao động thuộc nhóm lao động chân tay có khả năng tham gia công đoàn cao hơn từ 1.8 lần đến 3 lần so với nhóm còn lại, đồng thời có odds cao gấp 5,47 lần. Người làm trong ngành sản xuất, người đã kết hôn, nam giới và người da đen đều có xác suất và odds tham gia công đoàn cao hơn so với nhóm đối chiếu. Ngược lại, người sống tại miền Nam Hoa Kỳ có khả năng tham gia công đoàn thấp hơn, chỉ số relative risk chỉ khoảng 0.58. Nhưng kết quả này cho thấy đặc điểm nhân khẩu học là yếu tố chi phối hành vi tham gia công đoàn.
Tác giả tiếp tục thực hiện phân tích hồi quy đơn biến cho thấy từng yếu tố nhân khẩu học như nghề nghiệp, ngành nghề, khu vực cư trú, tình trạng hôn nhân, giới tính và chủng tộc đều có ảnh hưởng riêng và có ý nghĩa thống kê đến xác suất tham gia công đoàn. Khi đưa vào mô hình hồi quy đa biến (logit, probit, cloglog), các kết quả vẫn giữ nguyên xu hướng và ý nghĩa thống kê, cho thấy độ ổn định của các yếu tố này trong việc giải thích hành vi tham gia công đoàn. Trong đó, người lao động là lao động chân tay, làm việc trong ngành sản xuất, đã kết hôn, là nam giới, người da đen đều có xác suất tham gia công đoàn cao hơn. Riêng biến south có ảnh hưởng ngược chiều, làm giảm xác suất tham gia công đoàn. Trong ba mô hình logit, probit, cloglog thì mô hình cloglog cho kết quả phù hợp nhất, thể hiện qua giá trị AIC và Brier Score thấp nhất, xác suất tham gia công đoàn được dự báo bằng mô hình hồi quy đa biến cloglog ở các biến đặc trưng tích cực là 58.6%. Như vậy có thể kết luận rằng các đặc điểm nhân khẩu học có tác động mạnh đến quyết định tham gia công đoàn của người lao động tại Hoa Kỳ.
Nghiên cứu đã cung cấp một cái nhìn toàn diện về mối quan hệ giữa các đặc điểm nhân khẩu học và quyết định tham gia công đoàn của người lao động tại Hoa Kỳ, thông qua việc kết hợp phân tích thống kê mô tả, phân tích tỷ lệ rủi ro tương đối (Relative Risk), tỷ lệ chênh lệch (Odds Ratio) và các mô hình hồi quy thống kê (logit, probit, cloglog). Việc sử dụng đồng thời các phương pháp định lượng này giúp kiểm chứng tính nhất quán và độ tin cậy của kết quả, qua đó củng cố thêm bằng chứng thực nghiệm về ảnh hưởng của yếu tố cá nhân đến hành vi tham gia tổ chức công đoàn.
Cụ thể, nghiên cứu đã chỉ ra rằng các yếu tố như nghề nghiệp (lao
động chân tay), ngành nghề (sản xuất), giới tính (nam), tình trạng hôn
nhân (đã kết hôn), chủng tộc (người da đen) và khu vực cư trú (ngoài
miền Nam Hoa Kỳ) đều có vai trò quan trọng trong việc dự báo khả năng
tham gia công đoàn. Những phát hiện này có thể đóng vai trò tham chiếu
quan trọng cho các nhà hoạch định chính sách lao động – công đoàn tại
Hoa Kỳ trong việc xác định nhóm đối tượng cần được quan tâm, hỗ trợ hoặc
vận động để tăng cường sự tham gia vào công đoàn, qua đó góp phần nâng
cao hiệu quả đại diện và bảo vệ quyền lợi cho người lao động.
Ngoài ra, nghiên cứu còn có giá trị thực tiễn trong việc đề xuất phương
pháp phân tích định lượng ứng dụng vào lĩnh vực xã hội học lao động, đặc
biệt là trong bối cảnh dữ liệu điều tra mẫu lớn. Việc chứng minh rằng mô
hình cloglog cho kết quả phù hợp hơn trong dự báo hành vi tham gia công
đoàn cũng là một đóng góp phương pháp đáng chú ý cho các nghiên cứu
tương tự sau này.