d <- read_excel("C:/Users/Dell/OneDrive - UFM/Desktop/du lieu t2.xlsx")
datatable(d)
Bộ dữ liệu “ai_job_market_insights” bao gồm 8 biến và 500 quan sát, tập trung phản ánh tình hình thị trường việc làm trong bối cảnh trí tuệ nhân tạo (AI) đang được ứng dụng ngày càng rộng rãi. Dữ liệu bao gồm thông tin về chức danh công việc, ngành nghề, quy mô công ty, vị trí địa lý, mức độ áp dụng AI, rủi ro tự động hóa, khả năng làm việc từ xa và dự báo về xu hướng tăng trưởng của công việc đó.
Mô tả chi tiết các biến:
Job_Title (Chức danh công việc): Biến này cho biết tên gọi cụ thể của vị trí công việc, bao gồm như:
AI Researcher – Nhà nghiên cứu trí tuệ nhân tạo
Cybersecurity Analyst – Chuyên viên phân tích an ninh mạng
Marketing Specialist – Chuyên viên tiếp thị
Sales Manager – Quản lý bán hàng
Industry (Ngành công nghiệp): Cho biết lĩnh vực hoặc ngành nghề mà công việc đó thuộc về, bao gồm:
Technology – Công nghệ
Entertainment – Giải trí
Retail – Bán lẻ
Healthcare – Y tế
Finance – Tài chính, ngân hàng
Company_Size (Quy mô công ty): Biến này thể hiện quy mô tổ chức nơi công việc được tuyển dụng, chia thành:
Small – Doanh nghiệp nhỏ
Medium – Doanh nghiệp vừa
Large – Doanh nghiệp lớn
Location (Vị trí địa lý): Cho biết địa điểm làm việc, có thể là tên thành phố hoặc quốc gia. Ví dụ:
Singapore – Singapore
Tokyo – Tokyo, Nhật Bản
Dubai – Dubai, UAE
Berlin – Berlin, Đức
AI_Adoption_Level (Mức độ áp dụng AI): Phản ánh mức độ mà công việc sử dụng hoặc tích hợp công nghệ AI, được phân loại:
Low – Thấp
Medium – Trung bình
High – Cao
Automation_Risk (Rủi ro tự động hóa): Mức độ mà công việc có thể bị thay thế bởi máy móc hoặc phần mềm tự động:
Low – Rủi ro thấp
Medium – Rủi ro trung bình
High – Rủi ro cao
Remote_Friendly (Khả năng làm việc từ xa): Chỉ ra liệu công việc đó có thể được thực hiện từ xa hay không:
Yes – Có thể làm việc từ xa
No – Không thể làm việc từ xa
Job_Growth_Projection (Dự báo tăng trưởng công việc): Phản ánh xu hướng thay đổi số lượng việc làm trong tương lai:
Growth – Tăng trưởng (số lượng công việc được dự báo sẽ tăng)
Decline – Suy giảm (công việc có xu hướng bị thu hẹp)
# Hiển thị cấu trúc của dữ liệu
str(d)
## tibble [500 × 8] (S3: tbl_df/tbl/data.frame)
## $ Job_Title : chr [1:500] "Cybersecurity Analyst" "Marketing Specialist" "AI Researcher" "Sales Manager" ...
## $ Industry : chr [1:500] "Entertainment" "Technology" "Technology" "Retail" ...
## $ Company_Size : chr [1:500] "Small" "Large" "Large" "Small" ...
## $ Location : chr [1:500] "Dubai" "Singapore" "Singapore" "Berlin" ...
## $ AI_Adoption_Level : chr [1:500] "Medium" "Medium" "Medium" "Low" ...
## $ Automation_Risk : chr [1:500] "High" "High" "High" "High" ...
## $ Remote_Friendly : chr [1:500] "Yes" "No" "Yes" "No" ...
## $ Job_Growth_Projection: chr [1:500] "Growth" "Decline" "Growth" "Growth" ...
Kích thước dữ liệu: Bộ dữ liệu gồm 500 dòng (quan sát) và 8 cột (biến), định dạng theo kiểu tibble, thường được sử dụng trong R để xử lý dữ liệu một cách hiện đại và hiệu quả.
Kiểu dữ liệu: Tất cả các biến đều có kiểu chuỗi ký tự (character / chr), cho thấy rằng toàn bộ dữ liệu là dữ liệu phân loại (categorical), không có biến số lượng (numeric) trong bộ dữ liệu này, phản ánh các khía cạnh khác nhau của thị trường việc làm liên quan đến AI như chức danh công việc, ngành nghề, quy mô công ty, vị trí địa lý, mức độ áp dụng AI, rủi ro tự động hóa, khả năng làm việc từ xa và dự báo tăng trưởng nghề nghiệp.
# Hiển thị một vài dòng đầu tiên
head(d,6)
## # A tibble: 6 × 8
## Job_Title Industry Company_Size Location AI_Adoption_Level Automation_Risk
## <chr> <chr> <chr> <chr> <chr> <chr>
## 1 Cybersecurit… Enterta… Small Dubai Medium High
## 2 Marketing Sp… Technol… Large Singapo… Medium High
## 3 AI Researcher Technol… Large Singapo… Medium High
## 4 Sales Manager Retail Small Berlin Low High
## 5 Cybersecurit… Enterta… Small Tokyo Low Low
## 6 UX Designer Educati… Large San Fra… Medium Medium
## # ℹ 2 more variables: Remote_Friendly <chr>, Job_Growth_Projection <chr>
# Hiển thị một vài dòng cuối cùng
tail(d,6)
## # A tibble: 6 × 8
## Job_Title Industry Company_Size Location AI_Adoption_Level Automation_Risk
## <chr> <chr> <chr> <chr> <chr> <chr>
## 1 Sales Manager Transpo… Medium Tokyo Medium High
## 2 Data Scienti… Telecom… Medium Berlin Low Medium
## 3 Cybersecurit… Telecom… Small London Low High
## 4 Cybersecurit… Energy Large Dubai High Low
## 5 Operations M… Healthc… Large Paris High Low
## 6 HR Manager Enterta… Medium Berlin Medium High
## # ℹ 2 more variables: Remote_Friendly <chr>, Job_Growth_Projection <chr>
# Kiểm tra giá trị thiếu (NA) trong các cột định tính
qual_cols <- c("Job_Title", "Industry", "Company_Size", "Location",
"AI_Adoption_Level", "Automation_Risk", "Remote_Friendly", "Job_Growth_Projection")
# Kiểm tra NA theo cột định tính
colSums(is.na(d[qual_cols]))
## Job_Title Industry Company_Size
## 0 0 0
## Location AI_Adoption_Level Automation_Risk
## 0 0 0
## Remote_Friendly Job_Growth_Projection
## 0 0
# Hàm tính mode
get_mode <- function(x) {
ux <- unique(x[!is.na(x)])
ux[which.max(tabulate(match(x, ux)))]
}
Kết quả trả về từ đoạn mã cho thấy rằng không có giá trị thiếu (NA) trong bất kỳ cột định tính nào thuộc danh sách qual_cols, bao gồm các biến như “Job_Title”, “Industry”, “Company_Size”, “Location”, “AI_Adoption_Level”, “Automation_Risk”, “Remote_Friendly”, “Job_Growth_Projection”. Tất cả các cột đều có tổng số NA bằng 0, điều này chứng tỏ dữ liệu định tính đang đầy đủ và sạch, không cần thực hiện thao tác thay thế giá trị thiếu. Việc kiểm tra điều kiện trước khi thay thế là một thực hành tốt, giúp đảm bảo tính toàn vẹn và tránh thay đổi không cần thiết đối với dữ liệu.
# Chuyển đổi các cột cần thiết sang factor nếu chưa phải
for (col in qual_cols) {
if (!is.factor(d[[col]])) {
d[[col]] <- as.factor(d[[col]])
}
}
# Kiểm tra lại cấu trúc sau khi chuyển đổi
str(d)
## tibble [500 × 8] (S3: tbl_df/tbl/data.frame)
## $ Job_Title : Factor w/ 10 levels "AI Researcher",..: 2 5 1 8 2 10 4 2 1 8 ...
## $ Industry : Factor w/ 10 levels "Education","Energy",..: 3 8 8 7 3 1 4 8 7 3 ...
## $ Company_Size : Factor w/ 3 levels "Large","Medium",..: 3 1 1 3 3 1 2 3 1 2 ...
## $ Location : Factor w/ 10 levels "Berlin","Dubai",..: 2 7 7 1 9 6 7 2 3 7 ...
## $ AI_Adoption_Level : Factor w/ 3 levels "High","Low","Medium": 3 3 3 2 2 3 2 3 1 1 ...
## $ Automation_Risk : Factor w/ 3 levels "High","Low","Medium": 1 1 1 1 2 3 1 2 2 2 ...
## $ Remote_Friendly : Factor w/ 2 levels "No","Yes": 2 1 2 1 2 1 2 2 1 2 ...
## $ Job_Growth_Projection: Factor w/ 3 levels "Decline","Growth",..: 2 1 2 2 1 2 2 1 3 1 ...
Dữ liệu gồm 500 quan sát với 8 biến, trong đó nhiều biến định tính đã được đưa về dạng factor. Việc chuyển các biến như “Job_Title”, “Industry”, “Company_Size”, “Location”, “AI_Adoption_Level”, “Automation_Risk”, “Remote_Friendly”, “Job_Growth_Projection” sang dạng factor là hoàn toàn hợp lý. Điều này giúp biểu diễn rõ ràng các biến phân loại, hỗ trợ hiệu quả cho các bước phân tích thống kê, mô hình hóa cũng như trực quan hóa dữ liệu. Ngoài ra, factor còn giúp tiết kiệm bộ nhớ hơn so với chuỗi ký tự khi xử lý các giá trị lặp lại.
table(d$Job_Title)
##
## AI Researcher Cybersecurity Analyst Data Scientist
## 51 55 62
## HR Manager Marketing Specialist Operations Manager
## 57 48 44
## Product Manager Sales Manager Software Engineer
## 39 49 41
## UX Designer
## 54
tmp <- table(d$Job_Title)/sum(nrow(d))
tmp
##
## AI Researcher Cybersecurity Analyst Data Scientist
## 0.102 0.110 0.124
## HR Manager Marketing Specialist Operations Manager
## 0.114 0.096 0.088
## Product Manager Sales Manager Software Engineer
## 0.078 0.098 0.082
## UX Designer
## 0.108
# Tính tần suất và phần trăm
df_Job_Title <- d %>%
count(Job_Title) %>%
mutate(prop = n / sum(n),
pct = paste0(round(prop * 100), "%"))
ggplot(df_Job_Title, aes(x = Job_Title, y = n, fill = Job_Title)) +
geom_bar(stat = "identity", width = 0.6, color = "black") + # Viền đen quanh cột
scale_fill_brewer(palette = "Set3") +
geom_text(aes(label = pct), vjust = -0.3, size = 3) + # Hiển thị % trên cột
labs(title = "Biểu đồ cột về phân bố chức danh công việc", x = "Job_Title", y = "Frequency") +
theme_minimal(base_size = 14) +
theme(
legend.position = "none",
axis.text.x = element_text(angle = 45, hjust = 1, vjust = 1, face = "italic") # xoay 45 độ + nghiêng
)
Bộ dữ liệu bao gồm nhiều chức danh công việc đa dạng trong lĩnh vực công nghệ và quản trị. Trong số đó, Data Scientist chiếm tỷ lệ cao nhất với 12%, tiếp theo là HR Manager, Cybersecurity Analyst, và UX Designer, mỗi nhóm chiếm khoảng 11%. Các chức danh còn lại như AI Researcher, Marketing Specialist, Sales Manager và Operations Manager có tỷ lệ dao động từ 9–10%. Hai chức danh có tỷ lệ thấp nhất là Product Manager và Software Engineer, đều ở mức 8%.
Nhìn chung, tỷ lệ phân bố giữa các chức danh khá đồng đều, không có sự chênh lệch quá lớn. Điều này cho thấy bộ dữ liệu được phân bổ tương đối cân bằng giữa các loại hình công việc, giúp tạo điều kiện thuận lợi cho việc phân tích so sánh giữa các vị trí nghề nghiệp trong lĩnh vực liên quan đến AI và công nghệ.
table(d$Industry)
##
## Education Energy Entertainment Finance
## 57 49 47 53
## Healthcare Manufacturing Retail Technology
## 42 58 46 56
## Telecommunications Transportation
## 53 39
tmp <- table(d$Industry)/sum(nrow(d))
tmp
##
## Education Energy Entertainment Finance
## 0.114 0.098 0.094 0.106
## Healthcare Manufacturing Retail Technology
## 0.084 0.116 0.092 0.112
## Telecommunications Transportation
## 0.106 0.078
# Tính tần suất và phần trăm
df_Industry <- d %>%
count(Industry) %>%
mutate(prop = n / sum(n),
pct = paste0(round(prop * 100), "%"))
ggplot(df_Industry, aes(x = Industry, y = n, fill = Industry)) +
geom_bar(stat = "identity", width = 0.6, color = "black") + # Viền đen quanh cột
scale_fill_brewer(palette = "Set3") +
geom_text(aes(label = pct), vjust = -0.3, size = 3) + # Hiển thị % trên cột
labs(title = "Biểu đồ cột về phân bố các ngành lĩnh vực công nghiệp", x = "Industry", y = "Frequency") +
theme_minimal(base_size = 14) +
theme(
legend.position = "none",
axis.text.x = element_text(angle = 45, hjust = 1, vjust = 1, face = "italic") # xoay 45 độ + nghiêng
)
Biểu đồ cho thấy sự phân bố khá đồng đều giữa các ngành công nghiệp, với Manufacturing chiếm tỷ lệ cao nhất (12%), tiếp theo là các ngành Education, Finance, Technology và Telecommunications (cùng 11%). Ngành có tỷ lệ thấp nhất là Healthcare và Transportation (cùng 8%). Điều này phản ánh sự đa dạng trong phân bổ nguồn lực hoặc công việc giữa các lĩnh vực.
table(d$Company_Size)
##
## Large Medium Small
## 166 163 171
tmp <- table(d$Company_Size)/sum(nrow(d))
tmp
##
## Large Medium Small
## 0.332 0.326 0.342
df_company <- d %>%
count(Company_Size) %>%
mutate(Percent = round(100 * n / sum(n), 2))
ggplot(df_company, aes(x = "", y = n, fill = Company_Size)) +
geom_bar(stat = "identity", width = 1, color = "black") + # Viền đen
coord_polar("y", start = 0) +
theme_void(base_size = 12) +
scale_fill_brewer(palette = "Set2") + # Bảng màu tự động đẹp
labs(title = "Biểu đồ tròn về quy mô công ty") +
geom_text(aes(label = paste0(Percent, "%")), position = position_stack(vjust = 0.5)) +
theme(
plot.title = element_text(face = "bold", hjust = 0.5)
)
Biểu đồ tròn cho thấy quy mô công ty được phân bổ khá đồng đều. Nhóm công ty nhỏ chiếm tỷ lệ cao nhất với 34.2%, tiếp theo là công ty lớn (33.2%) và công ty vừa (32.6%). Điều này cho thấy dữ liệu được thu thập từ nhiều loại hình doanh nghiệp với quy mô khác nhau, không có sự chênh lệch lớn giữa các nhóm.
table(d$Location)
##
## Berlin Dubai London New York Paris
## 48 51 46 49 46
## San Francisco Singapore Sydney Tokyo Toronto
## 62 54 52 51 41
tmp <- table(d$Location)/sum(nrow(d))
tmp
##
## Berlin Dubai London New York Paris
## 0.096 0.102 0.092 0.098 0.092
## San Francisco Singapore Sydney Tokyo Toronto
## 0.124 0.108 0.104 0.102 0.082
# Tính tần suất và phần trăm
df_locate <- d %>%
count(Location) %>%
mutate(prop = n / sum(n),
pct = paste0(round(prop * 100), "%"))
ggplot(df_locate, aes(x = Location, y = n, fill = Location)) +
geom_bar(stat = "identity", width = 0.6, color = "black") + # Viền đen quanh cột
scale_fill_brewer(palette = "Set1") +
geom_text(aes(label = pct), vjust = -0.3, size = 3) + # Hiển thị % trên cột
labs(title = "Biểu đồ cột về phân bố địa điểm làm việc", x = "Location", y = "Frequency") +
theme_minimal(base_size = 14) +
theme(
legend.position = "none",
axis.text.x = element_text(angle = 45, hjust = 1, vjust = 1, face = "italic") # xoay 45 độ + nghiêng
)
Biểu đồ cho thấy địa điểm làm việc được phân bổ tương đối đồng đều giữa các thành phố. San Francisco chiếm tỷ lệ cao nhất với 12%, tiếp theo là Singapore (11%). Các thành phố như Berlin, Dubai, New York, Sydney và Tokyo đều ở mức 10%, trong khi London và Paris chiếm 9%. Toronto có tỷ lệ thấp nhất với 8%. Điều này phản ánh sự phân bổ khá đa dạng nhưng không chênh lệch lớn giữa các khu vực địa lý.
table(d$AI_Adoption_Level)
##
## High Low Medium
## 147 174 179
tmp <- table(d$AI_Adoption_Level)/sum(nrow(d))
tmp
##
## High Low Medium
## 0.294 0.348 0.358
df_ai <- d %>%
count(AI_Adoption_Level) %>%
mutate(Percent = round(100 * n / sum(n), 2))
ggplot(df_ai, aes(x = "", y = n, fill = AI_Adoption_Level)) +
geom_bar(stat = "identity", width = 1, color = "black") +
coord_polar("y", start = 0) +
theme_void(base_size = 12) +
scale_fill_brewer(palette = "Set1") +
labs(title = "Biểu đồ tròn về mức độ áp dụng AI trong doanh nghiệp") +
geom_text(aes(label = paste0(Percent, "%")), position = position_stack(vjust = 0.5)) +
theme(
plot.title = element_text(face = "bold", hjust = 0.5)
)
Biểu đồ cho thấy mức độ áp dụng AI trong doanh nghiệp chủ yếu ở mức trung bình (35.8%) và thấp (34.8%), trong khi mức độ áp dụng cao chiếm tỷ lệ thấp nhất (29.4%). Điều này phản ánh rằng phần lớn doanh nghiệp đang ở giai đoạn đầu hoặc đang trong quá trình chuyển đổi áp dụng AI.
table(d$Automation_Risk)
##
## High Low Medium
## 169 158 173
tmp <- table(d$Automation_Risk)/sum(nrow(d))
tmp
##
## High Low Medium
## 0.338 0.316 0.346
df_ar<- d %>%
count(Automation_Risk) %>%
mutate(Percent = round(100 * n / sum(n), 2))
ggplot(df_ar, aes(x = "", y = n, fill = Automation_Risk)) +
geom_bar(stat = "identity", width = 1, color = "black") +
coord_polar("y", start = 0) +
theme_void(base_size = 12) +
scale_fill_brewer(palette = "Set4") +
labs(title = "Biểu đồ tròn về rủi ro tự động hóa") +
geom_text(aes(label = paste0(Percent, "%")), position = position_stack(vjust = 0.5)) +
theme(
plot.title = element_text(face = "bold", hjust = 0.5)
)
Biểu đồ cho thấy rủi ro tự động hóa được phân bố khá đồng đều giữa các mức: rủi ro trung bình chiếm cao nhất (34.6%), tiếp theo là rủi ro cao (33.8%) và thấp nhất là rủi ro thấp (31.6%). Điều này cho thấy tự động hóa ảnh hưởng đến doanh nghiệp ở nhiều mức độ khác nhau, không tập trung vào một nhóm cụ thể.
table(d$Remote_Friendly)
##
## No Yes
## 249 251
tmp <- table(d$Remote_Friendly)/sum(nrow(d))
tmp
##
## No Yes
## 0.498 0.502
df_rf<- d %>%
count(Remote_Friendly) %>%
mutate(Percent = round(100 * n / sum(n), 2))
ggplot(df_rf, aes(x = "", y = n, fill = Remote_Friendly)) +
geom_bar(stat = "identity", width = 1, color = "black") +
coord_polar("y", start = 0) +
theme_void(base_size = 12) +
scale_fill_brewer(palette = "Set3") +
labs(title = "Biểu đồ tròn về khả năng làm việc từ xa") +
geom_text(aes(label = paste0(Percent, "%")), position = position_stack(vjust = 0.5)) +
theme(
plot.title = element_text(face = "bold", hjust = 0.5)
)
Biểu đồ cho thấy có 49.8% người không thể làm việc từ xa và 50.2% người có thể làm việc từ xa.
table(d$Job_Growth_Projection)
##
## Decline Growth Stable
## 169 169 162
tmp <- table(d$Job_Growth_Projection)/sum(nrow(d))
tmp
##
## Decline Growth Stable
## 0.338 0.338 0.324
# Tính tần suất và phần trăm
df_growth <- d %>%
count(Job_Growth_Projection) %>%
mutate(prop = n / sum(n),
pct = paste0(round(prop * 100), "%"))
ggplot(df_growth, aes(x = Job_Growth_Projection, y = n, fill = Job_Growth_Projection)) +
geom_bar(stat = "identity", width = 0.6, color = "black") + # Viền đen quanh cột
scale_fill_brewer(palette = "Set3") +
geom_text(aes(label = pct), vjust = -0.3, size = 3) + # Hiển thị % trên cột
labs(title = "Biểu đồ cột về khả năng tăng trưởng công việc", x = "Job_Growth_Projection", y = "Frequency") +
theme_minimal(base_size = 14) +
theme(
legend.position = "none",
axis.text.x = element_text(angle = 45, hjust = 1, vjust = 1, face = "italic") # xoay 45 độ + nghiêng
)
Biểu đồ phản ánh rằng khả năng tăng trưởng công việc trong tương lai đang ở mức không rõ ràng và phân hóa, khi tỷ lệ giữa ba nhóm tăng trưởng, ổn định và suy giảm gần như tương đương nhau. Cụ thể:
34% công việc dự báo tăng trưởng, cho thấy vẫn có cơ hội mở rộng việc làm trong một số lĩnh vực.
32% được đánh giá ổn định, cho thấy nhiều ngành nghề có xu hướng duy trì trạng thái hiện tại.
34% dự báo suy giảm, phản ánh nguy cơ mất việc hoặc thu hẹp quy mô ở nhiều ngành do các yếu tố như tự động hóa hoặc chuyển dịch công nghệ.
Biểu đồ cho thấy thị trường việc làm đang trong trạng thái bất định, và đòi hỏi người lao động cần linh hoạt thích nghi với những thay đổi, đặc biệt là trong bối cảnh chuyển đổi số và tự động hóa.
“Small” trong Company_Size, “High” trong Automation_Risk, “Yes” trong Remote_Friendly
# Đếm số lượng công ty có quy mô nhỏ
n_small <- sum(d$Company_Size == "Small")
#Tổng số quan sát
n_total <- nrow(d)
#Tính khoảng tin cậy 95% cho tỷ lệ quy mô nhỏ
prop.test(n_small, n_total, correct = FALSE)
##
## 1-sample proportions test without continuity correction
##
## data: n_small out of n_total, null probability 0.5
## X-squared = 49.928, df = 1, p-value = 1.595e-12
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
## 0.3017655 0.3846438
## sample estimates:
## p
## 0.342
Kiểm định giả thuyết
Đặt giả thuyết:
\(H_0\): Tỷ lệ công ty quy mô nhỏ = 0.5
\(H_1\): Tỷ lệ công ty quy mô nhỏ ≠ 0.5
Ý nghĩa: Với độ tin cậy 95%, ta có thể kết luận rằng tỷ lệ quy mô nhỏ trong tổng số quy mô rơi vào khoảng từ 30,17% đến 38,46%.
# Đếm số lượng mức độ rủi ro tự động hóa
n_high <- sum(d$Automation_Risk == "High")
#Tổng số quan sát
n_total <- nrow(d)
#Tính khoảng tin cậy 95% cho tỷ lệ quy mô nhỏ
prop.test(n_high, n_total, correct = FALSE)
##
## 1-sample proportions test without continuity correction
##
## data: n_high out of n_total, null probability 0.5
## X-squared = 52.488, df = 1, p-value = 4.329e-13
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
## 0.2979130 0.3805573
## sample estimates:
## p
## 0.338
Ý nghĩa: Với độ tin cậy 95%, ta có thể kết luận rằng mức độ rủi ro cao trong tổng số mức độ rủi ro tự động hóa rơi vào khoảng từ 29,79% đến 38,05%.
Kiểm định giả thuyết
Đặt giả thuyết:
\(H_0\): Tỷ lệ mức độ rủi ro cao = 0.6
\(H_1\): Tỷ lệ mức độ rủi ro cao ≠ 0.6
prop.test(n_high, n_total, p=0.6, correct = FALSE)
##
## 1-sample proportions test without continuity correction
##
## data: n_high out of n_total, null probability 0.6
## X-squared = 143.01, df = 1, p-value < 2.2e-16
## alternative hypothesis: true p is not equal to 0.6
## 95 percent confidence interval:
## 0.2979130 0.3805573
## sample estimates:
## p
## 0.338
Kết quả kiểm định cho thấy giá trị p-value: < 2.2e-16 (rất nhỏ, gần bằng 0).Với mức ý nghĩa 5%, do p-value rất nhỏ (< 0.05), nên ta bác bỏ giả thuyết \(H_0\). Điều này cho thấy tỷ lệ thực sự khác biệt đáng kể so với giá trị giả định là 0.6.
# Đếm số lượng có thể làm việc từ xa
n_yes <- sum(d$Remote_Friendly == "Yes")
#Tổng số quan sát
n_total <- nrow(d)
#Tính khoảng tin cậy 95% cho tỷ lệ quy mô nhỏ
prop.test(n_yes, n_total, correct = FALSE)
##
## 1-sample proportions test without continuity correction
##
## data: n_yes out of n_total, null probability 0.5
## X-squared = 0.008, df = 1, p-value = 0.9287
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
## 0.4583264 0.5456431
## sample estimates:
## p
## 0.502
Ý nghĩa: Với độ tin cậy 95%, ta có thể kết luận rằng người có thể làm việc từ xa trong tổng số người làm việc rơi vào khoảng từ 45,83% đến 54,56%.
Kiểm định giả thuyết
Đặt giả thuyết:
\(H_0\): Tỷ lệ người có thể làm việc từ xa = 0.5
\(H_1\): Tỷ lệ người có thể làm việc từ xa ≠ 0.5
prop.test(n_yes, n_total, p=0.5, correct = FALSE)
##
## 1-sample proportions test without continuity correction
##
## data: n_yes out of n_total, null probability 0.5
## X-squared = 0.008, df = 1, p-value = 0.9287
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
## 0.4583264 0.5456431
## sample estimates:
## p
## 0.502
Với mức ý nghĩa 5%, do p-value = 0.9287 > 0.05, nên ta không bác bỏ giả thuyết \(H_0\).
# Bảng tần số chéo
tab1 <- table(d$Automation_Risk, d$Job_Title)
prop1 <- prop.table(tab1, margin = 1) # Tỷ lệ theo hàng
tab1
##
## AI Researcher Cybersecurity Analyst Data Scientist HR Manager
## High 20 23 17 15
## Low 15 21 25 16
## Medium 16 11 20 26
##
## Marketing Specialist Operations Manager Product Manager Sales Manager
## High 17 10 16 20
## Low 10 18 12 18
## Medium 21 16 11 11
##
## Software Engineer UX Designer
## High 15 16
## Low 13 10
## Medium 13 28
ggplot(d, aes(x = Automation_Risk, fill = Job_Title)) +
geom_bar(position = "dodge", color = "black") +
labs(title = "Phân bố mức độ rủi ro theo chức vụ công việc",
x = "Mức độ rủi ro tự động hóa",
y = "Số lượng",
fill = "Chức vụ công việc") +
theme_minimal() +
theme(axis.text.x = element_text(angle = 45, hjust = 1))
Nhận xét: Biểu đồ cho thấy các công việc như Data Scientist, Cybersecurity Analyst và HR Manager chủ yếu rơi vào nhóm rủi ro thấp do yêu cầu kỹ năng chuyên môn cao, khó thay thế. Ngược lại, Sales Manager và Product Manager có tỷ lệ cao ở mức rủi ro cao, phản ánh khả năng dễ bị tự động hóa. UX Designer nổi bật ở mức rủi ro trung bình. Nhìn chung, công việc càng mang tính sáng tạo, phân tích thì càng ít bị ảnh hưởng bởi tự động hóa.
Giả thuyết kiểm định:
\(H_0\): Automation_Risk và Job_Title là hai biến độc lập.
\(H_1\): Automation_Risk và Job_Title có liên quan.
Thực hiện kiểm định Chi-bình phương
chi_test <- chisq.test(tab1)
chi_test
##
## Pearson's Chi-squared test
##
## data: tab1
## X-squared = 29.495, df = 18, p-value = 0.04265
Kết quả kiểm định Chi-bình phương giữa hai biến mức độ rủi ro và chức vụ công việc cho thấy giá trị p = 0.04265 < 0.05, vì vậy có thể kết luận rằng giữa mức độ rủi ro tự động hóa và chức vụ công việc tồn tại mối liên hệ có ý nghĩa thống kê; nói cách khác, mức độ rủi ro không phân bố đồng đều giữa các chức vụ mà có sự khác biệt rõ rệt tùy theo từng loại công việc.
# Bảng tần suất chéo
tab2 <- table(d$Automation_Risk, d$Industry)
prop2 <- prop.table(tab2, margin = 1) # Tỷ lệ theo hàng
tab2
##
## Education Energy Entertainment Finance Healthcare Manufacturing Retail
## High 22 17 18 17 11 19 11
## Low 16 18 17 16 14 16 16
## Medium 19 14 12 20 17 23 19
##
## Technology Telecommunications Transportation
## High 17 18 19
## Low 17 17 11
## Medium 22 18 9
ggplot(d, aes(x = Automation_Risk, fill = Industry)) +
geom_bar(position = "dodge", color = "black") +
scale_fill_brewer(palette = "Set3") +
labs(
title = " Phân bố mức độ rủi ro theo nhóm ngành công nghiệp",
x = "Mức độ",
y = "Số lượng",
fill = "Ngành"
) +
theme_minimal() +
theme(axis.text.x = element_text(angle = 45, hjust = 1))
Nhận xét: Biểu đồ thể hiện mối quan hệ giữa mức độ rủi ro tự động hóa và các nhóm ngành công nghiệp cho thấy sự phân hóa khá rõ rệt. Một số ngành như Technology và Retail có số lượng lớn lao động rơi vào nhóm rủi ro trung bình, cho thấy các ngành này đang chịu ảnh hưởng rõ nét từ tự động hóa nhưng vẫn giữ vai trò nhất định của con người trong quy trình. Trong khi đó, ngành Education có số lượng cao nhất ở nhóm rủi ro cao, có thể phản ánh áp lực thay đổi trong phương pháp giảng dạy và ứng dụng công nghệ.
Ngược lại, các ngành như Healthcare, Finance, và Telecommunications lại có phân bố khá đồng đều hoặc nghiêng về mức rủi ro thấp và trung bình, cho thấy những ngành này vẫn cần nhiều yếu tố con người, kỹ năng chuyên môn hoặc xử lý tình huống thực tế, khó bị thay thế hoàn toàn.
Tóm lại, biểu đồ cho thấy mức độ rủi ro tự động hóa thay đổi đáng kể giữa các nhóm ngành, trong đó các ngành có tính lặp lại cao hoặc dễ tiêu chuẩn hóa thường có rủi ro cao hơn, trong khi những ngành yêu cầu tư duy, chuyên môn sâu hoặc tương tác con người lại an toàn hơn trước làn sóng tự động hóa.
Giả thuyết kiểm định:
\(H_0\): Automation_Risk và Industry là hai biến độc lập.
\(H_1\): Automation_Risk và Industry có liên quan.
Thực hiện kiểm định Chi-bình phương
chi_test <- chisq.test(tab2)
chi_test
##
## Pearson's Chi-squared test
##
## data: tab2
## X-squared = 12.307, df = 18, p-value = 0.831
Kết quả kiểm định Chi-bình phương giữa hai biến mức độ rủi ro tự động hóa và nhóm ngành công nghiệp cho thấy:
Giá trị Chi-squared = 12.307
Bậc tự do = 18
Giá trị p = 0.831
Vì p-value = 0.831 > 0.05, ta không bác bỏ giả thuyết \(H_0\), tức là không có bằng chứng thống kê cho thấy mối liên hệ giữa mức độ rủi ro và ngành công nghiệp.
Kết luận: Mức độ rủi ro tự động hóa không khác biệt đáng kể giữa các nhóm ngành, tức là dù thuộc ngành nào thì phân bố rủi ro cao, trung bình hay thấp là tương đối giống nhau và không có sự phụ thuộc rõ ràng vào ngành nghề.
# Bảng tần suất chéo
tab3 <- table(d$Automation_Risk, d$Company_Size)
prop3 <- prop.table(tab3, margin = 1) # Tỷ lệ theo hàng
tab3
##
## Large Medium Small
## High 58 52 59
## Low 42 63 53
## Medium 66 48 59
ggplot(d, aes(x =Automation_Risk, fill = Company_Size)) +
geom_bar(position = "dodge", color = "black") +
scale_fill_brewer(palette = "Set3") +
labs(
title = "Phân bố mức độ rủi ro tự động hóa theo quy mô công ty",
y = "Số lượng",
fill = "Quy mô"
) +
theme_minimal() +
theme(axis.text.x = element_text(hjust = 0.5))
Biểu đồ cho thấy mối quan hệ giữa mức độ rủi ro tự động hóa và quy mô công ty có sự khác biệt rõ rệt giữa các nhóm.
Cụ thể, ở mức rủi ro thấp, các công ty quy mô vừa chiếm tỷ lệ cao nhất, trong khi công ty lớn lại chiếm tỷ lệ thấp nhất. Ở mức rủi ro trung bình, công ty lớn có số lượng nhân sự nhiều nhất, còn công ty vừa thì thấp nhất. Ở mức rủi ro cao, ba nhóm quy mô có số lượng tương đối đồng đều, nhưng công ty nhỏ và lớn nhỉnh hơn công ty vừa.
Từ biểu đồ có thể thấy rằng các công ty lớn có xu hướng đối mặt với mức rủi ro trung bình nhiều hơn, trong khi các công ty vừa lại tập trung nhiều ở mức rủi ro thấp. Điều này gợi ý rằng quy mô công ty có thể liên quan đến mức độ rủi ro tự động hóa, với các công ty lớn có thể đầu tư nhiều vào tự động hóa nhưng cũng duy trì nhân lực trong những công việc chưa thể thay thế hoàn toàn.
Giả thuyết kiểm định:
\(H_0\): Automation_Risk và Company_Size là hai biến độc lập.
\(H_1\): Automation_Risk và Company_Size có liên quan.
Thực hiện kiểm định Chi-bình phương
chi_test <- chisq.test(tab3)
chi_test
##
## Pearson's Chi-squared test
##
## data: tab3
## X-squared = 7.4585, df = 4, p-value = 0.1136
Kết quả kiểm định Chi-bình phương giữa mức độ rủi ro tự động hóa và quy mô công ty cho thấy:
Giá trị Chi-squared = 7.4585
Bậc tự do = 4
p-value = 0.1136
Vì p-value = 0.1136 > 0.05, ta không bác bỏ giả thuyết \(H_0\), tức là không có mối liên hệ có ý nghĩa thống kê giữa mức độ rủi ro tự động hóa và quy mô công ty.
Kết luận: Mặc dù biểu đồ cho thấy một vài khác biệt giữa các nhóm quy mô, nhưng xét về mặt thống kê, mức độ rủi ro không thay đổi rõ rệt theo quy mô công ty; nói cách khác, sự khác biệt là không đủ mạnh để khẳng định có mối liên hệ thực sự giữa hai biến này.
# Bảng tần suất chéo
tab4 <- table(d$Automation_Risk, d$Location)
prop4 <- prop.table(tab4, margin = 1) # Tỷ lệ theo hàng
tab4
##
## Berlin Dubai London New York Paris San Francisco Singapore Sydney
## High 12 14 20 17 12 24 23 17
## Low 16 20 17 10 16 17 12 20
## Medium 20 17 9 22 18 21 19 15
##
## Tokyo Toronto
## High 15 15
## Low 15 15
## Medium 21 11
ggplot(d, aes(x = Automation_Risk, fill = Location)) +
geom_bar(position = "dodge", color = "black") +
scale_fill_brewer(palette = "Set3") +
labs(
title = "Phân bố mức độ rủi ro theo vị trí địa lí làm việc",
y = "Số lượng",
fill = "Vị trí"
) +
theme_minimal() +
theme(axis.text.x = element_text(angle = 45, hjust = 1))
Biểu đồ thể hiện phân bố mức độ rủi ro tự động hóa theo vị trí địa lý làm việc cho thấy sự khác biệt rõ rệt giữa các thành phố. Ở nhóm rủi ro cao, San Francisco và Singapore có số lượng cao nhất, cho thấy lao động tại hai thành phố này đối mặt với nguy cơ bị thay thế bởi tự động hóa nhiều hơn. Ngược lại, New York và Singapore có số lượng lao động thấp nhất ở nhóm rủi ro thấp, điều này củng cố nhận định rằng các công việc tại đây có thể mang tính kỹ thuật hoặc quy trình cao, dễ bị tự động hóa.
Trong khi đó, các thành phố như Sydney, Tokyo và Berlin lại có số lượng đáng kể ở mức rủi ro trung bình, cho thấy tình hình khá cân bằng – vừa có khả năng tự động hóa, nhưng vẫn giữ vai trò quan trọng của con người.
Tóm lại, biểu đồ cho thấy mức độ rủi ro tự động hóa phân bố không đồng đều giữa các vị trí địa lý. Một số thành phố có xu hướng tập trung nhiều công việc dễ bị tự động hóa hơn so với các nơi khác, phản ánh đặc điểm ngành nghề, mức độ phát triển công nghệ hoặc chiến lược chuyển đổi số tại từng khu vực.
Giả thuyết kiểm định:
\(H_0\): Automation_Risk và Location là hai biến độc lập.
\(H_1\): Automation_Risk và Location có liên quan.
Thực hiện kiểm định Chi-bình phương
chi_test <- chisq.test(tab4)
chi_test
##
## Pearson's Chi-squared test
##
## data: tab4
## X-squared = 19.756, df = 18, p-value = 0.3467
Kết quả kiểm định Chi-bình phương giữa mức độ rủi ro tự động hóa và vị trí địa lý làm việc cho thấy:
Giá trị Chi-squared = 19.756
Bậc tự do = 18
p-value = 0.3467
Vì p-value = 0.3467 > 0.05, ta không bác bỏ giả thuyết \(H_0\), tức là không có mối liên hệ có ý nghĩa thống kê giữa mức độ rủi ro tự động hóa và địa điểm làm việc.
Kết luận: Dù biểu đồ cho thấy sự khác biệt về số lượng giữa các thành phố ở từng mức rủi ro, nhưng xét trên góc độ thống kê, sự khác biệt này không đủ mạnh để khẳng định có mối liên hệ thực sự giữa vị trí địa lý và rủi ro tự động hóa.
# Bảng tần suất chéo
tab5 <- table(d$Automation_Risk, d$Remote_Friendly)
prop5 <- prop.table(tab5, margin = 1) # Tỷ lệ theo hàng
tab5
##
## No Yes
## High 84 85
## Low 71 87
## Medium 94 79
ggplot(d, aes(x = Automation_Risk, fill = Remote_Friendly)) +
geom_bar(position = "dodge", color = "black") +
scale_fill_brewer(palette = "Set4") +
labs(
title = "Mức độ rủi ro tự động hóa ảnh hưởng đến khả năng làm việc từ xa",
y = "Số lượng",
fill = "Có hay không"
) +
theme_minimal() +
theme(axis.text.x = element_text(angle = 45, hjust = 1))
Biểu đồ cho thấy mối quan hệ giữa mức độ rủi ro tự động hóa và khả năng làm việc từ xa. Ở nhóm rủi ro thấp, số lượng người có thể làm việc từ xa (Yes) cao hơn rõ rệt so với nhóm không thể (No), cho thấy các công việc ít bị ảnh hưởng bởi tự động hóa thường dễ thực hiện từ xa. Ngược lại, ở nhóm rủi ro trung bình, tỷ lệ người không làm việc từ xa lại cao hơn, còn ở nhóm rủi ro cao, hai nhóm gần như bằng nhau.
Từ biểu đồ có thể rút ra rằng những công việc có rủi ro tự động hóa thấp thường linh hoạt và dễ làm việc từ xa hơn, trong khi các công việc có mức rủi ro cao hoặc trung bình có xu hướng ít gắn với khả năng làm việc từ xa hơn, có thể do mang tính vận hành hoặc cần hiện diện vật lý nhiều hơn.
Giả thuyết kiểm định:
\(H_0\): Automation_Risk và Remote_Friendly là hai biến độc lập.
\(H_1\): Automation_Risk và Remote_Friendly có liên quan.
Thực hiện kiểm định Chi-bình phương
chi_test <- chisq.test(tab5)
chi_test
##
## Pearson's Chi-squared test
##
## data: tab5
## X-squared = 2.9188, df = 2, p-value = 0.2324
Kết quả kiểm định Chi-bình phương giữa mức độ rủi ro tự động hóa và khả năng làm việc từ xa cho thấy:
Giá trị Chi-squared = 2.9188
Bậc tự do = 2
p-value = 0.2324
Vì p-value = 0.2324 > 0.05, ta không bác bỏ giả thuyết \(H_0\), tức là không có mối liên hệ có ý nghĩa thống kê giữa mức độ rủi ro tự động hóa và khả năng làm việc từ xa.
Kết luận: Mặc dù biểu đồ cho thấy một số khác biệt nhẹ giữa các mức rủi ro, nhưng xét về mặt thống kê, sự khác biệt này không đủ mạnh để khẳng định có mối liên hệ thực sự giữa rủi ro tự động hóa và khả năng làm việc từ xa.
# Bảng tần suất chéo
tab6 <- table(d$Automation_Risk, d$AI_Adoption_Level)
prop6 <- prop.table(tab5, margin = 1) # Tỷ lệ theo hàng
tab6
##
## High Low Medium
## High 48 53 68
## Low 43 61 54
## Medium 56 60 57
ggplot(d, aes(x = Automation_Risk, fill = AI_Adoption_Level)) +
geom_bar(position = "dodge", color = "black") +
scale_fill_brewer(palette = "Set2") +
labs(
title = "Mức độ rủi ro ảnh hưởng đến mức độ áp dụng AI",
y = "Số lượng",
fill = "Mức độ"
) +
theme_minimal() +
theme(axis.text.x = element_text(angle = 45, hjust = 1))
Biểu đồ cho thấy mối quan hệ giữa mức độ rủi ro tự động hóa và mức độ áp dụng AI trong công việc. Ở nhóm có rủi ro cao, mức áp dụng AI trung bình chiếm tỷ lệ lớn nhất, tiếp theo là mức thấp, và thấp nhất là mức áp dụng AI cao. Trong khi đó, ở nhóm rủi ro thấp, số lượng cao nhất lại thuộc về mức áp dụng AI thấp, cho thấy những công việc ít bị tự động hóa không nhất thiết phải ứng dụng AI nhiều. Đáng chú ý, nhóm rủi ro trung bình có phân bố khá đồng đều giữa cả ba mức áp dụng AI.
Từ biểu đồ này có thể thấy không có xu hướng rõ ràng cho thấy mức độ rủi ro càng cao thì mức áp dụng AI càng cao hoặc thấp hơn. Sự phân bố khá cân bằng cho thấy mối quan hệ giữa rủi ro tự động hóa và áp dụng AI là phức tạp và có thể phụ thuộc vào các yếu tố khác như loại công việc hoặc ngành nghề.
Giả thuyết kiểm định:
\(H_0\): Automation_Risk và AI_Adoption_Level là hai biến độc lập.
\(H_1\): Automation_Risk và AI_Adoption_Level có liên quan.
Thực hiện kiểm định Chi-bình phương
chi_test <- chisq.test(tab6)
chi_test
##
## Pearson's Chi-squared test
##
## data: tab6
## X-squared = 3.5046, df = 4, p-value = 0.4772
Kết quả kiểm định Chi-bình phương giữa mức độ rủi ro tự động hóa và mức độ áp dụng AI cho thấy:
Giá trị Chi-squared = 3.5046
Bậc tự do = 4
p-value = 0.4772
Vì p-value = 0.4772 > 0.05, ta không bác bỏ giả thuyết H₀, tức là không có mối liên hệ có ý nghĩa thống kê giữa mức độ rủi ro tự động hóa và mức độ áp dụng AI.
Kết luận: Mặc dù biểu đồ có một vài khác biệt nhẹ về phân bố, nhưng xét về mặt thống kê, mức độ áp dụng AI không phụ thuộc đáng kể vào mức độ rủi ro tự động hóa. Nói cách khác, việc công việc có áp dụng AI nhiều hay ít không cho thấy sự khác biệt rõ ràng nào về mức rủi ro tự động hóa.
# Bảng tần số chéo
tab7 <- table(d$Job_Growth_Projection, d$Job_Title)
prop7 <- prop.table(tab7, margin = 1) # Tỷ lệ theo hàng
tab7
##
## AI Researcher Cybersecurity Analyst Data Scientist HR Manager
## Decline 16 19 23 22
## Growth 20 14 22 14
## Stable 15 22 17 21
##
## Marketing Specialist Operations Manager Product Manager Sales Manager
## Decline 23 7 10 16
## Growth 11 19 15 19
## Stable 14 18 14 14
##
## Software Engineer UX Designer
## Decline 12 21
## Growth 16 19
## Stable 13 14
ggplot(d, aes(x = Job_Growth_Projection, fill = Job_Title)) +
geom_bar(position = "dodge", color = "black") +
labs(title = "Phân bố sự tăng trưởng công việc theo chức vụ công việc",
x = "Tốc độ tằng trưởng",
y = "Số lượng",
fill = "Chức vụ công việc") +
theme_minimal() +
theme(axis.text.x = element_text(angle = 45, hjust = 1))
Nhận xét: Biểu đồ thể hiện phân bố tốc độ tăng trưởng công việc theo chức vụ cho thấy sự khác biệt rõ rệt giữa các nhóm nghề nghiệp.
Ở nhóm giảm sút (Decline), các vị trí như Marketing Specialist, HR Manager và Product Manager có số lượng cao nhất, cho thấy những chức vụ này đang đối mặt với nguy cơ thu hẹp hoặc ít nhu cầu tuyển dụng trong tương lai.
Trong khi đó, nhóm tăng trưởng (Growth) nổi bật với các chức danh như Cybersecurity Analyst, Data Scientist và UX Designer, phản ánh xu hướng tăng nhu cầu với các công việc liên quan đến công nghệ, dữ liệu và trải nghiệm người dùng.
Nhóm ổn định (Stable) lại có sự phân bố tương đối đều, nhưng Cybersecurity Analyst tiếp tục duy trì vị trí cao, cho thấy tính ổn định và tiềm năng dài hạn của lĩnh vực này.
Tóm lại, biểu đồ cho thấy các chức danh liên quan đến công nghệ và phân tích dữ liệu đang có xu hướng phát triển mạnh, trong khi những công việc thiên về quản trị hoặc marketing truyền thống có dấu hiệu chững lại hoặc suy giảm.
Giả thuyết kiểm định:
\(H_0\): Job_Growth_Projection và Job_Title là hai biến độc lập.
\(H_1\): Job_Growth_Projection và Job_Title có liên quan.
Thực hiện kiểm định Chi-bình phương
chi_test <- chisq.test(tab7)
chi_test
##
## Pearson's Chi-squared test
##
## data: tab7
## X-squared = 20.153, df = 18, p-value = 0.3243
Kết quả kiểm định Chi-bình phương giữa chức vụ công việc và tốc độ tăng trưởng công việc cho thấy:
Giá trị Chi-squared = 20.153
Bậc tự do = 18
p-value = 0.3243
Vì p-value = 0.3243 > 0.05, ta không bác bỏ giả thuyết H₀, tức là không có mối liên hệ có ý nghĩa thống kê giữa chức vụ và tốc độ tăng trưởng công việc.
Kết luận: Mặc dù biểu đồ cho thấy sự khác biệt về số lượng công việc giữa các nhóm tăng trưởng, giảm sút và ổn định ở từng chức danh, nhưng về mặt thống kê, sự khác biệt này không đủ mạnh để khẳng định có mối quan hệ thực sự giữa chức vụ và tốc độ tăng trưởng công việc.
# Bảng tần suất chéo
tab8 <- table(d$Job_Growth_Projection, d$Industry)
prop8 <- prop.table(tab8, margin = 1) # Tỷ lệ theo hàng
tab8
##
## Education Energy Entertainment Finance Healthcare Manufacturing
## Decline 16 20 18 15 13 27
## Growth 24 12 17 23 15 20
## Stable 17 17 12 15 14 11
##
## Retail Technology Telecommunications Transportation
## Decline 19 19 12 10
## Growth 9 18 17 14
## Stable 18 19 24 15
ggplot(d, aes(x = Job_Growth_Projection, fill = Industry)) +
geom_bar(position = "dodge", color = "black") +
scale_fill_brewer(palette = "Set3") +
labs(
title = " Tốc độ tăng trưởng ảnh hưởng đến nhóm ngành công nghiệp",
x = "Tốc độ tăng trưởng",
y = "Số lượng",
fill = "Nhóm ngành"
) +
theme_minimal() +
theme(axis.text.x = element_text(angle = 45, hjust = 1))
Nhận xét: Biểu đồ thể hiện mối quan hệ giữa tốc độ tăng trưởng công việc và nhóm ngành công nghiệp cho thấy sự phân bố không đồng đều giữa các nhóm ngành theo từng mức tăng trưởng.
Ở nhóm giảm sút (Decline), ngành Manufacturing chiếm tỷ lệ cao nhất, tiếp theo là Energy và Technology, cho thấy các ngành này đang có xu hướng bị thu hẹp hoặc mất dần nhu cầu lao động.
Ngược lại, ở nhóm tăng trưởng (Growth), nổi bật là các ngành như Education, Finance, và Technology, phản ánh xu hướng đầu tư và mở rộng nhân lực trong bối cảnh đổi mới công nghệ và chuyển đổi số.
Trong khi đó, ở nhóm ổn định (Stable), ngành Telecommunications có số lượng cao nhất, cho thấy nhu cầu lao động ổn định và ít biến động hơn so với các ngành khác.
Tóm lại, biểu đồ cho thấy mỗi ngành công nghiệp có mức tăng trưởng lao động khác nhau, trong đó một số ngành truyền thống đang có dấu hiệu suy giảm, trong khi các ngành liên quan đến giáo dục, tài chính và công nghệ đang giữ đà tăng trưởng hoặc ổn định.
Giả thuyết kiểm định:
\(H_0\): Job_Growth_Projection và Industry là hai biến độc lập.
\(H_1\): Job_Growth_Projection và Industry có liên quan.
Thực hiện kiểm định Chi-bình phương
chi_test <- chisq.test(tab8)
chi_test
##
## Pearson's Chi-squared test
##
## data: tab8
## X-squared = 23.535, df = 18, p-value = 0.1709
Kết quả kiểm định Chi-bình phương giữa tốc độ tăng trưởng công việc và nhóm ngành công nghiệp cho thấy:
Giá trị Chi-squared = 23.535
Bậc tự do = 18
p-value = 0.1709
Vì p-value = 0.1709 > 0.05, ta không bác bỏ giả thuyết \(H_0\), tức là không có mối liên hệ có ý nghĩa thống kê giữa tốc độ tăng trưởng công việc và nhóm ngành công nghiệp.
# Bảng tần suất chéo
tab9 <- table(d$Job_Growth_Projection, d$Company_Size)
prop9 <- prop.table(tab9, margin = 1) # Tỷ lệ theo hàng
tab9
##
## Large Medium Small
## Decline 47 57 65
## Growth 59 47 63
## Stable 60 59 43
ggplot(d, aes(x =Job_Growth_Projection, fill = Company_Size)) +
geom_bar(position = "dodge", color = "black") +
scale_fill_brewer(palette = "Set3") +
labs(
title = "Múc độ tăng trưởng công việc ảnh hưởng đến quy mô công ty",
y = "Số lượng",
fill = "Quy mô"
) +
theme_minimal() +
theme(axis.text.x = element_text(angle = 45, hjust = 1))
Giả thuyết kiểm định:
\(H_0\): Job_Growth_Projection và Company_Size là hai biến độc lập.
\(H_1\): Job_Growth_Projection và Company_Size có liên quan.
Thực hiện kiểm định Chi-bình phương
chi_test <- chisq.test(tab9)
chi_test
##
## Pearson's Chi-squared test
##
## data: tab9
## X-squared = 8.4687, df = 4, p-value = 0.07584
Kết quả kiểm định Chi-bình phương:
Giá trị Chi-squared = 8.4687
Bậc tự do (df) = 4
p-value = 0.07584
Vì p-value = 0.07584 > 0.05 nhưng < 0.1, nên ta không bác bỏ giả thuyết H₀ ở mức ý nghĩa 5%, nhưng có thể cân nhắc mối liên hệ yếu ở mức ý nghĩa 10%.
Kết luận: Mối liên hệ giữa hai biến là không đủ mạnh để khẳng định có ý nghĩa thống kê ở mức 5%, nhưng có dấu hiệu gần đạt ngưỡng ý nghĩa, cho thấy có thể tồn tại mối liên hệ yếu giữa hai biến
# Bảng tần suất chéo
tab10 <- table(d$Job_Growth_Projection, d$Location)
prop10 <- prop.table(tab10, margin = 1) # Tỷ lệ theo hàng
tab10
##
## Berlin Dubai London New York Paris San Francisco Singapore Sydney
## Decline 17 21 12 12 20 22 19 17
## Growth 18 14 13 19 9 21 19 19
## Stable 13 16 21 18 17 19 16 16
##
## Tokyo Toronto
## Decline 16 13
## Growth 22 15
## Stable 13 13
ggplot(d, aes(x = Job_Growth_Projection, fill = Location)) +
geom_bar(position = "dodge", color = "black") +
scale_fill_brewer(palette = "Set3") +
labs(
title = "Tốc độ tăng trưởng công việc theo vị trí địa lí",
x = "Tốc độ tăng trưởng",
y = "Số lượng",
fill = "Vị trí địa lí"
) +
theme_minimal() +
theme(axis.text.x = element_text(angle = 45, hjust = 1))
Biểu đồ thể hiện mối quan hệ giữa tốc độ tăng trưởng công việc và vị trí địa lý cho thấy sự phân bố khá đa dạng giữa các thành phố.
Ở nhóm giảm sút (Decline), các thành phố như San Francisco, Dubai và Paris có số lượng công việc giảm nhiều nhất, cho thấy xu hướng thu hẹp ở một số khu vực phát triển.
Ngược lại, nhóm tăng trưởng (Growth) lại nổi bật ở Tokyo, San Francisco, và New York, cho thấy các trung tâm kinh tế lớn vẫn duy trì được đà phát triển và mở rộng nhu cầu nhân lực.
Ở nhóm ổn định (Stable), số lượng công việc tại các thành phố như London, New York và San Francisco tương đối cao, phản ánh mức duy trì tốt về cơ hội việc làm.
Tóm lại, biểu đồ cho thấy sự khác biệt trong tốc độ tăng trưởng công việc giữa các thành phố, với một số trung tâm kinh tế có xu hướng tăng trưởng mạnh, trong khi một số nơi lại có dấu hiệu giảm hoặc giữ ở mức ổn định.
Giả thuyết kiểm định:
\(H_0\): Job_Growth_Projection và Location là hai biến độc lập.
\(H_1\): Job_Growth_Projection và Location có liên quan.
Thực hiện kiểm định Chi-bình phương
chi_test <- chisq.test(tab10)
chi_test
##
## Pearson's Chi-squared test
##
## data: tab10
## X-squared = 14.83, df = 18, p-value = 0.6736
Kết quả kiểm định Chi-bình phương giữa tốc độ tăng trưởng công việc và vị trí địa lý cho thấy:
Chi-squared = 14.83
Bậc tự do (df) = 18
p-value = 0.6736
Vì p-value = 0.6736 > 0.05, ta không bác bỏ giả thuyết \(H_0\), tức là không có mối liên hệ có ý nghĩa thống kê giữa tốc độ tăng trưởng công việc và vị trí địa lý.
# Bảng tần suất chéo
tab11 <- table(d$Job_Growth_Projection, d$Remote_Friendly)
prop11 <- prop.table(tab11, margin = 1) # Tỷ lệ theo hàng
tab11
##
## No Yes
## Decline 87 82
## Growth 85 84
## Stable 77 85
ggplot(d, aes(x = Job_Growth_Projection, fill = Remote_Friendly)) +
geom_bar(position = "dodge", color = "black") +
scale_fill_brewer(palette = "Set4") +
labs(
title = "Tốc độ tăng trưởng công việc ảnh hưởng đến khả năng làm việc từ xa",
y = "Số lượng",
fill = "Có hay không"
) +
theme_minimal() +
theme(axis.text.x = element_text(angle = 45, hjust = 1))
Biểu đồ cho thấy mối quan hệ giữa tốc độ tăng trưởng công việc và khả năng làm việc từ xa. Nhìn chung, số lượng công việc có thể làm từ xa (màu xanh) và không thể làm từ xa (màu xanh nhạt) phân bố khá đều trong cả ba nhóm: Decline (suy giảm), Growth (tăng trưởng) và Stable (ổn định).
Ở nhóm Stable, công việc có thể làm từ xa chiếm tỷ lệ cao hơn rõ rệt so với nhóm không thể làm từ xa, trong khi ở nhóm Decline và Growth, chênh lệch giữa hai nhóm là không lớn. Điều này gợi ý rằng những công việc ổn định có xu hướng linh hoạt hơn trong việc làm từ xa, còn tốc độ tăng trưởng hay suy giảm của công việc dường như không ảnh hưởng quá nhiều đến khả năng làm việc từ xa.
Tóm lại, khả năng làm việc từ xa không khác biệt rõ rệt giữa các nhóm tốc độ tăng trưởng công việc, ngoại trừ nhóm công việc ổn định có phần thuận lợi hơn cho làm việc từ xa.
Giả thuyết kiểm định:
\(H_0\): Job_Growth_Projection và Remote_Friendly là hai biến độc lập.
\(H_1\): Job_Growth_Projection và Remote_Friendly có liên quan.
Thực hiện kiểm định Chi-bình phương
chi_test <- chisq.test(tab11)
chi_test
##
## Pearson's Chi-squared test
##
## data: tab11
## X-squared = 0.54092, df = 2, p-value = 0.763
Kết quả kiểm định Chi-bình phương giữa tốc độ tăng trưởng công việc và khả năng làm việc từ xa:
Chi-squared = 0.54092
Bậc tự do (df) = 2
p-value = 0.763
Vì p-value = 0.763 > 0.05, ta không bác bỏ giả thuyết \(H_0\), tức là không có mối liên hệ có ý nghĩa thống kê giữa tốc độ tăng trưởng công việc và khả năng làm việc từ xa.
Kết luận: Tốc độ tăng trưởng của công việc không ảnh hưởng đáng kể đến việc công việc đó có thể làm từ xa hay không, xét trên phương diện thống kê.
# Bảng tần suất chéo
tab12 <- table(d$Job_Growth_Projection, d$AI_Adoption_Level)
prop12 <- prop.table(tab12, margin = 1) # Tỷ lệ theo hàng
tab12
##
## High Low Medium
## Decline 55 52 62
## Growth 46 61 62
## Stable 46 61 55
ggplot(d, aes(x = Job_Growth_Projection, fill = AI_Adoption_Level)) +
geom_bar(position = "dodge", color = "black") +
scale_fill_brewer(palette = "Set2") +
labs(
title = "Tốc độ tăng trưởng công việc ảnh hưởng đến mức độ áp dụng AI",
y = "Số lượng",
fill = "Mức độ"
) +
theme_minimal() +
theme(axis.text.x = element_text(angle = 45, hjust = 1))
Giả thuyết kiểm định:
\(H_0\): Job_Growth_Projection và AI_Adoption_Level là hai biến độc lập.
\(H_1\): Job_Growth_Projection và AI_Adoption_Level có liên quan.
Thực hiện kiểm định Chi-bình phương
chi_test <- chisq.test(tab12)
chi_test
##
## Pearson's Chi-squared test
##
## data: tab12
## X-squared = 2.3761, df = 4, p-value = 0.667
Kết quả kiểm định Chi-bình phương:
Chi-squared = 2.3761
df = 4
p-value = 0.667
Vì p-value = 0.667 > 0.05, ta không bác bỏ giả thuyết \(H_0\), nghĩa là không có mối liên hệ có ý nghĩa thống kê giữa tốc độ tăng trưởng công việc và mức độ áp dụng AI.
Kết luận: Mức độ áp dụng AI trong công việc không cho thấy sự khác biệt đáng kể giữa các nhóm tốc độ tăng trưởng (giảm, tăng, ổn định). Nói cách khác, việc một công việc đang phát triển hay suy giảm không nhất thiết liên quan đến mức độ áp dụng AI, theo phân tích thống kê.
tab_growth_ai <- table(d$Job_Growth_Projection, d$AI_Adoption_Level)
tab_growth_ai
##
## High Low Medium
## Decline 55 52 62
## Growth 46 61 62
## Stable 46 61 55
oddsratio(table(d$Job_Growth_Projection, d$AI_Adoption_Level))
## $data
##
## High Low Medium Total
## Decline 55 52 62 169
## Growth 46 61 62 169
## Stable 46 61 55 162
## Total 147 174 179 500
##
## $measure
## odds ratio with 95% C.I.
## estimate lower upper
## Decline 1.000000 NA NA
## Growth 1.399638 0.8162035 2.410146
## Stable 1.399638 0.8162035 2.410146
##
## $p.value
## two-sided
## midp.exact fisher.exact chi.square
## Decline NA NA NA
## Growth 0.2220191 0.4839915 0.4679484
## Stable 0.2220191 0.4078194 0.4085336
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "median-unbiased estimate & mid-p exact CI"
Kết quả phân tích odds ratio cho thấy nhóm có xu hướng tăng trưởng công việc (Growth và Stable) có khả năng áp dụng AI ở mức cao cao hơn khoảng 1,4 lần so với nhóm có xu hướng giảm (Decline), với odds ratio đều là 1.399. Tuy nhiên, khoảng tin cậy 95% của các odds ratio này đều chứa giá trị 1 ([0.816; 2.410]), và các giá trị p đều lớn hơn 0.05 (p = 0.468 cho Growth và p = 0.409 cho Stable theo kiểm định Chi-square), cho thấy sự khác biệt này không có ý nghĩa thống kê. Do đó, mặc dù có sự khác biệt về tỷ lệ áp dụng AI giữa các nhóm tăng trưởng công việc, nhưng chưa đủ bằng chứng để khẳng định mối liên hệ có ý nghĩa giữa xu hướng tăng trưởng công việc và mức độ áp dụng AI.
riskratio(tab_growth_ai)
## $data
##
## High Low Medium Total
## Decline 55 52 62 169
## Growth 46 61 62 169
## Stable 46 61 55 162
## Total 147 174 179 500
##
## $measure
## risk ratio with 95% C.I.
## estimate lower upper
## Decline 1.000000 NA NA
## Growth 1.173077 0.9089993 1.513873
## Stable 1.173077 0.9089993 1.513873
##
## $p.value
## two-sided
## midp.exact fisher.exact chi.square
## Decline NA NA NA
## Growth 0.2220191 0.4839915 0.4679484
## Stable 0.2220191 0.4078194 0.4085336
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"
Kết quả phân tích risk ratio (RR) giữa các nhóm tăng trưởng công việc và mức độ áp dụng AI cho thấy, so với nhóm Decline, cả hai nhóm Growth và Stable đều có risk ratio bằng 1.173, tức là nguy cơ (xác suất) xuất hiện mức độ áp dụng AI cao ở nhóm tăng trưởng và ổn định cao hơn khoảng 17,3% so với nhóm suy giảm.
Tuy nhiên, khoảng tin cậy 95% của risk ratio trong cả hai nhóm đều là [0.909; 1.514], bao gồm giá trị 1. Điều này cho thấy sự khác biệt về nguy cơ áp dụng AI giữa các nhóm không có ý nghĩa thống kê. Bên cạnh đó, các giá trị p đều lớn hơn 0.05 (p = 0.468 với nhóm Growth và p = 0.409 với nhóm Stable theo kiểm định Chi-square), cũng củng cố kết luận rằng không có bằng chứng thống kê đủ mạnh để khẳng định sự khác biệt về mức độ áp dụng AI giữa các nhóm tăng trưởng công việc.
tab_growth_remote <- table(d$Job_Growth_Projection, d$Remote_Friendly)
tab_growth_remote
##
## No Yes
## Decline 87 82
## Growth 85 84
## Stable 77 85
oddsratio(table(d$Job_Growth_Projection, d$Remote_Friendly))
## $data
##
## No Yes Total
## Decline 87 82 169
## Growth 85 84 169
## Stable 77 85 162
## Total 249 251 500
##
## $measure
## odds ratio with 95% C.I.
## estimate lower upper
## Decline 1.000000 NA NA
## Growth 1.048298 0.6835194 1.608404
## Stable 1.170466 0.7597544 1.805392
##
## $p.value
## two-sided
## midp.exact fisher.exact chi.square
## Decline NA NA NA
## Growth 0.8287758 0.9133804 0.8277364
## Stable 0.4753458 0.5100349 0.4726204
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "median-unbiased estimate & mid-p exact CI"
Kết quả phân tích odds ratio (OR) giữa ba nhóm tăng trưởng công việc (Decline, Growth, Stable) và khả năng làm việc từ xa (Yes/No) cho thấy như sau:
Nhóm Growth có OR = 1.05 (khoảng tin cậy 95%: [0.684; 1.608]) so với nhóm Decline.
Nhóm Stable có OR = 1.17 (khoảng tin cậy 95%: [0.760; 1.805]) so với nhóm Decline.
Cả hai nhóm đều có p-value > 0.05 (Growth: 0.828; Stable: 0.475), cho thấy không có sự khác biệt có ý nghĩa thống kê.
So với nhóm có xu hướng giảm (Decline), các nhóm có xu hướng tăng trưởng (Growth) và ổn định (Stable) có khả năng làm việc từ xa cao hơn nhẹ, với odds lần lượt tăng khoảng 5% và 17%. Tuy nhiên, các khoảng tin cậy đều chứa giá trị 1 và giá trị p đều lớn hơn 0.05, cho thấy không có mối liên hệ có ý nghĩa thống kê giữa xu hướng tăng trưởng công việc và khả năng làm việc từ xa.
riskratio(tab_growth_remote)
## $data
##
## No Yes Total
## Decline 87 82 169
## Growth 85 84 169
## Stable 77 85 162
## Total 249 251 500
##
## $measure
## risk ratio with 95% C.I.
## estimate lower upper
## Decline 1.000000 NA NA
## Growth 1.024390 0.8245080 1.272729
## Stable 1.081376 0.8734528 1.338795
##
## $p.value
## two-sided
## midp.exact fisher.exact chi.square
## Decline NA NA NA
## Growth 0.8287758 0.9133804 0.8277364
## Stable 0.4753458 0.5100349 0.4726204
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"
So với nhóm Decline, xác suất làm việc từ xa của nhóm Growth cao hơn khoảng 2.4%, còn nhóm Stable cao hơn khoảng 8.1%.
Tuy nhiên, các khoảng tin cậy 95% của RR đều chứa giá trị 1, và các giá trị p đều lớn hơn 0.05, cho thấy:
Không có sự khác biệt có ý nghĩa thống kê về khả năng làm việc từ xa giữa các nhóm tăng trưởng công việc.
tab_growth_com <- table(d$Job_Growth_Projection, d$Company_Size)
tab_growth_com
##
## Large Medium Small
## Decline 47 57 65
## Growth 59 47 63
## Stable 60 59 43
oddsratio(table(d$Job_Growth_Projection, d$Company_Size))
## $data
##
## Large Medium Small Total
## Decline 47 57 65 169
## Growth 59 47 63 169
## Stable 60 59 43 162
## Total 166 163 171 500
##
## $measure
## odds ratio with 95% C.I.
## estimate lower upper
## Decline 1.0000000 NA NA
## Growth 0.6586371 0.3802357 1.134908
## Stable 0.8118693 0.4772123 1.377499
##
## $p.value
## two-sided
## midp.exact fisher.exact chi.square
## Decline NA NA NA
## Growth 0.1327331 0.3168226 0.30862155
## Stable 0.4398777 0.0508574 0.05104671
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "median-unbiased estimate & mid-p exact CI"
So với nhóm Decline, nhóm Growth có odds làm việc tại công ty quy mô lớn thấp hơn khoảng 34% (OR = 0.66), và nhóm Stable thấp hơn khoảng 19% (OR = 0.81).
Tuy nhiên:
Đối với nhóm Growth, khoảng tin cậy 95% bao gồm 1 và p-value = 0.309, cho thấy không có ý nghĩa thống kê.
Đối với nhóm Stable, p-value theo Chi-square là 0.051, gần sát mức ý nghĩa 0.05, nên có thể xem là cận biên (borderline significant) – điều này gợi ý rằng có thể tồn tại sự khác biệt về odds quy mô công ty giữa nhóm Stable và Decline, nhưng chưa đủ mạnh để kết luận chắc chắn.
riskratio(tab_growth_com)
## $data
##
## Large Medium Small Total
## Decline 47 57 65 169
## Growth 59 47 63 169
## Stable 60 59 43 162
## Total 166 163 171 500
##
## $measure
## risk ratio with 95% C.I.
## estimate lower upper
## Decline 1.0000000 NA NA
## Growth 0.8090036 0.6141341 1.065707
## Stable 0.9046145 0.7034124 1.163368
##
## $p.value
## two-sided
## midp.exact fisher.exact chi.square
## Decline NA NA NA
## Growth 0.1327331 0.3168226 0.30862155
## Stable 0.4398777 0.0508574 0.05104671
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"
So với nhóm Decline, khả năng làm việc tại công ty quy mô lớn ở nhóm Growth giảm khoảng 19%, còn ở nhóm Stable giảm khoảng 10%.
Tuy nhiên:
Cả hai nhóm đều có khoảng tin cậy 95% chứa giá trị 1, nên không thể khẳng định có sự khác biệt một cách chắc chắn.
P-value của nhóm Stable = 0.051, rất sát ngưỡng ý nghĩa thống kê 0.05, cho thấy kết quả có xu hướng gần như có ý nghĩa thống kê, nhưng vẫn chưa đủ mạnh để khẳng định chắc chắn.
tab_auto_ai <- table(d$Automation_Risk, d$AI_Adoption_Level)
tab_auto_ai
##
## High Low Medium
## High 48 53 68
## Low 43 61 54
## Medium 56 60 57
oddsratio(table(d$Automation_Risk, d$AI_Adoption_Level))
## $data
##
## High Low Medium Total
## High 48 53 68 169
## Low 43 61 54 158
## Medium 56 60 57 173
## Total 147 174 179 500
##
## $measure
## odds ratio with 95% C.I.
## estimate lower upper
## High 1.0000000 NA NA
## Low 1.2826901 0.7374887 2.237859
## Medium 0.9705379 0.5673265 1.659337
##
## $p.value
## two-sided
## midp.exact fisher.exact chi.square
## High NA NA NA
## Low 0.3781161 0.3499381 0.3543388
## Medium 0.9129735 0.3802007 0.3733461
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "median-unbiased estimate & mid-p exact CI"
So với nhóm rủi ro cao (High), nhóm rủi ro thấp (Low) có odds áp dụng AI cao hơn với OR = 1.283, tuy nhiên khoảng tin cậy 95% là từ 0.737 đến 2.238, nghĩa là bao gồm giá trị 1, nên không có ý nghĩa thống kê.
Tương tự, nhóm rủi ro trung bình (Medium) có OR = 0.971, với khoảng tin cậy 95% là từ 0.567 đến 1.659, cũng bao gồm giá trị 1, nên sự khác biệt này cũng không có ý nghĩa thống kê.
Ngoài ra, cả hai nhóm đều có p-value > 0.05 (Low: p = 0.354; Medium: p = 0.373), củng cố thêm kết luận rằng sự khác biệt là không đáng kể về mặt thống kê.
riskratio(tab_auto_ai)
## $data
##
## High Low Medium Total
## High 48 53 68 169
## Low 43 61 54 158
## Medium 56 60 57 173
## Total 147 174 179 500
##
## $measure
## risk ratio with 95% C.I.
## estimate lower upper
## High 1.0000000 NA NA
## Low 1.1177431 0.8740455 1.429387
## Medium 0.9856864 0.7633321 1.272811
##
## $p.value
## two-sided
## midp.exact fisher.exact chi.square
## High NA NA NA
## Low 0.3781161 0.3499381 0.3543388
## Medium 0.9129735 0.3802007 0.3733461
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"
So với nhóm rủi ro cao (High):
Nhóm rủi ro thấp (Low) có nguy cơ áp dụng AI ở mức cao hơn khoảng 11.8% (RR = 1.118), nhưng khoảng tin cậy 95% là từ 0.874 đến 1.429, bao gồm giá trị 1 ⇒ không có ý nghĩa thống kê.
Nhóm rủi ro trung bình (Medium) có nguy cơ gần tương đương với nhóm High (RR = 0.986), và khoảng tin cậy 95% từ 0.763 đến 1.273, cũng bao gồm giá trị 1 ⇒ không có ý nghĩa thống kê.
Bên cạnh đó, p-value của cả hai nhóm đều lớn hơn 0.05 (Low: p = 0.354, Medium: p = 0.373), càng củng cố rằng sự khác biệt không đáng kể về mặt thống kê.
tab_auto_remote <- table(d$Automation_Risk, d$Remote_Friendly)
tab_auto_remote
##
## No Yes
## High 84 85
## Low 71 87
## Medium 94 79
oddsratio(table(d$Automation_Risk, d$Remote_Friendly))
## $data
##
## No Yes Total
## High 84 85 169
## Low 71 87 158
## Medium 94 79 173
## Total 249 251 500
##
## $measure
## odds ratio with 95% C.I.
## estimate lower upper
## High 1.000000 NA NA
## Low 1.209975 0.7827478 1.873572
## Medium 0.831136 0.5423867 1.271781
##
## $p.value
## two-sided
## midp.exact fisher.exact chi.square
## High NA NA NA
## Low 0.3912054 0.4381129 0.3882582
## Medium 0.3941845 0.4486860 0.3913876
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "median-unbiased estimate & mid-p exact CI"
So với nhóm rủi ro cao (High):
Nhóm rủi ro thấp (Low) có odds làm việc từ xa cao hơn khoảng 21% (OR = 1.210), nhưng khoảng tin cậy 95% từ 0.783 đến 1.874 bao gồm giá trị 1, nên không có ý nghĩa thống kê.
Nhóm rủi ro trung bình (Medium) có odds thấp hơn khoảng 17% (OR = 0.831), nhưng khoảng tin cậy 95% từ 0.542 đến 1.272 cũng chứa giá trị 1, do đó không có ý nghĩa thống kê.
Các giá trị p-value đều > 0.05 (Low: p = 0.388, Medium: p = 0.391), cho thấy không có sự khác biệt đáng kể về khả năng làm việc từ xa giữa các nhóm rủi ro.
riskratio(tab_auto_remote)
## $data
##
## No Yes Total
## High 84 85 169
## Low 71 87 158
## Medium 94 79 173
## Total 249 251 500
##
## $measure
## risk ratio with 95% C.I.
## estimate lower upper
## High 1.0000000 NA NA
## Low 1.0947878 0.8912586 1.344795
## Medium 0.9079225 0.7278255 1.132584
##
## $p.value
## two-sided
## midp.exact fisher.exact chi.square
## High NA NA NA
## Low 0.3912054 0.4381129 0.3882582
## Medium 0.3941845 0.4486860 0.3913876
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"
So với nhóm rủi ro cao (High):
Nhóm rủi ro thấp (Low) có tỷ lệ làm việc từ xa cao hơn khoảng 9.5% (RR = 1.095), tuy nhiên khoảng tin cậy 95% từ 0.891 đến 1.345 bao gồm giá trị 1 → không có ý nghĩa thống kê.
Nhóm rủi ro trung bình (Medium) có tỷ lệ làm việc từ xa thấp hơn khoảng 9.2% (RR = 0.908), với khoảng tin cậy 95% từ 0.728 đến 1.133, cũng bao gồm giá trị 1 → không có ý nghĩa thống kê.
Các p-value đều lớn hơn 0.05 (Low: p = 0.388, Medium: p = 0.391), cho thấy sự khác biệt không đáng kể về mặt thống kê.
tab_auto_com <- table(d$Automation_Risk, d$Company_Size)
tab_auto_com
##
## Large Medium Small
## High 58 52 59
## Low 42 63 53
## Medium 66 48 59
oddsratio(table(d$Automation_Risk, d$Company_Size))
## $data
##
## Large Medium Small Total
## High 58 52 59 169
## Low 42 63 53 158
## Medium 66 48 59 173
## Total 166 163 171 500
##
## $measure
## odds ratio with 95% C.I.
## estimate lower upper
## High 1.0000000 NA NA
## Low 1.6676680 0.9715255 2.881425
## Medium 0.8121938 0.4774580 1.378455
##
## $p.value
## two-sided
## midp.exact fisher.exact chi.square
## High NA NA NA
## Low 0.06360729 0.1718446 0.1679978
## Medium 0.44089432 0.7407420 0.7299963
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "median-unbiased estimate & mid-p exact CI"
So với nhóm rủi ro cao (High):
Nhóm rủi ro thấp (Low) có odds làm việc tại công ty quy mô lớn cao hơn khoảng 66.8% (OR = 1.668). Tuy nhiên, khoảng tin cậy 95% từ 0.972 đến 2.881 bao gồm 1, và p-value = 0.168 > 0.05 → chưa có ý nghĩa thống kê.
Nhóm rủi ro trung bình (Medium) có odds thấp hơn khoảng 18.8% (OR = 0.812), với khoảng tin cậy 95% từ 0.477 đến 1.378, cũng chứa giá trị 1, và p-value = 0.730, nên không có ý nghĩa thống kê.
riskratio(tab_auto_com)
## $data
##
## Large Medium Small Total
## High 58 52 59 169
## Low 42 63 53 158
## Medium 66 48 59 173
## Total 166 163 171 500
##
## $measure
## risk ratio with 95% C.I.
## estimate lower upper
## High 1.0000000 NA NA
## Low 1.2692308 0.9868201 1.632462
## Medium 0.8906883 0.6651138 1.192767
##
## $p.value
## two-sided
## midp.exact fisher.exact chi.square
## High NA NA NA
## Low 0.06360729 0.1718446 0.1679978
## Medium 0.44089432 0.7407420 0.7299963
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"
So với nhóm rủi ro cao (High):
Nhóm rủi ro thấp (Low) có nguy cơ làm việc ở công ty quy mô lớn cao hơn 26.9% (RR = 1.269). Tuy nhiên, khoảng tin cậy 95% từ 0.987 đến 1.632 bao gồm giá trị 1, và p-value = 0.168, nên không có ý nghĩa thống kê.
Nhóm rủi ro trung bình (Medium) có nguy cơ thấp hơn khoảng 11% (RR = 0.891), với khoảng tin cậy từ 0.665 đến 1.193, và p-value = 0.730, nên cũng không có ý nghĩa thống kê.