I. Tìm hiểu và chuẩn bị dữ liệu

1.1 Đọc file dữ liệu vào R

d <- read_excel("C:/Users/Dell/OneDrive - UFM/Desktop/du lieu t2.xlsx")
datatable(d)

Bộ dữ liệu “ai_job_market_insights” bao gồm 8 biến và 500 quan sát, tập trung phản ánh tình hình thị trường việc làm trong bối cảnh trí tuệ nhân tạo (AI) đang được ứng dụng ngày càng rộng rãi. Dữ liệu bao gồm thông tin về chức danh công việc, ngành nghề, quy mô công ty, vị trí địa lý, mức độ áp dụng AI, rủi ro tự động hóa, khả năng làm việc từ xa và dự báo về xu hướng tăng trưởng của công việc đó.

Mô tả chi tiết các biến:

Job_Title (Chức danh công việc): Biến này cho biết tên gọi cụ thể của vị trí công việc, bao gồm như:

AI Researcher – Nhà nghiên cứu trí tuệ nhân tạo

Cybersecurity Analyst – Chuyên viên phân tích an ninh mạng

Marketing Specialist – Chuyên viên tiếp thị

Sales Manager – Quản lý bán hàng

Industry (Ngành công nghiệp): Cho biết lĩnh vực hoặc ngành nghề mà công việc đó thuộc về, bao gồm:

Technology – Công nghệ

Entertainment – Giải trí

Retail – Bán lẻ

Healthcare – Y tế

Finance – Tài chính, ngân hàng

Company_Size (Quy mô công ty): Biến này thể hiện quy mô tổ chức nơi công việc được tuyển dụng, chia thành:

Small – Doanh nghiệp nhỏ

Medium – Doanh nghiệp vừa

Large – Doanh nghiệp lớn

Location (Vị trí địa lý): Cho biết địa điểm làm việc, có thể là tên thành phố hoặc quốc gia. Ví dụ:

Singapore – Singapore

Tokyo – Tokyo, Nhật Bản

Dubai – Dubai, UAE

Berlin – Berlin, Đức

AI_Adoption_Level (Mức độ áp dụng AI): Phản ánh mức độ mà công việc sử dụng hoặc tích hợp công nghệ AI, được phân loại:

Low – Thấp

Medium – Trung bình

High – Cao

Automation_Risk (Rủi ro tự động hóa): Mức độ mà công việc có thể bị thay thế bởi máy móc hoặc phần mềm tự động:

Low – Rủi ro thấp

Medium – Rủi ro trung bình

High – Rủi ro cao

Remote_Friendly (Khả năng làm việc từ xa): Chỉ ra liệu công việc đó có thể được thực hiện từ xa hay không:

Yes – Có thể làm việc từ xa

No – Không thể làm việc từ xa

Job_Growth_Projection (Dự báo tăng trưởng công việc): Phản ánh xu hướng thay đổi số lượng việc làm trong tương lai:

Growth – Tăng trưởng (số lượng công việc được dự báo sẽ tăng)

Decline – Suy giảm (công việc có xu hướng bị thu hẹp)

1.2. Hiển thị cấu trúc của dữ liệu

# Hiển thị cấu trúc của dữ liệu
str(d)

## tibble [500 × 8] (S3: tbl_df/tbl/data.frame)
##  $ Job_Title            : chr [1:500] "Cybersecurity Analyst" "Marketing Specialist" "AI Researcher" "Sales Manager" ...
##  $ Industry             : chr [1:500] "Entertainment" "Technology" "Technology" "Retail" ...
##  $ Company_Size         : chr [1:500] "Small" "Large" "Large" "Small" ...
##  $ Location             : chr [1:500] "Dubai" "Singapore" "Singapore" "Berlin" ...
##  $ AI_Adoption_Level    : chr [1:500] "Medium" "Medium" "Medium" "Low" ...
##  $ Automation_Risk      : chr [1:500] "High" "High" "High" "High" ...
##  $ Remote_Friendly      : chr [1:500] "Yes" "No" "Yes" "No" ...
##  $ Job_Growth_Projection: chr [1:500] "Growth" "Decline" "Growth" "Growth" ...

Kích thước dữ liệu: Bộ dữ liệu gồm 500 dòng (quan sát) và 8 cột (biến), định dạng theo kiểu tibble, thường được sử dụng trong R để xử lý dữ liệu một cách hiện đại và hiệu quả.

Kiểu dữ liệu: Tất cả các biến đều có kiểu chuỗi ký tự (character / chr), cho thấy rằng toàn bộ dữ liệu là dữ liệu phân loại (categorical), không có biến số lượng (numeric) trong bộ dữ liệu này, phản ánh các khía cạnh khác nhau của thị trường việc làm liên quan đến AI như chức danh công việc, ngành nghề, quy mô công ty, vị trí địa lý, mức độ áp dụng AI, rủi ro tự động hóa, khả năng làm việc từ xa và dự báo tăng trưởng nghề nghiệp.

1.3. Hiển thị một vài dòng đầu và cuối của dữ liệu

# Hiển thị một vài dòng đầu tiên
head(d,6)

## # A tibble: 6 × 8
##   Job_Title     Industry Company_Size Location AI_Adoption_Level Automation_Risk
##   <chr>         <chr>    <chr>        <chr>    <chr>             <chr>          
## 1 Cybersecurit… Enterta… Small        Dubai    Medium            High           
## 2 Marketing Sp… Technol… Large        Singapo… Medium            High           
## 3 AI Researcher Technol… Large        Singapo… Medium            High           
## 4 Sales Manager Retail   Small        Berlin   Low               High           
## 5 Cybersecurit… Enterta… Small        Tokyo    Low               Low            
## 6 UX Designer   Educati… Large        San Fra… Medium            Medium         
## # ℹ 2 more variables: Remote_Friendly <chr>, Job_Growth_Projection <chr>

# Hiển thị một vài dòng cuối cùng
tail(d,6)

## # A tibble: 6 × 8
##   Job_Title     Industry Company_Size Location AI_Adoption_Level Automation_Risk
##   <chr>         <chr>    <chr>        <chr>    <chr>             <chr>          
## 1 Sales Manager Transpo… Medium       Tokyo    Medium            High           
## 2 Data Scienti… Telecom… Medium       Berlin   Low               Medium         
## 3 Cybersecurit… Telecom… Small        London   Low               High           
## 4 Cybersecurit… Energy   Large        Dubai    High              Low            
## 5 Operations M… Healthc… Large        Paris    High              Low            
## 6 HR Manager    Enterta… Medium       Berlin   Medium            High           
## # ℹ 2 more variables: Remote_Friendly <chr>, Job_Growth_Projection <chr>

1.4. Kiểm tra xem có giá trị thiếu (NA) trong các cột định tính

# Kiểm tra giá trị thiếu (NA) trong các cột định tính
qual_cols <- c("Job_Title", "Industry", "Company_Size", "Location", 
               "AI_Adoption_Level", "Automation_Risk", "Remote_Friendly", "Job_Growth_Projection")

# Kiểm tra NA theo cột định tính
colSums(is.na(d[qual_cols]))

##             Job_Title              Industry          Company_Size 
##                     0                     0                     0 
##              Location     AI_Adoption_Level       Automation_Risk 
##                     0                     0                     0 
##       Remote_Friendly Job_Growth_Projection 
##                     0                     0

# Hàm tính mode
get_mode <- function(x) {
  ux <- unique(x[!is.na(x)])
  ux[which.max(tabulate(match(x, ux)))]
}

Kết quả trả về từ đoạn mã cho thấy rằng không có giá trị thiếu (NA) trong bất kỳ cột định tính nào thuộc danh sách qual_cols, bao gồm các biến như “Job_Title”, “Industry”, “Company_Size”, “Location”, “AI_Adoption_Level”, “Automation_Risk”, “Remote_Friendly”, “Job_Growth_Projection”. Tất cả các cột đều có tổng số NA bằng 0, điều này chứng tỏ dữ liệu định tính đang đầy đủ và sạch, không cần thực hiện thao tác thay thế giá trị thiếu. Việc kiểm tra điều kiện trước khi thay thế là một thực hành tốt, giúp đảm bảo tính toàn vẹn và tránh thay đổi không cần thiết đối với dữ liệu.

1.5. Chuyển đổi các biến cần thiết sang kiểu factor

# Chuyển đổi các cột cần thiết sang factor nếu chưa phải
for (col in qual_cols) {
  if (!is.factor(d[[col]])) {
    d[[col]] <- as.factor(d[[col]])
  }
}

# Kiểm tra lại cấu trúc sau khi chuyển đổi
str(d)

## tibble [500 × 8] (S3: tbl_df/tbl/data.frame)
##  $ Job_Title            : Factor w/ 10 levels "AI Researcher",..: 2 5 1 8 2 10 4 2 1 8 ...
##  $ Industry             : Factor w/ 10 levels "Education","Energy",..: 3 8 8 7 3 1 4 8 7 3 ...
##  $ Company_Size         : Factor w/ 3 levels "Large","Medium",..: 3 1 1 3 3 1 2 3 1 2 ...
##  $ Location             : Factor w/ 10 levels "Berlin","Dubai",..: 2 7 7 1 9 6 7 2 3 7 ...
##  $ AI_Adoption_Level    : Factor w/ 3 levels "High","Low","Medium": 3 3 3 2 2 3 2 3 1 1 ...
##  $ Automation_Risk      : Factor w/ 3 levels "High","Low","Medium": 1 1 1 1 2 3 1 2 2 2 ...
##  $ Remote_Friendly      : Factor w/ 2 levels "No","Yes": 2 1 2 1 2 1 2 2 1 2 ...
##  $ Job_Growth_Projection: Factor w/ 3 levels "Decline","Growth",..: 2 1 2 2 1 2 2 1 3 1 ...

Dữ liệu gồm 500 quan sát với 8 biến, trong đó nhiều biến định tính đã được đưa về dạng factor. Việc chuyển các biến như “Job_Title”, “Industry”, “Company_Size”, “Location”, “AI_Adoption_Level”, “Automation_Risk”, “Remote_Friendly”, “Job_Growth_Projection” sang dạng factor là hoàn toàn hợp lý. Điều này giúp biểu diễn rõ ràng các biến phân loại, hỗ trợ hiệu quả cho các bước phân tích thống kê, mô hình hóa cũng như trực quan hóa dữ liệu. Ngoài ra, factor còn giúp tiết kiệm bộ nhớ hơn so với chuỗi ký tự khi xử lý các giá trị lặp lại.

II. Phân tích mô tả một biến định tính

2.1. Biến Job_Title

table(d$Job_Title)

## 
##         AI Researcher Cybersecurity Analyst        Data Scientist 
##                    51                    55                    62 
##            HR Manager  Marketing Specialist    Operations Manager 
##                    57                    48                    44 
##       Product Manager         Sales Manager     Software Engineer 
##                    39                    49                    41 
##           UX Designer 
##                    54

tmp <- table(d$Job_Title)/sum(nrow(d))
tmp

## 
##         AI Researcher Cybersecurity Analyst        Data Scientist 
##                 0.102                 0.110                 0.124 
##            HR Manager  Marketing Specialist    Operations Manager 
##                 0.114                 0.096                 0.088 
##       Product Manager         Sales Manager     Software Engineer 
##                 0.078                 0.098                 0.082 
##           UX Designer 
##                 0.108

# Tính tần suất và phần trăm
df_Job_Title <- d %>%
  count(Job_Title) %>%
  mutate(prop = n / sum(n),
         pct = paste0(round(prop * 100), "%"))

ggplot(df_Job_Title, aes(x = Job_Title, y = n, fill = Job_Title)) +
  geom_bar(stat = "identity", width = 0.6, color = "black") +  # Viền đen quanh cột
  scale_fill_brewer(palette = "Set3") +
  geom_text(aes(label = pct), vjust = -0.3, size = 3) +  # Hiển thị % trên cột
  labs(title = "Biểu đồ cột về phân bố chức danh công việc", x = "Job_Title", y = "Frequency") +
  theme_minimal(base_size = 14) +
  theme(
    legend.position = "none",
    axis.text.x = element_text(angle = 45, hjust = 1, vjust = 1, face = "italic")  # xoay 45 độ + nghiêng
  )

Bộ dữ liệu bao gồm nhiều chức danh công việc đa dạng trong lĩnh vực công nghệ và quản trị. Trong số đó, Data Scientist chiếm tỷ lệ cao nhất với 12%, tiếp theo là HR Manager, Cybersecurity Analyst, và UX Designer, mỗi nhóm chiếm khoảng 11%. Các chức danh còn lại như AI Researcher, Marketing Specialist, Sales Manager và Operations Manager có tỷ lệ dao động từ 9–10%. Hai chức danh có tỷ lệ thấp nhất là Product Manager và Software Engineer, đều ở mức 8%.

Nhìn chung, tỷ lệ phân bố giữa các chức danh khá đồng đều, không có sự chênh lệch quá lớn. Điều này cho thấy bộ dữ liệu được phân bổ tương đối cân bằng giữa các loại hình công việc, giúp tạo điều kiện thuận lợi cho việc phân tích so sánh giữa các vị trí nghề nghiệp trong lĩnh vực liên quan đến AI và công nghệ.

2.2. Biến Industry

table(d$Industry)

## 
##          Education             Energy      Entertainment            Finance 
##                 57                 49                 47                 53 
##         Healthcare      Manufacturing             Retail         Technology 
##                 42                 58                 46                 56 
## Telecommunications     Transportation 
##                 53                 39

tmp <- table(d$Industry)/sum(nrow(d))
tmp

## 
##          Education             Energy      Entertainment            Finance 
##              0.114              0.098              0.094              0.106 
##         Healthcare      Manufacturing             Retail         Technology 
##              0.084              0.116              0.092              0.112 
## Telecommunications     Transportation 
##              0.106              0.078

# Tính tần suất và phần trăm
df_Industry <- d %>%
  count(Industry) %>%
  mutate(prop = n / sum(n),
         pct = paste0(round(prop * 100), "%"))

ggplot(df_Industry, aes(x = Industry, y = n, fill = Industry)) +
  geom_bar(stat = "identity", width = 0.6, color = "black") +  # Viền đen quanh cột
  scale_fill_brewer(palette = "Set3") +
  geom_text(aes(label = pct), vjust = -0.3, size = 3) +  # Hiển thị % trên cột
  labs(title = "Biểu đồ cột về phân bố các ngành lĩnh vực công nghiệp", x = "Industry", y = "Frequency") +
  theme_minimal(base_size = 14) +
  theme(
    legend.position = "none",
    axis.text.x = element_text(angle = 45, hjust = 1, vjust = 1, face = "italic")  # xoay 45 độ + nghiêng
  )

Biểu đồ cho thấy sự phân bố khá đồng đều giữa các ngành công nghiệp, với Manufacturing chiếm tỷ lệ cao nhất (12%), tiếp theo là các ngành Education, Finance, Technology và Telecommunications (cùng 11%). Ngành có tỷ lệ thấp nhất là Healthcare và Transportation (cùng 8%). Điều này phản ánh sự đa dạng trong phân bổ nguồn lực hoặc công việc giữa các lĩnh vực.

2.3. Biến Company_Size

table(d$Company_Size)

## 
##  Large Medium  Small 
##    166    163    171

tmp <- table(d$Company_Size)/sum(nrow(d))
tmp

## 
##  Large Medium  Small 
##  0.332  0.326  0.342

df_company <- d %>%
  count(Company_Size) %>%
  mutate(Percent = round(100 * n / sum(n), 2))

ggplot(df_company, aes(x = "", y = n, fill = Company_Size)) +
  geom_bar(stat = "identity", width = 1, color = "black") +  # Viền đen
  coord_polar("y", start = 0) +
  theme_void(base_size = 12) +
  scale_fill_brewer(palette = "Set2") +  # Bảng màu tự động đẹp
  labs(title = "Biểu đồ tròn về quy mô công ty") +
  geom_text(aes(label = paste0(Percent, "%")), position = position_stack(vjust = 0.5)) +
  theme(
    plot.title = element_text(face = "bold", hjust = 0.5)
  )

Biểu đồ tròn cho thấy quy mô công ty được phân bổ khá đồng đều. Nhóm công ty nhỏ chiếm tỷ lệ cao nhất với 34.2%, tiếp theo là công ty lớn (33.2%) và công ty vừa (32.6%). Điều này cho thấy dữ liệu được thu thập từ nhiều loại hình doanh nghiệp với quy mô khác nhau, không có sự chênh lệch lớn giữa các nhóm.

2.4. Biến Location

table(d$Location)

## 
##        Berlin         Dubai        London      New York         Paris 
##            48            51            46            49            46 
## San Francisco     Singapore        Sydney         Tokyo       Toronto 
##            62            54            52            51            41

tmp <- table(d$Location)/sum(nrow(d))
tmp

## 
##        Berlin         Dubai        London      New York         Paris 
##         0.096         0.102         0.092         0.098         0.092 
## San Francisco     Singapore        Sydney         Tokyo       Toronto 
##         0.124         0.108         0.104         0.102         0.082

# Tính tần suất và phần trăm
df_locate <- d %>%
  count(Location) %>%
  mutate(prop = n / sum(n),
         pct = paste0(round(prop * 100), "%"))

ggplot(df_locate, aes(x = Location, y = n, fill = Location)) +
  geom_bar(stat = "identity", width = 0.6, color = "black") +  # Viền đen quanh cột
  scale_fill_brewer(palette = "Set1") +
  geom_text(aes(label = pct), vjust = -0.3, size = 3) +  # Hiển thị % trên cột
  labs(title = "Biểu đồ cột về phân bố địa điểm làm việc", x = "Location", y = "Frequency") +
  theme_minimal(base_size = 14) +
  theme(
    legend.position = "none",
    axis.text.x = element_text(angle = 45, hjust = 1, vjust = 1, face = "italic")  # xoay 45 độ + nghiêng
  )

Biểu đồ cho thấy địa điểm làm việc được phân bổ tương đối đồng đều giữa các thành phố. San Francisco chiếm tỷ lệ cao nhất với 12%, tiếp theo là Singapore (11%). Các thành phố như Berlin, Dubai, New York, Sydney và Tokyo đều ở mức 10%, trong khi London và Paris chiếm 9%. Toronto có tỷ lệ thấp nhất với 8%. Điều này phản ánh sự phân bổ khá đa dạng nhưng không chênh lệch lớn giữa các khu vực địa lý.

2.5. Biến AI_Adoption_Level

table(d$AI_Adoption_Level)

## 
##   High    Low Medium 
##    147    174    179

tmp <- table(d$AI_Adoption_Level)/sum(nrow(d))
tmp

## 
##   High    Low Medium 
##  0.294  0.348  0.358

df_ai <- d %>%
  count(AI_Adoption_Level) %>%
  mutate(Percent = round(100 * n / sum(n), 2))

ggplot(df_ai, aes(x = "", y = n, fill = AI_Adoption_Level)) +
  geom_bar(stat = "identity", width = 1, color = "black") + 
  coord_polar("y", start = 0) +
  theme_void(base_size = 12) +
  scale_fill_brewer(palette = "Set1") +  
  labs(title = "Biểu đồ tròn về mức độ áp dụng AI trong doanh nghiệp") +
  geom_text(aes(label = paste0(Percent, "%")), position = position_stack(vjust = 0.5)) +
  theme(
    plot.title = element_text(face = "bold", hjust = 0.5)
  )

Biểu đồ cho thấy mức độ áp dụng AI trong doanh nghiệp chủ yếu ở mức trung bình (35.8%) và thấp (34.8%), trong khi mức độ áp dụng cao chiếm tỷ lệ thấp nhất (29.4%). Điều này phản ánh rằng phần lớn doanh nghiệp đang ở giai đoạn đầu hoặc đang trong quá trình chuyển đổi áp dụng AI.

2.6. Biến Automation_Risk

table(d$Automation_Risk)

## 
##   High    Low Medium 
##    169    158    173

tmp <- table(d$Automation_Risk)/sum(nrow(d))
tmp

## 
##   High    Low Medium 
##  0.338  0.316  0.346

df_ar<- d %>%
  count(Automation_Risk) %>%
  mutate(Percent = round(100 * n / sum(n), 2))

ggplot(df_ar, aes(x = "", y = n, fill = Automation_Risk)) +
  geom_bar(stat = "identity", width = 1, color = "black") + 
  coord_polar("y", start = 0) +
  theme_void(base_size = 12) +
  scale_fill_brewer(palette = "Set4") +  
  labs(title = "Biểu đồ tròn về rủi ro tự động hóa") +
  geom_text(aes(label = paste0(Percent, "%")), position = position_stack(vjust = 0.5)) +
  theme(
    plot.title = element_text(face = "bold", hjust = 0.5)
  )

Biểu đồ cho thấy rủi ro tự động hóa được phân bố khá đồng đều giữa các mức: rủi ro trung bình chiếm cao nhất (34.6%), tiếp theo là rủi ro cao (33.8%) và thấp nhất là rủi ro thấp (31.6%). Điều này cho thấy tự động hóa ảnh hưởng đến doanh nghiệp ở nhiều mức độ khác nhau, không tập trung vào một nhóm cụ thể.

2.7. Biến Remote_Friendly

table(d$Remote_Friendly)

## 
##  No Yes 
## 249 251

tmp <- table(d$Remote_Friendly)/sum(nrow(d))
tmp

## 
##    No   Yes 
## 0.498 0.502

df_rf<- d %>%
  count(Remote_Friendly) %>%
  mutate(Percent = round(100 * n / sum(n), 2))

ggplot(df_rf, aes(x = "", y = n, fill = Remote_Friendly)) +
  geom_bar(stat = "identity", width = 1, color = "black") + 
  coord_polar("y", start = 0) +
  theme_void(base_size = 12) +
  scale_fill_brewer(palette = "Set3") +  
  labs(title = "Biểu đồ tròn về khả năng làm việc từ xa") +
  geom_text(aes(label = paste0(Percent, "%")), position = position_stack(vjust = 0.5)) +
  theme(
    plot.title = element_text(face = "bold", hjust = 0.5)
  )

Biểu đồ cho thấy có 49.8% người không thể làm việc từ xa và 50.2% người có thể làm việc từ xa.

2.8. Biến Job_Growth_Projection

table(d$Job_Growth_Projection)

## 
## Decline  Growth  Stable 
##     169     169     162

tmp <- table(d$Job_Growth_Projection)/sum(nrow(d))
tmp

## 
## Decline  Growth  Stable 
##   0.338   0.338   0.324

# Tính tần suất và phần trăm
df_growth <- d %>%
  count(Job_Growth_Projection) %>%
  mutate(prop = n / sum(n),
         pct = paste0(round(prop * 100), "%"))

ggplot(df_growth, aes(x = Job_Growth_Projection, y = n, fill = Job_Growth_Projection)) +
  geom_bar(stat = "identity", width = 0.6, color = "black") +  # Viền đen quanh cột
  scale_fill_brewer(palette = "Set3") +
  geom_text(aes(label = pct), vjust = -0.3, size = 3) +  # Hiển thị % trên cột
  labs(title = "Biểu đồ cột về khả năng tăng trưởng công việc", x = "Job_Growth_Projection", y = "Frequency") +
  theme_minimal(base_size = 14) +
  theme(
    legend.position = "none",
    axis.text.x = element_text(angle = 45, hjust = 1, vjust = 1, face = "italic")  # xoay 45 độ + nghiêng
  )

Biểu đồ phản ánh rằng khả năng tăng trưởng công việc trong tương lai đang ở mức không rõ ràng và phân hóa, khi tỷ lệ giữa ba nhóm tăng trưởng, ổn định và suy giảm gần như tương đương nhau. Cụ thể:

34% công việc dự báo tăng trưởng, cho thấy vẫn có cơ hội mở rộng việc làm trong một số lĩnh vực.

32% được đánh giá ổn định, cho thấy nhiều ngành nghề có xu hướng duy trì trạng thái hiện tại.

34% dự báo suy giảm, phản ánh nguy cơ mất việc hoặc thu hẹp quy mô ở nhiều ngành do các yếu tố như tự động hóa hoặc chuyển dịch công nghệ.

Biểu đồ cho thấy thị trường việc làm đang trong trạng thái bất định, và đòi hỏi người lao động cần linh hoạt thích nghi với những thay đổi, đặc biệt là trong bối cảnh chuyển đổi số và tự động hóa.

III. Ước lượng khoảng và kiểm định giả thuyết cho tỷ lệ (một biến)

3.1. Xác định hạng mục quan tâm

“Small” trong Company_Size, “High” trong Automation_Risk, “Yes” trong Remote_Friendly

3.2. Ước lượng khoảng tin cậy và kiểm định giả thuyết

3.2.1. Company_Size – Hạng mục quan tâm: “Small” – H0: tỷ lệ = 0.5

# Đếm số lượng công ty có quy mô nhỏ 
n_small <- sum(d$Company_Size == "Small")

#Tổng số quan sát
n_total <- nrow(d)

#Tính khoảng tin cậy 95% cho tỷ lệ quy mô nhỏ 
prop.test(n_small, n_total, correct = FALSE)

## 
##  1-sample proportions test without continuity correction
## 
## data:  n_small out of n_total, null probability 0.5
## X-squared = 49.928, df = 1, p-value = 1.595e-12
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
##  0.3017655 0.3846438
## sample estimates:
##     p 
## 0.342

Kiểm định giả thuyết

Đặt giả thuyết:

\(H_0\): Tỷ lệ công ty quy mô nhỏ = 0.5
\(H_1\): Tỷ lệ công ty quy mô nhỏ ≠ 0.5

Ý nghĩa: Với độ tin cậy 95%, ta có thể kết luận rằng tỷ lệ quy mô nhỏ trong tổng số quy mô rơi vào khoảng từ 30,17% đến 38,46%.

3.2.2. Automation_Risk – Hạng mục quan tâm: “High” – H0: tỷ lệ = 0.6

# Đếm số lượng mức độ rủi ro tự động hóa  
n_high <- sum(d$Automation_Risk == "High")

#Tổng số quan sát
n_total <- nrow(d)

#Tính khoảng tin cậy 95% cho tỷ lệ quy mô nhỏ 
prop.test(n_high, n_total, correct = FALSE)

## 
##  1-sample proportions test without continuity correction
## 
## data:  n_high out of n_total, null probability 0.5
## X-squared = 52.488, df = 1, p-value = 4.329e-13
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
##  0.2979130 0.3805573
## sample estimates:
##     p 
## 0.338

Ý nghĩa: Với độ tin cậy 95%, ta có thể kết luận rằng mức độ rủi ro cao trong tổng số mức độ rủi ro tự động hóa rơi vào khoảng từ 29,79% đến 38,05%.

Kiểm định giả thuyết

Đặt giả thuyết:

\(H_0\): Tỷ lệ mức độ rủi ro cao = 0.6
\(H_1\): Tỷ lệ mức độ rủi ro cao ≠ 0.6

prop.test(n_high, n_total, p=0.6, correct = FALSE)

## 
##  1-sample proportions test without continuity correction
## 
## data:  n_high out of n_total, null probability 0.6
## X-squared = 143.01, df = 1, p-value < 2.2e-16
## alternative hypothesis: true p is not equal to 0.6
## 95 percent confidence interval:
##  0.2979130 0.3805573
## sample estimates:
##     p 
## 0.338

Kết quả kiểm định cho thấy giá trị p-value: < 2.2e-16 (rất nhỏ, gần bằng 0).Với mức ý nghĩa 5%, do p-value rất nhỏ (< 0.05), nên ta bác bỏ giả thuyết \(H_0\). Điều này cho thấy tỷ lệ thực sự khác biệt đáng kể so với giá trị giả định là 0.6.

3.2.3. Remote_Friendly – Hạng mục quan tâm: “Yes” – H0: tỷ lệ = 0.5

# Đếm số lượng có thể làm việc từ xa  
n_yes <- sum(d$Remote_Friendly  == "Yes")

#Tổng số quan sát
n_total <- nrow(d)

#Tính khoảng tin cậy 95% cho tỷ lệ quy mô nhỏ 
prop.test(n_yes, n_total, correct = FALSE)

## 
##  1-sample proportions test without continuity correction
## 
## data:  n_yes out of n_total, null probability 0.5
## X-squared = 0.008, df = 1, p-value = 0.9287
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
##  0.4583264 0.5456431
## sample estimates:
##     p 
## 0.502

Ý nghĩa: Với độ tin cậy 95%, ta có thể kết luận rằng người có thể làm việc từ xa trong tổng số người làm việc rơi vào khoảng từ 45,83% đến 54,56%.

Kiểm định giả thuyết

Đặt giả thuyết:

\(H_0\): Tỷ lệ người có thể làm việc từ xa = 0.5
\(H_1\): Tỷ lệ người có thể làm việc từ xa ≠ 0.5

prop.test(n_yes, n_total, p=0.5, correct = FALSE)

## 
##  1-sample proportions test without continuity correction
## 
## data:  n_yes out of n_total, null probability 0.5
## X-squared = 0.008, df = 1, p-value = 0.9287
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
##  0.4583264 0.5456431
## sample estimates:
##     p 
## 0.502

Với mức ý nghĩa 5%, do p-value = 0.9287 > 0.05, nên ta không bác bỏ giả thuyết \(H_0\).

IV. Phân tích mối quan hệ giữa biến độc lập và phụ thuộc

4.1. Biến Automation_Risk và Job_Title

4.1.1. Bảng tần suất chéo

# Bảng tần số chéo
tab1 <- table(d$Automation_Risk, d$Job_Title)
prop1 <- prop.table(tab1, margin = 1)  # Tỷ lệ theo hàng
tab1

##         
##          AI Researcher Cybersecurity Analyst Data Scientist HR Manager
##   High              20                    23             17         15
##   Low               15                    21             25         16
##   Medium            16                    11             20         26
##         
##          Marketing Specialist Operations Manager Product Manager Sales Manager
##   High                     17                 10              16            20
##   Low                      10                 18              12            18
##   Medium                   21                 16              11            11
##         
##          Software Engineer UX Designer
##   High                  15          16
##   Low                   13          10
##   Medium                13          28

4.1.2. Trực quan hóa

ggplot(d, aes(x = Automation_Risk, fill = Job_Title)) +
  geom_bar(position = "dodge", color = "black") +
  labs(title = "Phân bố mức độ rủi ro theo chức vụ công việc", 
       x = "Mức độ rủi ro tự động hóa", 
       y = "Số lượng", 
       fill = "Chức vụ công việc") +
  theme_minimal() +
  theme(axis.text.x = element_text(angle = 45, hjust = 1))

Nhận xét: Biểu đồ cho thấy các công việc như Data Scientist, Cybersecurity Analyst và HR Manager chủ yếu rơi vào nhóm rủi ro thấp do yêu cầu kỹ năng chuyên môn cao, khó thay thế. Ngược lại, Sales Manager và Product Manager có tỷ lệ cao ở mức rủi ro cao, phản ánh khả năng dễ bị tự động hóa. UX Designer nổi bật ở mức rủi ro trung bình. Nhìn chung, công việc càng mang tính sáng tạo, phân tích thì càng ít bị ảnh hưởng bởi tự động hóa.

4.1.3. Kiểm định Thống kê (Kiểm định Chi-bình phương)

Giả thuyết kiểm định:

\(H_0\): Automation_Risk và Job_Title là hai biến độc lập.
\(H_1\): Automation_Risk và Job_Title có liên quan.

Thực hiện kiểm định Chi-bình phương

chi_test <- chisq.test(tab1)
chi_test

## 
##  Pearson's Chi-squared test
## 
## data:  tab1
## X-squared = 29.495, df = 18, p-value = 0.04265

Kết quả kiểm định Chi-bình phương giữa hai biến mức độ rủi ro và chức vụ công việc cho thấy giá trị p = 0.04265 < 0.05, vì vậy có thể kết luận rằng giữa mức độ rủi ro tự động hóa và chức vụ công việc tồn tại mối liên hệ có ý nghĩa thống kê; nói cách khác, mức độ rủi ro không phân bố đồng đều giữa các chức vụ mà có sự khác biệt rõ rệt tùy theo từng loại công việc.

4.2. Biến Automation_Risk và Industry

4.2.1. Bảng tần suất chéo

# Bảng tần suất chéo
tab2 <- table(d$Automation_Risk, d$Industry)
prop2 <- prop.table(tab2, margin = 1)  # Tỷ lệ theo hàng
tab2

##         
##          Education Energy Entertainment Finance Healthcare Manufacturing Retail
##   High          22     17            18      17         11            19     11
##   Low           16     18            17      16         14            16     16
##   Medium        19     14            12      20         17            23     19
##         
##          Technology Telecommunications Transportation
##   High           17                 18             19
##   Low            17                 17             11
##   Medium         22                 18              9

4.2.2. Trực quan hóa

ggplot(d, aes(x = Automation_Risk, fill = Industry)) +
  geom_bar(position = "dodge", color = "black") +
  scale_fill_brewer(palette = "Set3") +  
  labs(
    title = " Phân bố mức độ rủi ro theo nhóm ngành công nghiệp",
    x = "Mức độ",
    y = "Số lượng",
    fill = "Ngành"
  ) +
  theme_minimal() +
  theme(axis.text.x = element_text(angle = 45, hjust = 1))

Nhận xét: Biểu đồ thể hiện mối quan hệ giữa mức độ rủi ro tự động hóa và các nhóm ngành công nghiệp cho thấy sự phân hóa khá rõ rệt. Một số ngành như Technology và Retail có số lượng lớn lao động rơi vào nhóm rủi ro trung bình, cho thấy các ngành này đang chịu ảnh hưởng rõ nét từ tự động hóa nhưng vẫn giữ vai trò nhất định của con người trong quy trình. Trong khi đó, ngành Education có số lượng cao nhất ở nhóm rủi ro cao, có thể phản ánh áp lực thay đổi trong phương pháp giảng dạy và ứng dụng công nghệ.

Ngược lại, các ngành như Healthcare, Finance, và Telecommunications lại có phân bố khá đồng đều hoặc nghiêng về mức rủi ro thấp và trung bình, cho thấy những ngành này vẫn cần nhiều yếu tố con người, kỹ năng chuyên môn hoặc xử lý tình huống thực tế, khó bị thay thế hoàn toàn.

Tóm lại, biểu đồ cho thấy mức độ rủi ro tự động hóa thay đổi đáng kể giữa các nhóm ngành, trong đó các ngành có tính lặp lại cao hoặc dễ tiêu chuẩn hóa thường có rủi ro cao hơn, trong khi những ngành yêu cầu tư duy, chuyên môn sâu hoặc tương tác con người lại an toàn hơn trước làn sóng tự động hóa.

4.2.3. Kiểm định Chi-bình phương

Giả thuyết kiểm định:

\(H_0\): Automation_Risk và Industry là hai biến độc lập.
\(H_1\): Automation_Risk và Industry có liên quan.

Thực hiện kiểm định Chi-bình phương

chi_test <- chisq.test(tab2)
chi_test

## 
##  Pearson's Chi-squared test
## 
## data:  tab2
## X-squared = 12.307, df = 18, p-value = 0.831

Kết quả kiểm định Chi-bình phương giữa hai biến mức độ rủi ro tự động hóa và nhóm ngành công nghiệp cho thấy:

Giá trị Chi-squared = 12.307

Bậc tự do = 18

Giá trị p = 0.831

Vì p-value = 0.831 > 0.05, ta không bác bỏ giả thuyết \(H_0\), tức là không có bằng chứng thống kê cho thấy mối liên hệ giữa mức độ rủi ro và ngành công nghiệp.

Kết luận: Mức độ rủi ro tự động hóa không khác biệt đáng kể giữa các nhóm ngành, tức là dù thuộc ngành nào thì phân bố rủi ro cao, trung bình hay thấp là tương đối giống nhau và không có sự phụ thuộc rõ ràng vào ngành nghề.

4.3. Biến Automation_Risk và Company_Size

4.3.1. Bảng tần suất chéo

# Bảng tần suất chéo
tab3 <- table(d$Automation_Risk, d$Company_Size)
prop3 <- prop.table(tab3, margin = 1)  # Tỷ lệ theo hàng
tab3

##         
##          Large Medium Small
##   High      58     52    59
##   Low       42     63    53
##   Medium    66     48    59

4.3.2. Trực quan hóa

ggplot(d, aes(x =Automation_Risk, fill = Company_Size)) +
  geom_bar(position = "dodge", color = "black") +
  scale_fill_brewer(palette = "Set3") +  
  labs(
    title = "Phân bố mức độ rủi ro tự động hóa theo quy mô công ty",
    y = "Số lượng",
    fill = "Quy mô"
  ) +
  theme_minimal() +
  theme(axis.text.x = element_text(hjust = 0.5))

Biểu đồ cho thấy mối quan hệ giữa mức độ rủi ro tự động hóa và quy mô công ty có sự khác biệt rõ rệt giữa các nhóm.

Cụ thể, ở mức rủi ro thấp, các công ty quy mô vừa chiếm tỷ lệ cao nhất, trong khi công ty lớn lại chiếm tỷ lệ thấp nhất. Ở mức rủi ro trung bình, công ty lớn có số lượng nhân sự nhiều nhất, còn công ty vừa thì thấp nhất. Ở mức rủi ro cao, ba nhóm quy mô có số lượng tương đối đồng đều, nhưng công ty nhỏ và lớn nhỉnh hơn công ty vừa.

Từ biểu đồ có thể thấy rằng các công ty lớn có xu hướng đối mặt với mức rủi ro trung bình nhiều hơn, trong khi các công ty vừa lại tập trung nhiều ở mức rủi ro thấp. Điều này gợi ý rằng quy mô công ty có thể liên quan đến mức độ rủi ro tự động hóa, với các công ty lớn có thể đầu tư nhiều vào tự động hóa nhưng cũng duy trì nhân lực trong những công việc chưa thể thay thế hoàn toàn.

4.3.3. Kiểm định Chi-bình phương

Giả thuyết kiểm định:

\(H_0\): Automation_Risk và Company_Size là hai biến độc lập.
\(H_1\): Automation_Risk và Company_Size có liên quan.

Thực hiện kiểm định Chi-bình phương

chi_test <- chisq.test(tab3)
chi_test

## 
##  Pearson's Chi-squared test
## 
## data:  tab3
## X-squared = 7.4585, df = 4, p-value = 0.1136

Kết quả kiểm định Chi-bình phương giữa mức độ rủi ro tự động hóa và quy mô công ty cho thấy:

Giá trị Chi-squared = 7.4585

Bậc tự do = 4

p-value = 0.1136

Vì p-value = 0.1136 > 0.05, ta không bác bỏ giả thuyết \(H_0\), tức là không có mối liên hệ có ý nghĩa thống kê giữa mức độ rủi ro tự động hóa và quy mô công ty.

Kết luận: Mặc dù biểu đồ cho thấy một vài khác biệt giữa các nhóm quy mô, nhưng xét về mặt thống kê, mức độ rủi ro không thay đổi rõ rệt theo quy mô công ty; nói cách khác, sự khác biệt là không đủ mạnh để khẳng định có mối liên hệ thực sự giữa hai biến này.

4.4. Cặp biến Automation_Risk và Location

4.4.1. Bảng tần suất chéo

# Bảng tần suất chéo
tab4 <- table(d$Automation_Risk, d$Location)
prop4 <- prop.table(tab4, margin = 1)  # Tỷ lệ theo hàng
tab4

##         
##          Berlin Dubai London New York Paris San Francisco Singapore Sydney
##   High       12    14     20       17    12            24        23     17
##   Low        16    20     17       10    16            17        12     20
##   Medium     20    17      9       22    18            21        19     15
##         
##          Tokyo Toronto
##   High      15      15
##   Low       15      15
##   Medium    21      11

4.4.2. Trực quan hóa

ggplot(d, aes(x = Automation_Risk, fill = Location)) +
  geom_bar(position = "dodge", color = "black") +
  scale_fill_brewer(palette = "Set3") +  
  labs(
    title = "Phân bố mức độ rủi ro theo vị trí địa lí làm việc",
    y = "Số lượng",
    fill = "Vị trí"
  ) +
  theme_minimal() +
  theme(axis.text.x = element_text(angle = 45, hjust = 1))

Biểu đồ thể hiện phân bố mức độ rủi ro tự động hóa theo vị trí địa lý làm việc cho thấy sự khác biệt rõ rệt giữa các thành phố. Ở nhóm rủi ro cao, San Francisco và Singapore có số lượng cao nhất, cho thấy lao động tại hai thành phố này đối mặt với nguy cơ bị thay thế bởi tự động hóa nhiều hơn. Ngược lại, New York và Singapore có số lượng lao động thấp nhất ở nhóm rủi ro thấp, điều này củng cố nhận định rằng các công việc tại đây có thể mang tính kỹ thuật hoặc quy trình cao, dễ bị tự động hóa.

Trong khi đó, các thành phố như Sydney, Tokyo và Berlin lại có số lượng đáng kể ở mức rủi ro trung bình, cho thấy tình hình khá cân bằng – vừa có khả năng tự động hóa, nhưng vẫn giữ vai trò quan trọng của con người.

Tóm lại, biểu đồ cho thấy mức độ rủi ro tự động hóa phân bố không đồng đều giữa các vị trí địa lý. Một số thành phố có xu hướng tập trung nhiều công việc dễ bị tự động hóa hơn so với các nơi khác, phản ánh đặc điểm ngành nghề, mức độ phát triển công nghệ hoặc chiến lược chuyển đổi số tại từng khu vực.

4.4.3. Kiểm định Chi-bình phương

Giả thuyết kiểm định:

\(H_0\): Automation_Risk và Location là hai biến độc lập.
\(H_1\): Automation_Risk và Location có liên quan.

Thực hiện kiểm định Chi-bình phương

chi_test <- chisq.test(tab4)
chi_test

## 
##  Pearson's Chi-squared test
## 
## data:  tab4
## X-squared = 19.756, df = 18, p-value = 0.3467

Kết quả kiểm định Chi-bình phương giữa mức độ rủi ro tự động hóa và vị trí địa lý làm việc cho thấy:

Giá trị Chi-squared = 19.756

Bậc tự do = 18

p-value = 0.3467

Vì p-value = 0.3467 > 0.05, ta không bác bỏ giả thuyết \(H_0\), tức là không có mối liên hệ có ý nghĩa thống kê giữa mức độ rủi ro tự động hóa và địa điểm làm việc.

Kết luận: Dù biểu đồ cho thấy sự khác biệt về số lượng giữa các thành phố ở từng mức rủi ro, nhưng xét trên góc độ thống kê, sự khác biệt này không đủ mạnh để khẳng định có mối liên hệ thực sự giữa vị trí địa lý và rủi ro tự động hóa.

4.5. Cặp biến Automation_Risk và Remote_Friendly

4.5.1. Bảng tần suất chéo

# Bảng tần suất chéo
tab5 <- table(d$Automation_Risk, d$Remote_Friendly)
prop5 <- prop.table(tab5, margin = 1)  # Tỷ lệ theo hàng
tab5

##         
##          No Yes
##   High   84  85
##   Low    71  87
##   Medium 94  79

4.5.2. Trực quan hóa

ggplot(d, aes(x = Automation_Risk, fill = Remote_Friendly)) +
  geom_bar(position = "dodge", color = "black") +
  scale_fill_brewer(palette = "Set4") +  
  labs(
    title = "Mức độ rủi ro tự động hóa ảnh hưởng đến khả năng làm việc từ xa",
    y = "Số lượng",
    fill = "Có hay không"
  ) +
  theme_minimal() +
  theme(axis.text.x = element_text(angle = 45, hjust = 1))

Biểu đồ cho thấy mối quan hệ giữa mức độ rủi ro tự động hóa và khả năng làm việc từ xa. Ở nhóm rủi ro thấp, số lượng người có thể làm việc từ xa (Yes) cao hơn rõ rệt so với nhóm không thể (No), cho thấy các công việc ít bị ảnh hưởng bởi tự động hóa thường dễ thực hiện từ xa. Ngược lại, ở nhóm rủi ro trung bình, tỷ lệ người không làm việc từ xa lại cao hơn, còn ở nhóm rủi ro cao, hai nhóm gần như bằng nhau.

Từ biểu đồ có thể rút ra rằng những công việc có rủi ro tự động hóa thấp thường linh hoạt và dễ làm việc từ xa hơn, trong khi các công việc có mức rủi ro cao hoặc trung bình có xu hướng ít gắn với khả năng làm việc từ xa hơn, có thể do mang tính vận hành hoặc cần hiện diện vật lý nhiều hơn.

4.5.3. Kiểm định Chi-bình phương

Giả thuyết kiểm định:

\(H_0\): Automation_Risk và Remote_Friendly là hai biến độc lập.
\(H_1\): Automation_Risk và Remote_Friendly có liên quan.

Thực hiện kiểm định Chi-bình phương

chi_test <- chisq.test(tab5)
chi_test

## 
##  Pearson's Chi-squared test
## 
## data:  tab5
## X-squared = 2.9188, df = 2, p-value = 0.2324

Kết quả kiểm định Chi-bình phương giữa mức độ rủi ro tự động hóa và khả năng làm việc từ xa cho thấy:

Giá trị Chi-squared = 2.9188

Bậc tự do = 2

p-value = 0.2324

Vì p-value = 0.2324 > 0.05, ta không bác bỏ giả thuyết \(H_0\), tức là không có mối liên hệ có ý nghĩa thống kê giữa mức độ rủi ro tự động hóa và khả năng làm việc từ xa.

Kết luận: Mặc dù biểu đồ cho thấy một số khác biệt nhẹ giữa các mức rủi ro, nhưng xét về mặt thống kê, sự khác biệt này không đủ mạnh để khẳng định có mối liên hệ thực sự giữa rủi ro tự động hóa và khả năng làm việc từ xa.

4.6. Cặp biến Automation_Risk và AI_Adoption_Level

4.6.1. Bảng tần suất chéo

# Bảng tần suất chéo
tab6 <- table(d$Automation_Risk, d$AI_Adoption_Level)
prop6 <- prop.table(tab5, margin = 1)  # Tỷ lệ theo hàng
tab6

##         
##          High Low Medium
##   High     48  53     68
##   Low      43  61     54
##   Medium   56  60     57

4.6.2. Trực quan hóa

ggplot(d, aes(x = Automation_Risk, fill = AI_Adoption_Level)) +
  geom_bar(position = "dodge", color = "black") +
  scale_fill_brewer(palette = "Set2") +  
  labs(
    title = "Mức độ rủi ro ảnh hưởng đến mức độ áp dụng AI",
    y = "Số lượng",
    fill = "Mức độ"
  ) +
  theme_minimal() +
  theme(axis.text.x = element_text(angle = 45, hjust = 1))

Biểu đồ cho thấy mối quan hệ giữa mức độ rủi ro tự động hóa và mức độ áp dụng AI trong công việc. Ở nhóm có rủi ro cao, mức áp dụng AI trung bình chiếm tỷ lệ lớn nhất, tiếp theo là mức thấp, và thấp nhất là mức áp dụng AI cao. Trong khi đó, ở nhóm rủi ro thấp, số lượng cao nhất lại thuộc về mức áp dụng AI thấp, cho thấy những công việc ít bị tự động hóa không nhất thiết phải ứng dụng AI nhiều. Đáng chú ý, nhóm rủi ro trung bình có phân bố khá đồng đều giữa cả ba mức áp dụng AI.

Từ biểu đồ này có thể thấy không có xu hướng rõ ràng cho thấy mức độ rủi ro càng cao thì mức áp dụng AI càng cao hoặc thấp hơn. Sự phân bố khá cân bằng cho thấy mối quan hệ giữa rủi ro tự động hóa và áp dụng AI là phức tạp và có thể phụ thuộc vào các yếu tố khác như loại công việc hoặc ngành nghề.

4.6.3. Kiểm định Chi-bình phương

Giả thuyết kiểm định:

\(H_0\): Automation_Risk và AI_Adoption_Level là hai biến độc lập.
\(H_1\): Automation_Risk và AI_Adoption_Level có liên quan.

Thực hiện kiểm định Chi-bình phương

chi_test <- chisq.test(tab6)
chi_test

## 
##  Pearson's Chi-squared test
## 
## data:  tab6
## X-squared = 3.5046, df = 4, p-value = 0.4772

Kết quả kiểm định Chi-bình phương giữa mức độ rủi ro tự động hóa và mức độ áp dụng AI cho thấy:

Giá trị Chi-squared = 3.5046

Bậc tự do = 4

p-value = 0.4772

Vì p-value = 0.4772 > 0.05, ta không bác bỏ giả thuyết H₀, tức là không có mối liên hệ có ý nghĩa thống kê giữa mức độ rủi ro tự động hóa và mức độ áp dụng AI.

Kết luận: Mặc dù biểu đồ có một vài khác biệt nhẹ về phân bố, nhưng xét về mặt thống kê, mức độ áp dụng AI không phụ thuộc đáng kể vào mức độ rủi ro tự động hóa. Nói cách khác, việc công việc có áp dụng AI nhiều hay ít không cho thấy sự khác biệt rõ ràng nào về mức rủi ro tự động hóa.

4.7. Biến Job_Growth_Projection và Job_Title

4.7.1. Bảng tần suất chéo

# Bảng tần số chéo
tab7 <- table(d$Job_Growth_Projection, d$Job_Title)
prop7 <- prop.table(tab7, margin = 1)  # Tỷ lệ theo hàng
tab7

##          
##           AI Researcher Cybersecurity Analyst Data Scientist HR Manager
##   Decline            16                    19             23         22
##   Growth             20                    14             22         14
##   Stable             15                    22             17         21
##          
##           Marketing Specialist Operations Manager Product Manager Sales Manager
##   Decline                   23                  7              10            16
##   Growth                    11                 19              15            19
##   Stable                    14                 18              14            14
##          
##           Software Engineer UX Designer
##   Decline                12          21
##   Growth                 16          19
##   Stable                 13          14

4.7.2. Trực quan hóa

ggplot(d, aes(x = Job_Growth_Projection, fill = Job_Title)) +
  geom_bar(position = "dodge", color = "black") +
  labs(title = "Phân bố sự tăng trưởng công việc theo chức vụ công việc", 
       x = "Tốc độ tằng trưởng", 
       y = "Số lượng", 
       fill = "Chức vụ công việc") +
  theme_minimal() +
  theme(axis.text.x = element_text(angle = 45, hjust = 1))

Nhận xét: Biểu đồ thể hiện phân bố tốc độ tăng trưởng công việc theo chức vụ cho thấy sự khác biệt rõ rệt giữa các nhóm nghề nghiệp.

Ở nhóm giảm sút (Decline), các vị trí như Marketing Specialist, HR Manager và Product Manager có số lượng cao nhất, cho thấy những chức vụ này đang đối mặt với nguy cơ thu hẹp hoặc ít nhu cầu tuyển dụng trong tương lai.

Trong khi đó, nhóm tăng trưởng (Growth) nổi bật với các chức danh như Cybersecurity Analyst, Data Scientist và UX Designer, phản ánh xu hướng tăng nhu cầu với các công việc liên quan đến công nghệ, dữ liệu và trải nghiệm người dùng.

Nhóm ổn định (Stable) lại có sự phân bố tương đối đều, nhưng Cybersecurity Analyst tiếp tục duy trì vị trí cao, cho thấy tính ổn định và tiềm năng dài hạn của lĩnh vực này.

Tóm lại, biểu đồ cho thấy các chức danh liên quan đến công nghệ và phân tích dữ liệu đang có xu hướng phát triển mạnh, trong khi những công việc thiên về quản trị hoặc marketing truyền thống có dấu hiệu chững lại hoặc suy giảm.

4.7.3. Kiểm định Thống kê (Kiểm định Chi-bình phương)

Giả thuyết kiểm định:

\(H_0\): Job_Growth_Projection và Job_Title là hai biến độc lập.
\(H_1\): Job_Growth_Projection và Job_Title có liên quan.

Thực hiện kiểm định Chi-bình phương

chi_test <- chisq.test(tab7)
chi_test

## 
##  Pearson's Chi-squared test
## 
## data:  tab7
## X-squared = 20.153, df = 18, p-value = 0.3243

Kết quả kiểm định Chi-bình phương giữa chức vụ công việc và tốc độ tăng trưởng công việc cho thấy:

Giá trị Chi-squared = 20.153

Bậc tự do = 18

p-value = 0.3243

Vì p-value = 0.3243 > 0.05, ta không bác bỏ giả thuyết H₀, tức là không có mối liên hệ có ý nghĩa thống kê giữa chức vụ và tốc độ tăng trưởng công việc.

Kết luận: Mặc dù biểu đồ cho thấy sự khác biệt về số lượng công việc giữa các nhóm tăng trưởng, giảm sút và ổn định ở từng chức danh, nhưng về mặt thống kê, sự khác biệt này không đủ mạnh để khẳng định có mối quan hệ thực sự giữa chức vụ và tốc độ tăng trưởng công việc.

4.8. Biến Job_Growth_Projection và Industry

4.8.1. Bảng tần suất chéo

# Bảng tần suất chéo
tab8 <- table(d$Job_Growth_Projection, d$Industry)
prop8 <- prop.table(tab8, margin = 1)  # Tỷ lệ theo hàng
tab8

##          
##           Education Energy Entertainment Finance Healthcare Manufacturing
##   Decline        16     20            18      15         13            27
##   Growth         24     12            17      23         15            20
##   Stable         17     17            12      15         14            11
##          
##           Retail Technology Telecommunications Transportation
##   Decline     19         19                 12             10
##   Growth       9         18                 17             14
##   Stable      18         19                 24             15

4.8.2. Trực quan hóa

ggplot(d, aes(x = Job_Growth_Projection, fill = Industry)) +
  geom_bar(position = "dodge", color = "black") +
  scale_fill_brewer(palette = "Set3") +  
  labs(
    title = " Tốc độ tăng trưởng ảnh hưởng đến nhóm ngành công nghiệp",
    x = "Tốc độ tăng trưởng",
    y = "Số lượng",
    fill = "Nhóm ngành"
  ) +
  theme_minimal() +
  theme(axis.text.x = element_text(angle = 45, hjust = 1))

Nhận xét: Biểu đồ thể hiện mối quan hệ giữa tốc độ tăng trưởng công việc và nhóm ngành công nghiệp cho thấy sự phân bố không đồng đều giữa các nhóm ngành theo từng mức tăng trưởng.

Ở nhóm giảm sút (Decline), ngành Manufacturing chiếm tỷ lệ cao nhất, tiếp theo là Energy và Technology, cho thấy các ngành này đang có xu hướng bị thu hẹp hoặc mất dần nhu cầu lao động.

Ngược lại, ở nhóm tăng trưởng (Growth), nổi bật là các ngành như Education, Finance, và Technology, phản ánh xu hướng đầu tư và mở rộng nhân lực trong bối cảnh đổi mới công nghệ và chuyển đổi số.

Trong khi đó, ở nhóm ổn định (Stable), ngành Telecommunications có số lượng cao nhất, cho thấy nhu cầu lao động ổn định và ít biến động hơn so với các ngành khác.

Tóm lại, biểu đồ cho thấy mỗi ngành công nghiệp có mức tăng trưởng lao động khác nhau, trong đó một số ngành truyền thống đang có dấu hiệu suy giảm, trong khi các ngành liên quan đến giáo dục, tài chính và công nghệ đang giữ đà tăng trưởng hoặc ổn định.

4.8.3. Kiểm định Chi-bình phương

Giả thuyết kiểm định:

\(H_0\): Job_Growth_Projection và Industry là hai biến độc lập.
\(H_1\): Job_Growth_Projection và Industry có liên quan.

Thực hiện kiểm định Chi-bình phương

chi_test <- chisq.test(tab8)
chi_test

## 
##  Pearson's Chi-squared test
## 
## data:  tab8
## X-squared = 23.535, df = 18, p-value = 0.1709

Kết quả kiểm định Chi-bình phương giữa tốc độ tăng trưởng công việc và nhóm ngành công nghiệp cho thấy:

Giá trị Chi-squared = 23.535

Bậc tự do = 18

p-value = 0.1709

Vì p-value = 0.1709 > 0.05, ta không bác bỏ giả thuyết \(H_0\), tức là không có mối liên hệ có ý nghĩa thống kê giữa tốc độ tăng trưởng công việc và nhóm ngành công nghiệp.

4.9. Biến Job_Growth_Projection và Company_Size

4.9.1. Bảng tần suất chéo

# Bảng tần suất chéo
tab9 <- table(d$Job_Growth_Projection, d$Company_Size)
prop9 <- prop.table(tab9, margin = 1)  # Tỷ lệ theo hàng
tab9

##          
##           Large Medium Small
##   Decline    47     57    65
##   Growth     59     47    63
##   Stable     60     59    43

4.9.2. Trực quan hóa

ggplot(d, aes(x =Job_Growth_Projection, fill = Company_Size)) +
  geom_bar(position = "dodge", color = "black") +
  scale_fill_brewer(palette = "Set3") +  
  labs(
    title = "Múc độ tăng trưởng công việc ảnh hưởng đến quy mô công ty",
    y = "Số lượng",
    fill = "Quy mô"
  ) +
  theme_minimal() +
  theme(axis.text.x = element_text(angle = 45, hjust = 1))

4.9.3. Kiểm định Chi-bình phương

Giả thuyết kiểm định:

\(H_0\): Job_Growth_Projection và Company_Size là hai biến độc lập.
\(H_1\): Job_Growth_Projection và Company_Size có liên quan.

Thực hiện kiểm định Chi-bình phương

chi_test <- chisq.test(tab9)
chi_test

## 
##  Pearson's Chi-squared test
## 
## data:  tab9
## X-squared = 8.4687, df = 4, p-value = 0.07584

Kết quả kiểm định Chi-bình phương:

Giá trị Chi-squared = 8.4687

Bậc tự do (df) = 4

p-value = 0.07584

Vì p-value = 0.07584 > 0.05 nhưng < 0.1, nên ta không bác bỏ giả thuyết H₀ ở mức ý nghĩa 5%, nhưng có thể cân nhắc mối liên hệ yếu ở mức ý nghĩa 10%.

Kết luận: Mối liên hệ giữa hai biến là không đủ mạnh để khẳng định có ý nghĩa thống kê ở mức 5%, nhưng có dấu hiệu gần đạt ngưỡng ý nghĩa, cho thấy có thể tồn tại mối liên hệ yếu giữa hai biến

4.10. Cặp biến Job_Growth_Projection và Location

4.10.1. Bảng tần suất chéo

# Bảng tần suất chéo
tab10 <- table(d$Job_Growth_Projection, d$Location)
prop10 <- prop.table(tab10, margin = 1)  # Tỷ lệ theo hàng
tab10

##          
##           Berlin Dubai London New York Paris San Francisco Singapore Sydney
##   Decline     17    21     12       12    20            22        19     17
##   Growth      18    14     13       19     9            21        19     19
##   Stable      13    16     21       18    17            19        16     16
##          
##           Tokyo Toronto
##   Decline    16      13
##   Growth     22      15
##   Stable     13      13

4.10.2. Trực quan hóa

ggplot(d, aes(x = Job_Growth_Projection, fill = Location)) +
  geom_bar(position = "dodge", color = "black") +
  scale_fill_brewer(palette = "Set3") +  
  labs(
    title = "Tốc độ tăng trưởng công việc theo vị trí địa lí",
    x = "Tốc độ tăng trưởng",
    y = "Số lượng",
    fill = "Vị trí địa lí"
  ) +
  theme_minimal() +
  theme(axis.text.x = element_text(angle = 45, hjust = 1))

Biểu đồ thể hiện mối quan hệ giữa tốc độ tăng trưởng công việc và vị trí địa lý cho thấy sự phân bố khá đa dạng giữa các thành phố.

Ở nhóm giảm sút (Decline), các thành phố như San Francisco, Dubai và Paris có số lượng công việc giảm nhiều nhất, cho thấy xu hướng thu hẹp ở một số khu vực phát triển.

Ngược lại, nhóm tăng trưởng (Growth) lại nổi bật ở Tokyo, San Francisco, và New York, cho thấy các trung tâm kinh tế lớn vẫn duy trì được đà phát triển và mở rộng nhu cầu nhân lực.

Ở nhóm ổn định (Stable), số lượng công việc tại các thành phố như London, New York và San Francisco tương đối cao, phản ánh mức duy trì tốt về cơ hội việc làm.

Tóm lại, biểu đồ cho thấy sự khác biệt trong tốc độ tăng trưởng công việc giữa các thành phố, với một số trung tâm kinh tế có xu hướng tăng trưởng mạnh, trong khi một số nơi lại có dấu hiệu giảm hoặc giữ ở mức ổn định.

4.10.3. Kiểm định Chi-bình phương

Giả thuyết kiểm định:

\(H_0\): Job_Growth_Projection và Location là hai biến độc lập.
\(H_1\): Job_Growth_Projection và Location có liên quan.

Thực hiện kiểm định Chi-bình phương

chi_test <- chisq.test(tab10)
chi_test

## 
##  Pearson's Chi-squared test
## 
## data:  tab10
## X-squared = 14.83, df = 18, p-value = 0.6736

Kết quả kiểm định Chi-bình phương giữa tốc độ tăng trưởng công việc và vị trí địa lý cho thấy:

Chi-squared = 14.83

Bậc tự do (df) = 18

p-value = 0.6736

Vì p-value = 0.6736 > 0.05, ta không bác bỏ giả thuyết \(H_0\), tức là không có mối liên hệ có ý nghĩa thống kê giữa tốc độ tăng trưởng công việc và vị trí địa lý.

4.11. Cặp biến Job_Growth_Projection và Remote_Friendly

4.11.1. Bảng tần suất chéo

# Bảng tần suất chéo
tab11 <- table(d$Job_Growth_Projection, d$Remote_Friendly)
prop11 <- prop.table(tab11, margin = 1)  # Tỷ lệ theo hàng
tab11

##          
##           No Yes
##   Decline 87  82
##   Growth  85  84
##   Stable  77  85

4.11.2. Trực quan hóa

ggplot(d, aes(x = Job_Growth_Projection, fill = Remote_Friendly)) +
  geom_bar(position = "dodge", color = "black") +
  scale_fill_brewer(palette = "Set4") +  
  labs(
    title = "Tốc độ tăng trưởng công việc ảnh hưởng đến khả năng làm việc từ xa",
    y = "Số lượng",
    fill = "Có hay không"
  ) +
  theme_minimal() +
  theme(axis.text.x = element_text(angle = 45, hjust = 1))

Biểu đồ cho thấy mối quan hệ giữa tốc độ tăng trưởng công việc và khả năng làm việc từ xa. Nhìn chung, số lượng công việc có thể làm từ xa (màu xanh) và không thể làm từ xa (màu xanh nhạt) phân bố khá đều trong cả ba nhóm: Decline (suy giảm), Growth (tăng trưởng) và Stable (ổn định).

Ở nhóm Stable, công việc có thể làm từ xa chiếm tỷ lệ cao hơn rõ rệt so với nhóm không thể làm từ xa, trong khi ở nhóm Decline và Growth, chênh lệch giữa hai nhóm là không lớn. Điều này gợi ý rằng những công việc ổn định có xu hướng linh hoạt hơn trong việc làm từ xa, còn tốc độ tăng trưởng hay suy giảm của công việc dường như không ảnh hưởng quá nhiều đến khả năng làm việc từ xa.

Tóm lại, khả năng làm việc từ xa không khác biệt rõ rệt giữa các nhóm tốc độ tăng trưởng công việc, ngoại trừ nhóm công việc ổn định có phần thuận lợi hơn cho làm việc từ xa.

4.11.3. Kiểm định Chi-bình phương

Giả thuyết kiểm định:

\(H_0\): Job_Growth_Projection và Remote_Friendly là hai biến độc lập.
\(H_1\): Job_Growth_Projection và Remote_Friendly có liên quan.

Thực hiện kiểm định Chi-bình phương

chi_test <- chisq.test(tab11)
chi_test

## 
##  Pearson's Chi-squared test
## 
## data:  tab11
## X-squared = 0.54092, df = 2, p-value = 0.763

Kết quả kiểm định Chi-bình phương giữa tốc độ tăng trưởng công việc và khả năng làm việc từ xa:

Chi-squared = 0.54092

Bậc tự do (df) = 2

p-value = 0.763

Vì p-value = 0.763 > 0.05, ta không bác bỏ giả thuyết \(H_0\), tức là không có mối liên hệ có ý nghĩa thống kê giữa tốc độ tăng trưởng công việc và khả năng làm việc từ xa.

Kết luận: Tốc độ tăng trưởng của công việc không ảnh hưởng đáng kể đến việc công việc đó có thể làm từ xa hay không, xét trên phương diện thống kê.

4.12. Cặp biến Job_Growth_Projection và AI_Adoption_Level

4.12.1. Bảng tần suất chéo

# Bảng tần suất chéo
tab12 <- table(d$Job_Growth_Projection, d$AI_Adoption_Level)
prop12 <- prop.table(tab12, margin = 1)  # Tỷ lệ theo hàng
tab12

##          
##           High Low Medium
##   Decline   55  52     62
##   Growth    46  61     62
##   Stable    46  61     55

4.12.2. Trực quan hóa

ggplot(d, aes(x = Job_Growth_Projection, fill = AI_Adoption_Level)) +
  geom_bar(position = "dodge", color = "black") +
  scale_fill_brewer(palette = "Set2") +  
  labs(
    title = "Tốc độ tăng trưởng công việc ảnh hưởng đến mức độ áp dụng AI",
    y = "Số lượng",
    fill = "Mức độ"
  ) +
  theme_minimal() +
  theme(axis.text.x = element_text(angle = 45, hjust = 1))

4.12.3. Kiểm định Chi-bình phương

Giả thuyết kiểm định:

\(H_0\): Job_Growth_Projection và AI_Adoption_Level là hai biến độc lập.
\(H_1\): Job_Growth_Projection và AI_Adoption_Level có liên quan.

Thực hiện kiểm định Chi-bình phương

chi_test <- chisq.test(tab12) 
chi_test

## 
##  Pearson's Chi-squared test
## 
## data:  tab12
## X-squared = 2.3761, df = 4, p-value = 0.667

Kết quả kiểm định Chi-bình phương:

Chi-squared = 2.3761

df = 4

p-value = 0.667

Vì p-value = 0.667 > 0.05, ta không bác bỏ giả thuyết \(H_0\), nghĩa là không có mối liên hệ có ý nghĩa thống kê giữa tốc độ tăng trưởng công việc và mức độ áp dụng AI.

Kết luận: Mức độ áp dụng AI trong công việc không cho thấy sự khác biệt đáng kể giữa các nhóm tốc độ tăng trưởng (giảm, tăng, ổn định). Nói cách khác, việc một công việc đang phát triển hay suy giảm không nhất thiết liên quan đến mức độ áp dụng AI, theo phân tích thống kê.

V. Relative Risk và Odds Ratio

5.1. Cặp biến Job_Growth_Projection và AI_Adoption_Level

5.1.1. Tạo bảng chéo giữa Job_Growth_Projection và AI_Adoption_Level

tab_growth_ai <- table(d$Job_Growth_Projection, d$AI_Adoption_Level)
tab_growth_ai

##          
##           High Low Medium
##   Decline   55  52     62
##   Growth    46  61     62
##   Stable    46  61     55

5.1.2. Tính Odds Ratio

oddsratio(table(d$Job_Growth_Projection, d$AI_Adoption_Level))

## $data
##          
##           High Low Medium Total
##   Decline   55  52     62   169
##   Growth    46  61     62   169
##   Stable    46  61     55   162
##   Total    147 174    179   500
## 
## $measure
##          odds ratio with 95% C.I.
##           estimate     lower    upper
##   Decline 1.000000        NA       NA
##   Growth  1.399638 0.8162035 2.410146
##   Stable  1.399638 0.8162035 2.410146
## 
## $p.value
##          two-sided
##           midp.exact fisher.exact chi.square
##   Decline         NA           NA         NA
##   Growth   0.2220191    0.4839915  0.4679484
##   Stable   0.2220191    0.4078194  0.4085336
## 
## $correction
## [1] FALSE
## 
## attr(,"method")
## [1] "median-unbiased estimate & mid-p exact CI"

Kết quả phân tích odds ratio cho thấy nhóm có xu hướng tăng trưởng công việc (Growth và Stable) có khả năng áp dụng AI ở mức cao cao hơn khoảng 1,4 lần so với nhóm có xu hướng giảm (Decline), với odds ratio đều là 1.399. Tuy nhiên, khoảng tin cậy 95% của các odds ratio này đều chứa giá trị 1 ([0.816; 2.410]), và các giá trị p đều lớn hơn 0.05 (p = 0.468 cho Growth và p = 0.409 cho Stable theo kiểm định Chi-square), cho thấy sự khác biệt này không có ý nghĩa thống kê. Do đó, mặc dù có sự khác biệt về tỷ lệ áp dụng AI giữa các nhóm tăng trưởng công việc, nhưng chưa đủ bằng chứng để khẳng định mối liên hệ có ý nghĩa giữa xu hướng tăng trưởng công việc và mức độ áp dụng AI.

5.1.3.Tính RR

riskratio(tab_growth_ai)

## $data
##          
##           High Low Medium Total
##   Decline   55  52     62   169
##   Growth    46  61     62   169
##   Stable    46  61     55   162
##   Total    147 174    179   500
## 
## $measure
##          risk ratio with 95% C.I.
##           estimate     lower    upper
##   Decline 1.000000        NA       NA
##   Growth  1.173077 0.9089993 1.513873
##   Stable  1.173077 0.9089993 1.513873
## 
## $p.value
##          two-sided
##           midp.exact fisher.exact chi.square
##   Decline         NA           NA         NA
##   Growth   0.2220191    0.4839915  0.4679484
##   Stable   0.2220191    0.4078194  0.4085336
## 
## $correction
## [1] FALSE
## 
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"

Kết quả phân tích risk ratio (RR) giữa các nhóm tăng trưởng công việc và mức độ áp dụng AI cho thấy, so với nhóm Decline, cả hai nhóm Growth và Stable đều có risk ratio bằng 1.173, tức là nguy cơ (xác suất) xuất hiện mức độ áp dụng AI cao ở nhóm tăng trưởng và ổn định cao hơn khoảng 17,3% so với nhóm suy giảm.

Tuy nhiên, khoảng tin cậy 95% của risk ratio trong cả hai nhóm đều là [0.909; 1.514], bao gồm giá trị 1. Điều này cho thấy sự khác biệt về nguy cơ áp dụng AI giữa các nhóm không có ý nghĩa thống kê. Bên cạnh đó, các giá trị p đều lớn hơn 0.05 (p = 0.468 với nhóm Growth và p = 0.409 với nhóm Stable theo kiểm định Chi-square), cũng củng cố kết luận rằng không có bằng chứng thống kê đủ mạnh để khẳng định sự khác biệt về mức độ áp dụng AI giữa các nhóm tăng trưởng công việc.

5.2. Cặp biến Job_Growth_Projection và Remote_Friendly

5.2.1. Tạo bảng chéo giữa Job_Growth_Projection và Remote_Friendly

tab_growth_remote <- table(d$Job_Growth_Projection, d$Remote_Friendly)
tab_growth_remote

##          
##           No Yes
##   Decline 87  82
##   Growth  85  84
##   Stable  77  85

5.2.2. Tính Odds Ratio

oddsratio(table(d$Job_Growth_Projection, d$Remote_Friendly))

## $data
##          
##            No Yes Total
##   Decline  87  82   169
##   Growth   85  84   169
##   Stable   77  85   162
##   Total   249 251   500
## 
## $measure
##          odds ratio with 95% C.I.
##           estimate     lower    upper
##   Decline 1.000000        NA       NA
##   Growth  1.048298 0.6835194 1.608404
##   Stable  1.170466 0.7597544 1.805392
## 
## $p.value
##          two-sided
##           midp.exact fisher.exact chi.square
##   Decline         NA           NA         NA
##   Growth   0.8287758    0.9133804  0.8277364
##   Stable   0.4753458    0.5100349  0.4726204
## 
## $correction
## [1] FALSE
## 
## attr(,"method")
## [1] "median-unbiased estimate & mid-p exact CI"

Kết quả phân tích odds ratio (OR) giữa ba nhóm tăng trưởng công việc (Decline, Growth, Stable) và khả năng làm việc từ xa (Yes/No) cho thấy như sau:

Nhóm Growth có OR = 1.05 (khoảng tin cậy 95%: [0.684; 1.608]) so với nhóm Decline.

Nhóm Stable có OR = 1.17 (khoảng tin cậy 95%: [0.760; 1.805]) so với nhóm Decline.

Cả hai nhóm đều có p-value > 0.05 (Growth: 0.828; Stable: 0.475), cho thấy không có sự khác biệt có ý nghĩa thống kê.

So với nhóm có xu hướng giảm (Decline), các nhóm có xu hướng tăng trưởng (Growth) và ổn định (Stable) có khả năng làm việc từ xa cao hơn nhẹ, với odds lần lượt tăng khoảng 5% và 17%. Tuy nhiên, các khoảng tin cậy đều chứa giá trị 1 và giá trị p đều lớn hơn 0.05, cho thấy không có mối liên hệ có ý nghĩa thống kê giữa xu hướng tăng trưởng công việc và khả năng làm việc từ xa.

5.2.3. Tính RR

riskratio(tab_growth_remote)

## $data
##          
##            No Yes Total
##   Decline  87  82   169
##   Growth   85  84   169
##   Stable   77  85   162
##   Total   249 251   500
## 
## $measure
##          risk ratio with 95% C.I.
##           estimate     lower    upper
##   Decline 1.000000        NA       NA
##   Growth  1.024390 0.8245080 1.272729
##   Stable  1.081376 0.8734528 1.338795
## 
## $p.value
##          two-sided
##           midp.exact fisher.exact chi.square
##   Decline         NA           NA         NA
##   Growth   0.8287758    0.9133804  0.8277364
##   Stable   0.4753458    0.5100349  0.4726204
## 
## $correction
## [1] FALSE
## 
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"

So với nhóm Decline, xác suất làm việc từ xa của nhóm Growth cao hơn khoảng 2.4%, còn nhóm Stable cao hơn khoảng 8.1%.

Tuy nhiên, các khoảng tin cậy 95% của RR đều chứa giá trị 1, và các giá trị p đều lớn hơn 0.05, cho thấy:

Không có sự khác biệt có ý nghĩa thống kê về khả năng làm việc từ xa giữa các nhóm tăng trưởng công việc.

5.3. Cặp biến Job_Growth_Projection và Company_Size

5.3.1. Tạo bảng chéo giữa Job_Growth_Projection và Company_Size

tab_growth_com <- table(d$Job_Growth_Projection, d$Company_Size)
tab_growth_com

##          
##           Large Medium Small
##   Decline    47     57    65
##   Growth     59     47    63
##   Stable     60     59    43

5.3.2. Tính Odds Ratio

oddsratio(table(d$Job_Growth_Projection, d$Company_Size))

## $data
##          
##           Large Medium Small Total
##   Decline    47     57    65   169
##   Growth     59     47    63   169
##   Stable     60     59    43   162
##   Total     166    163   171   500
## 
## $measure
##          odds ratio with 95% C.I.
##            estimate     lower    upper
##   Decline 1.0000000        NA       NA
##   Growth  0.6586371 0.3802357 1.134908
##   Stable  0.8118693 0.4772123 1.377499
## 
## $p.value
##          two-sided
##           midp.exact fisher.exact chi.square
##   Decline         NA           NA         NA
##   Growth   0.1327331    0.3168226 0.30862155
##   Stable   0.4398777    0.0508574 0.05104671
## 
## $correction
## [1] FALSE
## 
## attr(,"method")
## [1] "median-unbiased estimate & mid-p exact CI"

So với nhóm Decline, nhóm Growth có odds làm việc tại công ty quy mô lớn thấp hơn khoảng 34% (OR = 0.66), và nhóm Stable thấp hơn khoảng 19% (OR = 0.81).

Tuy nhiên:

Đối với nhóm Growth, khoảng tin cậy 95% bao gồm 1 và p-value = 0.309, cho thấy không có ý nghĩa thống kê.

Đối với nhóm Stable, p-value theo Chi-square là 0.051, gần sát mức ý nghĩa 0.05, nên có thể xem là cận biên (borderline significant) – điều này gợi ý rằng có thể tồn tại sự khác biệt về odds quy mô công ty giữa nhóm Stable và Decline, nhưng chưa đủ mạnh để kết luận chắc chắn.

5.3.3. Tính RR

riskratio(tab_growth_com)

## $data
##          
##           Large Medium Small Total
##   Decline    47     57    65   169
##   Growth     59     47    63   169
##   Stable     60     59    43   162
##   Total     166    163   171   500
## 
## $measure
##          risk ratio with 95% C.I.
##            estimate     lower    upper
##   Decline 1.0000000        NA       NA
##   Growth  0.8090036 0.6141341 1.065707
##   Stable  0.9046145 0.7034124 1.163368
## 
## $p.value
##          two-sided
##           midp.exact fisher.exact chi.square
##   Decline         NA           NA         NA
##   Growth   0.1327331    0.3168226 0.30862155
##   Stable   0.4398777    0.0508574 0.05104671
## 
## $correction
## [1] FALSE
## 
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"

So với nhóm Decline, khả năng làm việc tại công ty quy mô lớn ở nhóm Growth giảm khoảng 19%, còn ở nhóm Stable giảm khoảng 10%.

Tuy nhiên:

Cả hai nhóm đều có khoảng tin cậy 95% chứa giá trị 1, nên không thể khẳng định có sự khác biệt một cách chắc chắn.

P-value của nhóm Stable = 0.051, rất sát ngưỡng ý nghĩa thống kê 0.05, cho thấy kết quả có xu hướng gần như có ý nghĩa thống kê, nhưng vẫn chưa đủ mạnh để khẳng định chắc chắn.

5.4. Cặp biến Automation_Risk và AI_Adoption_Level

5.4.1. Tạo bảng chéo giữa Automation_Risk và AI_Adoption_Level

tab_auto_ai <- table(d$Automation_Risk, d$AI_Adoption_Level)
tab_auto_ai

##         
##          High Low Medium
##   High     48  53     68
##   Low      43  61     54
##   Medium   56  60     57

5.4.2. Tính Odds Ratio

oddsratio(table(d$Automation_Risk, d$AI_Adoption_Level))

## $data
##         
##          High Low Medium Total
##   High     48  53     68   169
##   Low      43  61     54   158
##   Medium   56  60     57   173
##   Total   147 174    179   500
## 
## $measure
##         odds ratio with 95% C.I.
##           estimate     lower    upper
##   High   1.0000000        NA       NA
##   Low    1.2826901 0.7374887 2.237859
##   Medium 0.9705379 0.5673265 1.659337
## 
## $p.value
##         two-sided
##          midp.exact fisher.exact chi.square
##   High           NA           NA         NA
##   Low     0.3781161    0.3499381  0.3543388
##   Medium  0.9129735    0.3802007  0.3733461
## 
## $correction
## [1] FALSE
## 
## attr(,"method")
## [1] "median-unbiased estimate & mid-p exact CI"

So với nhóm rủi ro cao (High), nhóm rủi ro thấp (Low) có odds áp dụng AI cao hơn với OR = 1.283, tuy nhiên khoảng tin cậy 95% là từ 0.737 đến 2.238, nghĩa là bao gồm giá trị 1, nên không có ý nghĩa thống kê.

Tương tự, nhóm rủi ro trung bình (Medium) có OR = 0.971, với khoảng tin cậy 95% là từ 0.567 đến 1.659, cũng bao gồm giá trị 1, nên sự khác biệt này cũng không có ý nghĩa thống kê.

Ngoài ra, cả hai nhóm đều có p-value > 0.05 (Low: p = 0.354; Medium: p = 0.373), củng cố thêm kết luận rằng sự khác biệt là không đáng kể về mặt thống kê.

5.4.3.Tính RR

riskratio(tab_auto_ai)

## $data
##         
##          High Low Medium Total
##   High     48  53     68   169
##   Low      43  61     54   158
##   Medium   56  60     57   173
##   Total   147 174    179   500
## 
## $measure
##         risk ratio with 95% C.I.
##           estimate     lower    upper
##   High   1.0000000        NA       NA
##   Low    1.1177431 0.8740455 1.429387
##   Medium 0.9856864 0.7633321 1.272811
## 
## $p.value
##         two-sided
##          midp.exact fisher.exact chi.square
##   High           NA           NA         NA
##   Low     0.3781161    0.3499381  0.3543388
##   Medium  0.9129735    0.3802007  0.3733461
## 
## $correction
## [1] FALSE
## 
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"

So với nhóm rủi ro cao (High):

Nhóm rủi ro thấp (Low) có nguy cơ áp dụng AI ở mức cao hơn khoảng 11.8% (RR = 1.118), nhưng khoảng tin cậy 95% là từ 0.874 đến 1.429, bao gồm giá trị 1 ⇒ không có ý nghĩa thống kê.

Nhóm rủi ro trung bình (Medium) có nguy cơ gần tương đương với nhóm High (RR = 0.986), và khoảng tin cậy 95% từ 0.763 đến 1.273, cũng bao gồm giá trị 1 ⇒ không có ý nghĩa thống kê.

Bên cạnh đó, p-value của cả hai nhóm đều lớn hơn 0.05 (Low: p = 0.354, Medium: p = 0.373), càng củng cố rằng sự khác biệt không đáng kể về mặt thống kê.

5.5. Cặp biến Automation_Risk và Remote_Friendly

5.5.1. Tạo bảng chéo giữa Automation_Risk và Remote_Friendly

tab_auto_remote <- table(d$Automation_Risk, d$Remote_Friendly)
tab_auto_remote

##         
##          No Yes
##   High   84  85
##   Low    71  87
##   Medium 94  79

5.5.2. Tính Odds Ratio

oddsratio(table(d$Automation_Risk, d$Remote_Friendly))

## $data
##         
##           No Yes Total
##   High    84  85   169
##   Low     71  87   158
##   Medium  94  79   173
##   Total  249 251   500
## 
## $measure
##         odds ratio with 95% C.I.
##          estimate     lower    upper
##   High   1.000000        NA       NA
##   Low    1.209975 0.7827478 1.873572
##   Medium 0.831136 0.5423867 1.271781
## 
## $p.value
##         two-sided
##          midp.exact fisher.exact chi.square
##   High           NA           NA         NA
##   Low     0.3912054    0.4381129  0.3882582
##   Medium  0.3941845    0.4486860  0.3913876
## 
## $correction
## [1] FALSE
## 
## attr(,"method")
## [1] "median-unbiased estimate & mid-p exact CI"

So với nhóm rủi ro cao (High):

Nhóm rủi ro thấp (Low) có odds làm việc từ xa cao hơn khoảng 21% (OR = 1.210), nhưng khoảng tin cậy 95% từ 0.783 đến 1.874 bao gồm giá trị 1, nên không có ý nghĩa thống kê.

Nhóm rủi ro trung bình (Medium) có odds thấp hơn khoảng 17% (OR = 0.831), nhưng khoảng tin cậy 95% từ 0.542 đến 1.272 cũng chứa giá trị 1, do đó không có ý nghĩa thống kê.

Các giá trị p-value đều > 0.05 (Low: p = 0.388, Medium: p = 0.391), cho thấy không có sự khác biệt đáng kể về khả năng làm việc từ xa giữa các nhóm rủi ro.

5.5.3. Tính RR

riskratio(tab_auto_remote)

## $data
##         
##           No Yes Total
##   High    84  85   169
##   Low     71  87   158
##   Medium  94  79   173
##   Total  249 251   500
## 
## $measure
##         risk ratio with 95% C.I.
##           estimate     lower    upper
##   High   1.0000000        NA       NA
##   Low    1.0947878 0.8912586 1.344795
##   Medium 0.9079225 0.7278255 1.132584
## 
## $p.value
##         two-sided
##          midp.exact fisher.exact chi.square
##   High           NA           NA         NA
##   Low     0.3912054    0.4381129  0.3882582
##   Medium  0.3941845    0.4486860  0.3913876
## 
## $correction
## [1] FALSE
## 
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"

So với nhóm rủi ro cao (High):

Nhóm rủi ro thấp (Low) có tỷ lệ làm việc từ xa cao hơn khoảng 9.5% (RR = 1.095), tuy nhiên khoảng tin cậy 95% từ 0.891 đến 1.345 bao gồm giá trị 1 → không có ý nghĩa thống kê.

Nhóm rủi ro trung bình (Medium) có tỷ lệ làm việc từ xa thấp hơn khoảng 9.2% (RR = 0.908), với khoảng tin cậy 95% từ 0.728 đến 1.133, cũng bao gồm giá trị 1 → không có ý nghĩa thống kê.

Các p-value đều lớn hơn 0.05 (Low: p = 0.388, Medium: p = 0.391), cho thấy sự khác biệt không đáng kể về mặt thống kê.

5.6. Cặp biến Automation_Risk và Company_Size

5.6.1. Tạo bảng chéo giữa Automation_Risk và Company_Size

tab_auto_com <- table(d$Automation_Risk, d$Company_Size)
tab_auto_com

##         
##          Large Medium Small
##   High      58     52    59
##   Low       42     63    53
##   Medium    66     48    59

5.6.2. Tính Odds Ratio

oddsratio(table(d$Automation_Risk, d$Company_Size))

## $data
##         
##          Large Medium Small Total
##   High      58     52    59   169
##   Low       42     63    53   158
##   Medium    66     48    59   173
##   Total    166    163   171   500
## 
## $measure
##         odds ratio with 95% C.I.
##           estimate     lower    upper
##   High   1.0000000        NA       NA
##   Low    1.6676680 0.9715255 2.881425
##   Medium 0.8121938 0.4774580 1.378455
## 
## $p.value
##         two-sided
##          midp.exact fisher.exact chi.square
##   High           NA           NA         NA
##   Low    0.06360729    0.1718446  0.1679978
##   Medium 0.44089432    0.7407420  0.7299963
## 
## $correction
## [1] FALSE
## 
## attr(,"method")
## [1] "median-unbiased estimate & mid-p exact CI"

So với nhóm rủi ro cao (High):

Nhóm rủi ro thấp (Low) có odds làm việc tại công ty quy mô lớn cao hơn khoảng 66.8% (OR = 1.668). Tuy nhiên, khoảng tin cậy 95% từ 0.972 đến 2.881 bao gồm 1, và p-value = 0.168 > 0.05 → chưa có ý nghĩa thống kê.

Nhóm rủi ro trung bình (Medium) có odds thấp hơn khoảng 18.8% (OR = 0.812), với khoảng tin cậy 95% từ 0.477 đến 1.378, cũng chứa giá trị 1, và p-value = 0.730, nên không có ý nghĩa thống kê.

5.6.3. Tính RR

riskratio(tab_auto_com)

## $data
##         
##          Large Medium Small Total
##   High      58     52    59   169
##   Low       42     63    53   158
##   Medium    66     48    59   173
##   Total    166    163   171   500
## 
## $measure
##         risk ratio with 95% C.I.
##           estimate     lower    upper
##   High   1.0000000        NA       NA
##   Low    1.2692308 0.9868201 1.632462
##   Medium 0.8906883 0.6651138 1.192767
## 
## $p.value
##         two-sided
##          midp.exact fisher.exact chi.square
##   High           NA           NA         NA
##   Low    0.06360729    0.1718446  0.1679978
##   Medium 0.44089432    0.7407420  0.7299963
## 
## $correction
## [1] FALSE
## 
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"

So với nhóm rủi ro cao (High):

Nhóm rủi ro thấp (Low) có nguy cơ làm việc ở công ty quy mô lớn cao hơn 26.9% (RR = 1.269). Tuy nhiên, khoảng tin cậy 95% từ 0.987 đến 1.632 bao gồm giá trị 1, và p-value = 0.168, nên không có ý nghĩa thống kê.

Nhóm rủi ro trung bình (Medium) có nguy cơ thấp hơn khoảng 11% (RR = 0.891), với khoảng tin cậy từ 0.665 đến 1.193, và p-value = 0.730, nên cũng không có ý nghĩa thống kê.

VI. Hồi quy Logistic

6.1. Biến phụ thuộc Job_Growth_Projection

6.1.1. Mô hình

# Hồi quy logistic
model <- glm(Job_Growth_Projection ~ Job_Title + Industry + Company_Size + Location + AI_Adoption_Level + Remote_Friendly + Automation_Risk, 
             data = d, family = binomial)

# Tóm tắt
summary(model)

## 
## Call:
## glm(formula = Job_Growth_Projection ~ Job_Title + Industry + 
##     Company_Size + Location + AI_Adoption_Level + Remote_Friendly + 
##     Automation_Risk, family = binomial, data = d)
## 
## Coefficients:
##                                 Estimate Std. Error z value Pr(>|z|)  
## (Intercept)                     0.936707   0.606722   1.544   0.1226  
## Job_TitleCybersecurity Analyst -0.164378   0.442245  -0.372   0.7101  
## Job_TitleData Scientist        -0.317606   0.423695  -0.750   0.4535  
## Job_TitleHR Manager            -0.384734   0.428758  -0.897   0.3695  
## Job_TitleMarketing Specialist  -0.634080   0.439278  -1.443   0.1489  
## Job_TitleOperations Manager     0.938205   0.532098   1.763   0.0779 .
## Job_TitleProduct Manager        0.216360   0.494527   0.438   0.6617  
## Job_TitleSales Manager         -0.014062   0.449452  -0.031   0.9750  
## Job_TitleSoftware Engineer      0.114152   0.477965   0.239   0.8112  
## Job_TitleUX Designer           -0.291795   0.433779  -0.673   0.5011  
## IndustryEnergy                 -0.573665   0.430343  -1.333   0.1825  
## IndustryEntertainment          -0.493819   0.438444  -1.126   0.2600  
## IndustryFinance                 0.003729   0.443875   0.008   0.9933  
## IndustryHealthcare             -0.131173   0.472358  -0.278   0.7812  
## IndustryManufacturing          -0.836025   0.414460  -2.017   0.0437 *
## IndustryRetail                 -0.501927   0.440580  -1.139   0.2546  
## IndustryTechnology             -0.367596   0.426528  -0.862   0.3888  
## IndustryTelecommunications      0.288040   0.457796   0.629   0.5292  
## IndustryTransportation          0.079793   0.488837   0.163   0.8703  
## Company_SizeMedium             -0.289380   0.253608  -1.141   0.2538  
## Company_SizeSmall              -0.487533   0.248738  -1.960   0.0500 *
## LocationDubai                  -0.128904   0.446842  -0.288   0.7730  
## LocationLondon                  0.615017   0.482798   1.274   0.2027  
## LocationNew York                0.688453   0.477668   1.441   0.1495  
## LocationParis                  -0.194011   0.455954  -0.426   0.6705  
## LocationSan Francisco           0.111222   0.434880   0.256   0.7981  
## LocationSingapore               0.140191   0.443219   0.316   0.7518  
## LocationSydney                  0.269543   0.445585   0.605   0.5452  
## LocationTokyo                   0.276122   0.455593   0.606   0.5445  
## LocationToronto                 0.146878   0.482502   0.304   0.7608  
## AI_Adoption_LevelLow            0.340960   0.255919   1.332   0.1828  
## AI_Adoption_LevelMedium         0.129689   0.247065   0.525   0.5996  
## Remote_FriendlyYes              0.146473   0.205064   0.714   0.4751  
## Automation_RiskLow             -0.172228   0.248892  -0.692   0.4890  
## Automation_RiskMedium           0.101240   0.250215   0.405   0.6858  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 639.7  on 499  degrees of freedom
## Residual deviance: 599.0  on 465  degrees of freedom
## AIC: 669
## 
## Number of Fisher Scoring iterations: 4

Kết quả hồi quy logistic cho thấy mô hình có độ phù hợp tương đối với dữ liệu. Cụ thể, sai số (deviance) giảm từ 639.7 (null deviance) xuống còn 599.0 (residual deviance) sau khi đưa các biến độc lập vào mô hình, cho thấy các biến giải thích có đóng góp nhất định vào việc dự đoán xác suất xảy ra của Job_Growth_Projection. Chỉ số AIC của mô hình đạt 669, là cơ sở để so sánh với các mô hình khác khi cần lựa chọn mô hình phù hợp hơn.

Trong số các biến đưa vào mô hình, một số biến có ý nghĩa thống kê ở mức 5% hoặc xấp xỉ 10%, trong khi phần lớn các biến khác không có ảnh hưởng đáng kể đến xác suất triển vọng tăng trưởng việc làm.

Biến IndustryManufacturing có hệ số hồi quy là -0.8360 với giá trị p = 0.0437, cho thấy ngành sản xuất có ảnh hưởng tiêu cực và có ý nghĩa thống kê đến xác suất có triển vọng tăng trưởng việc làm, so với ngành tham chiếu (không được chỉ rõ trong output). Điều này có nghĩa là làm việc trong ngành sản xuất làm giảm đáng kể khả năng có triển vọng việc làm, với odds giảm khoảng 57% (odds ratio ≈ 0.43).

Biến Company_SizeSmall có hệ số là -0.4875 và p = 0.0500, cũng đạt mức ý nghĩa thống kê 5%, cho thấy nhân sự làm việc trong công ty nhỏ có xác suất triển vọng việc làm thấp hơn so với các công ty lớn. Odds ratio tương ứng là khoảng 0.61, tức là thấp hơn khoảng 39% so với nhóm công ty lớn.

Biến Job_TitleOperations Manager có hệ số là 0.9382, với p = 0.0779, đạt ngưỡng ý nghĩa thống kê 10%. Hệ số dương này phản ánh việc giữ vai trò Quản lý vận hành có thể làm tăng xác suất có triển vọng việc làm, với odds ratio ≈ 2.55, cao gấp khoảng 2.5 lần so với nhóm chức danh tham chiếu.

Các biến còn lại như Job_TitleData Scientist, IndustryTechnology, Company_SizeMedium, LocationNew York, Remote_FriendlyYes, AI_Adoption_LevelMedium, và Automation_RiskLow đều không có ý nghĩa thống kê rõ ràng, với giá trị p-value đều lớn hơn 0.1. Điều này cho thấy các yếu tố này không có mối liên hệ đáng kể với xác suất có triển vọng tăng trưởng việc làm trong mô hình hiện tại.

6.1.2. Dự báo xác suất

6.2. Biến phụ thuộc Automation_Risk

6.2.1. Mô hình

# Hồi quy logistic
model <- glm(Automation_Risk ~ Job_Title + Industry + Company_Size + Location + AI_Adoption_Level + Remote_Friendly + Job_Growth_Projection, 
             data = d, family = binomial)

# Tóm tắt
summary(model)

## 
## Call:
## glm(formula = Automation_Risk ~ Job_Title + Industry + Company_Size + 
##     Location + AI_Adoption_Level + Remote_Friendly + Job_Growth_Projection, 
##     family = binomial, data = d)
## 
## Coefficients:
##                                 Estimate Std. Error z value Pr(>|z|)  
## (Intercept)                     0.787500   0.596480   1.320   0.1868  
## Job_TitleCybersecurity Analyst -0.249015   0.423323  -0.588   0.5564  
## Job_TitleData Scientist         0.471043   0.422907   1.114   0.2654  
## Job_TitleHR Manager             0.514687   0.434945   1.183   0.2367  
## Job_TitleMarketing Specialist  -0.091476   0.436732  -0.209   0.8341  
## Job_TitleOperations Manager     0.770434   0.481991   1.598   0.1099  
## Job_TitleProduct Manager       -0.156632   0.450163  -0.348   0.7279  
## Job_TitleSales Manager         -0.143573   0.426775  -0.336   0.7366  
## Job_TitleSoftware Engineer     -0.004421   0.453119  -0.010   0.9922  
## Job_TitleUX Designer            0.269893   0.430142   0.627   0.5304  
## IndustryEnergy                  0.154139   0.420911   0.366   0.7142  
## IndustryEntertainment          -0.010845   0.422399  -0.026   0.9795  
## IndustryFinance                 0.356551   0.418015   0.853   0.3937  
## IndustryHealthcare              0.593064   0.469287   1.264   0.2063  
## IndustryManufacturing           0.361898   0.407958   0.887   0.3750  
## IndustryRetail                  0.748146   0.457494   1.635   0.1020  
## IndustryTechnology              0.426196   0.414885   1.027   0.3043  
## IndustryTelecommunications      0.170379   0.413969   0.412   0.6807  
## IndustryTransportation         -0.417640   0.439625  -0.950   0.3421  
## Company_SizeMedium              0.132666   0.247063   0.537   0.5913  
## Company_SizeSmall               0.042154   0.243675   0.173   0.8627  
## LocationDubai                  -0.080695   0.480502  -0.168   0.8666  
## LocationLondon                 -0.858047   0.466903  -1.838   0.0661 .
## LocationNew York               -0.493172   0.468883  -1.052   0.2929  
## LocationParis                  -0.080735   0.496935  -0.162   0.8709  
## LocationSan Francisco          -0.648319   0.445566  -1.455   0.1457  
## LocationSingapore              -0.720312   0.451104  -1.597   0.1103  
## LocationSydney                 -0.404616   0.460088  -0.879   0.3792  
## LocationTokyo                  -0.224179   0.471637  -0.475   0.6346  
## LocationToronto                -0.424672   0.488646  -0.869   0.3848  
## AI_Adoption_LevelLow            0.041384   0.255492   0.162   0.8713  
## AI_Adoption_LevelMedium        -0.345918   0.246403  -1.404   0.1604  
## Remote_FriendlyYes              0.024731   0.202259   0.122   0.9027  
## Job_Growth_ProjectionGrowth    -0.161429   0.243722  -0.662   0.5077  
## Job_Growth_ProjectionStable     0.094665   0.251864   0.376   0.7070  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 639.70  on 499  degrees of freedom
## Residual deviance: 607.98  on 465  degrees of freedom
## AIC: 677.98
## 
## Number of Fisher Scoring iterations: 4

Job_TitleOperations Manager có hệ số hồi quy là 0.7704 và có ý nghĩa thống kê ở mức 10.99%, gần tiệm cận mức ý nghĩa 10%. Điều này cho thấy rằng so với nhóm tham chiếu (có thể là nhóm còn lại như Administrative Assistant hoặc nhóm mặc định nếu không chỉ rõ), khách làm nghề Operations Manager có log-odds về việc đối mặt với Automation Risk cao hơn 0.7704 lần.

Job_TitleUX Designer có hệ số là 0.2699 với p-value 53.04%, không có ý nghĩa thống kê, cho thấy ảnh hưởng không đáng kể đến xác suất rủi ro bị tự động hóa so với nhóm tham chiếu.

Job_TitleSoftware Engineer có hệ số -0.0044 và p-value rất cao (99.22%), nghĩa là không có bất kỳ ảnh hưởng đáng kể nào đến xác suất bị tự động hóa. Log-odds gần như bằng 0 so với nhóm tham chiếu.

IndustryRetail có hệ số hồi quy là 0.7481 với mức ý nghĩa thống kê là 10.20%, tiệm cận ngưỡng 10%, cho thấy rằng so với nhóm ngành tham chiếu (có thể là ngành Education hoặc Public Sector), khách hàng trong ngành Retail có log-odds rủi ro bị tự động hóa cao hơn 0.7481 lần, gợi ý sự dễ bị ảnh hưởng bởi tự động hóa trong ngành này.

LocationLondon có hệ số hồi quy là -0.8580 và có ý nghĩa thống kê ở mức 6.61%, cho thấy rằng so với nhóm vị trí tham chiếu (có thể là một thành phố như Berlin hoặc địa phương mặc định), khách hàng ở London có log-odds đối mặt với Automation Risk thấp hơn 0.858 lần, gợi ý khả năng rủi ro tự động hóa thấp hơn trong khu vực này.

LocationSingapore có hệ số là -0.7203 với p-value 11.03%, gần mức ý nghĩa 10%, cho thấy log-odds của khách hàng ở Singapore đối với Automation Risk giảm 0.7203 lần so với nhóm tham chiếu.

AI_Adoption_LevelMedium có hệ số hồi quy là -0.3459 và có ý nghĩa thống kê 16.04%, cho thấy rằng tổ chức có mức độ ứng dụng AI ở mức trung bình có log-odds đối mặt với Automation Risk giảm 0.3459 lần so với tổ chức có mức AI Adoption cao (nếu nhóm tham chiếu là “High”).

Job_Growth_ProjectionGrowth có hệ số hồi quy là -0.1614, p-value 50.77%, không có ý nghĩa thống kê. Điều này cho thấy rằng công việc có triển vọng tăng trưởng không ảnh hưởng đáng kể đến log-odds của Automation Risk so với nhóm công việc có triển vọng suy giảm.

Remote_FriendlyYes có hệ số là 0.0247 với p-value 90.27%, không có ý nghĩa thống kê. Điều này cho thấy rằng khả năng làm việc từ xa không ảnh hưởng đáng kể đến log-odds của rủi ro tự động hóa.

Intercept (hệ số chặn) có giá trị là 0.7875, p-value 18.68%, không có ý nghĩa thống kê. Tuy nhiên, nó đại diện cho log-odds của Automation Risk tại mức tham chiếu của tất cả các biến

VII. Hồi quy Probit

7.1. Biến phụ thuộc Job_Growth_Projection

7.1.1. Mô hình

# Chuyển đổi Job_Growth_Projection thành biến nhị phân 
# Ví dụ: mã hóa lại thành 1 nếu "Growth", 0 nếu "Stable" hoặc "Decline"
d$Job_Growth_Binary <- ifelse(d$Job_Growth_Projection == "Growth", 1, 0)

model_probit <- glm(
  Job_Growth_Binary ~ Job_Title + Industry + Company_Size + 
    Location + AI_Adoption_Level + Remote_Friendly + Automation_Risk,
  family = binomial(link = "probit"),
  data = d
)

summary(model_probit)

## 
## Call:
## glm(formula = Job_Growth_Binary ~ Job_Title + Industry + Company_Size + 
##     Location + AI_Adoption_Level + Remote_Friendly + Automation_Risk, 
##     family = binomial(link = "probit"), data = d)
## 
## Coefficients:
##                                Estimate Std. Error z value Pr(>|z|)  
## (Intercept)                     0.15215    0.35337   0.431   0.6668  
## Job_TitleCybersecurity Analyst -0.38557    0.26914  -1.433   0.1520  
## Job_TitleData Scientist        -0.11970    0.25169  -0.476   0.6344  
## Job_TitleHR Manager            -0.38981    0.26588  -1.466   0.1426  
## Job_TitleMarketing Specialist  -0.37093    0.27823  -1.333   0.1825  
## Job_TitleOperations Manager     0.07706    0.27234   0.283   0.7772  
## Job_TitleProduct Manager       -0.07121    0.27982  -0.254   0.7991  
## Job_TitleSales Manager          0.00556    0.26356   0.021   0.9832  
## Job_TitleSoftware Engineer      0.02874    0.27540   0.104   0.9169  
## Job_TitleUX Designer           -0.05686    0.25944  -0.219   0.8265  
## IndustryEnergy                 -0.53969    0.26510  -2.036   0.0418 *
## IndustryEntertainment          -0.19159    0.25819  -0.742   0.4581  
## IndustryFinance                 0.08477    0.25008   0.339   0.7346  
## IndustryHealthcare             -0.08531    0.27329  -0.312   0.7549  
## IndustryManufacturing          -0.18751    0.24613  -0.762   0.4461  
## IndustryRetail                 -0.62897    0.27804  -2.262   0.0237 *
## IndustryTechnology             -0.30394    0.24923  -1.220   0.2227  
## IndustryTelecommunications     -0.30939    0.25184  -1.229   0.2193  
## IndustryTransportation         -0.20049    0.27294  -0.735   0.4626  
## Company_SizeMedium             -0.19167    0.15200  -1.261   0.2073  
## Company_SizeSmall               0.05257    0.14666   0.358   0.7200  
## LocationDubai                  -0.35912    0.27513  -1.305   0.1918  
## LocationLondon                 -0.35694    0.28060  -1.272   0.2033  
## LocationNew York               -0.03453    0.27070  -0.128   0.8985  
## LocationParis                  -0.66240    0.29378  -2.255   0.0241 *
## LocationSan Francisco          -0.19475    0.26028  -0.748   0.4543  
## LocationSingapore              -0.15738    0.26558  -0.593   0.5535  
## LocationSydney                 -0.09142    0.26486  -0.345   0.7300  
## LocationTokyo                   0.01923    0.26496   0.073   0.9421  
## LocationToronto                -0.13550    0.28547  -0.475   0.6350  
## AI_Adoption_LevelLow            0.09320    0.15369   0.606   0.5442  
## AI_Adoption_LevelMedium         0.11425    0.15149   0.754   0.4508  
## Remote_FriendlyYes              0.04054    0.12330   0.329   0.7423  
## Automation_RiskLow             -0.11634    0.15056  -0.773   0.4397  
## Automation_RiskMedium          -0.13276    0.14884  -0.892   0.3724  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 639.70  on 499  degrees of freedom
## Residual deviance: 605.01  on 465  degrees of freedom
## AIC: 675.01
## 
## Number of Fisher Scoring iterations: 5

IndustryEnergy với hệ số hồi quy là -0.5397 và có ý nghĩa thống kê ở mức 5% cho thấy rằng người lao động làm việc trong ngành năng lượng có log-odds lựa chọn nhóm tăng trưởng nghề nghiệp (“Growth”) thấp hơn 0.5397 lần so với người lao động thuộc ngành tham chiếu (nhiều khả năng là ngành Education).

IndustryRetail với hệ số hồi quy là -0.6290 và có ý nghĩa thống kê ở mức 2.37% cho thấy rằng người lao động làm việc trong ngành bán lẻ có log-odds lựa chọn nhóm tăng trưởng nghề nghiệp thấp hơn 0.6290 lần so với ngành tham chiếu.

LocationParis với hệ số hồi quy là -0.6624 và có ý nghĩa thống kê ở mức 2.41% cho thấy rằng người lao động làm việc tại Paris có log-odds lựa chọn nhóm tăng trưởng nghề nghiệp thấp hơn 0.6624 lần so với người lao động ở địa điểm tham chiếu (có thể là Berlin hoặc một thành phố khác tùy mô hình).

Các biến khác như Job_TitleCybersecurity Analyst (hệ số = -0.3856; p = 15.20%), Job_TitleHR Manager (-0.3898; p = 14.26%), IndustryEntertainment, Company_Size, AI_Adoption_Level, Remote_Friendly, và Automation_Risk đều có hệ số không có ý nghĩa thống kê (p > 10%), cho thấy chưa đủ cơ sở để khẳng định rằng các biến này có ảnh hưởng đáng kể đến khả năng lựa chọn nhóm tăng trưởng nghề nghiệp của người lao động.

Hệ số chặn (Intercept) với giá trị là 0.1522 và không có ý nghĩa thống kê (p = 66.68%) cho thấy log-odds của việc lựa chọn nhóm tăng trưởng nghề nghiệp là 0.1522 khi tất cả các biến giải thích đều ở mức tham chiếu, tuy nhiên giá trị này không có ý nghĩa trong phân tích do thiếu ý nghĩa thống kê.

7.2. Biến phụ thuộc Automation_Risk

7.2.1. Mô hình

# Chuyển Automation_Risk thành biến nhị phân
d$Automation_Risk_Binary <- ifelse(d$Automation_Risk == "High", 1, 0)

# Hồi quy probit với biến phụ thuộc là Automation_Risk_Binary
model_probit_auto <- glm(
  Automation_Risk_Binary ~ Job_Title + Industry + Company_Size +
    Location + AI_Adoption_Level + Remote_Friendly + Job_Growth_Projection,
  family = binomial(link = "probit"),
  data = d
)

# Xem kết quả mô hình
summary(model_probit_auto)

## 
## Call:
## glm(formula = Automation_Risk_Binary ~ Job_Title + Industry + 
##     Company_Size + Location + AI_Adoption_Level + Remote_Friendly + 
##     Job_Growth_Projection, family = binomial(link = "probit"), 
##     data = d)
## 
## Coefficients:
##                                  Estimate Std. Error z value Pr(>|z|)  
## (Intercept)                    -0.4802083  0.3605291  -1.332   0.1829  
## Job_TitleCybersecurity Analyst  0.1482780  0.2601251   0.570   0.5687  
## Job_TitleData Scientist        -0.2921631  0.2560122  -1.141   0.2538  
## Job_TitleHR Manager            -0.3013902  0.2620405  -1.150   0.2501  
## Job_TitleMarketing Specialist   0.0554735  0.2672435   0.208   0.8356  
## Job_TitleOperations Manager    -0.4617711  0.2867214  -1.611   0.1073  
## Job_TitleProduct Manager        0.0961263  0.2774963   0.346   0.7290  
## Job_TitleSales Manager          0.0842468  0.2624678   0.321   0.7482  
## Job_TitleSoftware Engineer      0.0075436  0.2770236   0.027   0.9783  
## Job_TitleUX Designer           -0.1616797  0.2609099  -0.620   0.5355  
## IndustryEnergy                 -0.0885946  0.2567023  -0.345   0.7300  
## IndustryEntertainment          -0.0009367  0.2587323  -0.004   0.9971  
## IndustryFinance                -0.2157947  0.2543884  -0.848   0.3963  
## IndustryHealthcare             -0.3761369  0.2821123  -1.333   0.1824  
## IndustryManufacturing          -0.2194125  0.2482211  -0.884   0.3767  
## IndustryRetail                 -0.4443824  0.2726930  -1.630   0.1032  
## IndustryTechnology             -0.2449210  0.2511900  -0.975   0.3295  
## IndustryTelecommunications     -0.1021524  0.2525703  -0.404   0.6859  
## IndustryTransportation          0.2558952  0.2709185   0.945   0.3449  
## Company_SizeMedium             -0.0791017  0.1494340  -0.529   0.5966  
## Company_SizeSmall              -0.0232104  0.1478236  -0.157   0.8752  
## LocationDubai                   0.0568373  0.2830004   0.201   0.8408  
## LocationLondon                  0.5060287  0.2804611   1.804   0.0712 .
## LocationNew York                0.2882323  0.2800113   1.029   0.3033  
## LocationParis                   0.0513054  0.2930615   0.175   0.8610  
## LocationSan Francisco           0.3824658  0.2663085   1.436   0.1510  
## LocationSingapore               0.4235262  0.2705772   1.565   0.1175  
## LocationSydney                  0.2212641  0.2741282   0.807   0.4196  
## LocationTokyo                   0.1053130  0.2798902   0.376   0.7067  
## LocationToronto                 0.2350555  0.2927794   0.803   0.4221  
## AI_Adoption_LevelLow           -0.0073104  0.1540040  -0.047   0.9621  
## AI_Adoption_LevelMedium         0.2142833  0.1495546   1.433   0.1519  
## Remote_FriendlyYes             -0.0163961  0.1225656  -0.134   0.8936  
## Job_Growth_ProjectionGrowth     0.1028258  0.1480138   0.695   0.4872  
## Job_Growth_ProjectionStable    -0.0644205  0.1519130  -0.424   0.6715  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 639.7  on 499  degrees of freedom
## Residual deviance: 608.2  on 465  degrees of freedom
## AIC: 678.2
## 
## Number of Fisher Scoring iterations: 5

Hệ số chặn (Intercept) có giá trị -0.4802 và không có ý nghĩa thống kê (p = 0.1829), cho thấy log-odds rủi ro tự động hóa cao không khác biệt có ý nghĩa thống kê so với nhóm tham chiếu khi tất cả các biến độc lập ở mức tham chiếu.

Job_TitleOperations Manager có hệ số hồi quy -0.4618 và có ý nghĩa thống kê ở mức 10.73%, gần đạt ngưỡng 10%, cho thấy các nhà quản lý vận hành có khả năng thuộc nhóm có rủi ro tự động hóa cao thấp hơn so với nhóm tham chiếu (AI Researcher). Cụ thể, log-odds thuộc nhóm rủi ro cao giảm 0.4618 lần.

IndustryRetail có hệ số -0.4444 với p = 0.1032, sát mức ý nghĩa 10%, cho thấy khách làm việc trong ngành bán lẻ có xu hướng rơi vào nhóm rủi ro cao thấp hơn so với nhóm ngành tham chiếu (Education), với log-odds giảm 0.4444.

LocationLondon có hệ số 0.5060 và p = 0.0712, có ý nghĩa thống kê ở mức 10%, cho thấy khách ở London có khả năng thuộc nhóm rủi ro tự động hóa cao cao hơn 0.5060 log-odds so với nhóm tham chiếu (Berlin).

LocationSingapore cũng có hệ số 0.4235 và p = 0.1175, chưa đạt ý nghĩa 10% nhưng thể hiện xu hướng tương tự như London: khách ở Singapore có xu hướng có rủi ro tự động hóa cao hơn nhóm tham chiếu.

Các biến còn lại như Job_Title, Industry, Company_Size, AI_Adoption_Level, Remote_Friendly, và Job_Growth_Projection đều không có hệ số hồi quy mang ý nghĩa thống kê dưới mức 10%, cho thấy không đủ bằng chứng để kết luận các yếu tố này ảnh hưởng rõ rệt đến xác suất rủi ro tự động hóa cao trong mô hình probit này.

Mô hình cho thấy một số yếu tố như vị trí địa lý (London, Singapore) và ngành nghề (Retail) có xu hướng ảnh hưởng đến rủi ro tự động hóa, mặc dù chưa nhiều yếu tố đạt ý nghĩa thống kê mạnh.

Nhiệm vụ 7/7

Lê Thị Thanh Phú

2025-07-15

I. Tìm hiểu và chuẩn bị dữ liệu

1.1 Đọc file dữ liệu vào R

1.2. Hiển thị cấu trúc của dữ liệu

1.3. Hiển thị một vài dòng đầu và cuối của dữ liệu

1.4. Kiểm tra xem có giá trị thiếu (NA) trong các cột định tính

1.5. Chuyển đổi các biến cần thiết sang kiểu factor

II. Phân tích mô tả một biến định tính

2.1. Biến Job_Title

2.2. Biến Industry

2.3. Biến Company_Size

2.4. Biến Location

2.5. Biến AI_Adoption_Level

2.6. Biến Automation_Risk

2.7. Biến Remote_Friendly

2.8. Biến Job_Growth_Projection

III. Ước lượng khoảng và kiểm định giả thuyết cho tỷ lệ (một biến)

3.1. Xác định hạng mục quan tâm

3.2. Ước lượng khoảng tin cậy và kiểm định giả thuyết

3.2.1. Company_Size – Hạng mục quan tâm: “Small” – H0: tỷ lệ = 0.5

3.2.2. Automation_Risk – Hạng mục quan tâm: “High” – H0: tỷ lệ = 0.6

3.2.3. Remote_Friendly – Hạng mục quan tâm: “Yes” – H0: tỷ lệ = 0.5

IV. Phân tích mối quan hệ giữa biến độc lập và phụ thuộc

4.1. Biến Automation_Risk và Job_Title

4.1.1. Bảng tần suất chéo

4.1.2. Trực quan hóa

4.1.3. Kiểm định Thống kê (Kiểm định Chi-bình phương)

4.2. Biến Automation_Risk và Industry

4.2.1. Bảng tần suất chéo

4.2.2. Trực quan hóa

4.2.3. Kiểm định Chi-bình phương

4.3. Biến Automation_Risk và Company_Size

4.3.1. Bảng tần suất chéo

4.3.2. Trực quan hóa

4.3.3. Kiểm định Chi-bình phương

4.4. Cặp biến Automation_Risk và Location

4.4.1. Bảng tần suất chéo

4.4.2. Trực quan hóa

4.4.3. Kiểm định Chi-bình phương

4.5. Cặp biến Automation_Risk và Remote_Friendly

4.5.1. Bảng tần suất chéo

4.5.2. Trực quan hóa

4.5.3. Kiểm định Chi-bình phương

4.6. Cặp biến Automation_Risk và AI_Adoption_Level

4.6.1. Bảng tần suất chéo

4.6.2. Trực quan hóa

4.6.3. Kiểm định Chi-bình phương

4.7. Biến Job_Growth_Projection và Job_Title

4.7.1. Bảng tần suất chéo

4.7.2. Trực quan hóa

4.7.3. Kiểm định Thống kê (Kiểm định Chi-bình phương)

4.8. Biến Job_Growth_Projection và Industry

4.8.1. Bảng tần suất chéo

4.8.2. Trực quan hóa

4.8.3. Kiểm định Chi-bình phương

4.9. Biến Job_Growth_Projection và Company_Size

4.9.1. Bảng tần suất chéo

4.9.2. Trực quan hóa

4.9.3. Kiểm định Chi-bình phương

4.10. Cặp biến Job_Growth_Projection và Location

4.10.1. Bảng tần suất chéo

4.10.2. Trực quan hóa

4.10.3. Kiểm định Chi-bình phương

4.11. Cặp biến Job_Growth_Projection và Remote_Friendly

4.11.1. Bảng tần suất chéo

4.11.2. Trực quan hóa

4.11.3. Kiểm định Chi-bình phương

4.12. Cặp biến Job_Growth_Projection và AI_Adoption_Level

4.12.1. Bảng tần suất chéo

4.12.2. Trực quan hóa

4.12.3. Kiểm định Chi-bình phương

V. Relative Risk và Odds Ratio

5.1. Cặp biến Job_Growth_Projection và AI_Adoption_Level

5.1.1. Tạo bảng chéo giữa Job_Growth_Projection và AI_Adoption_Level

5.1.2. Tính Odds Ratio

5.1.3.Tính RR

5.2. Cặp biến Job_Growth_Projection và Remote_Friendly

5.2.1. Tạo bảng chéo giữa Job_Growth_Projection và Remote_Friendly