library(ggplot2)
## Warning: package 'ggplot2' was built under R version 4.3.1
library(scales)
## Warning: package 'scales' was built under R version 4.3.1
library(dplyr)
## Warning: package 'dplyr' was built under R version 4.3.1
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
library(readxl)
PTDLDT <- read_excel("C:/Users/Abc/Downloads/PTDLDT.xlsx")
View(PTDLDT)
PTDLDT
## # A tibble: 607 × 11
## work_year experience_level employment_type job_title salary salary_currency
## <dbl> <chr> <chr> <chr> <dbl> <chr>
## 1 2020 MI FT Data Scien… 7 e4 EUR
## 2 2020 SE FT Machine Le… 2.6 e5 USD
## 3 2020 SE FT Big Data E… 8.5 e4 GBP
## 4 2020 MI FT Product Da… 2 e4 USD
## 5 2020 SE FT Machine Le… 1.5 e5 USD
## 6 2020 EN FT Data Analy… 7.20e4 USD
## 7 2020 SE FT Lead Data … 1.9 e5 USD
## 8 2020 MI FT Data Scien… 1.10e7 HUF
## 9 2020 MI FT Business D… 1.35e5 USD
## 10 2020 SE FT Lead Data … 1.25e5 USD
## # ℹ 597 more rows
## # ℹ 5 more variables: salary_in_usd <dbl>, employee_residence <chr>,
## # remote_ratio <dbl>, company_location <chr>, company_size <chr>
str(PTDLDT)
## tibble [607 × 11] (S3: tbl_df/tbl/data.frame)
## $ work_year : num [1:607] 2020 2020 2020 2020 2020 2020 2020 2020 2020 2020 ...
## $ experience_level : chr [1:607] "MI" "SE" "SE" "MI" ...
## $ employment_type : chr [1:607] "FT" "FT" "FT" "FT" ...
## $ job_title : chr [1:607] "Data Scientist" "Machine Learning Scientist" "Big Data Engineer" "Product Data Analyst" ...
## $ salary : num [1:607] 70000 260000 85000 20000 150000 72000 190000 11000000 135000 125000 ...
## $ salary_currency : chr [1:607] "EUR" "USD" "GBP" "USD" ...
## $ salary_in_usd : num [1:607] 79833 260000 109024 20000 150000 ...
## $ employee_residence: chr [1:607] "DE" "JP" "GB" "HN" ...
## $ remote_ratio : num [1:607] 0 0 50 0 50 100 100 50 100 50 ...
## $ company_location : chr [1:607] "DE" "JP" "GB" "HN" ...
## $ company_size : chr [1:607] "L" "S" "M" "S" ...
# 6 thống kê cơ bản cho biến salary_in_usd
summary(PTDLDT$salary_in_usd)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 2859 62726 101570 112298 150000 600000
# Ngũ phân vị cho biến salary_in_usd
quantile(PTDLDT$salary_in_usd)
## 0% 25% 50% 75% 100%
## 2859 62726 101570 150000 600000
PTDLDT |> ggplot(aes(x = salary_in_usd, y = after_stat(count))) +
geom_bar(fill = 'blue') +
geom_text(aes(label = scales::percent(after_stat(count/sum(count)))), stat = 'count', color = 'red', vjust = - .5) +
theme_classic() +
labs(x = 'salary_in_usd', y = 'The number employees')
Mức lương dao động trong khoảng $2.859 và $600.000 USD và phân phối có xu hướng ở bên trái. Mức lương trung bình là $112,298.
# 6 thống kê cơ bản cho biến job_title
summary(PTDLDT$job_title )
## Length Class Mode
## 607 character character
table(PTDLDT$job_title)
##
## 3D Computer Vision Researcher
## 1
## AI Scientist
## 7
## Analytics Engineer
## 4
## Applied Data Scientist
## 5
## Applied Machine Learning Scientist
## 4
## BI Data Analyst
## 6
## Big Data Architect
## 1
## Big Data Engineer
## 8
## Business Data Analyst
## 5
## Cloud Data Engineer
## 2
## Computer Vision Engineer
## 6
## Computer Vision Software Engineer
## 3
## Data Analyst
## 97
## Data Analytics Engineer
## 4
## Data Analytics Lead
## 1
## Data Analytics Manager
## 7
## Data Architect
## 11
## Data Engineer
## 132
## Data Engineering Manager
## 5
## Data Science Consultant
## 7
## Data Science Engineer
## 3
## Data Science Manager
## 12
## Data Scientist
## 143
## Data Specialist
## 1
## Director of Data Engineering
## 2
## Director of Data Science
## 7
## ETL Developer
## 2
## Finance Data Analyst
## 1
## Financial Data Analyst
## 2
## Head of Data
## 5
## Head of Data Science
## 4
## Head of Machine Learning
## 1
## Lead Data Analyst
## 3
## Lead Data Engineer
## 6
## Lead Data Scientist
## 3
## Lead Machine Learning Engineer
## 1
## Machine Learning Developer
## 3
## Machine Learning Engineer
## 41
## Machine Learning Infrastructure Engineer
## 3
## Machine Learning Manager
## 1
## Machine Learning Scientist
## 8
## Marketing Data Analyst
## 1
## ML Engineer
## 6
## NLP Engineer
## 1
## Principal Data Analyst
## 2
## Principal Data Engineer
## 3
## Principal Data Scientist
## 7
## Product Data Analyst
## 2
## Research Scientist
## 16
## Staff Data Scientist
## 1
table(PTDLDT$job_title)/sum(table(PTDLDT$job_title))
##
## 3D Computer Vision Researcher
## 0.001647446
## AI Scientist
## 0.011532125
## Analytics Engineer
## 0.006589786
## Applied Data Scientist
## 0.008237232
## Applied Machine Learning Scientist
## 0.006589786
## BI Data Analyst
## 0.009884679
## Big Data Architect
## 0.001647446
## Big Data Engineer
## 0.013179572
## Business Data Analyst
## 0.008237232
## Cloud Data Engineer
## 0.003294893
## Computer Vision Engineer
## 0.009884679
## Computer Vision Software Engineer
## 0.004942339
## Data Analyst
## 0.159802306
## Data Analytics Engineer
## 0.006589786
## Data Analytics Lead
## 0.001647446
## Data Analytics Manager
## 0.011532125
## Data Architect
## 0.018121911
## Data Engineer
## 0.217462932
## Data Engineering Manager
## 0.008237232
## Data Science Consultant
## 0.011532125
## Data Science Engineer
## 0.004942339
## Data Science Manager
## 0.019769357
## Data Scientist
## 0.235584843
## Data Specialist
## 0.001647446
## Director of Data Engineering
## 0.003294893
## Director of Data Science
## 0.011532125
## ETL Developer
## 0.003294893
## Finance Data Analyst
## 0.001647446
## Financial Data Analyst
## 0.003294893
## Head of Data
## 0.008237232
## Head of Data Science
## 0.006589786
## Head of Machine Learning
## 0.001647446
## Lead Data Analyst
## 0.004942339
## Lead Data Engineer
## 0.009884679
## Lead Data Scientist
## 0.004942339
## Lead Machine Learning Engineer
## 0.001647446
## Machine Learning Developer
## 0.004942339
## Machine Learning Engineer
## 0.067545305
## Machine Learning Infrastructure Engineer
## 0.004942339
## Machine Learning Manager
## 0.001647446
## Machine Learning Scientist
## 0.013179572
## Marketing Data Analyst
## 0.001647446
## ML Engineer
## 0.009884679
## NLP Engineer
## 0.001647446
## Principal Data Analyst
## 0.003294893
## Principal Data Engineer
## 0.004942339
## Principal Data Scientist
## 0.011532125
## Product Data Analyst
## 0.003294893
## Research Scientist
## 0.026359143
## Staff Data Scientist
## 0.001647446
PTDLDT |> count(job_title) |>
mutate(pC = percent(n/sum(n),accuracy = 0.01)) |>
ggplot(aes(x = job_title, y = n)) +
geom_col(fill = 'blue') +
geom_text(aes(label = pC),color = 'yellow', hjust = 2, size = 5) +
ylab('job_title') +
coord_flip()
Data scientist là số lượng nhân viên nhiều nhất theo job_title. Có 3 chức danh công việc có số lượng nhân viên trên 10% tổng thể, đó là data scientist, data engineer và data analyst. Hầu hết, có nhiều chức danh công việc có số lượng nhân viên ít hơn 1,5% tổng thể.
# 6 thống kê cơ bản cho biến work_year
summary(PTDLDT$work_year )
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 2020 2021 2022 2021 2022 2022
# Ngũ phân vị cho biến work_year
quantile(PTDLDT$work_year)
## 0% 25% 50% 75% 100%
## 2020 2021 2022 2022 2022
table(PTDLDT$work_year)/sum(table(PTDLDT$work_year))
##
## 2020 2021 2022
## 0.1186161 0.3574959 0.5238880
PTDLDT |> ggplot(aes(x = work_year, y = after_stat(count))) +
geom_bar(fill = 'blue') +
geom_text(aes(label = scales::percent(after_stat(count/sum(count)))), stat = 'count', color = 'red', vjust = - .5) +
theme_classic() +
labs(x = 'work year', y = 'The number employees')
Từ năm 2020 đến năm 2022 số lượng nhân viên tăng từ 12% đến 52%. Số lượng nhân viên nhiều nhất vào năm 2022
# 6 thống kê cơ bản cho biến experience_level
summary(PTDLDT$experience_level )
## Length Class Mode
## 607 character character
table(PTDLDT$experience_level)
##
## EN EX MI SE
## 88 26 213 280
table(PTDLDT$experience_level)/sum(table(PTDLDT$experience_level))
##
## EN EX MI SE
## 0.14497529 0.04283361 0.35090610 0.46128501
PTDLDT |> ggplot(aes(x = experience_level, y = after_stat(count))) +
geom_bar(fill = 'blue') +
geom_text(aes(label = scales::percent(after_stat(count/sum(count)))), stat = 'count', color = 'red', vjust = - .5) +
theme_classic() +
labs(x = 'experience_level', y = 'The number employees')
Số lượng nhân viên của vị trí Senior-level / Expert là cao nhất với 46% trên tổng sô nhân viên
rm<-table(PTDLDT$experience_level,PTDLDT$employment_type)
rm
##
## CT FL FT PT
## EN 2 0 79 7
## EX 1 0 25 0
## MI 1 3 206 3
## SE 1 1 278 0
ggplot(PTDLDT, aes(experience_level, fill = employment_type)) + geom_bar(position = 'dodge')
# 6 thống kê cơ bản cho biến company_size
summary(PTDLDT$company_size)
## Length Class Mode
## 607 character character
table(PTDLDT$company_size)
##
## L M S
## 198 326 83
table(PTDLDT$company_size)/sum(table(PTDLDT$company_size))
##
## L M S
## 0.3261944 0.5370675 0.1367381
PTDLDT |> ggplot(aes(x = company_size, y = after_stat(count))) +
geom_bar(fill = 'blue') +
geom_text(aes(label = scales::percent(after_stat(count/sum(count)))), stat = 'count', color = 'red', vjust = - .5) +
theme_classic() +
labs(x = 'company_size', y = 'The number employees')
Số lượng nhân viên của công ty có quy mô vừa là nhiều nhất với 54% trên tổng sô lượng nhân viên được kháo sát
rm<-table(PTDLDT$company_size,PTDLDT$employment_type)
rm
##
## CT FL FT PT
## L 2 1 193 2
## M 2 2 318 4
## S 1 1 77 4
ggplot(PTDLDT, aes(company_size, fill = employment_type)) + geom_bar(position = 'dodge')
# 6 thống kê cơ bản cho biến employment_type
summary(PTDLDT$company_location )
## Length Class Mode
## 607 character character
table(PTDLDT$employment_type )
##
## CT FL FT PT
## 5 4 588 10
table(PTDLDT$employment_type)/sum(table(PTDLDT$employment_type))
##
## CT FL FT PT
## 0.008237232 0.006589786 0.968698517 0.016474465
PTDLDT |> ggplot(aes(x = employment_type, y = after_stat(count))) +
geom_bar(fill = 'blue') +
geom_text(aes(label = scales::percent(after_stat(count/sum(count)))), stat = 'count', color = 'red', vjust = - .5) +
theme_classic() +
labs(x = 'employment_type', y = 'The number employees')
Nhân viên toàn thời gian chiếm ưu thế tổng thể với 96,9% số lượng nhân viên.
rm<-table(PTDLDT$employment_type,PTDLDT$experience_level)
rm
##
## EN EX MI SE
## CT 2 1 1 1
## FL 0 0 3 1
## FT 79 25 206 278
## PT 7 0 3 0
# 6 thống kê cơ bản cho biến employee_residence
summary(PTDLDT$employee_residence)
## Length Class Mode
## 607 character character
table(PTDLDT$employee_residence)
##
## AE AR AT AU BE BG BO BR CA CL CN CO CZ CH DE DK DZ EE ES FR
## 3 1 3 3 2 1 1 6 29 1 1 1 1 1 25 2 1 1 15 18
## GB GR HK HN HR HU IE IN IQ IR IT JE JP KE LU MD MT MX MY NL
## 44 13 1 1 1 2 1 30 1 1 4 1 7 1 1 1 1 2 1 5
## NZ NG PK PL PR PT PH RO RS RU SG SI TN TR UA US VN
## 1 2 6 4 1 6 1 2 1 4 2 2 1 3 1 332 3
table(PTDLDT$employee_residence)/sum(table(PTDLDT$employee_residence))
##
## AE AR AT AU BE BG
## 0.004942339 0.001647446 0.004942339 0.004942339 0.003294893 0.001647446
## BO BR CA CL CN CO
## 0.001647446 0.009884679 0.047775947 0.001647446 0.001647446 0.001647446
## CZ CH DE DK DZ EE
## 0.001647446 0.001647446 0.041186161 0.003294893 0.001647446 0.001647446
## ES FR GB GR HK HN
## 0.024711697 0.029654036 0.072487644 0.021416804 0.001647446 0.001647446
## HR HU IE IN IQ IR
## 0.001647446 0.003294893 0.001647446 0.049423394 0.001647446 0.001647446
## IT JE JP KE LU MD
## 0.006589786 0.001647446 0.011532125 0.001647446 0.001647446 0.001647446
## MT MX MY NL NZ NG
## 0.001647446 0.003294893 0.001647446 0.008237232 0.001647446 0.003294893
## PK PL PR PT PH RO
## 0.009884679 0.006589786 0.001647446 0.009884679 0.001647446 0.003294893
## RS RU SG SI TN TR
## 0.001647446 0.006589786 0.003294893 0.003294893 0.001647446 0.004942339
## UA US VN
## 0.001647446 0.546952224 0.004942339
PTDLDT |> ggplot(aes(x = employee_residence )) +
geom_bar( fill = 'black')
United States là quốc gia có nhiều nhân viên nhất tính theo nơi cư trú của nhân viên nói chung với 54,7%. Hầu hết, có nhiều khu nhà ở của nhân viên có số lượng nhân viên ít hơn 1,5% tổng thể.
Khoa học dữ liệu là lĩnh vực được mọi ngành rất quan tâm để phát triển cả hoạt động kinh doanh và sản phẩm của họ. Bằng cách sử dụng các công cụ và kỹ thuật, Khoa học dữ liệu có thể là một chủ đề giải quyết vấn đề để tìm ra các mẫu, lấy thông tin có ý nghĩa và đưa ra các quyết định kinh doanh. Vì Data Science đang có nhu cầu cao nên không thể phủ nhận mức lương như mong đợi. Nhiều yếu tố ảnh hưởng đến mức lương của một người làm việc trong lĩnh vực này, chẳng hạn như chức danh công việc, mức độ kinh nghiệm, vị trí, v.v. Vì vậy, hãy cùng tìm hiểu về nó.
Bộ dữ liệu là từ kết quả tổng hợp dữ liệu của ai-jobs.net. ai-jobs.net là một nền tảng cung cấp cho ứng viên ứng tuyển các công việc AI/ML và Dữ liệu lớn ở mọi nơi trên thế giới. Bộ dữ liệu thu được bằng cách cung cấp biểu mẫu cho tất cả những người có công việc AI/ML và Dữ liệu lớn để điền dữ liệu lương một cách minh bạch. Vì vậy, mọi người có thể sử dụng nó để tìm hiểu và phân tích thêm về nó.
Dữ liệu nghiên cứu về: Data Science Jobs Salary gồm 607 quan sát và 11 biến
Trong 11 biến này gồm 7 biến định tính và 4 biến định lượng
experience_level (Mức độ kinh nghiệm): Mức độ kinh nghiệm của người được khảo sát trong công việc trong năm với các giá trị có thể sau đây:
EN = Entry-level / Junior: Sơ cấp
MI = Mid-level / Intermediate: Trung cấp
SE = Senior-level / Expert: Chuyên gia
EX = Executive-level / Director: Giám đốc
employment_type: hình thức làm việc
PT = Part-time: bán thời gian
FT = Full-time: toàn thời gian
CT = Contract: nhân viên hợp đồng
FL = Freelance: tự do về thời gian
job_title: Vị trí công việc
salary_currency : Đơn vị tiền tệ của tiền lương được trả dưới dạng mã tiền tệ ISO 4217.
employee_residence: Quốc gia cư trú chính của nhân viên, dưới dạng mã quốc gia ISO 3166
company_location: Quốc gia của văn phòng chính hoặc chi nhánh hợp đồng của chủ lao động, dưới dạng mã quốc gia ISO 3166
company_size (Qui mô công ty): Số người trung bình làm việc cho công ty trong năm
S = less than 50 employees (small): qui mô nhỏ ít hơn 50 nhân viên
M = 50 to 250 employees (medium): qui mô vừa với số lượng nhân viên từ 50-250 người
L = more than 250 employees (large): qui mô lớn với số lượng nhân viên trên 250 người
work_year: Năm trả lương
salary: Tổng số tiền lương gộp được trả
salary_in_usd: Lương tính bằng USD (Tỷ giá hối đoái chia cho tỷ giá USD trung bình cho năm tương ứng thông qua fxdata.foorilla.com)
remote_ratio: Tổng số lượng công việc được thực hiện từ xa, các giá trị có thể như sau:
0 = No remote work (less than 20%): Không làm việc từ xa (dưới 20%)
50 = Partially remote: Làm việc từ xa một phần
100 = Fully remote (more than 80%): Làm việc từ xa hoàn toàn (hơn 80%)
+) Chọn biến định tính làm biến phụ thuộc:
Đối với biến định tính, tôi chọn biến employment_type để làm biến phụ thuộc. Đây là biến phản ánh qui mô công ty nơi mà người được khảo sát hiện đang làm việc, nó gồm có 3 biểu hiện là “S”: là qui mô nhỏ với số lượng ít hơn 50 nhân viên, “M”: là qui mô vừa với số lượng từ 50 -250 nhân viên, và “L”: là qui mô lớn với số lượng trên 250 nhân viên.
Tôi chọn biến tính employment_type làm biến phụ thuộc, với lý do tôi muốn xác định qui mô công ty nơi làm việc của người được khảo sát chịu sự tác động và bị phụ thuộc như thế nào bởi các yếu tố như kinh nghiệm làm việc, tổng mức lương, mức lương tính theo USD và tổng khối lượng công việc được thực hiện.
+) Chọn biến định lượng là biến phụ thuộc:
Đối với biến định lượng, tôi chọn biến salary_in_usd làm biến phụ thuộc, đây là biến cho biết mức lương tính bằng USD trong một năm cụ thể của người được khảo sát. Biến được tính với đơn vị là USD .
Tôi chọn biến định lượng salary_in_usd làm biến phụ thuộc, với lý do tôi muốn xác định mức độ ảnh hưởng của các yếu tố trong bảng khảo sát như năm trả lương, hình thức làm việc, mức độ kinh nghiệm, loại việc làm, vị trí công việc, quốc gia cư trú, tổng khối lượng làm việc của người được khảo sát có ảnh hưởng như thế nào đối với mức lương tính bằng đồng USD của họ.
Dữ liệu nghiên cứu về: Data Science Jobs Salary gồm 607 quan sát và 12 biến
Trong 12 biến này gồm 7 biến định tính và 5 biến định lượng
1.work_year: Năm trả lương
2.experience_level: Mức độ kinh nghiệm
3.employment_type: Loại việc làm
4.job_title: Vị trí công việc
5.salary: Tổng số tiền lương gộp
6.salary_currency : Đơn vị tiền tệ của tiền lương được trả dưới dạng mã tiền tệ ISO 4217.
7.salary_in_usd: Lương tính bằng USD
8.employee_residence: Quốc gia cư trú chính của nhân viên, dưới dạng mã quốc gia ISO 3166
9.remote_ratio: Tổng khối lượng công việc được thực hiện từ xa
10.company_location: Quốc gia của văn phòng chính hoặc chi nhánh hợp đồng của chủ lao động, dưới dạng mã quốc gia ISO 3166
11.company_size: Qui mô công ty
library(readxl)
PTDLDT <- read_excel("C:/Users/Abc/Downloads/PTDLDT.xlsx")
View(PTDLDT)
PTDLDT
## # A tibble: 607 × 11
## work_year experience_level employment_type job_title salary salary_currency
## <dbl> <chr> <chr> <chr> <dbl> <chr>
## 1 2020 MI FT Data Scien… 7 e4 EUR
## 2 2020 SE FT Machine Le… 2.6 e5 USD
## 3 2020 SE FT Big Data E… 8.5 e4 GBP
## 4 2020 MI FT Product Da… 2 e4 USD
## 5 2020 SE FT Machine Le… 1.5 e5 USD
## 6 2020 EN FT Data Analy… 7.20e4 USD
## 7 2020 SE FT Lead Data … 1.9 e5 USD
## 8 2020 MI FT Data Scien… 1.10e7 HUF
## 9 2020 MI FT Business D… 1.35e5 USD
## 10 2020 SE FT Lead Data … 1.25e5 USD
## # ℹ 597 more rows
## # ℹ 5 more variables: salary_in_usd <dbl>, employee_residence <chr>,
## # remote_ratio <dbl>, company_location <chr>, company_size <chr>