Em xin gửi lời cảm ơn sâu sắc đến quý thầy cô trường đại hoc Tài chính - Marketing, đặc biệt là thầy Trần Mạnh Tường đã tận tình chỉ bảo và cho em được nhiều kiến thức hữu ích có thể áp dụng vào cuộc sống. Trong quá trình học tập môn Phân tích dữ liệu định tính khó tránh khỏi những thiếu sót về kiến thức rất mong thầy có thể bỏ qua. Em mong nhận được lời góp ý chân thành và nhận xét của thầy để có thể tích luỹ kinh nghiệm cho sau này.
Theo kết quả khảo sát từ Báo cáo đánh giá việc làm sinh viên tốt nghiệp năm 2020 của Trung tâm Hỗ trợ đào tạo và cung ứng nhân lực, Bộ Giáo dục và Đào tạo, có khoảng 80 -90% sinh viên tùy từng cơ sở đào tạo sau khi tốt nghiệp từ 3 tháng đến 1 năm đã có việc làm. Kết quả khảo sát sinh viên tốt nghiệp đại học cho thấy tỷ lệ sinh viên tốt nghiệp đã có việc làm chiếm 88,3% trong tổng số sinh viên trả lời phỏng vấn. Những sinh viên tốt nghiệp với thứ hạng càng cao chiếm tỷ lệ có việc làm càng cao. Số liệu cho thấy sinh viên tốt nghiệp thuộc nhóm ngành Y - Dược chiếm tỷ lệ có việc làm cao nhất, lên tới 96,3%. Tiếp theo là nhóm Khoa học xã hội, Kinh tế, Luật, Nông - Lâm - Ngư nghiệp với tỉ lệ 89,6%. Xếp cuối là nhóm ngành Khoa học tự nhiên, Kỹ thuật, Công nghệ, Thể dục thể thao, Nghệ thuật chỉ đạt tỷ lệ 84,%.
Như vậy, tỷ lệ sinh viên tốt nghiệp đại học nhưng chưa có việc làm và đang tìm việc chiếm gần 20%. Con số này khá cao, nếu so với tỷ lệ thất nghiệp chung của nhóm thanh niên ở độ tuổi 20 - 24 trong cả nước năm 2019 là 6,1%.
Nhận thấy được tầm quan trọng của các yếu tố ảnh huởng đến mức lương sau khi ra trường, nay tiến hành thực hiện đề tài ” Các yếu tố ảnh hưởng đến mức lương ” để mọi người có thể có sự phân tích các ngành có các mức lương phù hợp cho mọi người.
Từ các mục tiêu nghiên cứu tôi có thể hiểu được cấc yếu tố ảnh hưởng đến mức lương từ đó đưa ra nghiên cứu để mọi người có thể dễ lựa chọn ngành học hơn.
Các yếu tố ảnh hưởng đến mức lương : Tuổi, Giới tính, Kinh nghiệm, học vấn, ngành học.
Sử dụng mô hình hồi quy tuyến tính để phân tích các tác đông tới mức lương
TÌM DATASET CÓ DỮ LIỆU ĐỊNH TÍNH, DỮ LIỆU ĐỊNH LƯỢNG, CÓ TRÊN 5 BIẾN VÀ NHIỀU HƠN 150 QUAN SÁT
MỨC LƯƠNG DỰA VÀO KINH NGHIỆM, TUỔI, GIỚI TÍNH, HỌC VẤN, NGÀNH HỌC
AGE: TUỔI
GENDER: GIỚI TÍNH
JOB TITTLE: NGÀNH
EDUCATION LEVEL: HỌC VẤN
YEARS OF EXPERIENCE: KINH NGHIỆM
library(readxl)
DTINH <- read_excel("DTINH.xlsx")
View(DTINH)
DTINH
## # A tibble: 172 × 6
## Age Gender `Education Level` `Job Title` `Years of Experience` Salary
## <dbl> <chr> <chr> <chr> <chr> <dbl>
## 1 32 Male Bachelor's Software Engineer 5 90000
## 2 28 Female Master's Data Analyst 3 65000
## 3 45 Male PhD Senior Manager 15 150000
## 4 36 Female Bachelor's Sales Associate 7 60000
## 5 52 Male Master's Director 20 200000
## 6 29 Male Bachelor's Marketing Analyst 2 55000
## 7 42 Female Master's Product Manager 12 120000
## 8 31 Male Bachelor's Sales Manager 4 80000
## 9 26 Female Bachelor's Marketing Coordi… 1 45000
## 10 38 Male PhD Senior Scientist 10 110000
## # ℹ 162 more rows
Gender: Giới tính
JOB TITTLE: Ngành
EDUCATION LEVEL: Học vấn
AGE: Tuổi tác
YEARS OF EXPERIENCE: Kinh nghiệm làm việc
SALARY: Mức lương
Job Title có thể được hiểu là chức danh mà doanh nghiệp đang có nhu cầu tuyển dụng. Job Title thường được miêu tả một cách ngắn gọn, đúc kết được thông điệp từ phía nhà tuyển dụng. Tùy theo tính chất và yêu cầu công việc mà nhà tuyển dụng sẽ đặt Job Title sao cho phù hợp nhất.
Một Job Title hay ho, hấp dẫn sẽ giúp tin tuyển dụng của doanh nghiệp ghi điểm trong mắt ứng viên, làm cho họ thích thú mà chia sẻ nhiều hơn trên các kênh mạng xã hội, từ đó giúp tin việc làm lan tỏa rộng rãi vừa tiếp cận nhiều ứng viên vừa đưa tên tuổi doanh nghiệp đi xa.
Biến định tính JOB TITTLE phụ thuộc vào biến định tính EDUCATION LEVEL
Giải thích: biến EDUCATION LEVEL thể hiện trình độ học vấn của một người. Trìn độ cử nhân, thạc sĩ, tiến sĩ ảnh hưởng đến vị trí trong ngành nghề rất nhiều. Trình độ học vấn càng cao vị trí trong công việc cũng sẽ cao theo. Vì vậy biến JOB TITTLE phụ thuộc vào biến EDUCATION LEVEL
Tiền lương là sự trả công hoặc thu nhập, bất kể tên gọi hay cách tính mà có thể biểu hiện bằng tiền mặt và được ấn định bằng thỏa thuận giữa người sử dụng lao động và người lao động hoặc bằng pháp luật quốc gia, do người sử dụng lao động phải trả cho người lao động theo một hợp đồng thuê mướn lao động, bằng viết hoặc bằng lời nói cho một công việc đã thực hiện hoặc sẽ phải thực hiện, hoặc cho những dịch vụ đã làm hay sẽ phải làm.
Biến định lượng SALARY phụ thuộc vào biến YEARS OF EXPERIENCE.
Giải thích: Kinh nghiệm làm việc là những kiến thức, kỹ năng, tố chất mà mỗi người lao động đã tích lũy được thông qua quá trình tiếp xúc và trực tiếp triển khai công việc. Mỗi ngành nghề sở hữu tính chất đặc thù riêng, vì vậy, kinh nghiệm cũng sẽ có những khác biệt nhất định. Kinh nghiệm làm việc cho thấy những nội dung kiến thức, kỹ năng, cũng như những tính chất sự vụ mà ứng viên đã từng trải nghiệm, trực tiếp xử lý trong suốt thời gian tham gia vào quá trình làm việc. Vì vậy với kinh nghiệm càng nhiều thì sẽ được ứng tuyển vị trí cao hơn và người làm lâu năm nhiều kinh nghiệm sẽ được mức lương hậu hĩnh hơn người chưa có kinh nghiệm. Cho nên có thể nói biến SALARY phụ thuộc vào biến YEARS OF EXPERIENCE.
3.1. Thống kê mô tả của biến JOB TITTLE
Bảng tần suất của biến JOB TITTLE
table(DTINH$`Job Title`)
##
## Account Manager Accountant
## 1 1
## Administrative Assistant Business Analyst
## 2 2
## Business Development Manager Business Intelligence Analyst
## 1 1
## CEO Chief Data Officer
## 1 1
## Chief Technology Officer Content Marketing Manager
## 1 1
## Copywriter Creative Director
## 1 1
## Customer Service Manager Customer Service Rep
## 2 1
## Customer Service Representative Customer Success Manager
## 1 1
## Customer Success Rep Data Analyst
## 1 2
## Data Entry Clerk Data Scientist
## 1 1
## Digital Content Producer Digital Marketing Manager
## 1 1
## Director Director of Finance
## 1 1
## Director of Human Resources Director of Marketing
## 1 2
## Director of Operations Director of Product Management
## 2 1
## Director of Sales Event Coordinator
## 1 2
## Financial Advisor Financial Analyst
## 1 1
## Financial Manager Graphic Designer
## 1 1
## Help Desk Analyst HR Generalist
## 1 2
## HR Manager Human Resources Director
## 2 1
## IT Manager IT Support
## 1 1
## IT Support Specialist Junior Account Manager
## 1 1
## Junior Accountant Junior Business Analyst
## 2 1
## Junior Business Development Associate Junior Copywriter
## 1 1
## Junior Customer Support Specialist Junior Data Analyst
## 1 1
## Junior Designer Junior Developer
## 1 1
## Junior Financial Analyst Junior HR Coordinator
## 1 1
## Junior HR Generalist Junior Marketing Analyst
## 1 1
## Junior Marketing Coordinator Junior Marketing Manager
## 1 1
## Junior Marketing Specialist Junior Operations Analyst
## 1 1
## Junior Project Manager Junior Recruiter
## 1 1
## Junior Sales Representative Junior Software Developer
## 1 2
## Junior Software Engineer Junior Web Designer
## 1 1
## Junior Web Developer Marketing Analyst
## 1 2
## Marketing Coordinator Marketing Manager
## 3 1
## Marketing Specialist Network Engineer
## 1 1
## Office Manager Operations Analyst
## 1 1
## Operations Director Operations Manager
## 1 2
## Principal Engineer Principal Scientist
## 1 1
## Product Designer Product Manager
## 1 2
## Product Marketing Manager Project Engineer
## 1 1
## Project Manager Public Relations Manager
## 2 1
## Recruiter Research Director
## 2 1
## Research Scientist Sales Associate
## 1 2
## Sales Director Sales Executive
## 1 1
## Sales Manager Sales Operations Manager
## 3 1
## Sales Representative Senior Account Manager
## 1 1
## Senior Accountant Senior Business Analyst
## 1 2
## Senior Business Development Manager Senior Consultant
## 1 1
## Senior Data Scientist Senior Engineer
## 2 2
## Senior Financial Analyst Senior Graphic Designer
## 2 1
## Senior HR Generalist Senior HR Manager
## 1 1
## Senior Human Resources Manager Senior IT Support Specialist
## 1 1
## Senior Manager Senior Marketing Analyst
## 2 2
## Senior Marketing Coordinator Senior Marketing Manager
## 1 2
## Senior Operations Manager Senior Product Designer
## 1 1
## Senior Product Manager Senior Product Marketing Manager
## 1 1
## Senior Project Coordinator Senior Project Manager
## 1 2
## Senior Research Scientist Senior Researcher
## 1 1
## Senior Sales Manager Senior Sales Representative
## 1 1
## Senior Scientist Senior Software Developer
## 3 1
## Senior Software Engineer Senior Training Specialist
## 2 1
## Social Media Manager Social Media Specialist
## 1 1
## Software Developer Software Engineer
## 1 1
## Software Manager Software Project Manager
## 1 1
## Strategy Consultant Supply Chain Analyst
## 1 1
## Supply Chain Manager Technical Recruiter
## 1 1
## Technical Support Specialist Technical Writer
## 1 1
## Training Specialist UX Designer
## 1 1
## UX Researcher VP of Finance
## 1 1
## VP of Operations Web Developer
## 1 1
Bảng tần suất của biến JOB TITTLE theo tỷ lệ %
table(DTINH$`Job Title`)/sum(table(DTINH$`Job Title`))
##
## Account Manager Accountant
## 0.005813953 0.005813953
## Administrative Assistant Business Analyst
## 0.011627907 0.011627907
## Business Development Manager Business Intelligence Analyst
## 0.005813953 0.005813953
## CEO Chief Data Officer
## 0.005813953 0.005813953
## Chief Technology Officer Content Marketing Manager
## 0.005813953 0.005813953
## Copywriter Creative Director
## 0.005813953 0.005813953
## Customer Service Manager Customer Service Rep
## 0.011627907 0.005813953
## Customer Service Representative Customer Success Manager
## 0.005813953 0.005813953
## Customer Success Rep Data Analyst
## 0.005813953 0.011627907
## Data Entry Clerk Data Scientist
## 0.005813953 0.005813953
## Digital Content Producer Digital Marketing Manager
## 0.005813953 0.005813953
## Director Director of Finance
## 0.005813953 0.005813953
## Director of Human Resources Director of Marketing
## 0.005813953 0.011627907
## Director of Operations Director of Product Management
## 0.011627907 0.005813953
## Director of Sales Event Coordinator
## 0.005813953 0.011627907
## Financial Advisor Financial Analyst
## 0.005813953 0.005813953
## Financial Manager Graphic Designer
## 0.005813953 0.005813953
## Help Desk Analyst HR Generalist
## 0.005813953 0.011627907
## HR Manager Human Resources Director
## 0.011627907 0.005813953
## IT Manager IT Support
## 0.005813953 0.005813953
## IT Support Specialist Junior Account Manager
## 0.005813953 0.005813953
## Junior Accountant Junior Business Analyst
## 0.011627907 0.005813953
## Junior Business Development Associate Junior Copywriter
## 0.005813953 0.005813953
## Junior Customer Support Specialist Junior Data Analyst
## 0.005813953 0.005813953
## Junior Designer Junior Developer
## 0.005813953 0.005813953
## Junior Financial Analyst Junior HR Coordinator
## 0.005813953 0.005813953
## Junior HR Generalist Junior Marketing Analyst
## 0.005813953 0.005813953
## Junior Marketing Coordinator Junior Marketing Manager
## 0.005813953 0.005813953
## Junior Marketing Specialist Junior Operations Analyst
## 0.005813953 0.005813953
## Junior Project Manager Junior Recruiter
## 0.005813953 0.005813953
## Junior Sales Representative Junior Software Developer
## 0.005813953 0.011627907
## Junior Software Engineer Junior Web Designer
## 0.005813953 0.005813953
## Junior Web Developer Marketing Analyst
## 0.005813953 0.011627907
## Marketing Coordinator Marketing Manager
## 0.017441860 0.005813953
## Marketing Specialist Network Engineer
## 0.005813953 0.005813953
## Office Manager Operations Analyst
## 0.005813953 0.005813953
## Operations Director Operations Manager
## 0.005813953 0.011627907
## Principal Engineer Principal Scientist
## 0.005813953 0.005813953
## Product Designer Product Manager
## 0.005813953 0.011627907
## Product Marketing Manager Project Engineer
## 0.005813953 0.005813953
## Project Manager Public Relations Manager
## 0.011627907 0.005813953
## Recruiter Research Director
## 0.011627907 0.005813953
## Research Scientist Sales Associate
## 0.005813953 0.011627907
## Sales Director Sales Executive
## 0.005813953 0.005813953
## Sales Manager Sales Operations Manager
## 0.017441860 0.005813953
## Sales Representative Senior Account Manager
## 0.005813953 0.005813953
## Senior Accountant Senior Business Analyst
## 0.005813953 0.011627907
## Senior Business Development Manager Senior Consultant
## 0.005813953 0.005813953
## Senior Data Scientist Senior Engineer
## 0.011627907 0.011627907
## Senior Financial Analyst Senior Graphic Designer
## 0.011627907 0.005813953
## Senior HR Generalist Senior HR Manager
## 0.005813953 0.005813953
## Senior Human Resources Manager Senior IT Support Specialist
## 0.005813953 0.005813953
## Senior Manager Senior Marketing Analyst
## 0.011627907 0.011627907
## Senior Marketing Coordinator Senior Marketing Manager
## 0.005813953 0.011627907
## Senior Operations Manager Senior Product Designer
## 0.005813953 0.005813953
## Senior Product Manager Senior Product Marketing Manager
## 0.005813953 0.005813953
## Senior Project Coordinator Senior Project Manager
## 0.005813953 0.011627907
## Senior Research Scientist Senior Researcher
## 0.005813953 0.005813953
## Senior Sales Manager Senior Sales Representative
## 0.005813953 0.005813953
## Senior Scientist Senior Software Developer
## 0.017441860 0.005813953
## Senior Software Engineer Senior Training Specialist
## 0.011627907 0.005813953
## Social Media Manager Social Media Specialist
## 0.005813953 0.005813953
## Software Developer Software Engineer
## 0.005813953 0.005813953
## Software Manager Software Project Manager
## 0.005813953 0.005813953
## Strategy Consultant Supply Chain Analyst
## 0.005813953 0.005813953
## Supply Chain Manager Technical Recruiter
## 0.005813953 0.005813953
## Technical Support Specialist Technical Writer
## 0.005813953 0.005813953
## Training Specialist UX Designer
## 0.005813953 0.005813953
## UX Researcher VP of Finance
## 0.005813953 0.005813953
## VP of Operations Web Developer
## 0.005813953 0.005813953
Dựa vào bảng tần suất của biến Job title ta có thể thấy tỷ lệ Senior Scientist và Sales Manager, Marketing Coordinator cao nhất với 1.74%
library("ggplot2")
DTINH |> ggplot(aes(`Job Title`)) +
geom_bar(olor = 'blue', fill = 'blue') + theme_classic() + labs(x = 'chỉ số việc làm', y = 'Số người')
## Warning in geom_bar(olor = "blue", fill = "blue"): Ignoring unknown parameters:
## `olor`
3.2. Thống kê mô tả của biến EDUCATION LEVEL Bảng tần suất của biến EDUCATION LEVEL
table(DTINH$`Education Level`)
##
## Bachelor's Master's PhD
## 94 58 20
Dựa vào bảng tần suất ta có thể thấy Cử nhân là 94, Thạc Sĩ 58, Tiến sĩ 20
Bảng tần suất của biến EDUCATION LEVEL theo tỷ lệ %
table(DTINH$`Education Level`)/sum(table(DTINH$`Education Level`))
##
## Bachelor's Master's PhD
## 0.5465116 0.3372093 0.1162791
Dựa vào bảng tần suất của biến EDUCATIN LEVEL ta có thể thấy tỷ lệ Cử nhan chiếm 54.65%, tỷ lệ Thạc Sĩ chiếm 33.7%, Tiến sĩ 11.62%
library("ggplot2")
DTINH |> ggplot(aes(`Education Level`)) +
geom_bar(olor = 'blue', fill = 'blue') + theme_classic() + labs(x = 'chỉ số ngành học', y = 'Số người')
## Warning in geom_bar(olor = "blue", fill = "blue"): Ignoring unknown parameters:
## `olor`
3.3. Thống kê mô tả của biến GENDER
Bảng tần suất của biến GENDER
table(DTINH$Gender)
##
## Female Male
## 80 92
Dựa vào bảng tần suất ta có thể thấy tỷ lệ nam là 92, nữ là 80 Bảng tần suất của biến GENDER theo tỷ lệ %
table(DTINH$Gender)/sum(table(DTINH$Gender))
##
## Female Male
## 0.4651163 0.5348837
Dựa vào bảng tần suất của biến Gender ta có thể thấy tỷ lệ Nam là 53.5%, Nữ là 46.5%
library("ggplot2")
DTINH |> ggplot(aes(Gender)) +
geom_bar(olor = 'blue', fill = 'blue') + theme_classic() + labs(x = 'chỉ số Nam, Nữ', y = 'Số người')
## Warning in geom_bar(olor = "blue", fill = "blue"): Ignoring unknown parameters:
## `olor`
3.4. Thống kê mô tả của biến Salary
Bảng tần suất của biến Salary
table(DTINH$Salary)
##
## 30000 35000 40000 45000 50000 55000 60000 65000 70000 75000 80000
## 1 8 13 11 11 6 8 7 2 4 10
## 85000 90000 95000 1e+05 105000 110000 115000 120000 125000 130000 135000
## 1 9 8 4 4 8 3 9 1 4 2
## 140000 150000 160000 170000 175000 180000 185000 190000 2e+05 220000 250000
## 7 5 5 4 2 6 1 3 2 1 2
Bảng tần suất của biến Salary theo tỷ lệ %
table(DTINH$Salary)/sum(table(DTINH$Salary))
##
## 30000 35000 40000 45000 50000 55000
## 0.005813953 0.046511628 0.075581395 0.063953488 0.063953488 0.034883721
## 60000 65000 70000 75000 80000 85000
## 0.046511628 0.040697674 0.011627907 0.023255814 0.058139535 0.005813953
## 90000 95000 1e+05 105000 110000 115000
## 0.052325581 0.046511628 0.023255814 0.023255814 0.046511628 0.017441860
## 120000 125000 130000 135000 140000 150000
## 0.052325581 0.005813953 0.023255814 0.011627907 0.040697674 0.029069767
## 160000 170000 175000 180000 185000 190000
## 0.029069767 0.023255814 0.011627907 0.034883721 0.005813953 0.017441860
## 2e+05 220000 250000
## 0.011627907 0.005813953 0.011627907
Dựa vào bảng tần suất của biến Salary ta có thể thấy tỷ lệ Lương cao nhất là 40000 với 7.56% và thấp nhất là 18500 với 30000 là 0.58%
library("ggplot2")
DTINH |> ggplot(aes(Salary)) +
geom_bar(olor = 'blue', fill = 'blue') + theme_classic() + labs(x = 'chỉ số Lương', y = 'Số người')
## Warning in geom_bar(olor = "blue", fill = "blue"): Ignoring unknown parameters:
## `olor`
3.5. Thống kê mô tả của biến Years of experience
Bảng tần suất của biến Years of experience
table(DTINH$`Years of Experience`)
##
## 0 0.5 1 1.5 10 11 12 13 14 15 16 17 18 19 2 20 21 22 23 24
## 3 1 6 2 9 6 7 6 7 5 6 2 7 6 15 7 5 6 2 1
## 25 3 4 5 6 7 8 9
## 3 14 7 10 7 10 6 6
Bảng tần suất của biến Years of experience theo tỷ lệ %
table(DTINH$`Years of Experience`)/sum(table(DTINH$`Years of Experience`))
##
## 0 0.5 1 1.5 10 11
## 0.017441860 0.005813953 0.034883721 0.011627907 0.052325581 0.034883721
## 12 13 14 15 16 17
## 0.040697674 0.034883721 0.040697674 0.029069767 0.034883721 0.011627907
## 18 19 2 20 21 22
## 0.040697674 0.034883721 0.087209302 0.040697674 0.029069767 0.034883721
## 23 24 25 3 4 5
## 0.011627907 0.005813953 0.017441860 0.081395349 0.040697674 0.058139535
## 6 7 8 9
## 0.040697674 0.058139535 0.034883721 0.034883721
Dựa vào bảng tần suất của biến Years of experience ta có thể thấy tỷ lệ Năm kinh nghiệm làm việc cao nhất là 2 năm với 8.72% và thấp nhất là nửa năm 0.56%
library("ggplot2")
DTINH |> ggplot(aes(`Years of Experience`)) +
geom_bar(olor = 'blue', fill = 'blue') + theme_classic() + labs(x = 'Số năm ', y = 'Số người')
## Warning in geom_bar(olor = "blue", fill = "blue"): Ignoring unknown parameters:
## `olor`
3.6 Phân tích sự tác động giữa hai biến Salary và Years.of.Experience
table(DTINH$Salary, DTINH$`Years of Experience`)
##
## 0 0.5 1 1.5 10 11 12 13 14 15 16 17 18 19 2 20 21 22 23 24 25 3 4 5 6
## 30000 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## 35000 2 1 3 1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0
## 40000 0 0 2 1 0 0 0 0 0 0 0 0 0 0 9 0 0 0 0 0 0 1 0 0 0
## 45000 0 0 1 0 0 0 0 0 0 0 0 0 0 0 2 0 0 0 0 0 0 5 0 2 0
## 50000 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 3 3 4 0
## 55000 0 0 0 0 1 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 1 2 0 1
## 60000 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 0 0
## 65000 0 0 0 0 1 0 1 0 0 1 0 0 0 0 1 0 0 0 0 0 0 1 0 0 2
## 70000 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## 75000 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 2 0 1 0
## 80000 0 0 0 0 1 1 1 2 0 1 0 0 0 0 0 0 0 0 0 0 0 0 1 2 0
## 85000 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## 90000 0 0 0 0 2 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 2
## 95000 0 0 0 0 2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1
## 1e+05 0 0 0 0 0 0 1 0 1 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 1
## 105000 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0
## 110000 0 0 0 0 1 1 0 1 2 1 0 0 1 0 0 1 0 0 0 0 0 0 0 0 0
## 115000 0 0 0 0 0 0 1 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## 120000 0 0 0 0 1 3 1 1 2 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0
## 125000 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## 130000 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 2 0 0 0 0 0 0 0
## 135000 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0
## 140000 0 0 0 0 0 0 0 1 0 1 1 1 2 1 0 0 0 0 0 0 0 0 0 0 0
## 150000 0 0 0 0 0 0 0 0 0 1 1 0 2 1 0 0 0 0 0 0 0 0 0 0 0
## 160000 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 2 3 0 0 0 0 0 0 0
## 170000 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 2 0 0 1 0 1 0 0 0 0
## 175000 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 1 0 0 0 0 0 0 0 0
## 180000 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 2 1 1 0 0 1 0 0 0 0
## 185000 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0
## 190000 0 0 0 0 0 0 0 0 0 0 1 0 1 1 0 0 0 0 0 0 0 0 0 0 0
## 2e+05 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 1 0 0 0 0 0 0 0 0 0
## 220000 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## 250000 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 0 0 0 0
##
## 7 8 9
## 30000 0 0 0
## 35000 0 0 0
## 40000 0 0 0
## 45000 0 1 0
## 50000 0 0 0
## 55000 0 0 0
## 60000 4 0 1
## 65000 0 0 0
## 70000 0 1 0
## 75000 1 0 0
## 80000 1 0 0
## 85000 1 0 0
## 90000 1 2 0
## 95000 0 1 4
## 1e+05 0 0 0
## 105000 1 1 1
## 110000 0 0 0
## 115000 1 0 0
## 120000 0 0 0
## 125000 0 0 0
## 130000 0 0 0
## 135000 0 0 0
## 140000 0 0 0
## 150000 0 0 0
## 160000 0 0 0
## 170000 0 0 0
## 175000 0 0 0
## 180000 0 0 0
## 185000 0 0 0
## 190000 0 0 0
## 2e+05 0 0 0
## 220000 0 0 0
## 250000 0 0 0
Dựa vào số liệu vừa thu được ta có thể thấy để đạt được mức lương trên 100000 thì ta phải có trên 5 năm kinh nghiệm làm việc
library("ggplot2")
ggplot(DTINH, aes(Salary, fill =`Years of Experience` )) + geom_bar(position = 'dodge')
5.1 Phân tích biến “Salary” và biến “Gender”
#Bảng tần số
a <- table(DTINH$Salary,DTINH$Gender)
a
##
## Female Male
## 30000 0 1
## 35000 2 6
## 40000 5 8
## 45000 8 3
## 50000 7 4
## 55000 5 1
## 60000 4 4
## 65000 5 2
## 70000 1 1
## 75000 0 4
## 80000 7 3
## 85000 0 1
## 90000 4 5
## 95000 3 5
## 1e+05 3 1
## 105000 0 4
## 110000 4 4
## 115000 0 3
## 120000 4 5
## 125000 0 1
## 130000 3 1
## 135000 0 2
## 140000 4 3
## 150000 3 2
## 160000 2 3
## 170000 2 2
## 175000 0 2
## 180000 3 3
## 185000 1 0
## 190000 0 3
## 2e+05 0 2
## 220000 0 1
## 250000 0 2
Dựa vào bảng tần số ta có thể thấy tỷ lệ Nam có Lương cao hơn Nữ rất nhiều, ta có thể thấy từ mức lương trên 105000 Nam có tỷ lệ cao hơn, thấp hơn 105000 thì Nữ nhiều hơn
#Bảng tần số biên
addmargins(a)
##
## Female Male Sum
## 30000 0 1 1
## 35000 2 6 8
## 40000 5 8 13
## 45000 8 3 11
## 50000 7 4 11
## 55000 5 1 6
## 60000 4 4 8
## 65000 5 2 7
## 70000 1 1 2
## 75000 0 4 4
## 80000 7 3 10
## 85000 0 1 1
## 90000 4 5 9
## 95000 3 5 8
## 1e+05 3 1 4
## 105000 0 4 4
## 110000 4 4 8
## 115000 0 3 3
## 120000 4 5 9
## 125000 0 1 1
## 130000 3 1 4
## 135000 0 2 2
## 140000 4 3 7
## 150000 3 2 5
## 160000 2 3 5
## 170000 2 2 4
## 175000 0 2 2
## 180000 3 3 6
## 185000 1 0 1
## 190000 0 3 3
## 2e+05 0 2 2
## 220000 0 1 1
## 250000 0 2 2
## Sum 80 92 172
#Bảng tần suất
a1 <- prop.table(a)
a1
##
## Female Male
## 30000 0.000000000 0.005813953
## 35000 0.011627907 0.034883721
## 40000 0.029069767 0.046511628
## 45000 0.046511628 0.017441860
## 50000 0.040697674 0.023255814
## 55000 0.029069767 0.005813953
## 60000 0.023255814 0.023255814
## 65000 0.029069767 0.011627907
## 70000 0.005813953 0.005813953
## 75000 0.000000000 0.023255814
## 80000 0.040697674 0.017441860
## 85000 0.000000000 0.005813953
## 90000 0.023255814 0.029069767
## 95000 0.017441860 0.029069767
## 1e+05 0.017441860 0.005813953
## 105000 0.000000000 0.023255814
## 110000 0.023255814 0.023255814
## 115000 0.000000000 0.017441860
## 120000 0.023255814 0.029069767
## 125000 0.000000000 0.005813953
## 130000 0.017441860 0.005813953
## 135000 0.000000000 0.011627907
## 140000 0.023255814 0.017441860
## 150000 0.017441860 0.011627907
## 160000 0.011627907 0.017441860
## 170000 0.011627907 0.011627907
## 175000 0.000000000 0.011627907
## 180000 0.017441860 0.017441860
## 185000 0.005813953 0.000000000
## 190000 0.000000000 0.017441860
## 2e+05 0.000000000 0.011627907
## 220000 0.000000000 0.005813953
## 250000 0.000000000 0.011627907
#Bảng tần suất biên
addmargins(a1)
##
## Female Male Sum
## 30000 0.000000000 0.005813953 0.005813953
## 35000 0.011627907 0.034883721 0.046511628
## 40000 0.029069767 0.046511628 0.075581395
## 45000 0.046511628 0.017441860 0.063953488
## 50000 0.040697674 0.023255814 0.063953488
## 55000 0.029069767 0.005813953 0.034883721
## 60000 0.023255814 0.023255814 0.046511628
## 65000 0.029069767 0.011627907 0.040697674
## 70000 0.005813953 0.005813953 0.011627907
## 75000 0.000000000 0.023255814 0.023255814
## 80000 0.040697674 0.017441860 0.058139535
## 85000 0.000000000 0.005813953 0.005813953
## 90000 0.023255814 0.029069767 0.052325581
## 95000 0.017441860 0.029069767 0.046511628
## 1e+05 0.017441860 0.005813953 0.023255814
## 105000 0.000000000 0.023255814 0.023255814
## 110000 0.023255814 0.023255814 0.046511628
## 115000 0.000000000 0.017441860 0.017441860
## 120000 0.023255814 0.029069767 0.052325581
## 125000 0.000000000 0.005813953 0.005813953
## 130000 0.017441860 0.005813953 0.023255814
## 135000 0.000000000 0.011627907 0.011627907
## 140000 0.023255814 0.017441860 0.040697674
## 150000 0.017441860 0.011627907 0.029069767
## 160000 0.011627907 0.017441860 0.029069767
## 170000 0.011627907 0.011627907 0.023255814
## 175000 0.000000000 0.011627907 0.011627907
## 180000 0.017441860 0.017441860 0.034883721
## 185000 0.005813953 0.000000000 0.005813953
## 190000 0.000000000 0.017441860 0.017441860
## 2e+05 0.000000000 0.011627907 0.011627907
## 220000 0.000000000 0.005813953 0.005813953
## 250000 0.000000000 0.011627907 0.011627907
## Sum 0.465116279 0.534883721 1.000000000
5.1.2 Đồ thị cột
library("ggplot2")
ggplot(DTINH, aes(Salary, fill =Gender )) + geom_bar(position = 'dodge')
5.1.3 Kiểm định sự độc lập
Giả thuyết H0: Mức lương và Giới tính
chisq.test(a)
## Warning in chisq.test(a): Chi-squared approximation may be incorrect
##
## Pearson's Chi-squared test
##
## data: a
## X-squared = 40.963, df = 32, p-value = 0.1331
Qua kết quả kiểm định cho ta thấy chưa đủ chứng cứ để nói rằng giới tính ảnh hưởng tới mức lương
5.2 Phân tích biến ‘Educatin Level’ và biến ‘Gender’
#Bảng tần số
b <- table(DTINH$`Education Level`,DTINH$Gender)
b
##
## Female Male
## Bachelor's 44 50
## Master's 31 27
## PhD 5 15
Dựa vào bảng tần số ta có thể thấy tỷ lệ Tiến Sĩ Nam nhiều hơn Nữ khá nhiều
#Bảng tần số biên
addmargins(b)
##
## Female Male Sum
## Bachelor's 44 50 94
## Master's 31 27 58
## PhD 5 15 20
## Sum 80 92 172
#Bảng tần suất
b1 <- prop.table(b)
b1
##
## Female Male
## Bachelor's 0.25581395 0.29069767
## Master's 0.18023256 0.15697674
## PhD 0.02906977 0.08720930
#Bảng tần suất biên
addmargins(b1)
##
## Female Male Sum
## Bachelor's 0.25581395 0.29069767 0.54651163
## Master's 0.18023256 0.15697674 0.33720930
## PhD 0.02906977 0.08720930 0.11627907
## Sum 0.46511628 0.53488372 1.00000000
5.2.2 Đồ thị cột
library("ggplot2")
ggplot(DTINH, aes(`Education Level`, fill =Gender )) + geom_bar(position = 'dodge')
5.2.3 Kiểm định sự độc lập
Giả thuyết H0: Trình độ học vấn và Giới tính
chisq.test(b)
##
## Pearson's Chi-squared test
##
## data: b
## X-squared = 4.8452, df = 2, p-value = 0.08869
Qua kết quả kiểm định cho ta thấy chưa đủ chứng cứ để nói rằng giới tính ảnh hưởng tới trình độ học vấn
5.3 Phân tích biến Years of Experience và biến
‘Gender’
#Bảng tần số
c <- table(DTINH$`Years of Experience`,DTINH$Gender)
c
##
## Female Male
## 0 1 2
## 0.5 1 0
## 1 2 4
## 1.5 1 1
## 10 6 3
## 11 2 4
## 12 6 1
## 13 4 2
## 14 5 2
## 15 4 1
## 16 3 3
## 17 1 1
## 18 3 4
## 19 1 5
## 2 3 12
## 20 2 5
## 21 1 4
## 22 3 3
## 23 2 0
## 24 0 1
## 25 1 2
## 3 9 5
## 4 5 2
## 5 6 4
## 6 1 6
## 7 3 7
## 8 1 5
## 9 3 3
Ta có thể thấy Nam có tỷ lệ kinh nghiệm 2 năm khá cao là 12
#Bảng tần số biên
addmargins(c)
##
## Female Male Sum
## 0 1 2 3
## 0.5 1 0 1
## 1 2 4 6
## 1.5 1 1 2
## 10 6 3 9
## 11 2 4 6
## 12 6 1 7
## 13 4 2 6
## 14 5 2 7
## 15 4 1 5
## 16 3 3 6
## 17 1 1 2
## 18 3 4 7
## 19 1 5 6
## 2 3 12 15
## 20 2 5 7
## 21 1 4 5
## 22 3 3 6
## 23 2 0 2
## 24 0 1 1
## 25 1 2 3
## 3 9 5 14
## 4 5 2 7
## 5 6 4 10
## 6 1 6 7
## 7 3 7 10
## 8 1 5 6
## 9 3 3 6
## Sum 80 92 172
#Bảng tần suất
c1 <- prop.table(c)
c1
##
## Female Male
## 0 0.005813953 0.011627907
## 0.5 0.005813953 0.000000000
## 1 0.011627907 0.023255814
## 1.5 0.005813953 0.005813953
## 10 0.034883721 0.017441860
## 11 0.011627907 0.023255814
## 12 0.034883721 0.005813953
## 13 0.023255814 0.011627907
## 14 0.029069767 0.011627907
## 15 0.023255814 0.005813953
## 16 0.017441860 0.017441860
## 17 0.005813953 0.005813953
## 18 0.017441860 0.023255814
## 19 0.005813953 0.029069767
## 2 0.017441860 0.069767442
## 20 0.011627907 0.029069767
## 21 0.005813953 0.023255814
## 22 0.017441860 0.017441860
## 23 0.011627907 0.000000000
## 24 0.000000000 0.005813953
## 25 0.005813953 0.011627907
## 3 0.052325581 0.029069767
## 4 0.029069767 0.011627907
## 5 0.034883721 0.023255814
## 6 0.005813953 0.034883721
## 7 0.017441860 0.040697674
## 8 0.005813953 0.029069767
## 9 0.017441860 0.017441860
#Bảng tần suất biên
addmargins(c1)
##
## Female Male Sum
## 0 0.005813953 0.011627907 0.017441860
## 0.5 0.005813953 0.000000000 0.005813953
## 1 0.011627907 0.023255814 0.034883721
## 1.5 0.005813953 0.005813953 0.011627907
## 10 0.034883721 0.017441860 0.052325581
## 11 0.011627907 0.023255814 0.034883721
## 12 0.034883721 0.005813953 0.040697674
## 13 0.023255814 0.011627907 0.034883721
## 14 0.029069767 0.011627907 0.040697674
## 15 0.023255814 0.005813953 0.029069767
## 16 0.017441860 0.017441860 0.034883721
## 17 0.005813953 0.005813953 0.011627907
## 18 0.017441860 0.023255814 0.040697674
## 19 0.005813953 0.029069767 0.034883721
## 2 0.017441860 0.069767442 0.087209302
## 20 0.011627907 0.029069767 0.040697674
## 21 0.005813953 0.023255814 0.029069767
## 22 0.017441860 0.017441860 0.034883721
## 23 0.011627907 0.000000000 0.011627907
## 24 0.000000000 0.005813953 0.005813953
## 25 0.005813953 0.011627907 0.017441860
## 3 0.052325581 0.029069767 0.081395349
## 4 0.029069767 0.011627907 0.040697674
## 5 0.034883721 0.023255814 0.058139535
## 6 0.005813953 0.034883721 0.040697674
## 7 0.017441860 0.040697674 0.058139535
## 8 0.005813953 0.029069767 0.034883721
## 9 0.017441860 0.017441860 0.034883721
## Sum 0.465116279 0.534883721 1.000000000
5.3.2 Đồ thị cột
library("ggplot2")
ggplot(DTINH, aes(`Years of Experience`, fill =Gender )) + geom_bar(position = 'dodge')
5.3.3 Kiểm định tính độc lập
Giả thuyết H0: Kinh nghiệm làm việc với giới tính
chisq.test(c)
## Warning in chisq.test(c): Chi-squared approximation may be incorrect
##
## Pearson's Chi-squared test
##
## data: c
## X-squared = 35.622, df = 27, p-value = 0.1238
Qua kết quả kiểm định cho ta thấy chưa đủ chứng cứ để nói rằng giới tính ảnh hưởng tới kinh nghiệm làm việc
de1 <- glm(factor(Gender) ~ Age + Salary + `Education Level`, family = binomial(link = 'logit'), data = DTINH)
summary(de1)
##
## Call:
## glm(formula = factor(Gender) ~ Age + Salary + `Education Level`,
## family = binomial(link = "logit"), data = DTINH)
##
## Deviance Residuals:
## Min 1Q Median 3Q Max
## -2.1900 -0.9601 0.4179 0.9357 1.7877
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) 7.290e+00 1.524e+00 4.784 1.72e-06 ***
## Age -3.558e-01 7.031e-02 -5.060 4.19e-07 ***
## Salary 7.295e-05 1.467e-05 4.974 6.57e-07 ***
## `Education Level`Master's -2.108e+00 5.732e-01 -3.677 0.000236 ***
## `Education Level`PhD -1.513e+00 8.242e-01 -1.835 0.066459 .
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 237.60 on 171 degrees of freedom
## Residual deviance: 194.02 on 167 degrees of freedom
## AIC: 204.02
##
## Number of Fisher Scoring iterations: 5
de2 <- glm(factor(Gender) ~ Age + Salary + `Education Level`, family = binomial(link = 'probit'), data = DTINH)
summary(de2)
##
## Call:
## glm(formula = factor(Gender) ~ Age + Salary + `Education Level`,
## family = binomial(link = "probit"), data = DTINH)
##
## Deviance Residuals:
## Min 1Q Median 3Q Max
## -2.2181 -0.9563 0.3977 0.9404 1.7945
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) 4.421e+00 8.783e-01 5.034 4.81e-07 ***
## Age -2.153e-01 3.990e-02 -5.396 6.82e-08 ***
## Salary 4.396e-05 8.236e-06 5.337 9.43e-08 ***
## `Education Level`Master's -1.276e+00 3.334e-01 -3.828 0.000129 ***
## `Education Level`PhD -9.090e-01 4.840e-01 -1.878 0.060388 .
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 237.60 on 171 degrees of freedom
## Residual deviance: 193.84 on 167 degrees of freedom
## AIC: 203.84
##
## Number of Fisher Scoring iterations: 5
de3 <- glm(factor(Gender) ~ Age + Salary + `Education Level`, family = binomial(link = 'cloglog'), data = DTINH)
## Warning: glm.fit: fitted probabilities numerically 0 or 1 occurred
summary(de3)
##
## Call:
## glm(formula = factor(Gender) ~ Age + Salary + `Education Level`,
## family = binomial(link = "cloglog"), data = DTINH)
##
## Deviance Residuals:
## Min 1Q Median 3Q Max
## -2.2795 -0.9457 0.3477 0.9551 1.7039
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) 4.356e+00 9.799e-01 4.446 8.75e-06 ***
## Age -2.286e-01 4.517e-02 -5.060 4.20e-07 ***
## Salary 4.550e-05 8.841e-06 5.146 2.66e-07 ***
## `Education Level`Master's -1.305e+00 3.710e-01 -3.518 0.000434 ***
## `Education Level`PhD -8.835e-01 4.766e-01 -1.854 0.063791 .
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 237.60 on 171 degrees of freedom
## Residual deviance: 196.08 on 167 degrees of freedom
## AIC: 206.08
##
## Number of Fisher Scoring iterations: 5
Từ kết quả 3 mô hình ta có
# Tiêu chí AIC
aic1 <- AIC(de1)
aic2 <- AIC(de2)
aic3 <- AIC(de3)
AIC <-cbind(aic1,aic2,aic3)
AIC
## aic1 aic2 aic3
## [1,] 204.0163 203.8403 206.076
# Tiêu chí Deviance
dee1 <- deviance(de1)
dee2 <- deviance(de2)
dee3 <- deviance(de3)
deviance <- cbind(dee1,dee2,dee3)
deviance
## dee1 dee2 dee3
## [1,] 194.0163 193.8403 196.076
Lựa chọn mô hình cloglog
summary(de3)
##
## Call:
## glm(formula = factor(Gender) ~ Age + Salary + `Education Level`,
## family = binomial(link = "cloglog"), data = DTINH)
##
## Deviance Residuals:
## Min 1Q Median 3Q Max
## -2.2795 -0.9457 0.3477 0.9551 1.7039
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) 4.356e+00 9.799e-01 4.446 8.75e-06 ***
## Age -2.286e-01 4.517e-02 -5.060 4.20e-07 ***
## Salary 4.550e-05 8.841e-06 5.146 2.66e-07 ***
## `Education Level`Master's -1.305e+00 3.710e-01 -3.518 0.000434 ***
## `Education Level`PhD -8.835e-01 4.766e-01 -1.854 0.063791 .
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 237.60 on 171 degrees of freedom
## Residual deviance: 196.08 on 167 degrees of freedom
## AIC: 206.08
##
## Number of Fisher Scoring iterations: 5
Kết quả hồi quy của mô hình cloglog đối với biến phụ thuộc là Giới tính dựa trên các biến độc lập Tuổi, Lương, Trình độ học vấn được xác định như sau:
cloglog(π)=ϕ^2(π)= 4.356 - 2.286Age -
1.305EducationLevelMaster's - 8.835EducationLevelPhD
j1 <- glm(factor(`Job Title`) ~ Gender + Age + `Education Level`+ Salary, family = binomial(link = 'logit'), data = DTINH)
## Warning: glm.fit: fitted probabilities numerically 0 or 1 occurred
summary(j1)
##
## Call:
## glm(formula = factor(`Job Title`) ~ Gender + Age + `Education Level` +
## Salary, family = binomial(link = "logit"), data = DTINH)
##
## Deviance Residuals:
## Min 1Q Median 3Q Max
## -2.72394 0.00001 0.00002 0.10978 0.42116
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) 1.747e+01 7.973e+03 0.002 0.998
## GenderMale -1.848e+01 7.973e+03 -0.002 0.998
## Age 2.164e-01 3.791e-01 0.571 0.568
## `Education Level`Master's 1.910e+01 9.258e+03 0.002 0.998
## `Education Level`PhD 1.967e+01 1.653e+04 0.001 0.999
## Salary -2.973e-05 4.844e-05 -0.614 0.539
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 12.2892 on 171 degrees of freedom
## Residual deviance: 9.4004 on 166 degrees of freedom
## AIC: 21.4
##
## Number of Fisher Scoring iterations: 22
###Mô hình hồi quy probit
j2 <- glm(factor(`Job Title`) ~ Gender + Age + `Education Level`+ Salary, family = binomial(link = 'probit'), data = DTINH)
## Warning: glm.fit: fitted probabilities numerically 0 or 1 occurred
summary(j2)
##
## Call:
## glm(formula = factor(`Job Title`) ~ Gender + Age + `Education Level` +
## Salary, family = binomial(link = "probit"), data = DTINH)
##
## Deviance Residuals:
## Min 1Q Median 3Q Max
## -2.71132 0.00000 0.00001 0.09677 0.46545
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) 3.981e+00 1.023e+03 0.004 0.997
## GenderMale -4.180e+00 1.023e+03 -0.004 0.997
## Age 1.008e-01 1.546e-01 0.652 0.514
## `Education Level`Master's 4.473e+00 1.199e+03 0.004 0.997
## `Education Level`PhD 4.793e+00 2.090e+03 0.002 0.998
## Salary -1.430e-05 2.067e-05 -0.692 0.489
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 12.2892 on 171 degrees of freedom
## Residual deviance: 9.3416 on 166 degrees of freedom
## AIC: 21.342
##
## Number of Fisher Scoring iterations: 21
###Mô hình hồi quy cloglog
j3 <- glm(factor(`Job Title`) ~ Gender + Age + `Education Level`+ Salary, family = binomial(link = 'cloglog'), data = DTINH)
## Warning: glm.fit: fitted probabilities numerically 0 or 1 occurred
summary(j3)
##
## Call:
## glm(formula = factor(`Job Title`) ~ Gender + Age + `Education Level` +
## Salary, family = binomial(link = "cloglog"), data = DTINH)
##
## Deviance Residuals:
## Min 1Q Median 3Q Max
## -2.69574 0.00000 0.00000 0.08305 0.52147
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) 1.664e+00 3.749e+02 0.004 0.996
## GenderMale -1.870e+00 3.749e+02 -0.005 0.996
## Age 7.157e-02 9.777e-02 0.732 0.464
## `Education Level`Master's 2.052e+00 4.506e+02 0.005 0.996
## `Education Level`PhD 2.389e+00 7.312e+02 0.003 0.997
## Salary -1.060e-05 1.389e-05 -0.763 0.446
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 12.2892 on 171 degrees of freedom
## Residual deviance: 9.2785 on 166 degrees of freedom
## AIC: 21.278
##
## Number of Fisher Scoring iterations: 21
Từ kết quả 3 mô hình ta có
# Tiêu chí AIC
aiic1 <- AIC(j1)
aiic2 <- AIC(j2)
aiic3 <- AIC(j3)
AIIC <-cbind(aiic1,aiic2,aiic3)
AIIC
## aiic1 aiic2 aiic3
## [1,] 21.40036 21.34165 21.27849
# Tiêu chí Deviance
dee4 <- deviance(j1)
dee5 <- deviance(j2)
dee6 <- deviance(j3)
deviance <- cbind(dee4,dee5,dee6)
deviance
## dee4 dee5 dee6
## [1,] 9.400364 9.341647 9.278493
Lựa chọn mô hình logit
summary(j1)
##
## Call:
## glm(formula = factor(`Job Title`) ~ Gender + Age + `Education Level` +
## Salary, family = binomial(link = "logit"), data = DTINH)
##
## Deviance Residuals:
## Min 1Q Median 3Q Max
## -2.72394 0.00001 0.00002 0.10978 0.42116
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) 1.747e+01 7.973e+03 0.002 0.998
## GenderMale -1.848e+01 7.973e+03 -0.002 0.998
## Age 2.164e-01 3.791e-01 0.571 0.568
## `Education Level`Master's 1.910e+01 9.258e+03 0.002 0.998
## `Education Level`PhD 1.967e+01 1.653e+04 0.001 0.999
## Salary -2.973e-05 4.844e-05 -0.614 0.539
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 12.2892 on 171 degrees of freedom
## Residual deviance: 9.4004 on 166 degrees of freedom
## AIC: 21.4
##
## Number of Fisher Scoring iterations: 22
Kết quả hồi quy của mô hình logit đối với biến phụ thuộc là chức vụ dựa trên các biến độc lập Giới tính, Tuổi, tiền lương, Trình độ học vấn được xác định như sau:
logit(π)=ϕ^2(π)= 1.747 - 1.84Gender = 2.16Age + 1.91EducationLevel - 2.973Salary
Qua các yếu tố phân tích thì những yếu tố khá là ảnh hưởng đến mức lương trong tương lai đặc biệt là trình độ học vấn và kinh nghiệm làm việc nó khá là ảnh hưởng lên mức lương bạn được nhận. Do đó chúng ta nên trau dồi thêm nhiều kiến thức và chăm chỉ học tập để đạt được những bằng cấp cao và đi làm thêm tích luỹ kinh nghiệm để có thể ứng tuyển một vị trí cao hơn với một mức lương tốt hơn
https://drive.google.com/file/d/1lu_-xrJg0BGJjNXyD2fJhwHiw8PLByGK/view?usp=sharing