1 Phẩn mở đầu

1.1 Lời cảm ơn

Em xin gửi lời cảm ơn sâu sắc đến quý thầy cô trường đại hoc Tài chính - Marketing, đặc biệt là thầy Trần Mạnh Tường đã tận tình chỉ bảo và cho em được nhiều kiến thức hữu ích có thể áp dụng vào cuộc sống. Trong quá trình học tập môn Phân tích dữ liệu định tính khó tránh khỏi những thiếu sót về kiến thức rất mong thầy có thể bỏ qua. Em mong nhận được lời góp ý chân thành và nhận xét của thầy để có thể tích luỹ kinh nghiệm cho sau này.

1.2 Lý do chọn đề tài

Theo kết quả khảo sát từ Báo cáo đánh giá việc làm sinh viên tốt nghiệp năm 2020 của Trung tâm Hỗ trợ đào tạo và cung ứng nhân lực, Bộ Giáo dục và Đào tạo, có khoảng 80 -90% sinh viên tùy từng cơ sở đào tạo sau khi tốt nghiệp từ 3 tháng đến 1 năm đã có việc làm. Kết quả khảo sát sinh viên tốt nghiệp đại học cho thấy tỷ lệ sinh viên tốt nghiệp đã có việc làm chiếm 88,3% trong tổng số sinh viên trả lời phỏng vấn. Những sinh viên tốt nghiệp với thứ hạng càng cao chiếm tỷ lệ có việc làm càng cao. Số liệu cho thấy sinh viên tốt nghiệp thuộc nhóm ngành Y - Dược chiếm tỷ lệ có việc làm cao nhất, lên tới 96,3%. Tiếp theo là nhóm Khoa học xã hội, Kinh tế, Luật, Nông - Lâm - Ngư nghiệp với tỉ lệ 89,6%. Xếp cuối là nhóm ngành Khoa học tự nhiên, Kỹ thuật, Công nghệ, Thể dục thể thao, Nghệ thuật chỉ đạt tỷ lệ 84,%.

Như vậy, tỷ lệ sinh viên tốt nghiệp đại học nhưng chưa có việc làm và đang tìm việc chiếm gần 20%. Con số này khá cao, nếu so với tỷ lệ thất nghiệp chung của nhóm thanh niên ở độ tuổi 20 - 24 trong cả nước năm 2019 là 6,1%.

Nhận thấy được tầm quan trọng của các yếu tố ảnh huởng đến mức lương sau khi ra trường, nay tiến hành thực hiện đề tài ” Các yếu tố ảnh hưởng đến mức lương ” để mọi người có thể có sự phân tích các ngành có các mức lương phù hợp cho mọi người.

1.3 Mục tiêu nghiên cứu

Từ các mục tiêu nghiên cứu tôi có thể hiểu được cấc yếu tố ảnh hưởng đến mức lương từ đó đưa ra nghiên cứu để mọi người có thể dễ lựa chọn ngành học hơn.

1.4 Đối tượng và phạm vi nghiên cứu

Các yếu tố ảnh hưởng đến mức lương : Tuổi, Giới tính, Kinh nghiệm, học vấn, ngành học.

1.5 Phương pháp nghiên cứu

Sử dụng mô hình hồi quy tuyến tính để phân tích các tác đông tới mức lương

2 Chương 1: Giới thiệu bộ dữ liệu

TÌM DATASET CÓ DỮ LIỆU ĐỊNH TÍNH, DỮ LIỆU ĐỊNH LƯỢNG, CÓ TRÊN 5 BIẾN VÀ NHIỀU HƠN 150 QUAN SÁT

  • MỨC LƯƠNG DỰA VÀO KINH NGHIỆM, TUỔI, GIỚI TÍNH, HỌC VẤN, NGÀNH HỌC

  • AGE: TUỔI

  • GENDER: GIỚI TÍNH

  • JOB TITTLE: NGÀNH

  • EDUCATION LEVEL: HỌC VẤN

  • YEARS OF EXPERIENCE: KINH NGHIỆM

library(readxl)
DTINH <- read_excel("DTINH.xlsx")
View(DTINH)
DTINH
## # A tibble: 172 × 6
##      Age Gender `Education Level` `Job Title`       `Years of Experience` Salary
##    <dbl> <chr>  <chr>             <chr>             <chr>                  <dbl>
##  1    32 Male   Bachelor's        Software Engineer 5                      90000
##  2    28 Female Master's          Data Analyst      3                      65000
##  3    45 Male   PhD               Senior Manager    15                    150000
##  4    36 Female Bachelor's        Sales Associate   7                      60000
##  5    52 Male   Master's          Director          20                    200000
##  6    29 Male   Bachelor's        Marketing Analyst 2                      55000
##  7    42 Female Master's          Product Manager   12                    120000
##  8    31 Male   Bachelor's        Sales Manager     4                      80000
##  9    26 Female Bachelor's        Marketing Coordi… 1                      45000
## 10    38 Male   PhD               Senior Scientist  10                    110000
## # ℹ 162 more rows

3 Chương 2: Kết quả phân tích

4 Các biến định tính theo datasets gồm 3 biến:

Gender: Giới tính

JOB TITTLE: Ngành

EDUCATION LEVEL: Học vấn

5 Các biến định lượng theo datasets gồm 3 biến:

AGE: Tuổi tác

YEARS OF EXPERIENCE: Kinh nghiệm làm việc

SALARY: Mức lương

6 BIẾN ĐỊNH TÍNH CHỌN BIẾN JOB TITTLE:

  • Job Title có thể được hiểu là chức danh mà doanh nghiệp đang có nhu cầu tuyển dụng. Job Title thường được miêu tả một cách ngắn gọn, đúc kết được thông điệp từ phía nhà tuyển dụng. Tùy theo tính chất và yêu cầu công việc mà nhà tuyển dụng sẽ đặt Job Title sao cho phù hợp nhất.

  • Một Job Title hay ho, hấp dẫn sẽ giúp tin tuyển dụng của doanh nghiệp ghi điểm trong mắt ứng viên, làm cho họ thích thú mà chia sẻ nhiều hơn trên các kênh mạng xã hội, từ đó giúp tin việc làm lan tỏa rộng rãi vừa tiếp cận nhiều ứng viên vừa đưa tên tuổi doanh nghiệp đi xa.

  • Biến định tính JOB TITTLE phụ thuộc vào biến định tính EDUCATION LEVEL

  • Giải thích: biến EDUCATION LEVEL thể hiện trình độ học vấn của một người. Trìn độ cử nhân, thạc sĩ, tiến sĩ ảnh hưởng đến vị trí trong ngành nghề rất nhiều. Trình độ học vấn càng cao vị trí trong công việc cũng sẽ cao theo. Vì vậy biến JOB TITTLE phụ thuộc vào biến EDUCATION LEVEL

7 BIẾN ĐỊNH LƯỢNG CHỌN BIẾN SALARY

  • Tiền lương là sự trả công hoặc thu nhập, bất kể tên gọi hay cách tính mà có thể biểu hiện bằng tiền mặt và được ấn định bằng thỏa thuận giữa người sử dụng lao động và người lao động hoặc bằng pháp luật quốc gia, do người sử dụng lao động phải trả cho người lao động theo một hợp đồng thuê mướn lao động, bằng viết hoặc bằng lời nói cho một công việc đã thực hiện hoặc sẽ phải thực hiện, hoặc cho những dịch vụ đã làm hay sẽ phải làm.

  • Biến định lượng SALARY phụ thuộc vào biến YEARS OF EXPERIENCE.

  • Giải thích: Kinh nghiệm làm việc là những kiến thức, kỹ năng, tố chất mà mỗi người lao động đã tích lũy được thông qua quá trình tiếp xúc và trực tiếp triển khai công việc. Mỗi ngành nghề sở hữu tính chất đặc thù riêng, vì vậy, kinh nghiệm cũng sẽ có những khác biệt nhất định. Kinh nghiệm làm việc cho thấy những nội dung kiến thức, kỹ năng, cũng như những tính chất sự vụ mà ứng viên đã từng trải nghiệm, trực tiếp xử lý trong suốt thời gian tham gia vào quá trình làm việc. Vì vậy với kinh nghiệm càng nhiều thì sẽ được ứng tuyển vị trí cao hơn và người làm lâu năm nhiều kinh nghiệm sẽ được mức lương hậu hĩnh hơn người chưa có kinh nghiệm. Cho nên có thể nói biến SALARY phụ thuộc vào biến YEARS OF EXPERIENCE.

8 Chương 3: Thống kê mô tả

3.1. Thống kê mô tả của biến JOB TITTLE

Bảng tần suất của biến JOB TITTLE

table(DTINH$`Job Title`)
## 
##                       Account Manager                            Accountant 
##                                     1                                     1 
##              Administrative Assistant                      Business Analyst 
##                                     2                                     2 
##          Business Development Manager         Business Intelligence Analyst 
##                                     1                                     1 
##                                   CEO                    Chief Data Officer 
##                                     1                                     1 
##              Chief Technology Officer             Content Marketing Manager 
##                                     1                                     1 
##                            Copywriter                     Creative Director 
##                                     1                                     1 
##              Customer Service Manager                  Customer Service Rep 
##                                     2                                     1 
##       Customer Service Representative              Customer Success Manager 
##                                     1                                     1 
##                  Customer Success Rep                          Data Analyst 
##                                     1                                     2 
##                      Data Entry Clerk                        Data Scientist 
##                                     1                                     1 
##              Digital Content Producer             Digital Marketing Manager 
##                                     1                                     1 
##                              Director                   Director of Finance 
##                                     1                                     1 
##           Director of Human Resources                 Director of Marketing 
##                                     1                                     2 
##                Director of Operations        Director of Product Management 
##                                     2                                     1 
##                     Director of Sales                     Event Coordinator 
##                                     1                                     2 
##                     Financial Advisor                     Financial Analyst 
##                                     1                                     1 
##                     Financial Manager                      Graphic Designer 
##                                     1                                     1 
##                     Help Desk Analyst                         HR Generalist 
##                                     1                                     2 
##                            HR Manager              Human Resources Director 
##                                     2                                     1 
##                            IT Manager                            IT Support 
##                                     1                                     1 
##                 IT Support Specialist                Junior Account Manager 
##                                     1                                     1 
##                     Junior Accountant               Junior Business Analyst 
##                                     2                                     1 
## Junior Business Development Associate                     Junior Copywriter 
##                                     1                                     1 
##    Junior Customer Support Specialist                   Junior Data Analyst 
##                                     1                                     1 
##                       Junior Designer                      Junior Developer 
##                                     1                                     1 
##              Junior Financial Analyst                 Junior HR Coordinator 
##                                     1                                     1 
##                  Junior HR Generalist              Junior Marketing Analyst 
##                                     1                                     1 
##          Junior Marketing Coordinator              Junior Marketing Manager 
##                                     1                                     1 
##           Junior Marketing Specialist             Junior Operations Analyst 
##                                     1                                     1 
##                Junior Project Manager                      Junior Recruiter 
##                                     1                                     1 
##           Junior Sales Representative             Junior Software Developer 
##                                     1                                     2 
##              Junior Software Engineer                   Junior Web Designer 
##                                     1                                     1 
##                  Junior Web Developer                     Marketing Analyst 
##                                     1                                     2 
##                 Marketing Coordinator                     Marketing Manager 
##                                     3                                     1 
##                  Marketing Specialist                      Network Engineer 
##                                     1                                     1 
##                        Office Manager                    Operations Analyst 
##                                     1                                     1 
##                   Operations Director                    Operations Manager 
##                                     1                                     2 
##                    Principal Engineer                   Principal Scientist 
##                                     1                                     1 
##                      Product Designer                       Product Manager 
##                                     1                                     2 
##             Product Marketing Manager                      Project Engineer 
##                                     1                                     1 
##                       Project Manager              Public Relations Manager 
##                                     2                                     1 
##                             Recruiter                     Research Director 
##                                     2                                     1 
##                    Research Scientist                       Sales Associate 
##                                     1                                     2 
##                        Sales Director                       Sales Executive 
##                                     1                                     1 
##                         Sales Manager              Sales Operations Manager 
##                                     3                                     1 
##                  Sales Representative                Senior Account Manager 
##                                     1                                     1 
##                     Senior Accountant               Senior Business Analyst 
##                                     1                                     2 
##   Senior Business Development Manager                     Senior Consultant 
##                                     1                                     1 
##                 Senior Data Scientist                       Senior Engineer 
##                                     2                                     2 
##              Senior Financial Analyst               Senior Graphic Designer 
##                                     2                                     1 
##                  Senior HR Generalist                     Senior HR Manager 
##                                     1                                     1 
##        Senior Human Resources Manager          Senior IT Support Specialist 
##                                     1                                     1 
##                        Senior Manager              Senior Marketing Analyst 
##                                     2                                     2 
##          Senior Marketing Coordinator              Senior Marketing Manager 
##                                     1                                     2 
##             Senior Operations Manager               Senior Product Designer 
##                                     1                                     1 
##                Senior Product Manager      Senior Product Marketing Manager 
##                                     1                                     1 
##            Senior Project Coordinator                Senior Project Manager 
##                                     1                                     2 
##             Senior Research Scientist                     Senior Researcher 
##                                     1                                     1 
##                  Senior Sales Manager           Senior Sales Representative 
##                                     1                                     1 
##                      Senior Scientist             Senior Software Developer 
##                                     3                                     1 
##              Senior Software Engineer            Senior Training Specialist 
##                                     2                                     1 
##                  Social Media Manager               Social Media Specialist 
##                                     1                                     1 
##                    Software Developer                     Software Engineer 
##                                     1                                     1 
##                      Software Manager              Software Project Manager 
##                                     1                                     1 
##                   Strategy Consultant                  Supply Chain Analyst 
##                                     1                                     1 
##                  Supply Chain Manager                   Technical Recruiter 
##                                     1                                     1 
##          Technical Support Specialist                      Technical Writer 
##                                     1                                     1 
##                   Training Specialist                           UX Designer 
##                                     1                                     1 
##                         UX Researcher                         VP of Finance 
##                                     1                                     1 
##                      VP of Operations                         Web Developer 
##                                     1                                     1

Bảng tần suất của biến JOB TITTLE theo tỷ lệ %

table(DTINH$`Job Title`)/sum(table(DTINH$`Job Title`))
## 
##                       Account Manager                            Accountant 
##                           0.005813953                           0.005813953 
##              Administrative Assistant                      Business Analyst 
##                           0.011627907                           0.011627907 
##          Business Development Manager         Business Intelligence Analyst 
##                           0.005813953                           0.005813953 
##                                   CEO                    Chief Data Officer 
##                           0.005813953                           0.005813953 
##              Chief Technology Officer             Content Marketing Manager 
##                           0.005813953                           0.005813953 
##                            Copywriter                     Creative Director 
##                           0.005813953                           0.005813953 
##              Customer Service Manager                  Customer Service Rep 
##                           0.011627907                           0.005813953 
##       Customer Service Representative              Customer Success Manager 
##                           0.005813953                           0.005813953 
##                  Customer Success Rep                          Data Analyst 
##                           0.005813953                           0.011627907 
##                      Data Entry Clerk                        Data Scientist 
##                           0.005813953                           0.005813953 
##              Digital Content Producer             Digital Marketing Manager 
##                           0.005813953                           0.005813953 
##                              Director                   Director of Finance 
##                           0.005813953                           0.005813953 
##           Director of Human Resources                 Director of Marketing 
##                           0.005813953                           0.011627907 
##                Director of Operations        Director of Product Management 
##                           0.011627907                           0.005813953 
##                     Director of Sales                     Event Coordinator 
##                           0.005813953                           0.011627907 
##                     Financial Advisor                     Financial Analyst 
##                           0.005813953                           0.005813953 
##                     Financial Manager                      Graphic Designer 
##                           0.005813953                           0.005813953 
##                     Help Desk Analyst                         HR Generalist 
##                           0.005813953                           0.011627907 
##                            HR Manager              Human Resources Director 
##                           0.011627907                           0.005813953 
##                            IT Manager                            IT Support 
##                           0.005813953                           0.005813953 
##                 IT Support Specialist                Junior Account Manager 
##                           0.005813953                           0.005813953 
##                     Junior Accountant               Junior Business Analyst 
##                           0.011627907                           0.005813953 
## Junior Business Development Associate                     Junior Copywriter 
##                           0.005813953                           0.005813953 
##    Junior Customer Support Specialist                   Junior Data Analyst 
##                           0.005813953                           0.005813953 
##                       Junior Designer                      Junior Developer 
##                           0.005813953                           0.005813953 
##              Junior Financial Analyst                 Junior HR Coordinator 
##                           0.005813953                           0.005813953 
##                  Junior HR Generalist              Junior Marketing Analyst 
##                           0.005813953                           0.005813953 
##          Junior Marketing Coordinator              Junior Marketing Manager 
##                           0.005813953                           0.005813953 
##           Junior Marketing Specialist             Junior Operations Analyst 
##                           0.005813953                           0.005813953 
##                Junior Project Manager                      Junior Recruiter 
##                           0.005813953                           0.005813953 
##           Junior Sales Representative             Junior Software Developer 
##                           0.005813953                           0.011627907 
##              Junior Software Engineer                   Junior Web Designer 
##                           0.005813953                           0.005813953 
##                  Junior Web Developer                     Marketing Analyst 
##                           0.005813953                           0.011627907 
##                 Marketing Coordinator                     Marketing Manager 
##                           0.017441860                           0.005813953 
##                  Marketing Specialist                      Network Engineer 
##                           0.005813953                           0.005813953 
##                        Office Manager                    Operations Analyst 
##                           0.005813953                           0.005813953 
##                   Operations Director                    Operations Manager 
##                           0.005813953                           0.011627907 
##                    Principal Engineer                   Principal Scientist 
##                           0.005813953                           0.005813953 
##                      Product Designer                       Product Manager 
##                           0.005813953                           0.011627907 
##             Product Marketing Manager                      Project Engineer 
##                           0.005813953                           0.005813953 
##                       Project Manager              Public Relations Manager 
##                           0.011627907                           0.005813953 
##                             Recruiter                     Research Director 
##                           0.011627907                           0.005813953 
##                    Research Scientist                       Sales Associate 
##                           0.005813953                           0.011627907 
##                        Sales Director                       Sales Executive 
##                           0.005813953                           0.005813953 
##                         Sales Manager              Sales Operations Manager 
##                           0.017441860                           0.005813953 
##                  Sales Representative                Senior Account Manager 
##                           0.005813953                           0.005813953 
##                     Senior Accountant               Senior Business Analyst 
##                           0.005813953                           0.011627907 
##   Senior Business Development Manager                     Senior Consultant 
##                           0.005813953                           0.005813953 
##                 Senior Data Scientist                       Senior Engineer 
##                           0.011627907                           0.011627907 
##              Senior Financial Analyst               Senior Graphic Designer 
##                           0.011627907                           0.005813953 
##                  Senior HR Generalist                     Senior HR Manager 
##                           0.005813953                           0.005813953 
##        Senior Human Resources Manager          Senior IT Support Specialist 
##                           0.005813953                           0.005813953 
##                        Senior Manager              Senior Marketing Analyst 
##                           0.011627907                           0.011627907 
##          Senior Marketing Coordinator              Senior Marketing Manager 
##                           0.005813953                           0.011627907 
##             Senior Operations Manager               Senior Product Designer 
##                           0.005813953                           0.005813953 
##                Senior Product Manager      Senior Product Marketing Manager 
##                           0.005813953                           0.005813953 
##            Senior Project Coordinator                Senior Project Manager 
##                           0.005813953                           0.011627907 
##             Senior Research Scientist                     Senior Researcher 
##                           0.005813953                           0.005813953 
##                  Senior Sales Manager           Senior Sales Representative 
##                           0.005813953                           0.005813953 
##                      Senior Scientist             Senior Software Developer 
##                           0.017441860                           0.005813953 
##              Senior Software Engineer            Senior Training Specialist 
##                           0.011627907                           0.005813953 
##                  Social Media Manager               Social Media Specialist 
##                           0.005813953                           0.005813953 
##                    Software Developer                     Software Engineer 
##                           0.005813953                           0.005813953 
##                      Software Manager              Software Project Manager 
##                           0.005813953                           0.005813953 
##                   Strategy Consultant                  Supply Chain Analyst 
##                           0.005813953                           0.005813953 
##                  Supply Chain Manager                   Technical Recruiter 
##                           0.005813953                           0.005813953 
##          Technical Support Specialist                      Technical Writer 
##                           0.005813953                           0.005813953 
##                   Training Specialist                           UX Designer 
##                           0.005813953                           0.005813953 
##                         UX Researcher                         VP of Finance 
##                           0.005813953                           0.005813953 
##                      VP of Operations                         Web Developer 
##                           0.005813953                           0.005813953

Dựa vào bảng tần suất của biến Job title ta có thể thấy tỷ lệ Senior Scientist và Sales Manager, Marketing Coordinator cao nhất với 1.74%

library("ggplot2")
DTINH |> ggplot(aes(`Job Title`)) +
  geom_bar(olor = 'blue', fill = 'blue') + theme_classic() + labs(x = 'chỉ số việc làm', y = 'Số người')
## Warning in geom_bar(olor = "blue", fill = "blue"): Ignoring unknown parameters:
## `olor`

3.2. Thống kê mô tả của biến EDUCATION LEVEL Bảng tần suất của biến EDUCATION LEVEL

table(DTINH$`Education Level`)
## 
## Bachelor's   Master's        PhD 
##         94         58         20

Dựa vào bảng tần suất ta có thể thấy Cử nhân là 94, Thạc Sĩ 58, Tiến sĩ 20

Bảng tần suất của biến EDUCATION LEVEL theo tỷ lệ %

table(DTINH$`Education Level`)/sum(table(DTINH$`Education Level`))
## 
## Bachelor's   Master's        PhD 
##  0.5465116  0.3372093  0.1162791

Dựa vào bảng tần suất của biến EDUCATIN LEVEL ta có thể thấy tỷ lệ Cử nhan chiếm 54.65%, tỷ lệ Thạc Sĩ chiếm 33.7%, Tiến sĩ 11.62%

library("ggplot2")
DTINH |> ggplot(aes(`Education Level`)) +
  geom_bar(olor = 'blue', fill = 'blue') + theme_classic() + labs(x = 'chỉ số ngành học', y = 'Số người')
## Warning in geom_bar(olor = "blue", fill = "blue"): Ignoring unknown parameters:
## `olor`

3.3. Thống kê mô tả của biến GENDER

Bảng tần suất của biến GENDER

table(DTINH$Gender)
## 
## Female   Male 
##     80     92

Dựa vào bảng tần suất ta có thể thấy tỷ lệ nam là 92, nữ là 80 Bảng tần suất của biến GENDER theo tỷ lệ %

table(DTINH$Gender)/sum(table(DTINH$Gender))
## 
##    Female      Male 
## 0.4651163 0.5348837

Dựa vào bảng tần suất của biến Gender ta có thể thấy tỷ lệ Nam là 53.5%, Nữ là 46.5%

library("ggplot2")
DTINH |> ggplot(aes(Gender)) +
  geom_bar(olor = 'blue', fill = 'blue') + theme_classic() + labs(x = 'chỉ số Nam, Nữ', y = 'Số người')
## Warning in geom_bar(olor = "blue", fill = "blue"): Ignoring unknown parameters:
## `olor`

3.4. Thống kê mô tả của biến Salary

Bảng tần suất của biến Salary

table(DTINH$Salary)
## 
##  30000  35000  40000  45000  50000  55000  60000  65000  70000  75000  80000 
##      1      8     13     11     11      6      8      7      2      4     10 
##  85000  90000  95000  1e+05 105000 110000 115000 120000 125000 130000 135000 
##      1      9      8      4      4      8      3      9      1      4      2 
## 140000 150000 160000 170000 175000 180000 185000 190000  2e+05 220000 250000 
##      7      5      5      4      2      6      1      3      2      1      2

Bảng tần suất của biến Salary theo tỷ lệ %

table(DTINH$Salary)/sum(table(DTINH$Salary))
## 
##       30000       35000       40000       45000       50000       55000 
## 0.005813953 0.046511628 0.075581395 0.063953488 0.063953488 0.034883721 
##       60000       65000       70000       75000       80000       85000 
## 0.046511628 0.040697674 0.011627907 0.023255814 0.058139535 0.005813953 
##       90000       95000       1e+05      105000      110000      115000 
## 0.052325581 0.046511628 0.023255814 0.023255814 0.046511628 0.017441860 
##      120000      125000      130000      135000      140000      150000 
## 0.052325581 0.005813953 0.023255814 0.011627907 0.040697674 0.029069767 
##      160000      170000      175000      180000      185000      190000 
## 0.029069767 0.023255814 0.011627907 0.034883721 0.005813953 0.017441860 
##       2e+05      220000      250000 
## 0.011627907 0.005813953 0.011627907

Dựa vào bảng tần suất của biến Salary ta có thể thấy tỷ lệ Lương cao nhất là 40000 với 7.56% và thấp nhất là 18500 với 30000 là 0.58%

library("ggplot2")
DTINH |> ggplot(aes(Salary)) +
  geom_bar(olor = 'blue', fill = 'blue') + theme_classic() + labs(x = 'chỉ số Lương', y = 'Số người')
## Warning in geom_bar(olor = "blue", fill = "blue"): Ignoring unknown parameters:
## `olor`

3.5. Thống kê mô tả của biến Years of experience

Bảng tần suất của biến Years of experience

table(DTINH$`Years of Experience`)
## 
##   0 0.5   1 1.5  10  11  12  13  14  15  16  17  18  19   2  20  21  22  23  24 
##   3   1   6   2   9   6   7   6   7   5   6   2   7   6  15   7   5   6   2   1 
##  25   3   4   5   6   7   8   9 
##   3  14   7  10   7  10   6   6

Bảng tần suất của biến Years of experience theo tỷ lệ %

table(DTINH$`Years of Experience`)/sum(table(DTINH$`Years of Experience`))
## 
##           0         0.5           1         1.5          10          11 
## 0.017441860 0.005813953 0.034883721 0.011627907 0.052325581 0.034883721 
##          12          13          14          15          16          17 
## 0.040697674 0.034883721 0.040697674 0.029069767 0.034883721 0.011627907 
##          18          19           2          20          21          22 
## 0.040697674 0.034883721 0.087209302 0.040697674 0.029069767 0.034883721 
##          23          24          25           3           4           5 
## 0.011627907 0.005813953 0.017441860 0.081395349 0.040697674 0.058139535 
##           6           7           8           9 
## 0.040697674 0.058139535 0.034883721 0.034883721

Dựa vào bảng tần suất của biến Years of experience ta có thể thấy tỷ lệ Năm kinh nghiệm làm việc cao nhất là 2 năm với 8.72% và thấp nhất là nửa năm 0.56%

library("ggplot2")
DTINH |> ggplot(aes(`Years of Experience`)) +
  geom_bar(olor = 'blue', fill = 'blue') + theme_classic() + labs(x = 'Số năm ', y = 'Số người')
## Warning in geom_bar(olor = "blue", fill = "blue"): Ignoring unknown parameters:
## `olor`

3.6 Phân tích sự tác động giữa hai biến Salary và Years.of.Experience

table(DTINH$Salary, DTINH$`Years of Experience`)
##         
##          0 0.5 1 1.5 10 11 12 13 14 15 16 17 18 19 2 20 21 22 23 24 25 3 4 5 6
##   30000  1   0 0   0  0  0  0  0  0  0  0  0  0  0 0  0  0  0  0  0  0 0 0 0 0
##   35000  2   1 3   1  0  0  0  0  0  0  0  0  0  0 1  0  0  0  0  0  0 0 0 0 0
##   40000  0   0 2   1  0  0  0  0  0  0  0  0  0  0 9  0  0  0  0  0  0 1 0 0 0
##   45000  0   0 1   0  0  0  0  0  0  0  0  0  0  0 2  0  0  0  0  0  0 5 0 2 0
##   50000  0   0 0   0  0  0  0  0  0  0  0  0  0  0 1  0  0  0  0  0  0 3 3 4 0
##   55000  0   0 0   0  1  0  0  0  0  0  0  0  0  0 1  0  0  0  0  0  0 1 2 0 1
##   60000  0   0 0   0  0  0  1  0  0  0  0  0  0  0 0  0  0  0  0  0  0 1 1 0 0
##   65000  0   0 0   0  1  0  1  0  0  1  0  0  0  0 1  0  0  0  0  0  0 1 0 0 2
##   70000  0   0 0   0  0  1  0  0  0  0  0  0  0  0 0  0  0  0  0  0  0 0 0 0 0
##   75000  0   0 0   0  0  0  0  0  0  0  0  0  0  0 0  0  0  0  0  0  0 2 0 1 0
##   80000  0   0 0   0  1  1  1  2  0  1  0  0  0  0 0  0  0  0  0  0  0 0 1 2 0
##   85000  0   0 0   0  0  0  0  0  0  0  0  0  0  0 0  0  0  0  0  0  0 0 0 0 0
##   90000  0   0 0   0  2  0  1  0  0  0  0  0  0  0 0  0  0  0  0  0  0 0 0 1 2
##   95000  0   0 0   0  2  0  0  0  0  0  0  0  0  0 0  0  0  0  0  0  0 0 0 0 1
##   1e+05  0   0 0   0  0  0  1  0  1  0  0  1  0  0 0  0  0  0  0  0  0 0 0 0 1
##   105000 0   0 0   0  0  0  0  0  0  0  0  0  1  0 0  0  0  0  0  0  0 0 0 0 0
##   110000 0   0 0   0  1  1  0  1  2  1  0  0  1  0 0  1  0  0  0  0  0 0 0 0 0
##   115000 0   0 0   0  0  0  1  0  1  0  0  0  0  0 0  0  0  0  0  0  0 0 0 0 0
##   120000 0   0 0   0  1  3  1  1  2  0  0  0  0  1 0  0  0  0  0  0  0 0 0 0 0
##   125000 0   0 0   0  0  0  0  0  0  0  1  0  0  0 0  0  0  0  0  0  0 0 0 0 0
##   130000 0   0 0   0  0  0  0  1  1  0  0  0  0  0 0  0  0  2  0  0  0 0 0 0 0
##   135000 0   0 0   0  0  0  0  0  0  0  0  0  0  0 0  1  1  0  0  0  0 0 0 0 0
##   140000 0   0 0   0  0  0  0  1  0  1  1  1  2  1 0  0  0  0  0  0  0 0 0 0 0
##   150000 0   0 0   0  0  0  0  0  0  1  1  0  2  1 0  0  0  0  0  0  0 0 0 0 0
##   160000 0   0 0   0  0  0  0  0  0  0  0  0  0  0 0  0  2  3  0  0  0 0 0 0 0
##   170000 0   0 0   0  0  0  0  0  0  0  0  0  0  0 0  2  0  0  1  0  1 0 0 0 0
##   175000 0   0 0   0  0  0  0  0  0  0  0  0  0  1 0  0  1  0  0  0  0 0 0 0 0
##   180000 0   0 0   0  0  0  0  0  0  0  1  0  0  0 0  2  1  1  0  0  1 0 0 0 0
##   185000 0   0 0   0  0  0  0  0  0  0  0  0  0  0 0  0  0  0  1  0  0 0 0 0 0
##   190000 0   0 0   0  0  0  0  0  0  0  1  0  1  1 0  0  0  0  0  0  0 0 0 0 0
##   2e+05  0   0 0   0  0  0  0  0  0  0  0  0  0  1 0  1  0  0  0  0  0 0 0 0 0
##   220000 0   0 0   0  0  0  0  0  0  0  1  0  0  0 0  0  0  0  0  0  0 0 0 0 0
##   250000 0   0 0   0  0  0  0  0  0  0  0  0  0  0 0  0  0  0  0  1  1 0 0 0 0
##         
##          7 8 9
##   30000  0 0 0
##   35000  0 0 0
##   40000  0 0 0
##   45000  0 1 0
##   50000  0 0 0
##   55000  0 0 0
##   60000  4 0 1
##   65000  0 0 0
##   70000  0 1 0
##   75000  1 0 0
##   80000  1 0 0
##   85000  1 0 0
##   90000  1 2 0
##   95000  0 1 4
##   1e+05  0 0 0
##   105000 1 1 1
##   110000 0 0 0
##   115000 1 0 0
##   120000 0 0 0
##   125000 0 0 0
##   130000 0 0 0
##   135000 0 0 0
##   140000 0 0 0
##   150000 0 0 0
##   160000 0 0 0
##   170000 0 0 0
##   175000 0 0 0
##   180000 0 0 0
##   185000 0 0 0
##   190000 0 0 0
##   2e+05  0 0 0
##   220000 0 0 0
##   250000 0 0 0

Dựa vào số liệu vừa thu được ta có thể thấy để đạt được mức lương trên 100000 thì ta phải có trên 5 năm kinh nghiệm làm việc

library("ggplot2")
ggplot(DTINH, aes(Salary, fill =`Years of Experience` )) + geom_bar(position = 'dodge')

9 Chương 4: Phân tích thống kê mô tả

5.1 Phân tích biến “Salary” và biến “Gender”

#Bảng tần số
a <- table(DTINH$Salary,DTINH$Gender)
a
##         
##          Female Male
##   30000       0    1
##   35000       2    6
##   40000       5    8
##   45000       8    3
##   50000       7    4
##   55000       5    1
##   60000       4    4
##   65000       5    2
##   70000       1    1
##   75000       0    4
##   80000       7    3
##   85000       0    1
##   90000       4    5
##   95000       3    5
##   1e+05       3    1
##   105000      0    4
##   110000      4    4
##   115000      0    3
##   120000      4    5
##   125000      0    1
##   130000      3    1
##   135000      0    2
##   140000      4    3
##   150000      3    2
##   160000      2    3
##   170000      2    2
##   175000      0    2
##   180000      3    3
##   185000      1    0
##   190000      0    3
##   2e+05       0    2
##   220000      0    1
##   250000      0    2

Dựa vào bảng tần số ta có thể thấy tỷ lệ Nam có Lương cao hơn Nữ rất nhiều, ta có thể thấy từ mức lương trên 105000 Nam có tỷ lệ cao hơn, thấp hơn 105000 thì Nữ nhiều hơn

#Bảng tần số biên
addmargins(a)
##         
##          Female Male Sum
##   30000       0    1   1
##   35000       2    6   8
##   40000       5    8  13
##   45000       8    3  11
##   50000       7    4  11
##   55000       5    1   6
##   60000       4    4   8
##   65000       5    2   7
##   70000       1    1   2
##   75000       0    4   4
##   80000       7    3  10
##   85000       0    1   1
##   90000       4    5   9
##   95000       3    5   8
##   1e+05       3    1   4
##   105000      0    4   4
##   110000      4    4   8
##   115000      0    3   3
##   120000      4    5   9
##   125000      0    1   1
##   130000      3    1   4
##   135000      0    2   2
##   140000      4    3   7
##   150000      3    2   5
##   160000      2    3   5
##   170000      2    2   4
##   175000      0    2   2
##   180000      3    3   6
##   185000      1    0   1
##   190000      0    3   3
##   2e+05       0    2   2
##   220000      0    1   1
##   250000      0    2   2
##   Sum        80   92 172
#Bảng tần suất
a1 <- prop.table(a)
a1
##         
##               Female        Male
##   30000  0.000000000 0.005813953
##   35000  0.011627907 0.034883721
##   40000  0.029069767 0.046511628
##   45000  0.046511628 0.017441860
##   50000  0.040697674 0.023255814
##   55000  0.029069767 0.005813953
##   60000  0.023255814 0.023255814
##   65000  0.029069767 0.011627907
##   70000  0.005813953 0.005813953
##   75000  0.000000000 0.023255814
##   80000  0.040697674 0.017441860
##   85000  0.000000000 0.005813953
##   90000  0.023255814 0.029069767
##   95000  0.017441860 0.029069767
##   1e+05  0.017441860 0.005813953
##   105000 0.000000000 0.023255814
##   110000 0.023255814 0.023255814
##   115000 0.000000000 0.017441860
##   120000 0.023255814 0.029069767
##   125000 0.000000000 0.005813953
##   130000 0.017441860 0.005813953
##   135000 0.000000000 0.011627907
##   140000 0.023255814 0.017441860
##   150000 0.017441860 0.011627907
##   160000 0.011627907 0.017441860
##   170000 0.011627907 0.011627907
##   175000 0.000000000 0.011627907
##   180000 0.017441860 0.017441860
##   185000 0.005813953 0.000000000
##   190000 0.000000000 0.017441860
##   2e+05  0.000000000 0.011627907
##   220000 0.000000000 0.005813953
##   250000 0.000000000 0.011627907
#Bảng tần suất biên
addmargins(a1)
##         
##               Female        Male         Sum
##   30000  0.000000000 0.005813953 0.005813953
##   35000  0.011627907 0.034883721 0.046511628
##   40000  0.029069767 0.046511628 0.075581395
##   45000  0.046511628 0.017441860 0.063953488
##   50000  0.040697674 0.023255814 0.063953488
##   55000  0.029069767 0.005813953 0.034883721
##   60000  0.023255814 0.023255814 0.046511628
##   65000  0.029069767 0.011627907 0.040697674
##   70000  0.005813953 0.005813953 0.011627907
##   75000  0.000000000 0.023255814 0.023255814
##   80000  0.040697674 0.017441860 0.058139535
##   85000  0.000000000 0.005813953 0.005813953
##   90000  0.023255814 0.029069767 0.052325581
##   95000  0.017441860 0.029069767 0.046511628
##   1e+05  0.017441860 0.005813953 0.023255814
##   105000 0.000000000 0.023255814 0.023255814
##   110000 0.023255814 0.023255814 0.046511628
##   115000 0.000000000 0.017441860 0.017441860
##   120000 0.023255814 0.029069767 0.052325581
##   125000 0.000000000 0.005813953 0.005813953
##   130000 0.017441860 0.005813953 0.023255814
##   135000 0.000000000 0.011627907 0.011627907
##   140000 0.023255814 0.017441860 0.040697674
##   150000 0.017441860 0.011627907 0.029069767
##   160000 0.011627907 0.017441860 0.029069767
##   170000 0.011627907 0.011627907 0.023255814
##   175000 0.000000000 0.011627907 0.011627907
##   180000 0.017441860 0.017441860 0.034883721
##   185000 0.005813953 0.000000000 0.005813953
##   190000 0.000000000 0.017441860 0.017441860
##   2e+05  0.000000000 0.011627907 0.011627907
##   220000 0.000000000 0.005813953 0.005813953
##   250000 0.000000000 0.011627907 0.011627907
##   Sum    0.465116279 0.534883721 1.000000000

5.1.2 Đồ thị cột

library("ggplot2")
ggplot(DTINH, aes(Salary, fill =Gender )) + geom_bar(position = 'dodge')

5.1.3 Kiểm định sự độc lập

Giả thuyết H0: Mức lương và Giới tính

chisq.test(a)
## Warning in chisq.test(a): Chi-squared approximation may be incorrect
## 
##  Pearson's Chi-squared test
## 
## data:  a
## X-squared = 40.963, df = 32, p-value = 0.1331

Qua kết quả kiểm định cho ta thấy chưa đủ chứng cứ để nói rằng giới tính ảnh hưởng tới mức lương

5.2 Phân tích biến ‘Educatin Level’ và biến ‘Gender’

#Bảng tần số
b <- table(DTINH$`Education Level`,DTINH$Gender)
b
##             
##              Female Male
##   Bachelor's     44   50
##   Master's       31   27
##   PhD             5   15

Dựa vào bảng tần số ta có thể thấy tỷ lệ Tiến Sĩ Nam nhiều hơn Nữ khá nhiều

#Bảng tần số biên
addmargins(b)
##             
##              Female Male Sum
##   Bachelor's     44   50  94
##   Master's       31   27  58
##   PhD             5   15  20
##   Sum            80   92 172
#Bảng tần suất
b1 <- prop.table(b)
b1
##             
##                  Female       Male
##   Bachelor's 0.25581395 0.29069767
##   Master's   0.18023256 0.15697674
##   PhD        0.02906977 0.08720930
#Bảng tần suất biên
addmargins(b1)
##             
##                  Female       Male        Sum
##   Bachelor's 0.25581395 0.29069767 0.54651163
##   Master's   0.18023256 0.15697674 0.33720930
##   PhD        0.02906977 0.08720930 0.11627907
##   Sum        0.46511628 0.53488372 1.00000000

5.2.2 Đồ thị cột

library("ggplot2")
ggplot(DTINH, aes(`Education Level`, fill =Gender )) + geom_bar(position = 'dodge')

5.2.3 Kiểm định sự độc lập

Giả thuyết H0: Trình độ học vấn và Giới tính

chisq.test(b)
## 
##  Pearson's Chi-squared test
## 
## data:  b
## X-squared = 4.8452, df = 2, p-value = 0.08869

Qua kết quả kiểm định cho ta thấy chưa đủ chứng cứ để nói rằng giới tính ảnh hưởng tới trình độ học vấn

5.3 Phân tích biến Years of Experience và biến ‘Gender’

#Bảng tần số
c <- table(DTINH$`Years of Experience`,DTINH$Gender)
c
##      
##       Female Male
##   0        1    2
##   0.5      1    0
##   1        2    4
##   1.5      1    1
##   10       6    3
##   11       2    4
##   12       6    1
##   13       4    2
##   14       5    2
##   15       4    1
##   16       3    3
##   17       1    1
##   18       3    4
##   19       1    5
##   2        3   12
##   20       2    5
##   21       1    4
##   22       3    3
##   23       2    0
##   24       0    1
##   25       1    2
##   3        9    5
##   4        5    2
##   5        6    4
##   6        1    6
##   7        3    7
##   8        1    5
##   9        3    3

Ta có thể thấy Nam có tỷ lệ kinh nghiệm 2 năm khá cao là 12

#Bảng tần số biên
addmargins(c)
##      
##       Female Male Sum
##   0        1    2   3
##   0.5      1    0   1
##   1        2    4   6
##   1.5      1    1   2
##   10       6    3   9
##   11       2    4   6
##   12       6    1   7
##   13       4    2   6
##   14       5    2   7
##   15       4    1   5
##   16       3    3   6
##   17       1    1   2
##   18       3    4   7
##   19       1    5   6
##   2        3   12  15
##   20       2    5   7
##   21       1    4   5
##   22       3    3   6
##   23       2    0   2
##   24       0    1   1
##   25       1    2   3
##   3        9    5  14
##   4        5    2   7
##   5        6    4  10
##   6        1    6   7
##   7        3    7  10
##   8        1    5   6
##   9        3    3   6
##   Sum     80   92 172
#Bảng tần suất
c1 <- prop.table(c)
c1
##      
##            Female        Male
##   0   0.005813953 0.011627907
##   0.5 0.005813953 0.000000000
##   1   0.011627907 0.023255814
##   1.5 0.005813953 0.005813953
##   10  0.034883721 0.017441860
##   11  0.011627907 0.023255814
##   12  0.034883721 0.005813953
##   13  0.023255814 0.011627907
##   14  0.029069767 0.011627907
##   15  0.023255814 0.005813953
##   16  0.017441860 0.017441860
##   17  0.005813953 0.005813953
##   18  0.017441860 0.023255814
##   19  0.005813953 0.029069767
##   2   0.017441860 0.069767442
##   20  0.011627907 0.029069767
##   21  0.005813953 0.023255814
##   22  0.017441860 0.017441860
##   23  0.011627907 0.000000000
##   24  0.000000000 0.005813953
##   25  0.005813953 0.011627907
##   3   0.052325581 0.029069767
##   4   0.029069767 0.011627907
##   5   0.034883721 0.023255814
##   6   0.005813953 0.034883721
##   7   0.017441860 0.040697674
##   8   0.005813953 0.029069767
##   9   0.017441860 0.017441860
#Bảng tần suất biên
addmargins(c1)
##      
##            Female        Male         Sum
##   0   0.005813953 0.011627907 0.017441860
##   0.5 0.005813953 0.000000000 0.005813953
##   1   0.011627907 0.023255814 0.034883721
##   1.5 0.005813953 0.005813953 0.011627907
##   10  0.034883721 0.017441860 0.052325581
##   11  0.011627907 0.023255814 0.034883721
##   12  0.034883721 0.005813953 0.040697674
##   13  0.023255814 0.011627907 0.034883721
##   14  0.029069767 0.011627907 0.040697674
##   15  0.023255814 0.005813953 0.029069767
##   16  0.017441860 0.017441860 0.034883721
##   17  0.005813953 0.005813953 0.011627907
##   18  0.017441860 0.023255814 0.040697674
##   19  0.005813953 0.029069767 0.034883721
##   2   0.017441860 0.069767442 0.087209302
##   20  0.011627907 0.029069767 0.040697674
##   21  0.005813953 0.023255814 0.029069767
##   22  0.017441860 0.017441860 0.034883721
##   23  0.011627907 0.000000000 0.011627907
##   24  0.000000000 0.005813953 0.005813953
##   25  0.005813953 0.011627907 0.017441860
##   3   0.052325581 0.029069767 0.081395349
##   4   0.029069767 0.011627907 0.040697674
##   5   0.034883721 0.023255814 0.058139535
##   6   0.005813953 0.034883721 0.040697674
##   7   0.017441860 0.040697674 0.058139535
##   8   0.005813953 0.029069767 0.034883721
##   9   0.017441860 0.017441860 0.034883721
##   Sum 0.465116279 0.534883721 1.000000000

5.3.2 Đồ thị cột

library("ggplot2")
ggplot(DTINH, aes(`Years of Experience`, fill =Gender )) + geom_bar(position = 'dodge')

5.3.3 Kiểm định tính độc lập

Giả thuyết H0: Kinh nghiệm làm việc với giới tính

chisq.test(c)
## Warning in chisq.test(c): Chi-squared approximation may be incorrect
## 
##  Pearson's Chi-squared test
## 
## data:  c
## X-squared = 35.622, df = 27, p-value = 0.1238

Qua kết quả kiểm định cho ta thấy chưa đủ chứng cứ để nói rằng giới tính ảnh hưởng tới kinh nghiệm làm việc

10 Ước lượng mô hình hồi quy

10.1 Salary

10.1.1 Mô hình hồi quy logit

de1 <- glm(factor(Gender) ~ Age + Salary + `Education Level`, family = binomial(link = 'logit'), data =  DTINH)
summary(de1)
## 
## Call:
## glm(formula = factor(Gender) ~ Age + Salary + `Education Level`, 
##     family = binomial(link = "logit"), data = DTINH)
## 
## Deviance Residuals: 
##     Min       1Q   Median       3Q      Max  
## -2.1900  -0.9601   0.4179   0.9357   1.7877  
## 
## Coefficients:
##                             Estimate Std. Error z value Pr(>|z|)    
## (Intercept)                7.290e+00  1.524e+00   4.784 1.72e-06 ***
## Age                       -3.558e-01  7.031e-02  -5.060 4.19e-07 ***
## Salary                     7.295e-05  1.467e-05   4.974 6.57e-07 ***
## `Education Level`Master's -2.108e+00  5.732e-01  -3.677 0.000236 ***
## `Education Level`PhD      -1.513e+00  8.242e-01  -1.835 0.066459 .  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 237.60  on 171  degrees of freedom
## Residual deviance: 194.02  on 167  degrees of freedom
## AIC: 204.02
## 
## Number of Fisher Scoring iterations: 5

10.1.2 Mô hình hồi quy Probit

de2 <- glm(factor(Gender) ~ Age + Salary + `Education Level`, family = binomial(link = 'probit'), data =  DTINH)
summary(de2)
## 
## Call:
## glm(formula = factor(Gender) ~ Age + Salary + `Education Level`, 
##     family = binomial(link = "probit"), data = DTINH)
## 
## Deviance Residuals: 
##     Min       1Q   Median       3Q      Max  
## -2.2181  -0.9563   0.3977   0.9404   1.7945  
## 
## Coefficients:
##                             Estimate Std. Error z value Pr(>|z|)    
## (Intercept)                4.421e+00  8.783e-01   5.034 4.81e-07 ***
## Age                       -2.153e-01  3.990e-02  -5.396 6.82e-08 ***
## Salary                     4.396e-05  8.236e-06   5.337 9.43e-08 ***
## `Education Level`Master's -1.276e+00  3.334e-01  -3.828 0.000129 ***
## `Education Level`PhD      -9.090e-01  4.840e-01  -1.878 0.060388 .  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 237.60  on 171  degrees of freedom
## Residual deviance: 193.84  on 167  degrees of freedom
## AIC: 203.84
## 
## Number of Fisher Scoring iterations: 5

10.1.3 Mô hình hồi quy cloglog

de3 <- glm(factor(Gender) ~ Age + Salary + `Education Level`, family = binomial(link = 'cloglog'), data =  DTINH)
## Warning: glm.fit: fitted probabilities numerically 0 or 1 occurred
summary(de3)
## 
## Call:
## glm(formula = factor(Gender) ~ Age + Salary + `Education Level`, 
##     family = binomial(link = "cloglog"), data = DTINH)
## 
## Deviance Residuals: 
##     Min       1Q   Median       3Q      Max  
## -2.2795  -0.9457   0.3477   0.9551   1.7039  
## 
## Coefficients:
##                             Estimate Std. Error z value Pr(>|z|)    
## (Intercept)                4.356e+00  9.799e-01   4.446 8.75e-06 ***
## Age                       -2.286e-01  4.517e-02  -5.060 4.20e-07 ***
## Salary                     4.550e-05  8.841e-06   5.146 2.66e-07 ***
## `Education Level`Master's -1.305e+00  3.710e-01  -3.518 0.000434 ***
## `Education Level`PhD      -8.835e-01  4.766e-01  -1.854 0.063791 .  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 237.60  on 171  degrees of freedom
## Residual deviance: 196.08  on 167  degrees of freedom
## AIC: 206.08
## 
## Number of Fisher Scoring iterations: 5

10.1.4 Chọn mô hình phù hợp

  • AIC và Deviance

Từ kết quả 3 mô hình ta có

  • logit: AIC = 204.02 , Deviance = 194.02
  • probit: AIC = 203.84, Deviance = 193.84
  • cloglog: AIC = 206.08, Deviance = 196.08
# Tiêu chí AIC 
aic1 <- AIC(de1)
aic2 <- AIC(de2)
aic3 <- AIC(de3)
AIC <-cbind(aic1,aic2,aic3)
AIC
##          aic1     aic2    aic3
## [1,] 204.0163 203.8403 206.076
# Tiêu chí Deviance
dee1 <- deviance(de1)
dee2 <- deviance(de2)
dee3 <- deviance(de3)
deviance <- cbind(dee1,dee2,dee3)
deviance
##          dee1     dee2    dee3
## [1,] 194.0163 193.8403 196.076

Lựa chọn mô hình cloglog

summary(de3)
## 
## Call:
## glm(formula = factor(Gender) ~ Age + Salary + `Education Level`, 
##     family = binomial(link = "cloglog"), data = DTINH)
## 
## Deviance Residuals: 
##     Min       1Q   Median       3Q      Max  
## -2.2795  -0.9457   0.3477   0.9551   1.7039  
## 
## Coefficients:
##                             Estimate Std. Error z value Pr(>|z|)    
## (Intercept)                4.356e+00  9.799e-01   4.446 8.75e-06 ***
## Age                       -2.286e-01  4.517e-02  -5.060 4.20e-07 ***
## Salary                     4.550e-05  8.841e-06   5.146 2.66e-07 ***
## `Education Level`Master's -1.305e+00  3.710e-01  -3.518 0.000434 ***
## `Education Level`PhD      -8.835e-01  4.766e-01  -1.854 0.063791 .  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 237.60  on 171  degrees of freedom
## Residual deviance: 196.08  on 167  degrees of freedom
## AIC: 206.08
## 
## Number of Fisher Scoring iterations: 5

Kết quả hồi quy của mô hình cloglog đối với biến phụ thuộc là Giới tính dựa trên các biến độc lập Tuổi, Lương, Trình độ học vấn được xác định như sau:

cloglog(π)=ϕ^2(π)= 4.356 - 2.286Age - 1.305EducationLevelMaster's - 8.835EducationLevelPhD

10.2 Job title

10.2.1 Mô hình hồi quy logit

j1 <- glm(factor(`Job Title`) ~ Gender + Age + `Education Level`+ Salary, family = binomial(link = 'logit'), data =  DTINH)
## Warning: glm.fit: fitted probabilities numerically 0 or 1 occurred
summary(j1)
## 
## Call:
## glm(formula = factor(`Job Title`) ~ Gender + Age + `Education Level` + 
##     Salary, family = binomial(link = "logit"), data = DTINH)
## 
## Deviance Residuals: 
##      Min        1Q    Median        3Q       Max  
## -2.72394   0.00001   0.00002   0.10978   0.42116  
## 
## Coefficients:
##                             Estimate Std. Error z value Pr(>|z|)
## (Intercept)                1.747e+01  7.973e+03   0.002    0.998
## GenderMale                -1.848e+01  7.973e+03  -0.002    0.998
## Age                        2.164e-01  3.791e-01   0.571    0.568
## `Education Level`Master's  1.910e+01  9.258e+03   0.002    0.998
## `Education Level`PhD       1.967e+01  1.653e+04   0.001    0.999
## Salary                    -2.973e-05  4.844e-05  -0.614    0.539
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 12.2892  on 171  degrees of freedom
## Residual deviance:  9.4004  on 166  degrees of freedom
## AIC: 21.4
## 
## Number of Fisher Scoring iterations: 22

###Mô hình hồi quy probit

j2 <- glm(factor(`Job Title`) ~ Gender + Age + `Education Level`+ Salary, family = binomial(link = 'probit'), data =  DTINH)
## Warning: glm.fit: fitted probabilities numerically 0 or 1 occurred
summary(j2)
## 
## Call:
## glm(formula = factor(`Job Title`) ~ Gender + Age + `Education Level` + 
##     Salary, family = binomial(link = "probit"), data = DTINH)
## 
## Deviance Residuals: 
##      Min        1Q    Median        3Q       Max  
## -2.71132   0.00000   0.00001   0.09677   0.46545  
## 
## Coefficients:
##                             Estimate Std. Error z value Pr(>|z|)
## (Intercept)                3.981e+00  1.023e+03   0.004    0.997
## GenderMale                -4.180e+00  1.023e+03  -0.004    0.997
## Age                        1.008e-01  1.546e-01   0.652    0.514
## `Education Level`Master's  4.473e+00  1.199e+03   0.004    0.997
## `Education Level`PhD       4.793e+00  2.090e+03   0.002    0.998
## Salary                    -1.430e-05  2.067e-05  -0.692    0.489
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 12.2892  on 171  degrees of freedom
## Residual deviance:  9.3416  on 166  degrees of freedom
## AIC: 21.342
## 
## Number of Fisher Scoring iterations: 21

###Mô hình hồi quy cloglog

j3 <- glm(factor(`Job Title`) ~ Gender + Age + `Education Level`+ Salary, family = binomial(link = 'cloglog'), data =  DTINH)
## Warning: glm.fit: fitted probabilities numerically 0 or 1 occurred
summary(j3)
## 
## Call:
## glm(formula = factor(`Job Title`) ~ Gender + Age + `Education Level` + 
##     Salary, family = binomial(link = "cloglog"), data = DTINH)
## 
## Deviance Residuals: 
##      Min        1Q    Median        3Q       Max  
## -2.69574   0.00000   0.00000   0.08305   0.52147  
## 
## Coefficients:
##                             Estimate Std. Error z value Pr(>|z|)
## (Intercept)                1.664e+00  3.749e+02   0.004    0.996
## GenderMale                -1.870e+00  3.749e+02  -0.005    0.996
## Age                        7.157e-02  9.777e-02   0.732    0.464
## `Education Level`Master's  2.052e+00  4.506e+02   0.005    0.996
## `Education Level`PhD       2.389e+00  7.312e+02   0.003    0.997
## Salary                    -1.060e-05  1.389e-05  -0.763    0.446
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 12.2892  on 171  degrees of freedom
## Residual deviance:  9.2785  on 166  degrees of freedom
## AIC: 21.278
## 
## Number of Fisher Scoring iterations: 21

10.2.2 Chọn mô hình phù hợp

  • AIC và Deviance

Từ kết quả 3 mô hình ta có

  • logit: AIC = 21.4, Deviance = 9.4004
  • probit: AIC = 21.342, Deviance = 9.3416
  • cloglog: AIC = 21.278, Deviance = 9.2785
# Tiêu chí AIC 
aiic1 <- AIC(j1)
aiic2 <- AIC(j2)
aiic3 <- AIC(j3)
AIIC <-cbind(aiic1,aiic2,aiic3)
AIIC
##         aiic1    aiic2    aiic3
## [1,] 21.40036 21.34165 21.27849
# Tiêu chí Deviance
dee4 <- deviance(j1)
dee5 <- deviance(j2)
dee6 <- deviance(j3)
deviance <- cbind(dee4,dee5,dee6)
deviance
##          dee4     dee5     dee6
## [1,] 9.400364 9.341647 9.278493

Lựa chọn mô hình logit

summary(j1)
## 
## Call:
## glm(formula = factor(`Job Title`) ~ Gender + Age + `Education Level` + 
##     Salary, family = binomial(link = "logit"), data = DTINH)
## 
## Deviance Residuals: 
##      Min        1Q    Median        3Q       Max  
## -2.72394   0.00001   0.00002   0.10978   0.42116  
## 
## Coefficients:
##                             Estimate Std. Error z value Pr(>|z|)
## (Intercept)                1.747e+01  7.973e+03   0.002    0.998
## GenderMale                -1.848e+01  7.973e+03  -0.002    0.998
## Age                        2.164e-01  3.791e-01   0.571    0.568
## `Education Level`Master's  1.910e+01  9.258e+03   0.002    0.998
## `Education Level`PhD       1.967e+01  1.653e+04   0.001    0.999
## Salary                    -2.973e-05  4.844e-05  -0.614    0.539
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 12.2892  on 171  degrees of freedom
## Residual deviance:  9.4004  on 166  degrees of freedom
## AIC: 21.4
## 
## Number of Fisher Scoring iterations: 22

Kết quả hồi quy của mô hình logit đối với biến phụ thuộc là chức vụ dựa trên các biến độc lập Giới tính, Tuổi, tiền lương, Trình độ học vấn được xác định như sau:

logit(π)=ϕ^2(π)= 1.747 - 1.84Gender = 2.16Age + 1.91EducationLevel - 2.973Salary

11 Chương 5: Kết luận

Qua các yếu tố phân tích thì những yếu tố khá là ảnh hưởng đến mức lương trong tương lai đặc biệt là trình độ học vấn và kinh nghiệm làm việc nó khá là ảnh hưởng lên mức lương bạn được nhận. Do đó chúng ta nên trau dồi thêm nhiều kiến thức và chăm chỉ học tập để đạt được những bằng cấp cao và đi làm thêm tích luỹ kinh nghiệm để có thể ứng tuyển một vị trí cao hơn với một mức lương tốt hơn