Trong bối cảnh hiện nay, vấn đề sức khỏe tinh thần ngày càng nhận được nhiều sự quan tâm của xã hội, đặc biệt là trong giới sinh viên. Sinh viên là đối tượng dễ bị ảnh hưởng bởi nhiều yếu tố khác nhau như áp lực học tập, cuộc sống xa nhà, môi trường sống và học tập mới, cùng với những mối quan hệ xã hội phức tạp. Những yếu tố này có thể dẫn đến tình trạng căng thẳng và trầm cảm, gây ảnh hưởng nghiêm trọng đến sức khỏe, học tập và cuộc sống của sinh viên.
Theo Tổ chức Y tế Thế giới (WHO), trầm cảm là căn bệnh phổ biến nhất trên toàn thế giới và đứng thứ hai trong gánh nặng bệnh lý toàn cầu, chỉ sau bệnh lý mạch vành. Ước tính trên thế giới có khoảng 335 triệu người bị ảnh hưởng bởi trầm cảm. Theo thống kê năm 2022, tại Việt Nam, tỉ lệ mắc 10 rối loạn tâm thần thường gặp là 14,9% dân số - tương đương gần 15 triệu người. Một điều đáng chú ý là đa số người dân cho rằng rối loạn tâm thần chỉ liên quan đến tâm thần phân liệt, nhưng thực tế là các rối loạn lo âu và trầm cảm chiếm tỉ lệ cao, lên đến 5,4% dân số, còn lại là các rối loạn tâm thần khác như chậm phát triển tâm thần, rối loạn hành vi ở thanh thiếu niên, lạm dụng rượu, chất kích thích,…Hậu quả nghiêm trọng nhất của trầm cảm là hành vi tự tử. Thống kê tại Việt Nam cho thấy số người tự tử hàng năm lên tới 36.000 – 40.000 người, cao gấp 3 – 4 lần số ca tử vong do tai nạn giao thông. Trầm cảm chịu trách nhiệm cho 75% các vụ tự tử kể trên, còn lại là 22% là do nghiện rượu, ma tuý, cờ bạc và chỉ có 3% do tâm thần phân liệt, động kinh.
Một số yếu tố ảnh hưởng đến việc bị trầm cảm ở sinh viên bao gồm: áp lực từ việc học tập với khối lượng bài vở lớn và yêu cầu cao, áp lực từ gia đình về thành tích học tập, môi trường sống thay đổi khi phải sống xa nhà, mối quan hệ xã hội phức tạp và thiếu sự hỗ trợ từ người thân, bạn bè. Ngoài ra, sự phát triển mạnh mẽ của công nghệ và mạng xã hội cũng góp phần làm tăng thêm áp lực và sự so sánh trong giới trẻ, dẫn đến tình trạng trầm cảm.Việc nghiên cứu và hiểu rõ các yếu tố này là cần thiết để có thể đề xuất các giải pháp hỗ trợ kịp thời và hiệu quả. Đồng thời, việc nâng cao nhận thức về trầm cảm trong cộng đồng sinh viên cũng góp phần tạo ra môi trường học tập và sinh hoạt lành mạnh hơn.
Chính vì lý do này, tôi đã chọn đề tài “Phân tích các yếu tố ảnh hưởng đến việc bị trầm cảm ở sinh viên” với hy vọng góp phần nhỏ bé vào việc nâng cao nhận thức và tìm kiếm các biện pháp hữu hiệu nhằm giảm thiểu tình trạng trầm cảm trong giới sinh viên. Qua đó, tôi mong muốn đóng góp vào việc xây dựng một môi trường học đường lành mạnh và hỗ trợ tốt hơn cho sinh viên trong việc phát triển toàn diện cả về thể chất lẫn tinh thần.
Mục tiêu chính của đề tài là đánh giá mức độ ảnh hưởng của các yếu tố liên quan đến bệnh trầm cảm ở sinh viên., từ đó đề xuất các biện pháp giáo dục và can thiệp thích hợp nhằm giảm thiểu tình trạng trầm cảm và tăng cường sức khỏe tâm lý cho cộng đồng sinh viên.
Đối tượng nghiên cứu: sinh viên ở các cấp học khác nhau như trung học phổ thông, đại học và thạc sĩ.
Phạm vi nghiên cứu: 352 sinh viên Hoa Kỳ.
Nghiên cứu sử dụng phương pháp hồi quy đối với dữ liệu định tính để phân tích dữ liệu khảo sát từ 352 sinh viên Hoa Kỳ. Phương pháp này cho phép chúng tôi xác định độ ảnh hưởng của từng yếu tố đến việc bị trầm cảm ở sinh viên
Nghiên cứu này sẽ giúp làm rõ các yếu tố gây ra trầm cảm, những khó khăn và rào cản mà sinh viên phải đối mặt khi tìm kiếm sự hỗ trợ và can thiệp. Kết quả của nghiên cứu sẽ cung cấp những kiến thức hữu ích để tăng cường nhận thức về trầm cảm và giúp định hướng các biện pháp can thiệp, hỗ trợ và giáo dục hiệu quả nhằm giảm thiểu tình trạng trầm cảm trong cộng đồng sinh viên. Điều này sẽ đóng góp tích cực vào việc nâng cao sức khỏe tâm lý và chất lượng cuộc sống của các bạn trẻ, đồng thời giảm thiểu tác động xã hội của vấn đề này.
Data <- read_excel("C:/Users/Admin/Downloads/Data.xlsx")
str (Data)
## tibble [352 × 14] (S3: tbl_df/tbl/data.frame)
## $ Gender : chr [1:352] "Male" "Male" "Female" "Female" ...
## $ Age : num [1:352] 22 22 17 18 19 26 23 21 21 22 ...
## $ Education : chr [1:352] "College - Bachelor's" "College - Bachelor's" "High School" "High School" ...
## $ Pleasureinthings : num [1:352] 3 2 2 3 1 1 2 3 3 3 ...
## $ Feelingdown : num [1:352] 2 1 2 1 2 2 2 3 1 4 ...
## $ Littleenergy : num [1:352] 4 1 2 3 3 4 3 3 3 2 ...
## $ Feelingbadyourself: num [1:352] 3 1 1 1 1 1 1 3 2 3 ...
## $ Hurtingyourself : num [1:352] 2 1 1 2 1 1 1 3 1 2 ...
## $ Job : chr [1:352] "Yes" "Yes" "No" "No" ...
## $ Accommodation : chr [1:352] "Home (with parents)" "Private rented accommodation" "Home (with parents)" "Home (with parents)" ...
## $ Selfstudy : chr [1:352] "2 - 4 hours" "1 - 2 hours" "1 - 2 hours" "1 - 2 hours" ...
## $ Media : chr [1:352] "More than 4 Hours" "1 - 2 Hours" "More than 4 Hours" "2 - 4 Hours" ...
## $ GPA : num [1:352] 2.3 2.7 2.97 2.74 3.37 3.33 2.75 3.25 3.97 2.75 ...
## $ Depression : chr [1:352] "No" "Yes" "No" "No" ...
datatable(Data)
Dữ liệu sử dụng trong bài nghiên cứu được lấy từ tác giả Kane Rudolph trên trang web kaggle.com.
Dữ liệu được thu thập bằng cách khảo sát sinh viên Hoa Kỳ đang theo học ở các cấp học khác nhau như trung học, đại học và thạc sĩ. Tổng cộng có 352 sinh viên được đưa vào nghiên cứu. Dữ liệu được thu thập từ các sinh viên bằng phương pháp câu hỏi với sự đồng ý có hiểu biết.
Bộ dữ liệu gồm có 14 biến. Trong đó có 7 biến định tính và 7 biến định lượng:
Biến định tính:
Biến Depression - Sinh viên có biểu hiện trầm cảm hay không, gồm 2 giá trị: Yes hoặc No.
Biến Gender - Giới tính của sinh viên, gồm 2 giá trị Male (Nam) hoặc Female (Nữ).
Accommodation - Nơi ở hiện tại của sinh viên, gồm 2 giá trị: Home with parents (Tại nhà với gia đình) và Private rented accommodation (Phòng trọ tư nhân).
Biến Education - Trình độ học vấn hiện tại, gồm 3 giá trị - High School (Trung học phổ thông), College - Bachelor’s (Đại học) và Master (Thạc sĩ).
Biến Job - hiện tại có đi làm hay không, gồm 2 giá trị: Yes hoặc No
Biến Media - số giờ dành cho phương tiện truyền thông mỗi ngày, gồm 3 giá trị: 1 - 2 hours (từ 1 đến 2 tiếng), 2 - 4 hours (từ 2 đến 4 tiếng) và More than 4 hours (hơn 4 tiếng).
Biến Selfstudy - Số giờ tự học mỗi ngày, gồm 3 giá trị: 1 - 2 hours (từ 1 đến 2 tiếng), 2 - 4 hours (từ 2 đến 4 tiếng) và More than 4 hours (hơn 4 tiếng).
Biến định lượng:
Biến Age - Tuổi của sinh viên.
Biến Pleasureinthings - Ít hứng thú hoặc niềm vui trong công việc, gồm 4 mức độ: 1 (Chưa bao giờ), 2(Thi thoảng), 3 (Thường xuyên), 4 (Luôn luôn).
Biến Littleenergy - Cảm thấy mệt mỏi hoặc có ít năng lượng, gồm 4 mức độ tương tự như biến Pleasureinthings.
Biến Feelingbadyourself - Cảm thấy tồi tệ về bản thân hoặc rằng bạn là một kẻ thất bại hoặc đã không làm bản thân hoặc gia đình thất vọng, gồm 4 mức độ tương tự như biến Pleasureinthings.
Biến Feelingdown - Cảm thấy thất vọng, chán nản, hoặc vô vọng, gồm 4 mức độ tương tự như biến Pleasureinthings.
Biến Hurtingyourself - Suy nghĩ rằng bạn nên chết đi hoặc làm tổn thương chính mình theo một cách nào đó, gồm 4 mức độ tương tự như biến Pleasureinthings.
Biến GPA - Điểm số tích luỹ hiện tại tính theo thang điểm 4.
Phân tích các yếu tố ảnh hưởng đến việc bị trầm cảm ở sinh viên
Tôi chọn biến Depression (biểu hiện cho việc có trầm cảm hoặc không trầm cảm ở sinh viên) làm biến phụ thuộc. Với mục đích, tôi muốn khảo sát xem các yếu tố về giới tính, độ tuổi, nơi ở hiện tại, công việc hiện tại, thời gian tự học mỗi ngày, điểm số GPA… ảnh hưởng như thế nào đối với việc có biểu hiện trầm cảm của sinh viên được khảo sát.
Các biến phân tích bao gồm:
Biến định tính: Depression, Gender, Accommodation, Job, Education
Biến định lượng: Age, GPA
Thống kê mô tả cho biến định tính
dnt <- Data[,c("Gender","Accommodation","Education","Selfstudy","Job","Media","Depression")]
table(Data$Depression)
##
## No Yes
## 182 170
prop.table(table(Data$Depression))
##
## No Yes
## 0.5170455 0.4829545
ggplot(Data,aes(Depression))+
geom_bar(color = "blue", fill = "skyblue")+
geom_text(aes(label = scales :: percent(after_stat(count/sum(count)))), stat= 'count', color = 'black', vjust = -.5)+
ylab("Number of Students")+ xlab("Depression") + labs(title = 'Đồ thị về bệnh trầm cảm của 352 người được khảo sát')
Theo như kết quả khảo sát thu thập được, cho thấy một sự thật khá bất ngờ và đáng báo động: số sinh viên tham gia khảo sát cụ thể là 170 sinh viên trên tổng số sinh viên được lấy thông tin khảo sát (chiếm 48.3%) báo cáo rằng họ có biểu hiện bị mắc bệnh trầm cảm. Đây là một tỷ lệ cao, và nó gợi lên một câu hỏi đáng quan ngại về tình hình tâm lý của sinh viên trong thời đại ngày nay. Số còn lại là 182 sinh viên (xấp xỉ 51.7%) thì không có biểu hiện của sự trầm cảm này.
table(Data$Gender)
##
## Female Male
## 313 39
prop.table(table(Data$Gender))
##
## Female Male
## 0.8892045 0.1107955
ggplot(Data,aes(Gender))+
geom_bar(color = "blue", fill = "skyblue")+
geom_text(aes(label = scales :: percent(after_stat(count/sum(count)))), stat= 'count', color = 'black', vjust = -.5)+
ylab("Number of Students")+ xlab("Gender") + labs(title = 'Đồ thị về giới tính của 352 người được khảo sát')
Trong tổng số 352 học sinh sinh viên tham gia khảo sát thì có đến 313 sinh viên nữ (chiếm gần 89%) và 39 sinh viên nam (chiếm 11%).
table(Data$Education)
##
## College - Bachelor's High School Master
## 204 124 24
prop.table(table(Data$Education))
##
## College - Bachelor's High School Master
## 0.57954545 0.35227273 0.06818182
ggplot(Data,aes(Education))+
geom_bar(color = "blue", fill = "skyblue")+
geom_text(aes(label = scales :: percent(after_stat(count/sum(count)))), stat= 'count', color = 'black', vjust = -.5)+
ylab("Number of Students")+ xlab("Education") + labs(title = 'Đồ thị về trình độ học vấn của 352 người được khảo sát')
Kết quả khảo sát 352 học sinh sinh viên cho thấy :
Có 204 sinh viên đang theo học đại học (college - Bachelor’s) chiếm tỉ lệ 58%
Có 124 học sinh đang học trung học phổ thông (High School) chiếm tỉ lệ 35%
Có 24 sinh viên đang theo học thạc sĩ (Master) chiếm tỉ lệ 7%
table(Data$Job)
##
## No Yes
## 119 233
prop.table(table(Data$Job))
##
## No Yes
## 0.3380682 0.6619318
ggplot(Data,aes(Job))+
geom_bar(color = "blue", fill = "skyblue")+
geom_text(aes(label = scales :: percent(after_stat(count/sum(count)))), stat= 'count', color = 'black', vjust = -.5)+
ylab("Number of Students")+ xlab("Job") + labs(title = 'Đồ thị về công việc hiện tại của 352 người được khảo sát')
Trong tổng số những học sinh, sinh viên được khảo sát (352 người) thì có đến 233 người có việc làm bao gồm cả công việc full-tim và part-time (chiếm 66% ) và có 119 người không đi làm (chiếm 34%).
table(Data$Accommodation)
##
## Home (with parents) Private rented accommodation
## 155 197
prop.table(table(Data$Accommodation))
##
## Home (with parents) Private rented accommodation
## 0.4403409 0.5596591
ggplot(Data,aes(Accommodation))+
geom_bar(color = "blue", fill = "skyblue")+
geom_text(aes(label = scales :: percent(after_stat(count/sum(count)))), stat= 'count', color = 'black', vjust = -.5)+
ylab("Number of Students")+ xlab("Accommodation") + labs(title = 'Đồ thị về nơi ở hiện tại của 352 người được khảo sát')
Theo kết quả của bảng khảo sát 352 học sinh sinh viên thì có :
155 học sinh sinh viên sống chung với gia đình chiếm 44%
197 học sinh sinh viên ở tại các phòng trọ tư nhân chiếm 56%
Đa số học sinh sinh viên có xu hướng ở các phòng trọ tư nhân hơn là sống chung với gia đình
Thống kê mô tả cho biến định lượng
dnl <- Data[,c("Age","Pleasureinthings","Littleenergy","Feelingbadyourself","Feelingdown","Hurtingyourself","GPA")]
summary(Data$Age)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 17.00 19.00 22.00 21.97 24.00 28.00
Trong 352 học sinh, sinh viên được khảo sát về bệnh trầm cảm có độ tuổi từ 17 đến 28 tuổi, trong đó:
Độ tuổi trung bình là 21.97
Có 25% người dưới 19 tuổi
Có 50% người dưới 22 tuổi
Có 75% người dưới 24 tuổi
sd(Data$Age)
## [1] 3.21924
Độ lệch chuẩn của tuổi những người khả sát là 3.2, cho biết mức độ phân tán về tuổi của từng người được khảo sát trong 352 người so với giá trị trung bình là 3.2.
table(Data$Age)
##
## 17 18 19 20 21 22 23 24 25 26 27 28
## 32 23 46 31 26 44 34 40 14 18 26 18
prop.table(table(Data$Age))
##
## 17 18 19 20 21 22 23
## 0.09090909 0.06534091 0.13068182 0.08806818 0.07386364 0.12500000 0.09659091
## 24 25 26 27 28
## 0.11363636 0.03977273 0.05113636 0.07386364 0.05113636
ggplot(Data,aes(Age))+
geom_bar(color = "blue", fill = "skyblue")+
geom_text(aes(label = scales :: percent(after_stat(count/sum(count)))), stat= 'count', color = 'black', vjust = -.5)+
ylab("Number of Students")+ xlab("Age") + labs(title = 'Đồ thị độ tuổi của 352 người được khảo sát')
Những người được khảo sát nằm trong 12 độ tuổi khác nhau từ 17 đến 28 tuổi. Trong đó, người ở độ tuổi 19 có số lượng đông nhất (46 người, chiếm 13.07%), người ở độ tuổi 25 là ít nhất (14 người, chiếm 3.98%).
Người ở độ tuổi cao nhất là 28 tuổi (18 người, chiếm 5.11%), người ở độ tuổi thấp nhất là 17 tuổi (32 người, chiếm 9.09%).
summary(Data$GPA)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1.000 2.300 3.350 3.009 3.350 4.000
Trong 352 người được khảo sát về điểm số tích luỹ hiện tại tính theo thang điểm 4 có điểm thấy nhất là 1 và điểm cao nhất là 4:
Số điểm trung bình là 3.009 điểm
Có 25% người dưới 2.3 điểm
Có 50% người dưới 3.35 điểm
Có 75% người dưới 3.35 điểm
sd(Data$GPA)
## [1] 0.760909
Độ lệch chuẩn của điểm số tích lũy những người khảo sát là 0.76, cho biết mức độ phân tán về điểm số tích lũy của từng người khảo sát trong 352 người so với giá trị trung bình là 0.76.
table(Data$GPA)
##
## 1 1.3 2 2.2 2.25 2.3 2.32 2.4 2.47 2.5 2.7 2.73 2.74 2.75 2.78 2.83
## 2 21 1 1 2 91 1 1 1 1 1 1 1 10 1 1
## 2.85 2.87 2.97 2.98 3.05 3.1 3.15 3.2 3.23 3.24 3.25 3.27 3.33 3.35 3.37 3.41
## 1 1 5 1 1 1 1 1 1 1 6 2 1 112 2 1
## 3.42 3.5 3.54 3.7 3.73 3.75 3.76 3.84 3.89 3.93 3.97 3.98 4
## 1 1 1 2 1 4 2 1 1 1 1 1 60
prop.table(table(Data$GPA))
##
## 1 1.3 2 2.2 2.25 2.3
## 0.005681818 0.059659091 0.002840909 0.002840909 0.005681818 0.258522727
## 2.32 2.4 2.47 2.5 2.7 2.73
## 0.002840909 0.002840909 0.002840909 0.002840909 0.002840909 0.002840909
## 2.74 2.75 2.78 2.83 2.85 2.87
## 0.002840909 0.028409091 0.002840909 0.002840909 0.002840909 0.002840909
## 2.97 2.98 3.05 3.1 3.15 3.2
## 0.014204545 0.002840909 0.002840909 0.002840909 0.002840909 0.002840909
## 3.23 3.24 3.25 3.27 3.33 3.35
## 0.002840909 0.002840909 0.017045455 0.005681818 0.002840909 0.318181818
## 3.37 3.41 3.42 3.5 3.54 3.7
## 0.005681818 0.002840909 0.002840909 0.002840909 0.002840909 0.005681818
## 3.73 3.75 3.76 3.84 3.89 3.93
## 0.002840909 0.011363636 0.005681818 0.002840909 0.002840909 0.002840909
## 3.97 3.98 4
## 0.002840909 0.002840909 0.170454545
hist(Data$GPA)
Theo kết quả khảo sát cho thấy:
Số điểm tích lũy GPA có mức điểm GPA 3.35 là mức điểm có tỷ lệ xác suất cao nhất là 31.82%.
Biến GPA (số điểm tích lũy trên thang điểm 4) có giá trị từ 1.0 đến 4.0, trong đó chiếm nhiều nhất là mức điểm GPA nằm trong vùng từ 3.0 đến 3.5; Còn mức điểm GPA tích lũy chiếm ít nhất là từ mức điểm 1.5 đến 2.0
risk1 <- table(Data$Gender, Data$Depression)
addmargins(risk1)
##
## No Yes Sum
## Female 164 149 313
## Male 18 21 39
## Sum 182 170 352
prop.table(risk1)
##
## No Yes
## Female 0.46590909 0.42329545
## Male 0.05113636 0.05965909
prop.table(risk1,margin=2)
##
## No Yes
## Female 0.9010989 0.8764706
## Male 0.0989011 0.1235294
ggplot(Data, aes(Gender, fill = Depression)) + geom_bar(position = 'dodge') + geom_text(aes(label = scales::percent(after_stat(count / sum(count)), accuracy = 0.01)),
stat = "count",
position = position_dodge(width = 0.9),
vjust = -0.5,
color = 'black')
Từ bảng tần số về việc sinh viên có biểu hiện trầm cảm và giới tính ta thấy:
Trong số 182 sinh viên không có biểu hiện trầm cảm: sinh viên nữ là 164 người (chiếm hơn 90.1%), sinh viên nam là 18 người (khoảng 9.9%).
Trong số 170 sinh viên có biểu hiện trầm cảm: sinh viên nữ là 149 người (khoảng 87.6%), sinh viên nam là 21 người (khoảng 12.4%).
Tỷ lệ phần trăm nhóm sinh viên có biểu hiện trầm cảm là nữ nhiều hơn nam. Tỷ lệ phần trăm nhóm sinh viên không có biểu hiện trầm cảm là nữ nhiều hơn nam.
Như vậy, giữa hai nhóm người có hay không có biểu hiện trầm cảm đều có số lượng là nữ nhiều hơn là nam.
Risk ratio/ Odd ratio
Risk ratio
riskratio(risk1)
## $data
##
## No Yes Total
## Female 164 149 313
## Male 18 21 39
## Total 182 170 352
##
## $measure
## risk ratio with 95% C.I.
## estimate lower upper
## Female 1.000000 NA NA
## Male 1.131131 0.8271825 1.546765
##
## $p.value
## two-sided
## midp.exact fisher.exact chi.square
## Female NA NA NA
## Male 0.468275 0.4997283 0.4619536
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"
Tỷ lệ sinh viên nam có biểu hiện trầm cảm so với tỷ lệ sinh viên nữ có biểu hiện trầm cảm là 1.13, cho thấy tỷ lệ sinh viên nam có biểu hiện trầm cảm nhiều hơn 13% so với tỷ lệ sinh viên nữ có biểu hiện trầm cảm.
Odd ratio
oddsratio(risk1, rev = 'c')
## $data
##
## Yes No Total
## Female 149 164 313
## Male 21 18 39
## Total 170 182 352
##
## $measure
## odds ratio with 95% C.I.
## estimate lower upper
## Female 1.0000000 NA NA
## Male 0.7802242 0.3948421 1.527056
##
## $p.value
## two-sided
## midp.exact fisher.exact chi.square
## Female NA NA NA
## Male 0.468275 0.4997283 0.4619536
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "median-unbiased estimate & mid-p exact CI"
Tỷ lệ giữa những sinh viên nữ có biểu hiện trầm cảm so với không có biểu hiện trầm cảm bằng 78% tỷ lệ giữa những sinh viên nam có biểu hiện trầm cảm so với không có biểu hiện trầm cảm.
Giá trị trên cho biết tỷ lệ có biểu hiện trầm cảm so với không có biểu hiện trầm cảm của những sinh viên nữ ít hơn 22% so với những sinh viên nam.
mean(Data$Age)
## [1] 21.96591
Ta chia độ tuổi của nhóm sinh viên khảo sát thành hai nhóm dưới 22 tuổi và trên 22 tuổi.
age2 <- cut(Data$Age, breaks = c(0,22,28), labels = c('dưới 22 tuổi', 'trên 22 tuổi'))
d <- mutate(Data,age2)
risk2 <- table(d$age2,Data$Depression)
addmargins(risk2)
##
## No Yes Sum
## dưới 22 tuổi 115 87 202
## trên 22 tuổi 67 83 150
## Sum 182 170 352
prop.table(risk2)
##
## No Yes
## dưới 22 tuổi 0.3267045 0.2471591
## trên 22 tuổi 0.1903409 0.2357955
prop.table(risk2, margin=2)
##
## No Yes
## dưới 22 tuổi 0.6318681 0.5117647
## trên 22 tuổi 0.3681319 0.4882353
ggplot(Data, aes(age2, fill = Depression)) + geom_bar(position = 'dodge') + geom_text(aes(label = scales::percent(after_stat(count / sum(count)), accuracy = 0.01)),
stat = "count",
position = position_dodge(width = 0.9),
vjust = -0.5,
color = 'black')
Ta chia độ tuổi của nhóm sinh viên khảo sát thành hai nhóm dưới 22 tuổi và trên 22 tuổi.
Từ bảng tần số và đồ thị về việc sinh viên có biểu hiện trầm cảm và độ tuổi ta thấy:
Trong số 182 sinh viên không có biểu hiện trầm cảm: sinh viên dưới 22 tuổi là 115 người (khoảng 63%), sinh viên trên 22 tuổi là 67 người (khoảng 37%).
Trong số 170 sinh viên có biểu hiện trầm cảm: sinh viên dưới 22 tuổi là 87 người (khoảng 51%), sinh viên trên 22 tuổi là 83 người (khoảng 49%).
Tỷ lệ phần trăm nhóm sinh viên có biểu hiện trầm cảm dưới 22 tuổi nhiều hơn nhóm người trên 22 tuổi. Tỷ lệ phần trăm nhóm sinh viên không có biểu hiện trầm cảm dưới 22 tuổi nhiều hơn nhóm người trên 22 tuổi
Như vậy, giữa hai nhóm người có hay không có biểu hiện trầm cảm đều có số lượng người dưới 22 tuổi nhiều hơn nhóm người trên 22 tuổi.
Risk ratio/ Odd ratio
Risk ratio
riskratio(risk2)
## $data
##
## No Yes Total
## dưới 22 tuổi 115 87 202
## trên 22 tuổi 67 83 150
## Total 182 170 352
##
## $measure
## risk ratio with 95% C.I.
## estimate lower upper
## dưới 22 tuổi 1.000000 NA NA
## trên 22 tuổi 1.284751 1.037207 1.591376
##
## $p.value
## two-sided
## midp.exact fisher.exact chi.square
## dưới 22 tuổi NA NA NA
## trên 22 tuổi 0.02347745 0.02402141 0.02278543
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"
Tỷ lệ sinh viên trên 22 tuổi có biểu hiện trầm cảm so với tỷ lệ sinh viên dưới 22 tuổi có biểu hiện trầm cảm là 1.28, cho thấy tỷ lệ sinh viên trên 22 tuổi có biểu hiện trầm cảm nhiều hơn 28% so với tỷ lệ sinh viên dưới 22 tuổi có biểu hiện trầm cảm.
Odd ratio
oddsratio(risk2, rev = 'c')
## $data
##
## Yes No Total
## dưới 22 tuổi 87 115 202
## trên 22 tuổi 83 67 150
## Total 170 182 352
##
## $measure
## odds ratio with 95% C.I.
## estimate lower upper
## dưới 22 tuổi 1.0000000 NA NA
## trên 22 tuổi 0.6118381 0.3984962 0.9359955
##
## $p.value
## two-sided
## midp.exact fisher.exact chi.square
## dưới 22 tuổi NA NA NA
## trên 22 tuổi 0.02347745 0.02402141 0.02278543
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "median-unbiased estimate & mid-p exact CI"
Tỷ lệ giữa những sinh viên dưới 22 tuổi có biểu hiện trầm cảm so với không có biểu hiện trầm cảm bằng 61.18% tỷ lệ giữa những sinh viên trên 22 tuổi có biểu hiện trầm cảm so với không có biểu hiện trầm cảm.
Giá trị trên cho biết tỷ lệ có biểu hiện trầm cảm so với không có biểu hiện trầm cảm của những sinh viên dưới 22 tuổi ít hơn 38.82% so với những sinh viên trên 22 tuổi.
risk3 <- table(Data$Accommodation, Data$Depression)
addmargins(risk3)
##
## No Yes Sum
## Home (with parents) 106 49 155
## Private rented accommodation 76 121 197
## Sum 182 170 352
prop.table(risk3)
##
## No Yes
## Home (with parents) 0.3011364 0.1392045
## Private rented accommodation 0.2159091 0.3437500
prop.table(risk3, margin=2)
##
## No Yes
## Home (with parents) 0.5824176 0.2882353
## Private rented accommodation 0.4175824 0.7117647
ggplot(Data, aes(Accommodation, fill = Depression)) + geom_bar(position = 'dodge') + geom_text(aes(label = scales::percent(after_stat(count / sum(count)), accuracy = 0.01)),
stat = "count",
position = position_dodge(width = 0.9),
vjust = -0.5,
color = 'black')
Từ bảng tần số và đồ thị về việc sinh viên có biểu hiện trầm cảm và nơi ở hiện tại ta thấy:
Trong số 182 sinh viên không có biểu hiện trầm cảm: sinh viên ở với gia đình là 106 người (khoảng 58.2%), sinh viên ở phòng trọ tư nhân là 76 người (khoảng 41.8%).
Trong số 170 sinh viên có biểu hiện trầm cảm: sinh viên ở với gia đình là 49 người (khoảng 28.8%), sinh viên ở phòng trọ tư nhân là 121 người (khoảng 71.2%).
Tỷ lệ phần trăm nhóm sinh viên ở phòng trọ tư nhân có biểu hiện trầm cảm nhiều hơn nhóm sinh viên ở với gia đình có biểu hiện trầm cảm.
Ris kratio/ Odd ratio
Risk ratio
riskratio(risk3)
## $data
##
## No Yes Total
## Home (with parents) 106 49 155
## Private rented accommodation 76 121 197
## Total 182 170 352
##
## $measure
## risk ratio with 95% C.I.
## estimate lower upper
## Home (with parents) 1.000000 NA NA
## Private rented accommodation 1.942919 1.503141 2.511365
##
## $p.value
## two-sided
## midp.exact fisher.exact chi.square
## Home (with parents) NA NA NA
## Private rented accommodation 2.518255e-08 3.421661e-08 2.762937e-08
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"
Tỷ lệ sinh viên ở phòng trọ tư nhân có biểu hiện trầm cảm so với tỷ lệ sinh viên ở với gia đình có biểu hiện trầm cảm là 1.94, cho thấy tỷ lệ sinh viên ở phòng trọ tư nhân có biểu hiện trầm cảm nhiều hơn 94% so với tỷ lệ sinh viên ở với gia đình có biểu hiện trầm cảm.
Odd ratio
oddsratio(risk3, rev = 'c')
## $data
##
## Yes No Total
## Home (with parents) 49 106 155
## Private rented accommodation 121 76 197
## Total 170 182 352
##
## $measure
## odds ratio with 95% C.I.
## estimate lower upper
## Home (with parents) 1.0000000 NA NA
## Private rented accommodation 0.2918336 0.1859577 0.4530455
##
## $p.value
## two-sided
## midp.exact fisher.exact chi.square
## Home (with parents) NA NA NA
## Private rented accommodation 2.518255e-08 3.421661e-08 2.762937e-08
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "median-unbiased estimate & mid-p exact CI"
Tỷ lệ giữa những sinh viên ở với gia đình có biểu hiện trầm cảm so với không có biểu hiện trầm cảm bằng 29.18% tỷ lệ giữa những sinh viên ở nhà trọ tư nhân có biểu hiện trầm cảm so với không có biểu hiện trầm cảm.
Giá trị trên cho biết tỷ lệ có biểu hiện trầm cảm so với không có biểu hiện trầm cảm của những sinh viên ở với gia đình ít hơn 70.82% so với những sinh viên ở các nhà trọ tư nhân.
risk4 <- table(Data$Job, Data$Depression)
addmargins(risk4)
##
## No Yes Sum
## No 97 22 119
## Yes 85 148 233
## Sum 182 170 352
prop.table(risk4)
##
## No Yes
## No 0.2755682 0.0625000
## Yes 0.2414773 0.4204545
prop.table(risk4, margin=2)
##
## No Yes
## No 0.5329670 0.1294118
## Yes 0.4670330 0.8705882
ggplot(Data, aes(Job, fill = Depression)) + geom_bar(position = 'dodge') + geom_text(aes(label = scales::percent(after_stat(count / sum(count)), accuracy = 0.01)),
stat = "count",
position = position_dodge(width = 0.9),
vjust = -0.5,
color = 'black')
Từ bảng tần số và đồ thị về việc sinh viên có biểu hiện trầm cảm và công việc hiện tại ta thấy:
Trong số 182 sinh viên không có biểu hiện trầm cảm: sinh viên không có công việc hiện tại là 97 người (khoảng 53.3%), sinh viên có công việc hiện tại là 85 người (khoảng 46.7%).
Trong số 170 sinh viên có biểu hiện trầm cảm: sinh viên không có công việc hiện tại là 22 người (khoảng 13%), sinh viên có công việc hiện tại là 148 người (khoảng 87%).
Tỷ lệ phần trăm nhóm sinh viên có công việc hiện tại có biểu hiện trầm cảm nhiều hơn nhóm sinh viên không có công việc hiện tại có biểu hiện trầm cảm.
Risk ratio/ Odd ratio
Risk ratio
riskratio(risk4)
## $data
##
## No Yes Total
## No 97 22 119
## Yes 85 148 233
## Total 182 170 352
##
## $measure
## risk ratio with 95% C.I.
## estimate lower upper
## No 1.000000 NA NA
## Yes 3.435817 2.327141 5.07268
##
## $p.value
## two-sided
## midp.exact fisher.exact chi.square
## No NA NA NA
## Yes 2.220446e-16 3.019072e-16 1.264249e-15
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"
Tỷ lệ sinh viên có công việc hiện tại có biểu hiện trầm cảm so với tỷ lệ sinh viên không có công việc hiện tại có biểu hiện trầm cảm là 3.44
Odd ratio
oddsratio(risk4, rev = 'c')
## $data
##
## Yes No Total
## No 22 97 119
## Yes 148 85 233
## Total 170 182 352
##
## $measure
## odds ratio with 95% C.I.
## estimate lower upper
## No 1.0000000 NA NA
## Yes 0.1316801 0.07552533 0.2213838
##
## $p.value
## two-sided
## midp.exact fisher.exact chi.square
## No NA NA NA
## Yes 2.220446e-16 3.019072e-16 1.264249e-15
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "median-unbiased estimate & mid-p exact CI"
Tỷ lệ giữa những sinh viên không có công việc hiện tại có biểu hiện trầm cảm so với không có biểu hiện trầm cảm bằng 13.17% tỷ lệ giữa những sinh viên có công việc hiện tại có biểu hiện trầm cảm so với không có biểu hiện trầm cảm.
Giá trị trên cho biết tỷ lệ có biểu hiện trầm cảm so với không có biểu hiện trầm cảm của những sinh viên không có công việc hiện tại ít hơn 86.83% so với những sinh viên có công việc hiện tại.
Ta chia điểm số tích lũy GPA của nhóm sinh viên khảo sát thành 2 nhóm dưới 3.2 điểm và trên 3.2 điểm.
GPA2 <- cut(Data$GPA, breaks = c(0,3.2,4), labels = c('dưới 3.2', 'trên 3.2'))
d <- mutate(Data,GPA2)
risk5 <- table(d$GPA2,Data$Depression)
addmargins(risk5)
##
## No Yes Sum
## dưới 3.2 104 45 149
## trên 3.2 78 125 203
## Sum 182 170 352
prop.table(risk5)
##
## No Yes
## dưới 3.2 0.2954545 0.1278409
## trên 3.2 0.2215909 0.3551136
prop.table(risk5, margin=2)
##
## No Yes
## dưới 3.2 0.5714286 0.2647059
## trên 3.2 0.4285714 0.7352941
ggplot(Data, aes(GPA2, fill = Depression)) + geom_bar(position = 'dodge') + geom_text(aes(label = scales::percent(after_stat(count / sum(count)), accuracy = 0.01)),
stat = "count",
position = position_dodge(width = 0.9),
vjust = -0.5,
color = 'black')
Ta chia điểm số tích lũy GPA của nhóm sinh viên khảo sát thành 2 nhóm dưới 3.2 điểm và trên 3.2 điểm.
Từ bảng tần số và đồ thị về việc sinh viên có biểu hiện trầm cảm và điểm số tích lũy GPA ta thấy:
Trong số 182 sinh viên không có biểu hiện trầm cảm: sinh viên dưới 3.2 điểm là 104 người (khoảng 57%), sinh viên trên 3.2 điểm là 78 người (khoảng 43%).
Trong số 170 sinh viên có biểu hiện trầm cảm: sinh viên dưới 3.2 điểm là 45 người (khoảng 26.5%), sinh viên trên 3.2 điểm là 125 người (khoảng 73.5%).
Tỷ lệ phần trăm nhóm sinh viên có biểu hiện trầm cảm trên 3.2 điểm nhiều hơn nhóm người dưới 3.2 điểm.
Risk ratio/ Odd ratio
Risk ratio
riskratio(risk5)
## $data
##
## No Yes Total
## dưới 3.2 104 45 149
## trên 3.2 78 125 203
## Total 182 170 352
##
## $measure
## risk ratio with 95% C.I.
## estimate lower upper
## dưới 3.2 1.000000 NA NA
## trên 3.2 2.038862 1.560799 2.663351
##
## $p.value
## two-sided
## midp.exact fisher.exact chi.square
## dưới 3.2 NA NA NA
## trên 3.2 5.055705e-09 7.920993e-09 5.878513e-09
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"
Tỷ lệ sinh viên trên 3.2 điểm có biểu hiện trầm cảm so với tỷ lệ sinh viên dưới 3.2 điểm có biểu hiện trầm cảm là 2.04.
Odd ratio
oddsratio(risk5, rev = 'c')
## $data
##
## Yes No Total
## dưới 3.2 45 104 149
## trên 3.2 125 78 203
## Total 170 182 352
##
## $measure
## odds ratio with 95% C.I.
## estimate lower upper
## dưới 3.2 1.0000000 NA NA
## trên 3.2 0.2714654 0.1718042 0.42374
##
## $p.value
## two-sided
## midp.exact fisher.exact chi.square
## dưới 3.2 NA NA NA
## trên 3.2 5.055705e-09 7.920993e-09 5.878513e-09
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "median-unbiased estimate & mid-p exact CI"
Tỷ lệ giữa những sinh viên dưới 3.2 điểm có biểu hiện trầm cảm so với không có biểu hiện trầm cảm bằng 27.14% tỷ lệ giữa những sinh viên trên 3.2 điểm có biểu hiện trầm cảm so với không có biểu hiện trầm cảm.
Giá trị trên cho biết tỷ lệ có biểu hiện trầm cảm so với không có biểu hiện trầm cảm của những sinh viên dưới 3.2 điểm ít hơn 72.86% so với những sinh viên trên 3.2 điểm.
risk6 <- table(Data$Education, Data$Depression)
addmargins(risk6)
##
## No Yes Sum
## College - Bachelor's 96 108 204
## High School 78 46 124
## Master 8 16 24
## Sum 182 170 352
prop.table(risk6)
##
## No Yes
## College - Bachelor's 0.27272727 0.30681818
## High School 0.22159091 0.13068182
## Master 0.02272727 0.04545455
prop.table(risk6, margin=2)
##
## No Yes
## College - Bachelor's 0.52747253 0.63529412
## High School 0.42857143 0.27058824
## Master 0.04395604 0.09411765
ggplot(Data, aes(Education, fill = Depression)) + geom_bar(position = 'dodge') + geom_text(aes(label = scales::percent(after_stat(count / sum(count)), accuracy = 0.01)),
stat = "count",
position = position_dodge(width = 0.9),
vjust = -0.5,
color = 'black')
Từ bảng tần số và đồ thị về việc sinh viên có biểu hiện trầm cảm và trình độ học vấn ta thấy:
Trong số 182 sinh viên không có biểu hiện trầm cảm: sinh viên sinh viên đang học đại học là 96 người (khoảng 52.7%), sinh viên đang học cấp 2 là 78 người (khoảng 42.9%), sinh viên đang học thạc sĩ là 8 người (chiếm khoảng 4.4%).
Trong số 170 sinh viên có biểu hiện trầm cảm: sinh viên sinh viên đang học đại học là 108 người (khoảng 63.5%), sinh viên đang học cấp 2 là 46 người (khoảng 27.1%), sinh viên đang học thạc sĩ là 16 người (chiếm khoảng 9.4%).
Tỷ lệ phần trăm nhóm sinh viên đang học đại học có biểu hiện trầm cảm chiếm tỷ lệ cao nhất 30.68% trên tổng số sinh viên tham gia khảo sát.
chisq.test(table(Data$Gender, Data$Depression))
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: table(Data$Gender, Data$Depression)
## X-squared = 0.32004, df = 1, p-value = 0.5716
Giả thuyết:
\(H_0\): biến Depression và biến Gender độc lập
\(H_1\): biến Depression và biến Gender không độc lập
Mức ý nghĩa: \(\alpha\) = 0.05
Ta có p_value > \(\alpha\), vậy chấp nhận giả thuyết \(H_0\).
Với mức ý nghĩa 5%, việc sinh viên có biểu hiện trầm cảm độc lập với giới tính.
chisq.test(risk2)
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: risk2
## X-squared = 4.7053, df = 1, p-value = 0.03007
Giả thuyết:
\(H_0\): biến Depression và biến Age độc lập
\(H_1\): biến Depression và biến Age không độc lập
Mức ý nghĩa: \(\alpha\) = 0.05
Ta có p_value < \(\alpha\), vậy bác bỏ giả thuyết \(H_0\).
Với mức ý nghĩa 5%, việc sinh viên có biểu hiện trầm cảm không độc lập với độ tuổi.
chisq.test(table(Data$Accommodation, Data$Depression))
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: table(Data$Accommodation, Data$Depression)
## X-squared = 29.685, df = 1, p-value = 5.082e-08
Giả thuyết:
\(H_0\): biến Depression và biến Accommodation độc lập
\(H_1\): biến Depression và biến Accommodation không độc lập
Mức ý nghĩa: \(\alpha\) = 0.05
Ta có p_value < \(\alpha\), vậy bác bỏ giả thuyết \(H_0\).
Với mức ý nghĩa 5%, việc sinh viên có biểu hiện trầm cảm không độc lập với biến nơi ở hiện tại.
chisq.test(table(Data$Job, Data$Depression))
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: table(Data$Job, Data$Depression)
## X-squared = 62.178, df = 1, p-value = 3.138e-15
Giả thuyết:
\(H_0\): biến Depression và biến Job độc lập
\(H_1\): biến Depression và biến Job không độc lập
Mức ý nghĩa: \(\alpha\) = 0.05
Ta có p_value < \(\alpha\), vậy bác bỏ giả thuyết \(H_0\).
Với mức ý nghĩa 5%, việc sinh viên có biểu hiện trầm cảm không độc lập với biến công việc hiện tại.
chisq.test(risk5)
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: risk5
## X-squared = 32.63, df = 1, p-value = 1.115e-08
Giả thuyết:
\(H_0\): biến Depression và biến GPA độc lập
\(H_1\): biến Depression và biến GPA không độc lập
Mức ý nghĩa: \(\alpha\) = 0.05
Ta có p_value < \(\alpha\), vậy bác bỏ giả thuyết \(H_0\).
Với mức ý nghĩa 5%, việc sinh viên có biểu hiện trầm cảm không độc lập với điểm số tích luỹ hiện tại tính theo thang điểm 4.
chisq.test(table(Data$Depression, Data$Education ))
##
## Pearson's Chi-squared test
##
## data: table(Data$Depression, Data$Education)
## X-squared = 11.235, df = 2, p-value = 0.003634
Giả thuyết:
\(H_0\): biến Depression và biến Education độc lập
\(H_1\): biến Depression và biến Education không độc lập
Mức ý nghĩa: \(\alpha\) = 0.05
Ta có p_value < \(\alpha\), ậy bác bỏ giả thuyết \(H_0\).
Với mức ý nghĩa 5%, việc sinh viên có biểu hiện trầm cảm không độc lập với trình độ học vấn.
p <- Data[Data$Depression == 'Yes',]
prop.test(length(p$Depression), length(Data$Depression))
##
## 1-sample proportions test with continuity correction
##
## data: length(p$Depression) out of length(Data$Depression), null probability 0.5
## X-squared = 0.34375, df = 1, p-value = 0.5577
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
## 0.4298180 0.5364691
## sample estimates:
## p
## 0.4829545
p <- Data[Data$Depression == 'No',]
prop.test(length(p$Depression), length(Data$Depression))
##
## 1-sample proportions test with continuity correction
##
## data: length(p$Depression) out of length(Data$Depression), null probability 0.5
## X-squared = 0.34375, df = 1, p-value = 0.5577
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
## 0.4635309 0.5701820
## sample estimates:
## p
## 0.5170455
Với độ tin cậy 95%, ta có tỷ lệ người có biểu hiện trầm cảm so với tổng thể nằm trong khoảng từ 43% đến 53.6%. Hay nói cách khác, tỷ lệ người không có biểu hiện trầm cảm sẽ chiếm khoảng từ 46.4% đến 57%.
p <- Data[Data$Job == 'Yes',]
prop.test(length(p$Job), length(Data$Job))
##
## 1-sample proportions test with continuity correction
##
## data: length(p$Job) out of length(Data$Job), null probability 0.5
## X-squared = 36.276, df = 1, p-value = 1.713e-09
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
## 0.6095472 0.7107203
## sample estimates:
## p
## 0.6619318
p <- Data[Data$Job == 'No',]
prop.test(length(p$Job), length(Data$Job))
##
## 1-sample proportions test with continuity correction
##
## data: length(p$Job) out of length(Data$Job), null probability 0.5
## X-squared = 36.276, df = 1, p-value = 1.713e-09
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
## 0.2892797 0.3904528
## sample estimates:
## p
## 0.3380682
Với độ tin cậy 95%, ta có tỷ lệ người có công việc hiện tại so với tổng thể nằm trong khoảng từ 61% đến 71%. Hay nói cách khác, tỷ lệ người không có công việc hiện tại sẽ chiếm khoảng từ 29% đến 39%.
p <- Data[Data$Accommodation == 'Home (with parents)',]
prop.test(length(p$Accommodation), length(Data$Accommodation))
##
## 1-sample proportions test with continuity correction
##
## data: length(p$Accommodation) out of length(Data$Accommodation), null probability 0.5
## X-squared = 4.7756, df = 1, p-value = 0.02887
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
## 0.3880142 0.4939908
## sample estimates:
## p
## 0.4403409
p <- Data[Data$Accommodation == 'Private rented accommodation',]
prop.test(length(p$Accommodation), length(Data$Accommodation))
##
## 1-sample proportions test with continuity correction
##
## data: length(p$Accommodation) out of length(Data$Accommodation), null probability 0.5
## X-squared = 4.7756, df = 1, p-value = 0.02887
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
## 0.5060092 0.6119858
## sample estimates:
## p
## 0.5596591
Với độ tin cậy 95%, ta có tỷ lệ người ở với gia đình so với tổng thể nằm trong khoảng từ 38.8% đến 49%. Hay nói cách khác, tỷ lệ người ở các phòng trọ tư nhân sẽ chiếm khoảng từ 51% đến 61.2%.
Từ kết quả kiểm định chi bình phương về tính độc lập của các cặp biến, ta thấy việc sinh viên có biểu hiện trầm cảm phụ thuộc vào độ tuổi, công việc hiện tại, nơi ở hiện tại, điểm số tích luỹ, trình độ học vấn. Vì vậy tôi sẽ tiến hành hồi quy biến phụ thuộc Depression (việc sinh viên có biểu hiện trầm cảm) với các biến độc lập tương ứng gồm Age, Job, Accommodation, GPA, Education.
mh1 <- glm(factor(Depression, levels = c("No", "Yes")) ~ Age + Job + Accommodation + GPA + Education, family = binomial(link = 'logit'), data = Data)
summary(mh1)
##
## Call:
## glm(formula = factor(Depression, levels = c("No", "Yes")) ~ Age +
## Job + Accommodation + GPA + Education, family = binomial(link = "logit"),
## data = Data)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -6.42320 1.30736 -4.913 8.97e-07
## Age 0.02432 0.04749 0.512 0.6086
## JobYes 2.21464 0.31758 6.974 3.09e-12
## AccommodationPrivate rented accommodation 1.30814 0.28172 4.643 3.43e-06
## GPA 1.25778 0.19949 6.305 2.88e-10
## EducationHigh School -0.73283 0.29870 -2.453 0.0142
## EducationMaster -0.40339 0.54765 -0.737 0.4614
##
## (Intercept) ***
## Age
## JobYes ***
## AccommodationPrivate rented accommodation ***
## GPA ***
## EducationHigh School *
## EducationMaster
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 487.57 on 351 degrees of freedom
## Residual deviance: 345.59 on 345 degrees of freedom
## AIC: 359.59
##
## Number of Fisher Scoring iterations: 5
Các biến Age, EducationHigh School, EducationMaster có giá trị P_value rất lớn, p_value > 0.05 nên không có ý nghĩa thống kê trong mô hình này. Bỏ các biến Age và Education
MHlogit <- glm(factor(Depression, levels = c("No", "Yes")) ~ Job + Accommodation + GPA, family = binomial(link = 'logit'), data = Data)
summary(MHlogit)
##
## Call:
## glm(formula = factor(Depression, levels = c("No", "Yes")) ~ Job +
## Accommodation + GPA, family = binomial(link = "logit"), data = Data)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -5.9804 0.7447 -8.030 9.73e-16
## JobYes 2.2558 0.3103 7.271 3.58e-13
## AccommodationPrivate rented accommodation 1.3203 0.2717 4.859 1.18e-06
## GPA 1.1829 0.1916 6.175 6.62e-10
##
## (Intercept) ***
## JobYes ***
## AccommodationPrivate rented accommodation ***
## GPA ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 487.57 on 351 degrees of freedom
## Residual deviance: 353.12 on 348 degrees of freedom
## AIC: 361.12
##
## Number of Fisher Scoring iterations: 4
lr_test <- anova(MHlogit, test = "Chisq")
p_value <- lr_test$Pr[2]
p_value
## [1] 1.740653e-16
Kiểm định sự phù hơp của mô hình
Với P-value = Prob(LR) < 0 bác bỏ giả thuyết [Math Processing Error] nên mô hình phù hợp với dữ liệu.
Trong mô hình hồi quy logistic cho biến Depression trên, ta nhận thấy trong Age, Job, Accommodation, GPA, Education, chỉ có ba biến có ý nghĩa thống kê là Job, Accommodation, GPA.
Ma trận nhầm lẫn
a <- predict(MHlogit, type = "response")
b <- ifelse(a > 0.5, "1", "0")
c <-factor(b, levels = c("0","1"))
d <- factor(Data$Depression, labels = c("0", "1"))
confusionMatrix(table(c, d))
## Confusion Matrix and Statistics
##
## d
## c 0 1
## 0 124 31
## 1 58 139
##
## Accuracy : 0.7472
## 95% CI : (0.6984, 0.7917)
## No Information Rate : 0.517
## P-Value [Acc > NIR] : < 2.2e-16
##
## Kappa : 0.4964
##
## Mcnemar's Test P-Value : 0.005851
##
## Sensitivity : 0.6813
## Specificity : 0.8176
## Pos Pred Value : 0.8000
## Neg Pred Value : 0.7056
## Prevalence : 0.5170
## Detection Rate : 0.3523
## Detection Prevalence : 0.4403
## Balanced Accuracy : 0.7495
##
## 'Positive' Class : 0
##
mh1 <- glm(factor(Depression, levels = c("No", "Yes")) ~ Age + Job + Accommodation + GPA + Education, family = binomial(link = 'probit'), data = Data)
summary(mh1)
##
## Call:
## glm(formula = factor(Depression, levels = c("No", "Yes")) ~ Age +
## Job + Accommodation + GPA + Education, family = binomial(link = "probit"),
## data = Data)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -3.75293 0.74511 -5.037 4.74e-07
## Age 0.01284 0.02769 0.464 0.6428
## JobYes 1.31014 0.17925 7.309 2.69e-13
## AccommodationPrivate rented accommodation 0.76200 0.16354 4.659 3.17e-06
## GPA 0.74834 0.11305 6.620 3.60e-11
## EducationHigh School -0.43959 0.17444 -2.520 0.0117
## EducationMaster -0.19986 0.32169 -0.621 0.5344
##
## (Intercept) ***
## Age
## JobYes ***
## AccommodationPrivate rented accommodation ***
## GPA ***
## EducationHigh School *
## EducationMaster
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 487.57 on 351 degrees of freedom
## Residual deviance: 345.00 on 345 degrees of freedom
## AIC: 359
##
## Number of Fisher Scoring iterations: 5
Các biến Age, EducationHigh School, EducationMaster có giá trị P_value rất lớn, p_value > 0.05 nên không có ý nghĩa thống kê trong mô hình này. Bỏ các biến Age và Education
MHprobit <- glm(factor(Depression, levels = c("No", "Yes")) ~ Job + Accommodation + GPA, family = binomial(link = 'probit'), data = Data)
summary(MHprobit)
##
## Call:
## glm(formula = factor(Depression, levels = c("No", "Yes")) ~ Job +
## Accommodation + GPA, family = binomial(link = "probit"),
## data = Data)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -3.5348 0.4105 -8.612 < 2e-16
## JobYes 1.3394 0.1754 7.637 2.23e-14
## AccommodationPrivate rented accommodation 0.7674 0.1575 4.872 1.10e-06
## GPA 0.7048 0.1091 6.462 1.03e-10
##
## (Intercept) ***
## JobYes ***
## AccommodationPrivate rented accommodation ***
## GPA ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 487.57 on 351 degrees of freedom
## Residual deviance: 352.89 on 348 degrees of freedom
## AIC: 360.89
##
## Number of Fisher Scoring iterations: 5
lr_test <- anova(MHprobit, test = "Chisq")
p_value <- lr_test$Pr[2]
p_value
## [1] 1.740653e-16
Kiểm định sự phù hơp của mô hình
Với P-value = Prob(LR) < 0 bác bỏ giả thuyết [Math Processing Error] nên mô hình phù hợp với dữ liệu.
Trong mô hình probit cho biến Depression trên, ta nhận thấy trong Age, Job, Accommodation, GPA, Education, chỉ có ba biến có ý nghĩa thống kê là Job, Accommodation, GPA.
Ma trận nhầm lẫn
a <- predict(MHprobit, type = "response")
b <- ifelse(a > 0.5, "1", "0")
c <-factor(b, levels = c("0","1"))
d <- factor(Data$Depression, labels = c("0", "1"))
confusionMatrix(table(c, d))
## Confusion Matrix and Statistics
##
## d
## c 0 1
## 0 124 31
## 1 58 139
##
## Accuracy : 0.7472
## 95% CI : (0.6984, 0.7917)
## No Information Rate : 0.517
## P-Value [Acc > NIR] : < 2.2e-16
##
## Kappa : 0.4964
##
## Mcnemar's Test P-Value : 0.005851
##
## Sensitivity : 0.6813
## Specificity : 0.8176
## Pos Pred Value : 0.8000
## Neg Pred Value : 0.7056
## Prevalence : 0.5170
## Detection Rate : 0.3523
## Detection Prevalence : 0.4403
## Balanced Accuracy : 0.7495
##
## 'Positive' Class : 0
##
mh1 <- glm(factor(Depression, levels = c("No", "Yes")) ~ Age + Job + Accommodation + GPA + Education, family = binomial(link = 'cloglog'), data = Data)
summary(mh1)
##
## Call:
## glm(formula = factor(Depression, levels = c("No", "Yes")) ~ Age +
## Job + Accommodation + GPA + Education, family = binomial(link = "cloglog"),
## data = Data)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -4.915152 0.849829 -5.784 7.31e-09
## Age 0.005947 0.030294 0.196 0.84437
## JobYes 1.666022 0.241272 6.905 5.01e-12
## AccommodationPrivate rented accommodation 1.010254 0.193290 5.227 1.73e-07
## GPA 0.910507 0.137161 6.638 3.17e-11
## EducationHigh School -0.638495 0.201748 -3.165 0.00155
## EducationMaster -0.317781 0.328746 -0.967 0.33372
##
## (Intercept) ***
## Age
## JobYes ***
## AccommodationPrivate rented accommodation ***
## GPA ***
## EducationHigh School **
## EducationMaster
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 487.57 on 351 degrees of freedom
## Residual deviance: 338.96 on 345 degrees of freedom
## AIC: 352.96
##
## Number of Fisher Scoring iterations: 7
Các biến Age, EducationHigh School, EducationMaster có giá trị P_value rất lớn, p_value > 0.05 nên không có ý nghĩa thống kê trong mô hình này. Bỏ các biến Age và Education
MHcloglog <- glm(factor(Depression, levels = c("No", "Yes")) ~ Job + Accommodation + GPA, family = binomial(link = 'cloglog'), data = Data)
summary(MHcloglog)
##
## Call:
## glm(formula = factor(Depression, levels = c("No", "Yes")) ~ Job +
## Accommodation + GPA, family = binomial(link = "cloglog"),
## data = Data)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -4.7273 0.5243 -9.016 < 2e-16
## JobYes 1.6537 0.2356 7.018 2.25e-12
## AccommodationPrivate rented accommodation 0.9197 0.1827 5.035 4.77e-07
## GPA 0.8327 0.1313 6.340 2.29e-10
##
## (Intercept) ***
## JobYes ***
## AccommodationPrivate rented accommodation ***
## GPA ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 487.57 on 351 degrees of freedom
## Residual deviance: 350.61 on 348 degrees of freedom
## AIC: 358.61
##
## Number of Fisher Scoring iterations: 5
lr_test <- anova(MHcloglog, test = "Chisq")
p_value <- lr_test$Pr[2]
p_value
## [1] 1.740653e-16
Kiểm định sự phù hơp của mô hình
Với P-value = Prob(LR) < 0 bác bỏ giả thuyết [Math Processing Error] nên mô hình phù hợp với dữ liệu.
Trong mô hình cloglog cho biến Depression trên, ta nhận thấy trong Age, Job, Accommodation, GPA, Education, chỉ có ba biến có ý nghĩa thống kê là Job, Accommodation, GPA.
Ma trận nhầm lẫn
a <- predict(MHcloglog, type = "response")
b <- ifelse(a > 0.5, "1", "0")
c <-factor(b, levels = c("0","1"))
d <- factor(Data$Depression, labels = c("0", "1"))
confusionMatrix(table(c, d))
## Confusion Matrix and Statistics
##
## d
## c 0 1
## 0 132 36
## 1 50 134
##
## Accuracy : 0.7557
## 95% CI : (0.7073, 0.7997)
## No Information Rate : 0.517
## P-Value [Acc > NIR] : <2e-16
##
## Kappa : 0.5121
##
## Mcnemar's Test P-Value : 0.161
##
## Sensitivity : 0.7253
## Specificity : 0.7882
## Pos Pred Value : 0.7857
## Neg Pred Value : 0.7283
## Prevalence : 0.5170
## Detection Rate : 0.3750
## Detection Prevalence : 0.4773
## Balanced Accuracy : 0.7568
##
## 'Positive' Class : 0
##
Mô hình logit: AIC = 361.12
Mô hình probit: AIC = 360.89
Mô hình cloglog: AIC = 358.61
Mô Hình logit: 353.12
Mô hình probit: 352.89
Mô hình cloglog: 350.61
bs1 <- BrierScore(MHlogit)
bs2 <- BrierScore(MHprobit)
bs3 <- BrierScore(MHcloglog)
BrierScore <- c(bs1,bs2,bs3)
BrierScore
## [1] 0.1664483 0.1664942 0.1650521
Mô Hình logit: 0.1664483
Mô hình probit: 0.1664942
Mô hình cloglog: 0.1650521
Từ kết quả chạy ma trận nhầm lẫn của các mô hồi hồi quy ở trên ta có kết quả như sau:
Độ chính xác của mô hình logit là 0.7472
Độ chính xác của mô hình probit là 0.7472
Độ chính xác của mô hình cloglog là 0.7557
DanhGiaMH
## MoHinh AIC Deviance BrierScore confusionMatrix
## 1 logit 361.12 353.12 0.1664483 0.7472
## 2 probit 360.89 352.89 0.1664942 0.7472
## 3 cloglog 358.61 350.61 0.1650521 0.7557
Từ kết quả các chỉ số đánh giá mô hình ta có kết luận: chỉ số AIC = 358.61, Deviance = 350.61, chỉ số Brier = 0.1650521 của mô hình cloglog là nhỏ nhất trong ba mô hình và confusionMatrix = 0.7557 là lớn nhất trong ba mô hình. Do mô hình cloglog là đạt nhiều tiêu chí nhất nên ta có thể kết luận rằng mô hình cloglog là phù hợp nhất trong 3 mô hình để mô tả sự ảnh hưởng của các yếu tố đến trầm cảm ở sinh viên.
\(cloglog[\pi(x)] = -4.7273 + 1.6537Job_Yes + 0.9197Accommodation_Private + 0.8327GPA\)
Kết quả từ mô hình hồi quy cloglog ta thấy việc sinh viên có biểu hiện trầm cảm có chịu ảnh hưởng bởi công việc hiện tại, nơi ở hiện tại và điểm số tích lũy GPA .
Hệ số \(-4.7273\): Đây là hệ số chặn (intercept), tức là giá trị của \(cloglog[\pi(x)]\) khi tất cả các biến độc lập (Job, Accommodation, GPA) đều bằng 0.
\(Job\) (việc làm): Hệ số 1.6537 cho biến này có nghĩa là nếu một sinh viên có việc làm, xác suất số sinh viên có biểu hiện tầm cảm sẽ tăng lên 1.6537 đơn vị, giả định các yếu tố khác không đổi.
\(Accommodation\) (chỗ ở): Hệ số 0.9197 cho biến này có nghĩa là nếu một sinh viên ở các phòng trọ tư nhân, xác suất số sinh viên có biểu hiện tầm cảm sẽ tăng lên 0.9197 đơn vị, giả định các yếu tố khác không đổi.
\(GPA\) (điểm tích lũy trung bình): Hệ số 0.8327 cho biến này có nghĩa là nếu một sinh viên có điểm trung bình cao, xác suất số sinh viên có biểu hiện tầm cảm sẽ tăng lên 0.8327 đơn vị, giả định các yếu tố khác không đổi.