This is an R Markdown document. Markdown is a simple formatting syntax for authoring HTML, PDF, and MS Word documents. For more details on using R Markdown see http://rmarkdown.rstudio.com.
When you click the Knit button a document will be generated that includes both content as well as the output of any embedded R code chunks within the document. You can embed an R code chunk like this:
MentalHealth <- read.csv("F:/XSTK/BTL/archive/MentalHealth.csv")
View(MentalHealth)
head(MentalHealth)
## age gender daily_social_media_hours platform_usage sleep_hours
## 1 19 male 3.8 Instagram 6.5
## 2 16 male 6.5 Other 5.8
## 3 17 female 2.9 Other 7.0
## 4 19 female 7.9 TikTok 5.0
## 5 15 female 1.2 TikTok 8.8
## 6 17 female 5.2 Instagram 6.0
## screen_time_before_sleep academic_performance physical_activity
## 1 1.7 2.77 1.2
## 2 0.6 2.57 0.2
## 3 1.2 3.04 1.7
## 4 1.6 2.21 1.2
## 5 0.9 3.61 1.9
## 6 2.9 2.87 1.3
## social_interaction_level stress_level anxiety_level depression_risk
## 1 low 6 6 medium
## 2 medium 9 7 high
## 3 high 3 2 low
## 4 medium 10 8 medium
## 5 high 1 2 low
## 6 low 7 7 medium
#Đưa ra tần số và tần suất tích lũy cho cột giới tính
table(MentalHealth$gender)
##
## female male
## 1255 1245
prop.table(table(MentalHealth$gender))
##
## female male
## 0.502 0.498
Nhận xét: Qua bảng tần số về giới tính cho thấy sự phân bố giới tính gần như đồng đều trong mẫu khảo sát. Nữ chiếm 50.2% với 1255 quan sát và nam chiếm 49.8% với 1245 quan sát.
#Lập bảng tần số và sắp xếp theo thứ tự giảm dần của tần số cho cột nguy cơ trầm cảm
depression_sort <- sort(table(MentalHealth$depression_risk), decreasing = T)
#Đưa ra tần số và tần số tích lũy
depression_sort
##
## low medium high
## 1266 650 584
cumsum(depression_sort)
## low medium high
## 1266 1916 2500
#Tính tần suất và tần suất tích lũy
prop.table(depression_sort)
##
## low medium high
## 0.5064 0.2600 0.2336
cumsum(prop.table(depression_sort))
## low medium high
## 0.5064 0.7664 1.0000
Nhận xét: Qua bảng tần số về nguy cơ trầm cảm của thanh thiếu niên trong tổng số 2500 quan sát .Có 1266 thanh thiếu niên có nguy cơ trầm cảm ở mức thấp, chiếm 50.64% ( đây là nhóm chiếm đa số). Có 650 thanh thiếu niên có nguy cơ trầm cảm ở mức trung bình, chiếm 26%. Có 584 thanh thiếu niên có nguy cơ trầm cảm ở mức cao, chiếm 23.36%.
Những con số trên cho thấy mặc dù phần lớn thanh thiếu niên có nguy cơ trầm cảm thấp, tuy nhiên tỷ lệ nhóm có nguy cơ trầm cảm cao vẫn ở mức đáng kể, phản ánh áp lực tâm lý mà thanh thiếu niên đang phải đối mặt.
#Phân tổ dữ liệu cho thời gian sử dụng MXH hàng ngày
#Tìm điểm min, max
min(MentalHealth$daily_social_media_hours)
## [1] 1
max(MentalHealth$daily_social_media_hours)
## [1] 8
#Phân nhóm thời gian sử dụng MXH hàng ngày thành các khoảng
cut_socialmedia <- cut(MentalHealth$daily_social_media_hours, breaks = c(0,2,4,6,8,10), right = F, include.lowest = T)
#Tính tần số và tần số tích lũy các khoảng thời gian sử dụng MXH
table(cut_socialmedia)
## cut_socialmedia
## [0,2) [2,4) [4,6) [6,8) [8,10]
## 350 741 706 690 13
cumsum(table(cut_socialmedia))
## [0,2) [2,4) [4,6) [6,8) [8,10]
## 350 1091 1797 2487 2500
#Tính tần suất và tần suất tích lũy
prop.table(table(cut_socialmedia))
## cut_socialmedia
## [0,2) [2,4) [4,6) [6,8) [8,10]
## 0.1400 0.2964 0.2824 0.2760 0.0052
cumsum(prop.table(table(cut_socialmedia)))
## [0,2) [2,4) [4,6) [6,8) [8,10]
## 0.1400 0.4364 0.7188 0.9948 1.0000
Nhận xét: Bảng tần số về thời gian sử dụng mạng xã hội của thanh thiếu niên cho ta thấy, phần lớn tập trung ở mức trung bình từ 2 đến 8 giờ mỗi ngày. Có 350 thanh thiếu niên dùng MXH dưới 2 giờ/ngày, chiếm 14% — đây là nhóm sử dụng ít nhất. Ba nhóm từ [2,4), [4,6) và [6,8) có tần suất khá đồng đều, lần lượt chiếm 29.64%, 28.24% và 27.60% và có đến 71.88% thanh thiếu niên sử dụng MXH dưới 6 giờ/ngày. Chỉ có 13 thanh thiếu niên (0.52%) sử dụng MXH trên 8 giờ/ngày( đây là nhóm rất nhỏ nhưng đáng lo ngại vì mức độ sử dụng cực cao).
#Phân tổ dữ liệu cho thời gian ngủ
#Tìm điểm min, max
range(MentalHealth$sleep_hours)
## [1] 4 9
#Phân nhóm thời gian ngủ thành các khoảng
cut_sleep <- cut(MentalHealth$sleep_hours, breaks = c(4,5,6,7,8,9), right = F, include.lowest = T)
#Tính tần số và tần số tích lũy các khoảng thời gian ngủ
table(cut_sleep)
## cut_sleep
## [4,5) [5,6) [6,7) [7,8) [8,9]
## 294 738 873 495 100
cumsum(table(cut_sleep))
## [4,5) [5,6) [6,7) [7,8) [8,9]
## 294 1032 1905 2400 2500
#Tính tần suất và tần suất tích lũy
prop.table(table(cut_sleep))
## cut_sleep
## [4,5) [5,6) [6,7) [7,8) [8,9]
## 0.1176 0.2952 0.3492 0.1980 0.0400
cumsum(prop.table(table(cut_sleep)))
## [4,5) [5,6) [6,7) [7,8) [8,9]
## 0.1176 0.4128 0.7620 0.9600 1.0000
Nhận xét: Bảng tần số về giờ ngủ của thanh thiếu niên cho thấy phần lớn tập trung ở mức 6–7 giờ mỗi đêm. Nhóm ngủ 6–7 giờ (bình thường) chiếm tỷ lệ cao nhất với 34.92% — đây là nhóm đông nhất. Có đến 41.28% thanh thiếu niên ngủ dưới 6 giờ/đêm, trong đó 11.76% thuộc nhóm thiếu ngủ nặng (dưới 5 giờ) — đây là con số đáng lo ngại về sức khỏe. Chỉ có 19.80% thanh thiếu niên ngủ đủ giấc từ 7–8 giờ và 4% ngủ trên 8 giờ.
Tổng cộng có đến 76.20% thanh thiếu niên ngủ dưới 7 giờ/đêm — thấp hơn mức khuyến nghị 8–10 giờ dành cho lứa tuổi thanh thiếu niên.
Những con số trên phản ánh thực trạng thiếu ngủ khá phổ biến trong nhóm thanh thiếu niên, điều này có thể ảnh hưởng tiêu cực đến sức khỏe tâm thần, kết quả học tập và chất lượng cuộc sống của thanh thiếu niên.
#Phân tổ dữ liệu cho mức độ căng thẳng
#Tìm điểm min, max
range(MentalHealth$stress_level)
## [1] 1 10
#Phân nhóm mức độ căng thẳng thành các khoảng
cut_stress <- cut(MentalHealth$stress_level, breaks = seq(0,10,2), right = F, include.lowest = T)
#Tính tần số và tần số tích lũy các khoảng mức độ căng thẳng
table(cut_stress)
## cut_stress
## [0,2) [2,4) [4,6) [6,8) [8,10]
## 322 423 496 454 805
cumsum(table(cut_stress))
## [0,2) [2,4) [4,6) [6,8) [8,10]
## 322 745 1241 1695 2500
#Tính tần suất và tần suất tích lũy các khoảng mức độ căng thẳng
prop.table(table(cut_stress))
## cut_stress
## [0,2) [2,4) [4,6) [6,8) [8,10]
## 0.1288 0.1692 0.1984 0.1816 0.3220
cumsum(prop.table(table(cut_stress)))
## [0,2) [2,4) [4,6) [6,8) [8,10]
## 0.1288 0.2980 0.4964 0.6780 1.0000
Nhận xét: Bảng tần số về mức độ căng thẳng của thanh thiếu niên cho thấy một xu hướng đáng lo ngại khi mức độ căng thẳng cao chiếm tỷ lệ lớn nhất. Nhóm căng thẳng rất cao [8–10] chiếm tỷ lệ cao nhất với 32.20%. Bốn nhóm còn lại có tần suất khá đồng đều, dao động từ 12.88% đến 19.84%. Có đến 50.36% thanh thiếu niên có mức độ căng thẳng từ cao đến rất cao (nhóm [6,8) và [8,10]). Chỉ có 29.80% thanh thiếu niên có mức căng thẳng thấp hoặc rất thấp (dưới mức 4).
Những con số trên cho thấy mức độ căng thẳng của thanh thiếu niên đang ở mức báo động, với hơn một nửa đang chịu áp lực tâm lý ở mức cao đến rất cao.
#Tạo bảng tần số chéo giữa giới tính và nguy cơ trầm cảm
cross_table <- table(MentalHealth$gender, MentalHealth$depression_risk)
#Tính tần suất chéo giữa giới tính và nguy cơ trầm cảm
prop.table(cross_table)
##
## high low medium
## female 0.1220 0.2480 0.1320
## male 0.1116 0.2584 0.1280
#Tính tần suất theo cột (nguy cơ trầm cảm)
prop.table(cross_table,margin = 2)
##
## high low medium
## female 0.5222603 0.4897314 0.5076923
## male 0.4777397 0.5102686 0.4923077
Nhận xét: Bảng tần suất theo cột cho thấy tỷ lệ nam/nữ trong từng nhóm nguy cơ trầm cảm khá cân bằng. Trong nhóm nguy cơ cao (high): nữ chiếm 52.23%, nam chiếm 47.77%. Trong nhóm nguy cơ thấp (low): nam chiếm 51.03%, nữ chiếm 48.97%. Trong nhóm nguy cơ trung bình (medium): tỷ lệ khá cân bằng, nữ chiếm 50.77% và nam chiếm 49.23%.
Nhìn chung, sự chênh lệch giữa nam và nữ trong cả 3 nhóm nguy cơ trầm cảm đều không lớn (dưới 5%), cho thấy giới tính không phải yếu tố tạo ra sự khác biệt rõ rệt về nguy cơ trầm cảm trong bộ dữ liệu này. Tuy nhiên, xu hướng nữ giới có tỷ lệ cao hơn ở nhóm nguy cơ cao và thấp hơn ở nhóm nguy cơ thấp phần nào phù hợp với các nghiên cứu thực tế cho rằng nữ giới thường dễ bị tổn thương tâm lý hơn nam giới ở lứa tuổi thanh thiếu niên.
barplot(c(1255,1245), names.arg = c("Nu", "Nam"), col = c("pink", "skyblue"), main = "Bieu do thanh cho gioi tinh", ylab = "Tan so (don vi: nguoi)")
Nhận xét:Biểu đồ thanh về giới tính của thanh thiếu niên cho thấy tần số của nữ và nam gần như bằng nhau, cả hai đều xấp xỉ 1250 người do đó không có sự chênh lệch đáng kể giữa hai giới trong bộ dữ liệu.
gender_fre <- table(MentalHealth$gender)
percent <- prop.table(gender_fre) * 100
pie(table(gender_fre), labels = paste(names(gender_fre), ":", percent, "%"),col = c("pink","skyblue"),main = "Bieu do tron ve gioi tinh")
Nhận xét: Biểu đồ tròn về giới tính của thanh thiếu niên cho thấy Nữ (female) chiếm 50.2% — nhỉnh hơn một chút so với nam. Nam (male) chiếm 49.8% — chênh lệch chỉ 0.4% so với nữ.
Sự chênh lệch giữa hai giới gần như không đáng kể, cho thấy mẫu khảo sát có sự phân bố giới tính rất cân bằng. Đây là điều kiện thuận lợi để đảm bảo tính khách quan và đại diện khi so sánh các chỉ số sức khỏe tâm thần giữa nam và nữ.
barplot(c(1266,650,584), names.arg = c("Thap","Trung binh","Cao"),col = colorRampPalette(c("steelblue","lightblue"))(3),main = "Bieu do thanh cho muc do nguy co tram cam",ylab = "Tan so (don vi: nguoi)")
Nhận xét: Biểu đồ thanh về mức độ nguy cơ trầm cảm của thanh thiếu niên cho thấy sự phân bố không đồng đều rõ rệt giữa 3 nhóm. Nhóm nguy cơ thấp chiếm tần số cao nhất, vượt trội so với 2 nhóm còn lại và gần gấp đôi mỗi nhóm. Nhóm nguy cơ trung bình đứng thứ hai với khoảng 650 người. Nhóm nguy cơ cao (Cao) có tần số thấp nhất với khoảng 584 người,chênh lệch không nhiều so với nhóm trung bình.
depression_fre <- table(MentalHealth$depression_risk)
percent <- prop.table(depression_fre) * 100
pie(table(depression_fre), labels = paste(names(depression_fre), ":", percent, "%"),col = c("lightblue","steelblue","skyblue"),main = "Bieu do tron ve muc do nguy co tram cam")
Nhận xét: Biểu đồ tròn về mức độ nguy cơ trầm cảm của thanh thiếu niên cho thấy nhóm nguy cơ thấp (low) chiếm tỷ lệ lớn nhất với 50.64% — hơn một nửa tổng số thanh thiếu niên trong mẫu. Nhóm nguy cơ trung bình (medium) chiếm 26%. Nhóm nguy cơ cao (high) chiếm 23.36% — chênh lệch không nhiều so với nhóm trung bình.
BD=hist(MentalHealth$daily_social_media_hours,breaks = seq(0,8,2), col = "lavender", main = "Bieu do phan phoi tan so cua thoi gian su dung MXH hang ngay",ylab ="Tan so (don vi: nguoi)",xlab = "So gio su dung MXH hang ngay",col.main= "blue")
Nhận xét:Nhìn chung, biểu đồ có hình dạng lệch trái nhẹ — tần số tăng nhanh từ nhóm [0–2) lên [2–4) rồi giảm dần về phía phải. Ba nhóm từ [2–4), [4–6) và [6–8] có tần số khá đồng đều, phản ánh phân bố tương đối đều của thời gian sử dụng MXH trong khoảng 2–8 giờ/ngày.
Điều này cho thấy phần lớn thanh thiếu niên dành từ 2 đến 8 giờ mỗi ngày cho mạng xã hội.
BD$mids
## [1] 1 3 5 7
BD$counts
## [1] 385 738 710 667
HD=c(0,BD$mids,10)
TD=c(0,BD$counts,0)
plot(HD,TD,type="b",col="red",lwd=2,xlab = "Thoi gian dung MXH hang ngay", ylab = "Tan so (don vi: nguoi)",main = "Da giac tan so cho thoi gian su dung MXH hang ngay",col.main= "blue")
Nhận xét: Nhìn chung, đa giác tần số có hình dạng lệch trái — tăng nhanh ở đầu, duy trì ở mức cao trong khoảng [2–8) giờ . Điều này một lần nữa cho thấy phần lớn thanh thiếu niên sử dụng MXH trong khoảng 2–8 giờ/ngày, với nhóm [2–4) chiếm ưu thế nhất.
boxplot(MentalHealth$daily_social_media_hours,horizontal = T,col = "lavender",main="Bieu do hop va rau cua thoi gian su dung MXH hang ngay",xlab="So gio su dung MXH hang ngay",col.main= "blue")
Nhận xét: Biểu đồ hộp và râu về thời gian sử dụng mạng xã hội hàng ngày của thanh thiếu niên cho thấy: Giá trị nhỏ nhất (Min): khoảng 1 giờ/ngày; Tứ phân vị thứ nhất (Q1): khoảng 3 giờ/ngày; Trung vị (Median): khoảng 4.5 giờ/ngày; Tứ phân vị thứ ba (Q3): khoảng 6 giờ/ngày; Giá trị lớn nhất (Max): khoảng 8 giờ/ngày
Hộp khá rộng với IQR = Q3 − Q1 = 6 − 3 = 3 giờ — cho thấy dữ liệu có độ phân tán khá lớn.
Nhìn chung, biểu đồ xác nhận rằng 50% thanh thiếu niên sử dụng MXH từ 3 đến 6 giờ/ngày, và mức trung bình xấp xỉ 4.5 giờ/ngày — một con số khá cao so với khuyến nghị về thời gian sử dụng màn hình lành mạnh.
hist(MentalHealth$sleep_hours,breaks = c(4,5,6,7,8,9), col ="cornsilk", main = "Bieu do phan phoi tan so cua thoi gian ngu hang ngay",ylab ="Tan so (don vi: nguoi)",xlab = "So gio ngu hang ngay",col.main= "blue")
Nhận xét: Biểu đồ có hình dạng lệch phải — tăng nhanh từ [4–5) đến đỉnh tại [6–7) rồi giảm dần về phía phải. Điều này cho thấy phần lớn thanh thiếu niên ngủ từ 5–7 giờ/đêm, tập trung tại mức 6–7 giờ. Có đến 41.28% thanh thiếu niên ngủ dưới 6 giờ — thấp hơn mức khuyến nghị 8–10 giờ dành cho lứa tuổi này. Chỉ có 23.80% ngủ đủ giấc từ 7 giờ trở lên.
Thực trạng thiếu ngủ khá phổ biến này có thể là một trong những yếu tố góp phần làm gia tăng mức độ căng thẳng và nguy cơ trầm cảm trong nhóm thanh thiếu niên được khảo sát.
boxplot(MentalHealth$sleep_hours,horizontal = T,col = "cornsilk",main="Bieu do hop va rau cua thoi gian ngu hang ngay",xlab="So gio ngu hang ngay",col.main= "blue")
Nhận xét: Biểu đồ hộp và râu về thời gian ngủ hàng ngày của thanh thiếu niên cho thấy: Giá trị nhỏ nhất (Min): khoảng 4 giờ/đêm; Tứ phân vị thứ nhất (Q1): khoảng 5.5 giờ/đêm; Trung vị (Median): khoảng 6.2 giờ/đêm; Tứ phân vị thứ ba (Q3): khoảng 7 giờ/đêm; Giá trị lớn nhất (Max): khoảng 9 giờ/đêm
Bên cạnh đó, hộp khá hẹp với IQR = Q3 − Q1 = 7 − 5.5 = 1.5 giờ cho thấy 50% thanh thiếu niên tập trung ngủ trong khoảng 5.5 đến 7 giờ/đêm, độ phân tán thấp.
Nhìn chung, biểu đồ cho thấy đa số thanh thiếu niên ngủ quanh mức 5.5–7 giờ/đêm — thấp hơn so với mức khuyến nghị 8–10 giờ dành cho lứa tuổi này, phản ánh thực trạng thiếu ngủ đáng lo ngại trong nhóm được khảo sát.
hist(MentalHealth$stress_level, seq(0,10,2), col = "deepskyblue4", main = "Bieu do phan phoi tan so cua muc do cang thang",ylab ="Tan so (don vi: nguoi)",xlab = "Muc do cang thang",col.main= "blue" )
Nhận xét: Biểu đồ có hình dạng đặc biệt hình chữ U — giảm dần từ nhóm [0–2) đến [6–8) rồi tăng mạnh ở nhóm [8–10]. Điều này phản ánh hai xu hướng đáng chú ý: 4 nhóm đầu có tần số khá đồng đều và không có sự chênh lệch lớn. Nhóm căng thẳng rất cao [8–10] nổi bật hẳn so với các nhóm còn lại, chiếm tỷ lệ lớn nhất.
Nhìn chung, mức độ căng thẳng của thanh thiếu niên phân bố tương đối đều ở các mức thấp đến trung bình, nhưng đặc biệt có sự tập trung cao ở mức rất cao [8–10] — đây là tín hiệu đáng lo ngại về áp lực tâm lý mà thanh thiếu niên đang phải đối mặt.
boxplot(MentalHealth$stress_level,horizontal = T,col = "deepskyblue4",main="Bieu do hop va rau cua muc do cang thang",xlab="Muc do cang thang",col.main= "blue")
Nhận xét: Biểu đồ hộp và râu về mức độ căng thẳng của thanh thiếu niên cho thấy:Giá trị nhỏ nhất (Min): khoảng 1 điểm; Tứ phân vị thứ nhất (Q1): khoảng 3 điểm; Trung vị (Median): khoảng 6 điểm; Tứ phân vị thứ ba (Q3): khoảng 8 điểm; Giá trị lớn nhất (Max): khoảng 10 điểm.Bên cạnh đó, trung vị nằm lệch về phía phải trong hộp (gần Q3 hơn Q1) — cho thấy phân bố có xu hướng lệch trái nhẹ, tức là có nhiều thanh thiếu niên hơn ở mức căng thẳng cao. Hộp khá rộng với IQR = Q3 − Q1 = 8 − 3 = 5 cho thấy mức độ căng thẳng có độ phân tán rất lớn, thanh thiếu niên có sự khác biệt đáng kể về mức độ căng thẳng.
Nhìn chung, với trung vị ở mức 6/10, hơn một nửa thanh thiếu niên có mức độ căng thẳng từ 6 điểm trở lên — phản ánh áp lực tâm lý ở mức trung bình đến cao đang là thực trạng phổ biến trong nhóm được khảo sát.
barplot(table(MentalHealth$depression_risk,MentalHealth$gender),beside = F ,col=c("pink","lightblue","cornsilk"),legend.text = T, main = "Bieu do thanh cho gioi tinh theo muc do tram cam", col.main= "blue", cex.main=1)
Nhận xét: Biểu đồ thanh chồng về giới tính theo mức độ trầm cảm cho thấy cả 2 giới đều có cấu trúc phân bố tương tự nhau — nhóm low chiếm phần lớn nhất, tiếp theo là medium và high.
Nhìn chung, không có sự khác biệt đáng kể về mức độ trầm cảm giữa nam và nữ, cho thấy giới tính không phải yếu tố quyết định chính đến nguy cơ trầm cảm trong nhóm thanh thiếu niên được khảo sát.
#Tính thời gian sử dụng MXH hàng ngày
summary(MentalHealth$daily_social_media_hours)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1.000 2.700 4.400 4.458 6.200 8.000
Nhận xét: - Số giờ dùng MXH ít nhất là 1 giờ, cao nhất là 8 giờ;
Trung bình thanh thiếu niên có số giờ sử dụng MXH hàng ngày là 4.46 giờ;
Tứ phân vị thứ 1: Có khoảng 25% số thanh thiếu niên có thời gian sử dụng mạng xã hội hàng ngày không quá 2.7 giờ;
Tứ phân vị thứ 2(trung vị):Có khoảng 50% số thanh thiếu niên có thời gian sử dụng mạng xã hội hàng ngày không quá 4.4 giờ và có khoảng 50% số thanh thiếu niên có thời gian sử dụng mạng xã hội hàng ngày từ 4.4 giờ trở lên.
Tứ phân vị thứ 3:Có khoảng 75% số thanh thiếu niên có thời gian sử dụng mạng xã hội hàng ngày không quá 6.2 giờ và có khoảng 25% số thanh thiếu niên có thời gian sử dụng mạng xã hội hàng ngày từ 6.2 giờ trở lên.
IQR=6.2-2.7
IQR
## [1] 3.5
Nhận xét: Độ trải giữa của thời gian ngủ là 3.5 giờ
min(MentalHealth$daily_social_media_hours)
## [1] 1
max(MentalHealth$daily_social_media_hours)
## [1] 8
mean(MentalHealth$daily_social_media_hours)
## [1] 4.45804
median(MentalHealth$daily_social_media_hours)
## [1] 4.4
range(MentalHealth$daily_social_media_hours)
## [1] 1 8
Nhận xét: Số giờ sử dụng MXH hàng ngày thấp nhất là 1 giờ/ngày và cao nhất là 8 giờ/ngày.
names(which.max(table(MentalHealth$daily_social_media_hours)))
## [1] "1.4"
Nhận xét: Thời gian sử dụng MXH hàng ngày xuất hiện nhiều nhất là 1.4 giờ.
range(MentalHealth$daily_social_media_hours)
## [1] 1 8
8-1
## [1] 7
Nhận xét: Khoảng biến thiên 7 giờ cho thấy thời gian sử dụng MXH của thanh thiếu niên có sự chênh lệch rất lớn giữa người dùng ít nhất và nhiều nhất.
sd(MentalHealth$daily_social_media_hours)
## [1] 2.01693
Nhận xét: Độ lệch chuẩn về số giờ sử dụng MXH so với giá trị trung bình là 2.02 giờ.
var(MentalHealth$daily_social_media_hours)
## [1] 4.068007
Nhận xét: Độ phân tán số giờ sử dụng MXH hàng ngày so với số giờ sử dụng MXH trung bình của thanh thiếu niên là 4.07.
#Phân vị thứ 80 cho thời gian sử dụng MXH hàng ngày
quantile(MentalHealth$daily_social_media_hours, 0.8)
## 80%
## 6.6
Nhận xét:Có khoảng 80% số thanh thiếu niên có số giờ sử dụng MXH hàng ngày không quá 6.6 giờ và có khoảng 20% số thanh thiếu niên có số giờ sử dụng MXH hàng ngày từ 6.6 giờ trở lên.
#VD1: Tính số giờ ngủ (sleep_hours) trung bình của các bạn thanh thiếu niên.
mean(MentalHealth$sleep_hours)
## [1] 6.19244
Kết luận: Kết luận: số giờ ngủ (sleep_hours) trung bình của các bạn thanh thiếu niên là 6.2 giờ.
#VD2: Tính tỷ lệ số thanh thiếu niên có thời gian sử dụng trên màn hình trước khi ngủ (screen_time_before_sleep) bằng 1 và độ tuổi không vượt quá 18.
sum(MentalHealth$screen_time_before_sleep == 1 & MentalHealth$age <= 18)
## [1] 94
length(MentalHealth$age)
## [1] 2500
94/2500
## [1] 0.0376
Kết luận: Vậy tỷ lệ số thanh thiếu niên có thời gian trên màn hình trước khi ngủ bằng 1 và độ tuổi không vượt quá 18 là 3,76%.
#VD3: Tìm phương sai cho biến mức độ lo lắng (anxiety_level) của các thanh thiếu niên.
var(MentalHealth$anxiety_level)
## [1] 9.014847
Kết luận: Độ biến động mức độ lo lắng so với mức độ lo lắng trung bình của thanh thiếu niên là 9.01.
#VD1: Thực hiện ước lượng khoảng 95% cho Số giờ ngủ (sleep_hours) trung bình của các bạn thanh thiếu niên Nam
sleephours_Nam=subset(MentalHealth$sleep_hours,MentalHealth$gender=="male")
t.test(sleephours_Nam,conf.level = 0.95)
##
## One Sample t-test
##
## data: sleephours_Nam
## t = 221.02, df = 1244, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
## 6.154281 6.264515
## sample estimates:
## mean of x
## 6.209398
Kết luận: Với mức tin cậy 95%, ước lượng khoảng cho số giờ ngủ trung bình của thanh thiếu niên Nam là [6.15; 6.26].
#VD2: Thực hiện ước lượng khoảng 95% cho tỷ lệ mức độ stress (stress_level) của thanh thiếu niên không vượt quá 8.
sum(MentalHealth$stress_level<=8)
## [1] 1907
length(MentalHealth$stress_level)
## [1] 2500
prop.test(1907,2500,conf.level=0.95,correct = F)
##
## 1-sample proportions test without continuity correction
##
## data: 1907 out of 2500, null probability 0.5
## X-squared = 690.64, df = 1, p-value < 2.2e-16
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
## 0.7457307 0.7790629
## sample estimates:
## p
## 0.7628
Kết luận: Vậy độ tin cậy 95%, khoảng tỷ lệ mức độ stress của thanh thiếu niên không vượt quá 8 là [74.5;77.9].
#VD1: Cần kiểm tra xem thời gian ngủ trung bình của các thanh thiếu niên tham gia khảo sát có bằng 5 tiếng mỗi ngày hay không.
Bài giải:
Gọi mu là thời gian ngủ trung bình của các thanh thiếu niên tham gia khảo sát.
H0: mu=5 , H1: mu#5
t.test(MentalHealth$sleep_hours, mu = 5, alternative = "two.sided")
##
## One Sample t-test
##
## data: MentalHealth$sleep_hours
## t = 58.526, df = 2499, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 5
## 95 percent confidence interval:
## 6.152487 6.232393
## sample estimates:
## mean of x
## 6.19244
p-giá trị=2.2e-16<0.05 => Bác bỏ H0
Kết luận: Tại mức ý nghĩa 5%, có thể cho rằng thời gian ngủ trung bình của các thanh thiếu niên trong khảo sát là khác 5 tiếng/ngày.
#VD2: Các chuyên gia sức khoẻ nhận định rằng mức độ căng thẳng của các thanh thiếu niên trong khảo sát lớn hơn mức trung bình là 5 sẽ có thể gặp các vấn đề về sức khoẻ tâm lý. Hãy kiểm định với mức ý nghĩa 5%.
Bài giải:
Gọi mu là mức độ căng thẳng trung bình của các thanh thiếu niên trong khảo sát
H0: mu<=5, H1: mu>5
t.test(MentalHealth$stress_level, mu = 5, alternative = "greater")
##
## One Sample t-test
##
## data: MentalHealth$stress_level
## t = 9.8124, df = 2499, p-value < 2.2e-16
## alternative hypothesis: true mean is greater than 5
## 95 percent confidence interval:
## 5.496388 Inf
## sample estimates:
## mean of x
## 5.5964
p-giá trị=2.2e-16<0.05 => Bác bỏ H0
Kết luận: Với mức ý nghĩa 5%, có thể cho rằn gmức độ căng thẳng trung bình của các thanh thiếu niên cao hơn mức trung bình là 5, do đó cần kiểm tra sâu về sức khoẻ tâm lý.
#VD3: Kiểm tra xem tỉ lệ người thanh thiếu niên phải đối mặt với mức độ rủi ro mắc trầm cảm cao (High) có đang ở mức cảnh báo (vượt quá 20%) hay không với mức ý nghĩa 10%.
Bài giải:
Gọi p là tỉ lệ thanh thiếu niên phải đối mặt với mức độ rủi ro mắc trầm cảm cao
H0: mu<=0.2, H1: mu>0.2
depression_high <- sum(MentalHealth$depression_risk == "high")
prop.test(x = depression_high, n = 2500, p = 0.2, alternative = "greater", correct = F)
##
## 1-sample proportions test without continuity correction
##
## data: depression_high out of 2500, null probability 0.2
## X-squared = 17.64, df = 1, p-value = 1.335e-05
## alternative hypothesis: true p is greater than 0.2
## 95 percent confidence interval:
## 0.2199731 1.0000000
## sample estimates:
## p
## 0.2336
p-giá trị= 1.335e-05<0.1 => Bác bỏ H0
Kết luận: Với mức ý nghĩa 10%, có thể cho rằng tỉ lệ thanh thiếu niên gặp rủi ro mắc trầm cảm đã vượt qua mốc 20%.
#VD1: Kiểm định số thời gian trung bình của thời gian sử dụng mạng xã hội hàng ngày có thấp hơn thời gian ngủ hay không ? Mức ý nghĩa 5%.
Bài giải:
Gọi m1,m2 là lần lượt là số thời gian trung bình sử dụng mạng xã hội hàng ngày và ngủ
H0: m1-m2>=0
H1: m1-m2<0
t.test(MentalHealth$daily_social_media_hours,MentalHealth$sleep_hours,mu=0,alternative = 'l',paired = F,var.equal = F)
##
## Welch Two Sample t-test
##
## data: MentalHealth$daily_social_media_hours and MentalHealth$sleep_hours
## t = -38.378, df = 3696.2, p-value < 2.2e-16
## alternative hypothesis: true difference in means is less than 0
## 95 percent confidence interval:
## -Inf -1.660047
## sample estimates:
## mean of x mean of y
## 4.45804 6.19244
p giá trị = 2.2e-16 < 0.05 => Bác bỏ H0
Kết luận: Với mức ý nghĩa 5%, có thể cho rằng thời gian trung bình sử dụng MXH hàng ngày thấp hơn số thời gian trung bình ngủ.
#VD2: Tỷ lệ học sinh có nguy cơ trầm cảm cao (depression_risk = “high”) có khác nhau giữa nam và nữ không? Mức ý nghĩa 5%
Bài giải:
Gọi p1, p2 lần lượt là tỉ lệ học sinh có nguy cơ trầm cảm cao là nam và nữ
H0: p1-p2=0
H1: p1-p2#0
x= c(sum(MentalHealth$gender == "male" & MentalHealth$depression_risk == "high"),sum(MentalHealth$gender == "female" & MentalHealth$depression_risk == "high"))
y= c(sum(MentalHealth$gender == "male"), sum(MentalHealth$gender == "female"))
prop.test(x,y,alt = "t",correct = F)
##
## 2-sample test for equality of proportions without continuity correction
##
## data: x out of y
## X-squared = 1.2512, df = 1, p-value = 0.2633
## alternative hypothesis: two.sided
## 95 percent confidence interval:
## -0.05209177 0.01422877
## sample estimates:
## prop 1 prop 2
## 0.2240964 0.2430279
p-giá trị= 0.2633>0.05 => Chấp nhận H0
Kết luận: Với mức ý nghĩa 5%, có thể cho rằng tỉ lệ nguy cơ trầm cảm cao của nam và nữ là bằng nhau.
#VD3: Mức độ biến động của thời gian ngủ (sleep_hours) giữa nam và nữ có khác nhau không? Hãy kiểm định với mức ý nghĩa 5%.
Bài giải
Gọi m1^2, m2^2 lần lượt là phương sai của thời gian ngủ của nam và nữ
H0: m12=m22
H1: m12#m22
male_sleep <- MentalHealth$sleep_hours[MentalHealth$gender == "male"]
female_sleep <- MentalHealth$sleep_hours[MentalHealth$gender == "female"]
var.test(male_sleep, female_sleep,alt="t")
##
## F test to compare two variances
##
## data: male_sleep and female_sleep
## F = 0.8992, num df = 1244, denom df = 1254, p-value = 0.06061
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
## 0.8047687 1.0047473
## sample estimates:
## ratio of variances
## 0.8992046
p-giá trị= 0.06061 > 0.05 => Chấp nhận H0
Kết luận: Với mức ý nghĩa 5%, có thể cho rằngmức độ biến động của thời gian ngủ giữa nam và nữ là giống nha.
#Bài toán: Tại mức ý nghĩa 5%, hãy kiểm tra xem thời gian sử dụng mạng xã hội hàng ngày (daily_social_media_hours) có khác nhau giữa các mức độ trầm cảm (depression_risk) hay không? Nếu có thìthời gian sử dụng MXH hàng ngày ở mức độ trầm cảm nào cao nhất? mức độ trầm cảm nào thấp nhất?
Bài giải:
Gọi m1,m2,m3 là số thời gian trung bình sử dụng MXH hàng ngày của nhóm có nguy cơ trầm cảm thấp, trung bình, cao
H0: m1=m2=m3
H1: tồn tại i,j để mi#mj
anova(lm(MentalHealth$daily_social_media_hours~MentalHealth$depression_risk))
## Analysis of Variance Table
##
## Response: MentalHealth$daily_social_media_hours
## Df Sum Sq Mean Sq F value Pr(>F)
## MentalHealth$depression_risk 2 6074.3 3037.16 1853.5 < 2.2e-16 ***
## Residuals 2497 4091.6 1.64
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
p-giá trị= 2.2e-16 < 0.05 => Bác bỏ H0
Kết luận: Với mức ý nghĩa 5%, có thể cho rằng có sự khác biệt giữa thời gian sử dụng mạng xã hội hằng ngày và các mức độ nguy cơ trầm cảm.
#Phân tích sâu Turkey HSD
H0: mi=mj
H1: mi#mj
TukeyHSD(aov(MentalHealth$daily_social_media_hours~MentalHealth$depression_risk))
## Tukey multiple comparisons of means
## 95% family-wise confidence level
##
## Fit: aov(formula = MentalHealth$daily_social_media_hours ~ MentalHealth$depression_risk)
##
## $`MentalHealth$depression_risk`
## diff lwr upr p adj
## low-high -3.625632 -3.775795 -3.475469 0
## medium-high -1.174717 -1.345874 -1.003560 0
## medium-low 2.450915 2.306063 2.595767 0
Kết luận: Dựa trên phân tích sâu, thời gian trung bình dùng MXH hàng ngày của nhóm có nguy cơ trầm cảm cao sử dụng mạng xã hội nhiều nhất, tiếp theo là nhóm trung bình và nhóm thấp (high>medium>low). Điều này cho thấy thời gian sử dụng mạng xã hội có xu hướng tăng theo mức độ nguy cơ trầm cảm.
#Kiểm định mức phù hợp
Bài toán: Kiểm tra xem tỉ lệ giới tính (gender) có phải là nam chiếm 50% nữ chiếm 50% hay không? Ở mức ý nghĩa 5%
Bài giải:
H0: Là tỉ lệ giới tính nam nữ là 50-50
H1 :Là tỉ lệ giới tính nam nữ không phải là 50-50
table_gender <- table(MentalHealth$gender)
chisq.test(table_gender,p=c(0.5,0.5))
##
## Chi-squared test for given probabilities
##
## data: table_gender
## X-squared = 0.04, df = 1, p-value = 0.8415
p-giá trị = 0.8415 > 0.05 => Chấp nhận H0
Kết luận: Với mức ý nghĩa 5%, có thể cho rằng tỉ lệ giới tính nam nữ phù hợp là 50-5 0
#Kiểm định về tính độc lập
Bài toán: Kiểm định giả thuyết giới tính (gender) và mức độ trầm cảm (depression_rick) có mối liên hệ hay không? Ở mức ý nghĩa là 5%
Bài giải:
H0: Giới tính và mức độ trầm cảm có không mối liên hề (độc lập)
H1: Giới tính và mức độ trầm cảm có mối liên hệ (không độc lập)
chisq.test(table(MentalHealth$gender,MentalHealth$depression_risk))
##
## Pearson's Chi-squared test
##
## data: table(MentalHealth$gender, MentalHealth$depression_risk)
## X-squared = 1.8054, df = 2, p-value = 0.4055
p-giá trị = 0.4055 > 0.05 => Chấp nhận H0
Kết luận :Với mức ý nghĩa 5%, có thể cho rằng giới tính và mức độ trầm cảm là không có mối liên hệ với nhau.