R Markdown

This is an R Markdown document. Markdown is a simple formatting syntax for authoring HTML, PDF, and MS Word documents. For more details on using R Markdown see http://rmarkdown.rstudio.com.

When you click the Knit button a document will be generated that includes both content as well as the output of any embedded R code chunks within the document. You can embed an R code chunk like this:

1. Thực hiện thống kê mô tả,vẽ các biểu đồ và đưa ra nhận xét

Đọc dữ liệu từ tệp .csv

MentalHealth <- read.csv("F:/XSTK/BTL/archive/MentalHealth.csv")
View(MentalHealth)
head(MentalHealth)
##   age gender daily_social_media_hours platform_usage sleep_hours
## 1  19   male                      3.8      Instagram         6.5
## 2  16   male                      6.5          Other         5.8
## 3  17 female                      2.9          Other         7.0
## 4  19 female                      7.9         TikTok         5.0
## 5  15 female                      1.2         TikTok         8.8
## 6  17 female                      5.2      Instagram         6.0
##   screen_time_before_sleep academic_performance physical_activity
## 1                      1.7                 2.77               1.2
## 2                      0.6                 2.57               0.2
## 3                      1.2                 3.04               1.7
## 4                      1.6                 2.21               1.2
## 5                      0.9                 3.61               1.9
## 6                      2.9                 2.87               1.3
##   social_interaction_level stress_level anxiety_level depression_risk
## 1                      low            6             6          medium
## 2                   medium            9             7            high
## 3                     high            3             2             low
## 4                   medium           10             8          medium
## 5                     high            1             2             low
## 6                      low            7             7          medium

Lập bảng tần số cho biến định tính

#Đưa ra tần số và tần suất tích lũy cho cột giới tính

table(MentalHealth$gender)
## 
## female   male 
##   1255   1245
prop.table(table(MentalHealth$gender))
## 
## female   male 
##  0.502  0.498

Nhận xét: Qua bảng tần số về giới tính cho thấy sự phân bố giới tính gần như đồng đều trong mẫu khảo sát. Nữ chiếm 50.2% với 1255 quan sát và nam chiếm 49.8% với 1245 quan sát.

#Lập bảng tần số và sắp xếp theo thứ tự giảm dần của tần số cho cột nguy cơ trầm cảm

depression_sort <- sort(table(MentalHealth$depression_risk), decreasing = T)

#Đưa ra tần số và tần số tích lũy

depression_sort
## 
##    low medium   high 
##   1266    650    584
cumsum(depression_sort)
##    low medium   high 
##   1266   1916   2500

#Tính tần suất và tần suất tích lũy

prop.table(depression_sort)
## 
##    low medium   high 
## 0.5064 0.2600 0.2336
cumsum(prop.table(depression_sort))
##    low medium   high 
## 0.5064 0.7664 1.0000

Nhận xét: Qua bảng tần số về nguy cơ trầm cảm của thanh thiếu niên trong tổng số 2500 quan sát .Có 1266 thanh thiếu niên có nguy cơ trầm cảm ở mức thấp, chiếm 50.64% ( đây là nhóm chiếm đa số). Có 650 thanh thiếu niên có nguy cơ trầm cảm ở mức trung bình, chiếm 26%. Có 584 thanh thiếu niên có nguy cơ trầm cảm ở mức cao, chiếm 23.36%.

Những con số trên cho thấy mặc dù phần lớn thanh thiếu niên có nguy cơ trầm cảm thấp, tuy nhiên tỷ lệ nhóm có nguy cơ trầm cảm cao vẫn ở mức đáng kể, phản ánh áp lực tâm lý mà thanh thiếu niên đang phải đối mặt.

Lập bảng tần số cho dữ liệu định lượng

#Phân tổ dữ liệu cho thời gian sử dụng MXH hàng ngày

#Tìm điểm min, max

min(MentalHealth$daily_social_media_hours)
## [1] 1
max(MentalHealth$daily_social_media_hours)
## [1] 8

#Phân nhóm thời gian sử dụng MXH hàng ngày thành các khoảng

cut_socialmedia <- cut(MentalHealth$daily_social_media_hours, breaks = c(0,2,4,6,8,10), right = F, include.lowest = T)

#Tính tần số và tần số tích lũy các khoảng thời gian sử dụng MXH

table(cut_socialmedia)
## cut_socialmedia
##  [0,2)  [2,4)  [4,6)  [6,8) [8,10] 
##    350    741    706    690     13
cumsum(table(cut_socialmedia))
##  [0,2)  [2,4)  [4,6)  [6,8) [8,10] 
##    350   1091   1797   2487   2500

#Tính tần suất và tần suất tích lũy

prop.table(table(cut_socialmedia))
## cut_socialmedia
##  [0,2)  [2,4)  [4,6)  [6,8) [8,10] 
## 0.1400 0.2964 0.2824 0.2760 0.0052
cumsum(prop.table(table(cut_socialmedia)))
##  [0,2)  [2,4)  [4,6)  [6,8) [8,10] 
## 0.1400 0.4364 0.7188 0.9948 1.0000

Nhận xét: Bảng tần số về thời gian sử dụng mạng xã hội của thanh thiếu niên cho ta thấy, phần lớn tập trung ở mức trung bình từ 2 đến 8 giờ mỗi ngày. Có 350 thanh thiếu niên dùng MXH dưới 2 giờ/ngày, chiếm 14% — đây là nhóm sử dụng ít nhất. Ba nhóm từ [2,4), [4,6) và [6,8) có tần suất khá đồng đều, lần lượt chiếm 29.64%, 28.24% và 27.60% và có đến 71.88% thanh thiếu niên sử dụng MXH dưới 6 giờ/ngày. Chỉ có 13 thanh thiếu niên (0.52%) sử dụng MXH trên 8 giờ/ngày( đây là nhóm rất nhỏ nhưng đáng lo ngại vì mức độ sử dụng cực cao).

#Phân tổ dữ liệu cho thời gian ngủ

#Tìm điểm min, max

range(MentalHealth$sleep_hours)
## [1] 4 9

#Phân nhóm thời gian ngủ thành các khoảng

cut_sleep <- cut(MentalHealth$sleep_hours, breaks = c(4,5,6,7,8,9), right = F, include.lowest = T)

#Tính tần số và tần số tích lũy các khoảng thời gian ngủ

table(cut_sleep)
## cut_sleep
## [4,5) [5,6) [6,7) [7,8) [8,9] 
##   294   738   873   495   100
cumsum(table(cut_sleep))
## [4,5) [5,6) [6,7) [7,8) [8,9] 
##   294  1032  1905  2400  2500

#Tính tần suất và tần suất tích lũy

prop.table(table(cut_sleep))
## cut_sleep
##  [4,5)  [5,6)  [6,7)  [7,8)  [8,9] 
## 0.1176 0.2952 0.3492 0.1980 0.0400
cumsum(prop.table(table(cut_sleep)))
##  [4,5)  [5,6)  [6,7)  [7,8)  [8,9] 
## 0.1176 0.4128 0.7620 0.9600 1.0000

Nhận xét: Bảng tần số về giờ ngủ của thanh thiếu niên cho thấy phần lớn tập trung ở mức 6–7 giờ mỗi đêm. Nhóm ngủ 6–7 giờ (bình thường) chiếm tỷ lệ cao nhất với 34.92% — đây là nhóm đông nhất. Có đến 41.28% thanh thiếu niên ngủ dưới 6 giờ/đêm, trong đó 11.76% thuộc nhóm thiếu ngủ nặng (dưới 5 giờ) — đây là con số đáng lo ngại về sức khỏe. Chỉ có 19.80% thanh thiếu niên ngủ đủ giấc từ 7–8 giờ và 4% ngủ trên 8 giờ.

Tổng cộng có đến 76.20% thanh thiếu niên ngủ dưới 7 giờ/đêm — thấp hơn mức khuyến nghị 8–10 giờ dành cho lứa tuổi thanh thiếu niên.

Những con số trên phản ánh thực trạng thiếu ngủ khá phổ biến trong nhóm thanh thiếu niên, điều này có thể ảnh hưởng tiêu cực đến sức khỏe tâm thần, kết quả học tập và chất lượng cuộc sống của thanh thiếu niên.

#Phân tổ dữ liệu cho mức độ căng thẳng

#Tìm điểm min, max

range(MentalHealth$stress_level)
## [1]  1 10

#Phân nhóm mức độ căng thẳng thành các khoảng

cut_stress <- cut(MentalHealth$stress_level, breaks = seq(0,10,2), right = F, include.lowest = T)

#Tính tần số và tần số tích lũy các khoảng mức độ căng thẳng

table(cut_stress)
## cut_stress
##  [0,2)  [2,4)  [4,6)  [6,8) [8,10] 
##    322    423    496    454    805
cumsum(table(cut_stress))
##  [0,2)  [2,4)  [4,6)  [6,8) [8,10] 
##    322    745   1241   1695   2500

#Tính tần suất và tần suất tích lũy các khoảng mức độ căng thẳng

prop.table(table(cut_stress))
## cut_stress
##  [0,2)  [2,4)  [4,6)  [6,8) [8,10] 
## 0.1288 0.1692 0.1984 0.1816 0.3220
cumsum(prop.table(table(cut_stress)))
##  [0,2)  [2,4)  [4,6)  [6,8) [8,10] 
## 0.1288 0.2980 0.4964 0.6780 1.0000

Nhận xét: Bảng tần số về mức độ căng thẳng của thanh thiếu niên cho thấy một xu hướng đáng lo ngại khi mức độ căng thẳng cao chiếm tỷ lệ lớn nhất. Nhóm căng thẳng rất cao [8–10] chiếm tỷ lệ cao nhất với 32.20%. Bốn nhóm còn lại có tần suất khá đồng đều, dao động từ 12.88% đến 19.84%. Có đến 50.36% thanh thiếu niên có mức độ căng thẳng từ cao đến rất cao (nhóm [6,8) và [8,10]). Chỉ có 29.80% thanh thiếu niên có mức căng thẳng thấp hoặc rất thấp (dưới mức 4).

Những con số trên cho thấy mức độ căng thẳng của thanh thiếu niên đang ở mức báo động, với hơn một nửa đang chịu áp lực tâm lý ở mức cao đến rất cao.

Lập bảng tần số cho dữ liệu 2 biến

#Tạo bảng tần số chéo giữa giới tính và nguy cơ trầm cảm

cross_table <- table(MentalHealth$gender, MentalHealth$depression_risk)

#Tính tần suất chéo giữa giới tính và nguy cơ trầm cảm

prop.table(cross_table)
##         
##            high    low medium
##   female 0.1220 0.2480 0.1320
##   male   0.1116 0.2584 0.1280

#Tính tần suất theo cột (nguy cơ trầm cảm)

prop.table(cross_table,margin = 2)
##         
##               high       low    medium
##   female 0.5222603 0.4897314 0.5076923
##   male   0.4777397 0.5102686 0.4923077

Nhận xét: Bảng tần suất theo cột cho thấy tỷ lệ nam/nữ trong từng nhóm nguy cơ trầm cảm khá cân bằng. Trong nhóm nguy cơ cao (high): nữ chiếm 52.23%, nam chiếm 47.77%. Trong nhóm nguy cơ thấp (low): nam chiếm 51.03%, nữ chiếm 48.97%. Trong nhóm nguy cơ trung bình (medium): tỷ lệ khá cân bằng, nữ chiếm 50.77% và nam chiếm 49.23%.

Nhìn chung, sự chênh lệch giữa nam và nữ trong cả 3 nhóm nguy cơ trầm cảm đều không lớn (dưới 5%), cho thấy giới tính không phải yếu tố tạo ra sự khác biệt rõ rệt về nguy cơ trầm cảm trong bộ dữ liệu này. Tuy nhiên, xu hướng nữ giới có tỷ lệ cao hơn ở nhóm nguy cơ cao và thấp hơn ở nhóm nguy cơ thấp phần nào phù hợp với các nghiên cứu thực tế cho rằng nữ giới thường dễ bị tổn thương tâm lý hơn nam giới ở lứa tuổi thanh thiếu niên.

Vẽ biểu đồ cho dữ liệu định tính

barplot(c(1255,1245), names.arg = c("Nu", "Nam"), col = c("pink", "skyblue"), main = "Bieu do thanh cho gioi tinh", ylab = "Tan so (don vi: nguoi)")

Nhận xét:Biểu đồ thanh về giới tính của thanh thiếu niên cho thấy tần số của nữ và nam gần như bằng nhau, cả hai đều xấp xỉ 1250 người do đó không có sự chênh lệch đáng kể giữa hai giới trong bộ dữ liệu.

gender_fre <- table(MentalHealth$gender)
percent <- prop.table(gender_fre) * 100
pie(table(gender_fre), labels = paste(names(gender_fre), ":", percent, "%"),col = c("pink","skyblue"),main = "Bieu do tron ve gioi tinh")

Nhận xét: Biểu đồ tròn về giới tính của thanh thiếu niên cho thấy Nữ (female) chiếm 50.2% — nhỉnh hơn một chút so với nam. Nam (male) chiếm 49.8% — chênh lệch chỉ 0.4% so với nữ.

Sự chênh lệch giữa hai giới gần như không đáng kể, cho thấy mẫu khảo sát có sự phân bố giới tính rất cân bằng. Đây là điều kiện thuận lợi để đảm bảo tính khách quan và đại diện khi so sánh các chỉ số sức khỏe tâm thần giữa nam và nữ.

barplot(c(1266,650,584), names.arg = c("Thap","Trung binh","Cao"),col = colorRampPalette(c("steelblue","lightblue"))(3),main = "Bieu do thanh cho muc do nguy co tram cam",ylab = "Tan so (don vi: nguoi)")

Nhận xét: Biểu đồ thanh về mức độ nguy cơ trầm cảm của thanh thiếu niên cho thấy sự phân bố không đồng đều rõ rệt giữa 3 nhóm. Nhóm nguy cơ thấp chiếm tần số cao nhất, vượt trội so với 2 nhóm còn lại và gần gấp đôi mỗi nhóm. Nhóm nguy cơ trung bình đứng thứ hai với khoảng 650 người. Nhóm nguy cơ cao (Cao) có tần số thấp nhất với khoảng 584 người,chênh lệch không nhiều so với nhóm trung bình.

depression_fre <- table(MentalHealth$depression_risk)
percent <- prop.table(depression_fre) * 100
pie(table(depression_fre), labels = paste(names(depression_fre), ":", percent, "%"),col = c("lightblue","steelblue","skyblue"),main = "Bieu do tron ve muc do nguy co tram cam")

Nhận xét: Biểu đồ tròn về mức độ nguy cơ trầm cảm của thanh thiếu niên cho thấy nhóm nguy cơ thấp (low) chiếm tỷ lệ lớn nhất với 50.64% — hơn một nửa tổng số thanh thiếu niên trong mẫu. Nhóm nguy cơ trung bình (medium) chiếm 26%. Nhóm nguy cơ cao (high) chiếm 23.36% — chênh lệch không nhiều so với nhóm trung bình.

Vẽ biểu đồ cho dữ liệu định lượng

BD=hist(MentalHealth$daily_social_media_hours,breaks = seq(0,8,2), col = "lavender", main = "Bieu do phan phoi tan so cua thoi gian su dung MXH hang ngay",ylab ="Tan so (don vi: nguoi)",xlab = "So gio su dung MXH hang ngay",col.main= "blue")

Nhận xét:Nhìn chung, biểu đồ có hình dạng lệch trái nhẹ — tần số tăng nhanh từ nhóm [0–2) lên [2–4) rồi giảm dần về phía phải. Ba nhóm từ [2–4), [4–6) và [6–8] có tần số khá đồng đều, phản ánh phân bố tương đối đều của thời gian sử dụng MXH trong khoảng 2–8 giờ/ngày.

Điều này cho thấy phần lớn thanh thiếu niên dành từ 2 đến 8 giờ mỗi ngày cho mạng xã hội.

BD$mids
## [1] 1 3 5 7
BD$counts
## [1] 385 738 710 667
HD=c(0,BD$mids,10)
TD=c(0,BD$counts,0)
plot(HD,TD,type="b",col="red",lwd=2,xlab = "Thoi gian dung MXH hang ngay", ylab = "Tan so (don vi: nguoi)",main = "Da giac tan so cho thoi gian su dung MXH hang ngay",col.main= "blue")

Nhận xét: Nhìn chung, đa giác tần số có hình dạng lệch trái — tăng nhanh ở đầu, duy trì ở mức cao trong khoảng [2–8) giờ . Điều này một lần nữa cho thấy phần lớn thanh thiếu niên sử dụng MXH trong khoảng 2–8 giờ/ngày, với nhóm [2–4) chiếm ưu thế nhất.

boxplot(MentalHealth$daily_social_media_hours,horizontal = T,col = "lavender",main="Bieu do hop va rau cua thoi gian su dung MXH hang ngay",xlab="So gio su dung MXH hang ngay",col.main= "blue")

Nhận xét: Biểu đồ hộp và râu về thời gian sử dụng mạng xã hội hàng ngày của thanh thiếu niên cho thấy: Giá trị nhỏ nhất (Min): khoảng 1 giờ/ngày; Tứ phân vị thứ nhất (Q1): khoảng 3 giờ/ngày; Trung vị (Median): khoảng 4.5 giờ/ngày; Tứ phân vị thứ ba (Q3): khoảng 6 giờ/ngày; Giá trị lớn nhất (Max): khoảng 8 giờ/ngày

Hộp khá rộng với IQR = Q3 − Q1 = 6 − 3 = 3 giờ — cho thấy dữ liệu có độ phân tán khá lớn.

Nhìn chung, biểu đồ xác nhận rằng 50% thanh thiếu niên sử dụng MXH từ 3 đến 6 giờ/ngày, và mức trung bình xấp xỉ 4.5 giờ/ngày — một con số khá cao so với khuyến nghị về thời gian sử dụng màn hình lành mạnh.

hist(MentalHealth$sleep_hours,breaks = c(4,5,6,7,8,9), col ="cornsilk", main = "Bieu do phan phoi tan so cua thoi gian ngu hang ngay",ylab ="Tan so (don vi: nguoi)",xlab = "So gio ngu hang ngay",col.main= "blue")

Nhận xét: Biểu đồ có hình dạng lệch phải — tăng nhanh từ [4–5) đến đỉnh tại [6–7) rồi giảm dần về phía phải. Điều này cho thấy phần lớn thanh thiếu niên ngủ từ 5–7 giờ/đêm, tập trung tại mức 6–7 giờ. Có đến 41.28% thanh thiếu niên ngủ dưới 6 giờ — thấp hơn mức khuyến nghị 8–10 giờ dành cho lứa tuổi này. Chỉ có 23.80% ngủ đủ giấc từ 7 giờ trở lên.

Thực trạng thiếu ngủ khá phổ biến này có thể là một trong những yếu tố góp phần làm gia tăng mức độ căng thẳng và nguy cơ trầm cảm trong nhóm thanh thiếu niên được khảo sát.

boxplot(MentalHealth$sleep_hours,horizontal = T,col = "cornsilk",main="Bieu do hop va rau cua thoi gian ngu hang ngay",xlab="So gio ngu hang ngay",col.main= "blue")

Nhận xét: Biểu đồ hộp và râu về thời gian ngủ hàng ngày của thanh thiếu niên cho thấy: Giá trị nhỏ nhất (Min): khoảng 4 giờ/đêm; Tứ phân vị thứ nhất (Q1): khoảng 5.5 giờ/đêm; Trung vị (Median): khoảng 6.2 giờ/đêm; Tứ phân vị thứ ba (Q3): khoảng 7 giờ/đêm; Giá trị lớn nhất (Max): khoảng 9 giờ/đêm

Bên cạnh đó, hộp khá hẹp với IQR = Q3 − Q1 = 7 − 5.5 = 1.5 giờ cho thấy 50% thanh thiếu niên tập trung ngủ trong khoảng 5.5 đến 7 giờ/đêm, độ phân tán thấp.

Nhìn chung, biểu đồ cho thấy đa số thanh thiếu niên ngủ quanh mức 5.5–7 giờ/đêm — thấp hơn so với mức khuyến nghị 8–10 giờ dành cho lứa tuổi này, phản ánh thực trạng thiếu ngủ đáng lo ngại trong nhóm được khảo sát.

hist(MentalHealth$stress_level, seq(0,10,2), col = "deepskyblue4", main = "Bieu do phan phoi tan so cua muc do cang thang",ylab ="Tan so (don vi: nguoi)",xlab = "Muc do cang thang",col.main= "blue" )

Nhận xét: Biểu đồ có hình dạng đặc biệt hình chữ U — giảm dần từ nhóm [0–2) đến [6–8) rồi tăng mạnh ở nhóm [8–10]. Điều này phản ánh hai xu hướng đáng chú ý: 4 nhóm đầu có tần số khá đồng đều và không có sự chênh lệch lớn. Nhóm căng thẳng rất cao [8–10] nổi bật hẳn so với các nhóm còn lại, chiếm tỷ lệ lớn nhất.

Nhìn chung, mức độ căng thẳng của thanh thiếu niên phân bố tương đối đều ở các mức thấp đến trung bình, nhưng đặc biệt có sự tập trung cao ở mức rất cao [8–10] — đây là tín hiệu đáng lo ngại về áp lực tâm lý mà thanh thiếu niên đang phải đối mặt.

boxplot(MentalHealth$stress_level,horizontal = T,col = "deepskyblue4",main="Bieu do hop va rau cua muc do cang thang",xlab="Muc do cang thang",col.main= "blue")

Nhận xét: Biểu đồ hộp và râu về mức độ căng thẳng của thanh thiếu niên cho thấy:Giá trị nhỏ nhất (Min): khoảng 1 điểm; Tứ phân vị thứ nhất (Q1): khoảng 3 điểm; Trung vị (Median): khoảng 6 điểm; Tứ phân vị thứ ba (Q3): khoảng 8 điểm; Giá trị lớn nhất (Max): khoảng 10 điểm.Bên cạnh đó, trung vị nằm lệch về phía phải trong hộp (gần Q3 hơn Q1) — cho thấy phân bố có xu hướng lệch trái nhẹ, tức là có nhiều thanh thiếu niên hơn ở mức căng thẳng cao. Hộp khá rộng với IQR = Q3 − Q1 = 8 − 3 = 5 cho thấy mức độ căng thẳng có độ phân tán rất lớn, thanh thiếu niên có sự khác biệt đáng kể về mức độ căng thẳng.

Nhìn chung, với trung vị ở mức 6/10, hơn một nửa thanh thiếu niên có mức độ căng thẳng từ 6 điểm trở lên — phản ánh áp lực tâm lý ở mức trung bình đến cao đang là thực trạng phổ biến trong nhóm được khảo sát.

barplot(table(MentalHealth$depression_risk,MentalHealth$gender),beside = F ,col=c("pink","lightblue","cornsilk"),legend.text = T, main = "Bieu do thanh cho gioi tinh theo muc do tram cam", col.main= "blue", cex.main=1)

Nhận xét: Biểu đồ thanh chồng về giới tính theo mức độ trầm cảm cho thấy cả 2 giới đều có cấu trúc phân bố tương tự nhau — nhóm low chiếm phần lớn nhất, tiếp theo là medium và high.

Nhìn chung, không có sự khác biệt đáng kể về mức độ trầm cảm giữa nam và nữ, cho thấy giới tính không phải yếu tố quyết định chính đến nguy cơ trầm cảm trong nhóm thanh thiếu niên được khảo sát.

2. Tính toán các đại lượng thống kê mô tả, đưa ra các nhận xét

#Tính thời gian sử dụng MXH hàng ngày

summary(MentalHealth$daily_social_media_hours)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   1.000   2.700   4.400   4.458   6.200   8.000

Nhận xét: - Số giờ dùng MXH ít nhất là 1 giờ, cao nhất là 8 giờ;

IQR=6.2-2.7
IQR
## [1] 3.5

Nhận xét: Độ trải giữa của thời gian ngủ là 3.5 giờ

min(MentalHealth$daily_social_media_hours)
## [1] 1
max(MentalHealth$daily_social_media_hours)
## [1] 8
mean(MentalHealth$daily_social_media_hours)
## [1] 4.45804
median(MentalHealth$daily_social_media_hours)
## [1] 4.4
range(MentalHealth$daily_social_media_hours)
## [1] 1 8

Nhận xét: Số giờ sử dụng MXH hàng ngày thấp nhất là 1 giờ/ngày và cao nhất là 8 giờ/ngày.

names(which.max(table(MentalHealth$daily_social_media_hours)))
## [1] "1.4"

Nhận xét: Thời gian sử dụng MXH hàng ngày xuất hiện nhiều nhất là 1.4 giờ.

range(MentalHealth$daily_social_media_hours)
## [1] 1 8
8-1
## [1] 7

Nhận xét: Khoảng biến thiên 7 giờ cho thấy thời gian sử dụng MXH của thanh thiếu niên có sự chênh lệch rất lớn giữa người dùng ít nhất và nhiều nhất.

sd(MentalHealth$daily_social_media_hours)
## [1] 2.01693

Nhận xét: Độ lệch chuẩn về số giờ sử dụng MXH so với giá trị trung bình là 2.02 giờ.

var(MentalHealth$daily_social_media_hours)
## [1] 4.068007

Nhận xét: Độ phân tán số giờ sử dụng MXH hàng ngày so với số giờ sử dụng MXH trung bình của thanh thiếu niên là 4.07.

#Phân vị thứ 80 cho thời gian sử dụng MXH hàng ngày

quantile(MentalHealth$daily_social_media_hours, 0.8)
## 80% 
## 6.6

Nhận xét:Có khoảng 80% số thanh thiếu niên có số giờ sử dụng MXH hàng ngày không quá 6.6 giờ và có khoảng 20% số thanh thiếu niên có số giờ sử dụng MXH hàng ngày từ 6.6 giờ trở lên.

3. Các bài toán ước lượng điểm, ước lượng khoảng:trung bình, tỉ lệ, phương sai

Bài toán Ước lượng điểm:

#VD1: Tính số giờ ngủ (sleep_hours) trung bình của các bạn thanh thiếu niên.

mean(MentalHealth$sleep_hours)
## [1] 6.19244

Kết luận: Kết luận: số giờ ngủ (sleep_hours) trung bình của các bạn thanh thiếu niên là 6.2 giờ.

#VD2: Tính tỷ lệ số thanh thiếu niên có thời gian sử dụng trên màn hình trước khi ngủ (screen_time_before_sleep) bằng 1 và độ tuổi không vượt quá 18.

sum(MentalHealth$screen_time_before_sleep == 1 & MentalHealth$age <= 18)
## [1] 94
length(MentalHealth$age)
## [1] 2500
94/2500
## [1] 0.0376

Kết luận: Vậy tỷ lệ số thanh thiếu niên có thời gian trên màn hình trước khi ngủ bằng 1 và độ tuổi không vượt quá 18 là 3,76%.

#VD3: Tìm phương sai cho biến mức độ lo lắng (anxiety_level) của các thanh thiếu niên.

var(MentalHealth$anxiety_level)
## [1] 9.014847

Kết luận: Độ biến động mức độ lo lắng so với mức độ lo lắng trung bình của thanh thiếu niên là 9.01.

Bài toán Ước lượng khoảng

#VD1: Thực hiện ước lượng khoảng 95% cho Số giờ ngủ (sleep_hours) trung bình của các bạn thanh thiếu niên Nam

sleephours_Nam=subset(MentalHealth$sleep_hours,MentalHealth$gender=="male")
t.test(sleephours_Nam,conf.level = 0.95)
## 
##  One Sample t-test
## 
## data:  sleephours_Nam
## t = 221.02, df = 1244, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
##  6.154281 6.264515
## sample estimates:
## mean of x 
##  6.209398

Kết luận: Với mức tin cậy 95%, ước lượng khoảng cho số giờ ngủ trung bình của thanh thiếu niên Nam là [6.15; 6.26].

#VD2: Thực hiện ước lượng khoảng 95% cho tỷ lệ mức độ stress (stress_level) của thanh thiếu niên không vượt quá 8.

sum(MentalHealth$stress_level<=8)
## [1] 1907
length(MentalHealth$stress_level)
## [1] 2500
prop.test(1907,2500,conf.level=0.95,correct = F)
## 
##  1-sample proportions test without continuity correction
## 
## data:  1907 out of 2500, null probability 0.5
## X-squared = 690.64, df = 1, p-value < 2.2e-16
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
##  0.7457307 0.7790629
## sample estimates:
##      p 
## 0.7628

Kết luận: Vậy độ tin cậy 95%, khoảng tỷ lệ mức độ stress của thanh thiếu niên không vượt quá 8 là [74.5;77.9].

4. Các bài toán kiểm định tham số 1 tổng thể: trung bình, tỉ lệ

#VD1: Cần kiểm tra xem thời gian ngủ trung bình của các thanh thiếu niên tham gia khảo sát có bằng 5 tiếng mỗi ngày hay không.

Bài giải:

Gọi mu là thời gian ngủ trung bình của các thanh thiếu niên tham gia khảo sát.

H0: mu=5 , H1: mu#5

t.test(MentalHealth$sleep_hours, mu = 5, alternative = "two.sided")
## 
##  One Sample t-test
## 
## data:  MentalHealth$sleep_hours
## t = 58.526, df = 2499, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 5
## 95 percent confidence interval:
##  6.152487 6.232393
## sample estimates:
## mean of x 
##   6.19244

p-giá trị=2.2e-16<0.05 => Bác bỏ H0

Kết luận: Tại mức ý nghĩa 5%, có thể cho rằng thời gian ngủ trung bình của các thanh thiếu niên trong khảo sát là khác 5 tiếng/ngày.

#VD2: Các chuyên gia sức khoẻ nhận định rằng mức độ căng thẳng của các thanh thiếu niên trong khảo sát lớn hơn mức trung bình là 5 sẽ có thể gặp các vấn đề về sức khoẻ tâm lý. Hãy kiểm định với mức ý nghĩa 5%.

Bài giải:

Gọi mu là mức độ căng thẳng trung bình của các thanh thiếu niên trong khảo sát

H0: mu<=5, H1: mu>5

t.test(MentalHealth$stress_level, mu = 5, alternative = "greater")
## 
##  One Sample t-test
## 
## data:  MentalHealth$stress_level
## t = 9.8124, df = 2499, p-value < 2.2e-16
## alternative hypothesis: true mean is greater than 5
## 95 percent confidence interval:
##  5.496388      Inf
## sample estimates:
## mean of x 
##    5.5964

p-giá trị=2.2e-16<0.05 => Bác bỏ H0

Kết luận: Với mức ý nghĩa 5%, có thể cho rằn gmức độ căng thẳng trung bình của các thanh thiếu niên cao hơn mức trung bình là 5, do đó cần kiểm tra sâu về sức khoẻ tâm lý.

#VD3: Kiểm tra xem tỉ lệ người thanh thiếu niên phải đối mặt với mức độ rủi ro mắc trầm cảm cao (High) có đang ở mức cảnh báo (vượt quá 20%) hay không với mức ý nghĩa 10%.

Bài giải:

Gọi p là tỉ lệ thanh thiếu niên phải đối mặt với mức độ rủi ro mắc trầm cảm cao

H0: mu<=0.2, H1: mu>0.2

depression_high <- sum(MentalHealth$depression_risk == "high")
prop.test(x = depression_high, n = 2500, p = 0.2, alternative = "greater", correct = F)
## 
##  1-sample proportions test without continuity correction
## 
## data:  depression_high out of 2500, null probability 0.2
## X-squared = 17.64, df = 1, p-value = 1.335e-05
## alternative hypothesis: true p is greater than 0.2
## 95 percent confidence interval:
##  0.2199731 1.0000000
## sample estimates:
##      p 
## 0.2336

p-giá trị= 1.335e-05<0.1 => Bác bỏ H0

Kết luận: Với mức ý nghĩa 10%, có thể cho rằng tỉ lệ thanh thiếu niên gặp rủi ro mắc trầm cảm đã vượt qua mốc 20%.

5. Các bài toán kiểm định tham số 2 tổng thể: trung bình, tỉ lệ, phương sai

#VD1: Kiểm định số thời gian trung bình của thời gian sử dụng mạng xã hội hàng ngày có thấp hơn thời gian ngủ hay không ? Mức ý nghĩa 5%.

Bài giải:

Gọi m1,m2 là lần lượt là số thời gian trung bình sử dụng mạng xã hội hàng ngày và ngủ

H0: m1-m2>=0

H1: m1-m2<0

t.test(MentalHealth$daily_social_media_hours,MentalHealth$sleep_hours,mu=0,alternative = 'l',paired = F,var.equal = F)
## 
##  Welch Two Sample t-test
## 
## data:  MentalHealth$daily_social_media_hours and MentalHealth$sleep_hours
## t = -38.378, df = 3696.2, p-value < 2.2e-16
## alternative hypothesis: true difference in means is less than 0
## 95 percent confidence interval:
##       -Inf -1.660047
## sample estimates:
## mean of x mean of y 
##   4.45804   6.19244

p giá trị = 2.2e-16 < 0.05 => Bác bỏ H0

Kết luận: Với mức ý nghĩa 5%, có thể cho rằng thời gian trung bình sử dụng MXH hàng ngày thấp hơn số thời gian trung bình ngủ.

#VD2: Tỷ lệ học sinh có nguy cơ trầm cảm cao (depression_risk = “high”) có khác nhau giữa nam và nữ không? Mức ý nghĩa 5%

Bài giải:

Gọi p1, p2 lần lượt là tỉ lệ học sinh có nguy cơ trầm cảm cao là nam và nữ

H0: p1-p2=0

H1: p1-p2#0

x= c(sum(MentalHealth$gender == "male" & MentalHealth$depression_risk == "high"),sum(MentalHealth$gender == "female" & MentalHealth$depression_risk == "high"))
y= c(sum(MentalHealth$gender == "male"), sum(MentalHealth$gender == "female"))
prop.test(x,y,alt = "t",correct = F)
## 
##  2-sample test for equality of proportions without continuity correction
## 
## data:  x out of y
## X-squared = 1.2512, df = 1, p-value = 0.2633
## alternative hypothesis: two.sided
## 95 percent confidence interval:
##  -0.05209177  0.01422877
## sample estimates:
##    prop 1    prop 2 
## 0.2240964 0.2430279

p-giá trị= 0.2633>0.05 => Chấp nhận H0

Kết luận: Với mức ý nghĩa 5%, có thể cho rằng tỉ lệ nguy cơ trầm cảm cao của nam và nữ là bằng nhau.

#VD3: Mức độ biến động của thời gian ngủ (sleep_hours) giữa nam và nữ có khác nhau không? Hãy kiểm định với mức ý nghĩa 5%.

Bài giải

Gọi m1^2, m2^2 lần lượt là phương sai của thời gian ngủ của nam và nữ

H0: m12=m22

H1: m12#m22

male_sleep <- MentalHealth$sleep_hours[MentalHealth$gender == "male"]
female_sleep <- MentalHealth$sleep_hours[MentalHealth$gender == "female"]
var.test(male_sleep, female_sleep,alt="t")
## 
##  F test to compare two variances
## 
## data:  male_sleep and female_sleep
## F = 0.8992, num df = 1244, denom df = 1254, p-value = 0.06061
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
##  0.8047687 1.0047473
## sample estimates:
## ratio of variances 
##          0.8992046

p-giá trị= 0.06061 > 0.05 => Chấp nhận H0

Kết luận: Với mức ý nghĩa 5%, có thể cho rằngmức độ biến động của thời gian ngủ giữa nam và nữ là giống nha.

6. Phân tích phương sai ANOVA, phân tích sâu TurkeyHSD

#Bài toán: Tại mức ý nghĩa 5%, hãy kiểm tra xem thời gian sử dụng mạng xã hội hàng ngày (daily_social_media_hours) có khác nhau giữa các mức độ trầm cảm (depression_risk) hay không? Nếu có thìthời gian sử dụng MXH hàng ngày ở mức độ trầm cảm nào cao nhất? mức độ trầm cảm nào thấp nhất?

Bài giải:

Gọi m1,m2,m3 là số thời gian trung bình sử dụng MXH hàng ngày của nhóm có nguy cơ trầm cảm thấp, trung bình, cao

H0: m1=m2=m3

H1: tồn tại i,j để mi#mj

anova(lm(MentalHealth$daily_social_media_hours~MentalHealth$depression_risk))
## Analysis of Variance Table
## 
## Response: MentalHealth$daily_social_media_hours
##                                Df Sum Sq Mean Sq F value    Pr(>F)    
## MentalHealth$depression_risk    2 6074.3 3037.16  1853.5 < 2.2e-16 ***
## Residuals                    2497 4091.6    1.64                      
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

p-giá trị= 2.2e-16 < 0.05 => Bác bỏ H0

Kết luận: Với mức ý nghĩa 5%, có thể cho rằng có sự khác biệt giữa thời gian sử dụng mạng xã hội hằng ngày và các mức độ nguy cơ trầm cảm.

#Phân tích sâu Turkey HSD

H0: mi=mj

H1: mi#mj

TukeyHSD(aov(MentalHealth$daily_social_media_hours~MentalHealth$depression_risk))
##   Tukey multiple comparisons of means
##     95% family-wise confidence level
## 
## Fit: aov(formula = MentalHealth$daily_social_media_hours ~ MentalHealth$depression_risk)
## 
## $`MentalHealth$depression_risk`
##                  diff       lwr       upr p adj
## low-high    -3.625632 -3.775795 -3.475469     0
## medium-high -1.174717 -1.345874 -1.003560     0
## medium-low   2.450915  2.306063  2.595767     0

Kết luận: Dựa trên phân tích sâu, thời gian trung bình dùng MXH hàng ngày của nhóm có nguy cơ trầm cảm cao sử dụng mạng xã hội nhiều nhất, tiếp theo là nhóm trung bình và nhóm thấp (high>medium>low). Điều này cho thấy thời gian sử dụng mạng xã hội có xu hướng tăng theo mức độ nguy cơ trầm cảm.

7. Bài toán Kiểm định khi bình phương về sự phù hợp, độc lập

#Kiểm định mức phù hợp

Bài toán: Kiểm tra xem tỉ lệ giới tính (gender) có phải là nam chiếm 50% nữ chiếm 50% hay không? Ở mức ý nghĩa 5%

Bài giải:

H0: Là tỉ lệ giới tính nam nữ là 50-50

H1 :Là tỉ lệ giới tính nam nữ không phải là 50-50

table_gender <- table(MentalHealth$gender)
chisq.test(table_gender,p=c(0.5,0.5))
## 
##  Chi-squared test for given probabilities
## 
## data:  table_gender
## X-squared = 0.04, df = 1, p-value = 0.8415

p-giá trị = 0.8415 > 0.05 => Chấp nhận H0

Kết luận: Với mức ý nghĩa 5%, có thể cho rằng tỉ lệ giới tính nam nữ phù hợp là 50-5 0

#Kiểm định về tính độc lập

Bài toán: Kiểm định giả thuyết giới tính (gender) và mức độ trầm cảm (depression_rick) có mối liên hệ hay không? Ở mức ý nghĩa là 5%

Bài giải:

H0: Giới tính và mức độ trầm cảm có không mối liên hề (độc lập)

H1: Giới tính và mức độ trầm cảm có mối liên hệ (không độc lập)

chisq.test(table(MentalHealth$gender,MentalHealth$depression_risk))
## 
##  Pearson's Chi-squared test
## 
## data:  table(MentalHealth$gender, MentalHealth$depression_risk)
## X-squared = 1.8054, df = 2, p-value = 0.4055

p-giá trị = 0.4055 > 0.05 => Chấp nhận H0

Kết luận :Với mức ý nghĩa 5%, có thể cho rằng giới tính và mức độ trầm cảm là không có mối liên hệ với nhau.