d <- read.csv("D:/PTDLDT CT2/Students Social Media Addiction.csv")
str(d)
## 'data.frame': 705 obs. of 13 variables:
## $ Student_ID : int 1 2 3 4 5 6 7 8 9 10 ...
## $ Age : int 19 22 20 18 21 19 23 20 18 21 ...
## $ Gender : chr "Female" "Male" "Female" "Male" ...
## $ Academic_Level : chr "Undergraduate" "Graduate" "Undergraduate" "High School" ...
## $ Country : chr "Bangladesh" "India" "USA" "UK" ...
## $ Avg_Daily_Usage_Hours : num 5.2 2.1 6 3 4.5 7.2 1.5 5.8 4 3.3 ...
## $ Most_Used_Platform : chr "Instagram" "Twitter" "TikTok" "YouTube" ...
## $ Affects_Academic_Performance: chr "Yes" "No" "Yes" "No" ...
## $ Sleep_Hours_Per_Night : num 6.5 7.5 5 7 6 4.5 8 6 6.5 7 ...
## $ Mental_Health_Score : int 6 8 5 7 6 4 9 6 7 7 ...
## $ Relationship_Status : chr "In Relationship" "Single" "Complicated" "Single" ...
## $ Conflicts_Over_Social_Media : int 3 0 4 1 2 5 0 2 1 1 ...
## $ Addicted_Score : int 8 3 9 4 7 9 2 8 5 4 ...
Bộ dữ liệu “Nghiện Mạng Xã Hội của Sinh Viên” là kết quả của một khảo sát được thực hiện trên nhóm sinh viên trong độ tuổi từ 16 đến 25, đến từ nhiều quốc gia khác nhau. Mục tiêu của khảo sát là thu thập thông tin về thói quen sử dụng mạng xã hội của sinh viên, cũng như đánh giá ảnh hưởng của việc sử dụng mạng xã hội đến các khía cạnh quan trọng trong cuộc sống như học tập, sức khỏe tinh thần, giấc ngủ và các mối quan hệ xã hội.
Bộ dữ liệu có 705 quan sát và 13 biến.
Bộ dữ liệu bao gồm các biến chính sau:
| Tên biến | Mô tả |
|---|---|
| Student_ID | Mã số duy nhất cho từng người tham gia khảo sát, không tiết lộ thông tin cá nhân |
| Age | Tuổi của sinh viên tại thời điểm khảo sát |
| Gender | Giới tính của sinh viên: Nam hoặc Nữ |
| Academic_Level | Trình độ học vấn hiện tại: Trung học, Đại học, hoặc Sau đại học |
| Country | Quốc gia nơi sinh viên thực hiện khảo sát |
| Avg_Daily_Usage_Hours | Thời gian trung bình mỗi ngày sinh viên dành cho mạng xã hội |
| Most_Used_Platform | Nền tảng mạng xã hội sử dụng nhiều nhất (ví dụ: Instagram, Facebook, TikTok) |
| Affects_Academic_Performance | Sinh viên cảm nhận mạng xã hội ảnh hưởng tiêu cực đến kết quả học tập (Có / Không) |
| Sleep_Hours_Per_Night | Số giờ ngủ trung bình mỗi đêm |
| Mental_Health_Score | Điểm tự đánh giá sức khỏe tinh thần từ 1 (kém) đến 10 (tốt) |
| Relationship_Status | Tình trạng quan hệ tình cảm hiện tại: Độc thân, Đang yêu, hoặc Phức tạp |
| Conflicts_Over_Social_Media | Số lần xảy ra xung đột với gia đình, bạn bè, hoặc người yêu do sử dụng mạng xã hội |
| Addicted_Score | Điểm đo mức độ nghiện mạng xã hội, từ 1 (thấp) đến 10 (cao) |
bdt <- c("Gender", "Academic_Level", "Country", "Most_Used_Platform", "Affects_Academic_Performance", "Relationship_Status")
bdt
## [1] "Gender" "Academic_Level"
## [3] "Country" "Most_Used_Platform"
## [5] "Affects_Academic_Performance" "Relationship_Status"
| Biến | Giải thích |
|---|---|
| Gender | Giới tính của sinh viên (Nam hoặc Nữ) |
| Academic_Level | Trình độ học vấn hiện tại (Trung học, Đại học, hoặc Sau đại học) |
| Country | Quốc gia nơi sinh viên cư trú |
| Most_Used_Platform | Nền tảng mạng xã hội sinh viên sử dụng nhiều nhất |
| Affects_Academic_Performance | Sinh viên cảm nhận mạng xã hội có ảnh hưởng tiêu cực đến học tập |
| Relationship_Status | Tình trạng quan hệ tình cảm hiện tại của sinh viên |
dt <- d[, bdt]
str(dt)
## 'data.frame': 705 obs. of 6 variables:
## $ Gender : chr "Female" "Male" "Female" "Male" ...
## $ Academic_Level : chr "Undergraduate" "Graduate" "Undergraduate" "High School" ...
## $ Country : chr "Bangladesh" "India" "USA" "UK" ...
## $ Most_Used_Platform : chr "Instagram" "Twitter" "TikTok" "YouTube" ...
## $ Affects_Academic_Performance: chr "Yes" "No" "Yes" "No" ...
## $ Relationship_Status : chr "In Relationship" "Single" "Complicated" "Single" ...
head(dt)
## Gender Academic_Level Country Most_Used_Platform
## 1 Female Undergraduate Bangladesh Instagram
## 2 Male Graduate India Twitter
## 3 Female Undergraduate USA TikTok
## 4 Male High School UK YouTube
## 5 Male Graduate Canada Facebook
## 6 Female Undergraduate Australia Instagram
## Affects_Academic_Performance Relationship_Status
## 1 Yes In Relationship
## 2 No Single
## 3 Yes Complicated
## 4 No Single
## 5 Yes In Relationship
## 6 Yes Complicated
tail(dt)
## Gender Academic_Level Country Most_Used_Platform
## 700 Male Graduate UK Twitter
## 701 Female Undergraduate Italy TikTok
## 702 Male Graduate Russia Instagram
## 703 Female Undergraduate China WeChat
## 704 Male Graduate Japan Twitter
## 705 Female Undergraduate Poland Facebook
## Affects_Academic_Performance Relationship_Status
## 700 Yes Single
## 701 No In Relationship
## 702 Yes Single
## 703 Yes In Relationship
## 704 No Single
## 705 Yes Single
sum(is.na(dt))
## [1] 0
Bộ dữ liệu không có giá trị thiếu.
sapply(dt, class)
## Gender Academic_Level
## "character" "character"
## Country Most_Used_Platform
## "character" "character"
## Affects_Academic_Performance Relationship_Status
## "character" "character"
dt <- as.data.frame(lapply(dt, as.factor))
table(dt$Gender)
##
## Female Male
## 353 352
library(ggplot2)
ggplot(dt, aes(x = Gender)) +
geom_bar(fill = "pink") +
geom_text(stat = "count", aes(label = ..count..),
position = position_stack(vjust = 0.5), color = "white", size = 5) +
labs(title = "Phân bố giới tính của sinh viên trong khảo sát",
x = "Giới tính",
y = "Tần số")
## Warning: The dot-dot notation (`..count..`) was deprecated in ggplot2 3.4.0.
## ℹ Please use `after_stat(count)` instead.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.
Số lượng sinh viên nữ (Female): 353 người
Số lượng sinh viên nam (Male): 352 người
Phân bố giới tính gần như cân bằng tuyệt đối, chênh lệch chỉ 1 người.
prop.table(table(dt$Gender))
##
## Female Male
## 0.5007092 0.4992908
pie(prop.table(table(dt$Gender)),
labels = paste0(names(table(dt$Gender)), " (", round(prop.table(table(dt$Gender)) * 100, 2), "%)"),
main = "Tỷ lệ phân bố giới tính")
Tỷ lệ sinh viên nữ chiếm khoảng 50.07%, trong khi sinh viên nam chiếm khoảng 49.93%.
Sự phân bố giới tính giữa nam và nữ gần như cân bằng, không có sự chênh lệch đáng kể trong mẫu khảo sát.
table(dt$Academic_Level)
##
## Graduate High School Undergraduate
## 325 27 353
ggplot(dt, aes(x = Academic_Level)) +
geom_bar(fill = "pink") +
geom_text(stat = "count", aes(label = ..count..),
position = position_stack(vjust = 0.5), color = "white", size = 5) +
labs(title = "Phân bố trình độ học vấn của sinh viên tham gia khảo sát",
x = "Trình độ học vấn",
y = "Tần số")
Phần lớn sinh viên tham gia khảo sát đang ở bậc Đại học (Undergraduate) – chiếm tỉ trọng lớn nhất với 353 người.
Số lượng sinh viên bậc Sau đại học (Graduate) cũng khá cao với 325 người, gần tương đương với bậc Đại học.
Số lượng học sinh Trung học (High School) rất thấp, chỉ 27 người – chiếm tỷ lệ nhỏ trong tổng thể mẫu khảo sát (705 người).
prop.table(table(dt$Academic_Level))
##
## Graduate High School Undergraduate
## 0.46099291 0.03829787 0.50070922
pie(prop.table(table(dt$Academic_Level)),
labels = paste0(names(table(dt$Academic_Level)), " (", round(prop.table(table(dt$Academic_Level)) * 100, 2), "%)"),
main = "Tỷ lệ trình độ học vấn")
Phần lớn người tham gia khảo sát là sinh viên đại học (Undergraduate), chiếm hơn một nửa tổng mẫu.
Nhóm sau đại học (Graduate) cũng chiếm tỷ lệ lớn, gần 46.1%.
Rất ít học sinh trung học (High School) tham gia khảo sát, chỉ khoảng 3.83%, cho thấy mẫu khảo sát nghiêng về đối tượng sinh viên đại học trở lên.
table(dt$Country)
##
## Afghanistan Albania Andorra Argentina Armenia
## 1 1 1 1 1
## Australia Austria Azerbaijan Bahamas Bahrain
## 14 1 1 1 1
## Bangladesh Belarus Belgium Bhutan Bolivia
## 20 1 1 1 1
## Bosnia Brazil Bulgaria Canada Colombia
## 1 8 1 34 1
## Costa Rica Croatia Cyprus Czech Republic Chile
## 1 1 1 1 1
## China Denmark Ecuador Egypt Estonia
## 16 27 1 1 1
## Finland France Georgia Germany Ghana
## 8 27 1 14 1
## Greece Hong Kong Hungary Iceland India
## 1 1 1 1 53
## Indonesia Iraq Ireland Israel Italy
## 1 1 27 1 21
## Jamaica Japan Jordan Kazakhstan Kenya
## 1 21 1 1 1
## Kosovo Kuwait Kyrgyzstan Latvia Lebanon
## 1 1 1 1 1
## Liechtenstein Lithuania Luxembourg Malaysia Maldives
## 1 1 1 8 19
## Malta Mexico Moldova Monaco Montenegro
## 1 27 1 1 1
## Morocco Nepal Netherlands New Zealand Nigeria
## 1 19 8 8 1
## North Macedonia Norway Oman Pakistan Panama
## 1 1 1 19 1
## Paraguay Peru Poland Portugal Philippines
## 1 1 16 1 1
## Qatar Romania Russia San Marino Serbia
## 1 1 21 1 1
## Singapore Slovakia Slovenia South Africa South Korea
## 8 1 1 1 13
## Spain Sri Lanka Sweden Switzerland Syria
## 27 19 1 27 1
## Taiwan Tajikistan Turkey Thailand Trinidad
## 1 1 27 1 1
## UAE UK Ukraine Uruguay USA
## 8 22 1 1 40
## Uzbekistan Vatican City Venezuela Vietnam Yemen
## 1 1 1 1 1
barplot(table(dt$Country), las=2, cex.names=0.6)
prop.table(table(dt$Country))
##
## Afghanistan Albania Andorra Argentina Armenia
## 0.00141844 0.00141844 0.00141844 0.00141844 0.00141844
## Australia Austria Azerbaijan Bahamas Bahrain
## 0.01985816 0.00141844 0.00141844 0.00141844 0.00141844
## Bangladesh Belarus Belgium Bhutan Bolivia
## 0.02836879 0.00141844 0.00141844 0.00141844 0.00141844
## Bosnia Brazil Bulgaria Canada Colombia
## 0.00141844 0.01134752 0.00141844 0.04822695 0.00141844
## Costa Rica Croatia Cyprus Czech Republic Chile
## 0.00141844 0.00141844 0.00141844 0.00141844 0.00141844
## China Denmark Ecuador Egypt Estonia
## 0.02269504 0.03829787 0.00141844 0.00141844 0.00141844
## Finland France Georgia Germany Ghana
## 0.01134752 0.03829787 0.00141844 0.01985816 0.00141844
## Greece Hong Kong Hungary Iceland India
## 0.00141844 0.00141844 0.00141844 0.00141844 0.07517730
## Indonesia Iraq Ireland Israel Italy
## 0.00141844 0.00141844 0.03829787 0.00141844 0.02978723
## Jamaica Japan Jordan Kazakhstan Kenya
## 0.00141844 0.02978723 0.00141844 0.00141844 0.00141844
## Kosovo Kuwait Kyrgyzstan Latvia Lebanon
## 0.00141844 0.00141844 0.00141844 0.00141844 0.00141844
## Liechtenstein Lithuania Luxembourg Malaysia Maldives
## 0.00141844 0.00141844 0.00141844 0.01134752 0.02695035
## Malta Mexico Moldova Monaco Montenegro
## 0.00141844 0.03829787 0.00141844 0.00141844 0.00141844
## Morocco Nepal Netherlands New Zealand Nigeria
## 0.00141844 0.02695035 0.01134752 0.01134752 0.00141844
## North Macedonia Norway Oman Pakistan Panama
## 0.00141844 0.00141844 0.00141844 0.02695035 0.00141844
## Paraguay Peru Poland Portugal Philippines
## 0.00141844 0.00141844 0.02269504 0.00141844 0.00141844
## Qatar Romania Russia San Marino Serbia
## 0.00141844 0.00141844 0.02978723 0.00141844 0.00141844
## Singapore Slovakia Slovenia South Africa South Korea
## 0.01134752 0.00141844 0.00141844 0.00141844 0.01843972
## Spain Sri Lanka Sweden Switzerland Syria
## 0.03829787 0.02695035 0.00141844 0.03829787 0.00141844
## Taiwan Tajikistan Turkey Thailand Trinidad
## 0.00141844 0.00141844 0.03829787 0.00141844 0.00141844
## UAE UK Ukraine Uruguay USA
## 0.01134752 0.03120567 0.00141844 0.00141844 0.05673759
## Uzbekistan Vatican City Venezuela Vietnam Yemen
## 0.00141844 0.00141844 0.00141844 0.00141844 0.00141844
table(dt$Most_Used_Platform)
##
## Facebook Instagram KakaoTalk LINE LinkedIn Snapchat TikTok Twitter
## 123 249 12 12 21 13 154 30
## VKontakte WeChat WhatsApp YouTube
## 12 15 54 10
ggplot(dt, aes(x = Most_Used_Platform)) +
geom_bar(fill = "pink") +
geom_text(stat = "count", aes(label = ..count..),
position = position_stack(vjust = 0.5), color = "white", size = 3) +
labs(title = "Phân bố người dùng theo nền tảng mạng xã hội",
x = "Nền tảng mạng xã hội",
y = "Tần số") +
theme(axis.text.x = element_text(angle = 45, hjust = 1))
Instagram là nền tảng phổ biến nhất với 249 sinh viên sử dụng nhiều nhất, chiếm tỉ lệ lớn trong mẫu.
TikTok đứng thứ hai với 154 người dùng.
Facebook xếp thứ ba với 123 người dùng.
Các nền tảng khác như WhatsApp (54), Twitter (30), LinkedIn (21) và các nền tảng còn lại có số lượng người dùng khá thấp (dưới 20).
Một số nền tảng như KakaoTalk, LINE, VKontakte chỉ có 12 người dùng, rất ít so với các nền tảng chính.
prop.table(table(dt$Most_Used_Platform))
##
## Facebook Instagram KakaoTalk LINE LinkedIn Snapchat TikTok
## 0.17446809 0.35319149 0.01702128 0.01702128 0.02978723 0.01843972 0.21843972
## Twitter VKontakte WeChat WhatsApp YouTube
## 0.04255319 0.01702128 0.02127660 0.07659574 0.01418440
table(dt$Affects_Academic_Performance)
##
## No Yes
## 252 453
ggplot(dt, aes(x = Affects_Academic_Performance)) +
geom_bar(fill = "pink") +
geom_text(stat = "count", aes(label = ..count..),
position = position_stack(vjust = 0.5), color = "white", size = 5) +
labs(title = "Phân bố ảnh hưởng mạng xã hội đến kết quả học tập",
x = "Hiệu suất học tập",
y = "Tần số")
Số lượng sinh viên cảm nhận mạng xã hội ảnh hưởng tiêu cực đến kết quả học tập (Yes) chiếm đa số, khoảng 64% (453/705).
Số sinh viên không cảm nhận ảnh hưởng tiêu cực (No) chiếm khoảng 36%.
Điều này cho thấy phần lớn sinh viên tham gia khảo sát nhận thấy mạng xã hội ảnh hưởng đến học tập của họ.
prop.table(table(dt$Affects_Academic_Performance))
##
## No Yes
## 0.3574468 0.6425532
pie(prop.table(table(dt$Affects_Academic_Performance)),
labels = paste0(names(table(dt$Affects_Academic_Performance)), " (", round(prop.table(table(dt$Affects_Academic_Performance)) * 100, 2), "%)"),
main = "Tỷ lệ sinh viên bị ảnh hưởng học tập bởi mạng xã hội")
Phần lớn sinh viên (khoảng 64.3%) cho rằng việc sử dụng mạng xã hội có ảnh hưởng tiêu cực đến kết quả học tập của họ. Chỉ có khoảng 35.7% sinh viên không cảm thấy bị ảnh hưởng. Điều này cho thấy mạng xã hội là một yếu tố đáng quan tâm trong môi trường học tập của sinh viên.
table(dt$Relationship_Status)
##
## Complicated In Relationship Single
## 32 289 384
ggplot(dt, aes(x = Relationship_Status)) +
geom_bar(fill = "pink") +
geom_text(stat = "count", aes(label = ..count..),
position = position_stack(vjust = 0.5), color = "white", size = 5) +
labs(title = "Tình trạng quan hệ của sinh viên tham gia khảo sátp",
x = "Tình trạng",
y = "Tần số")
Phần lớn sinh viên tham gia khảo sát đang độc thân (384 người, chiếm hơn một nửa).
Số sinh viên đang trong mối quan hệ là 289 người, cũng chiếm tỷ lệ lớn.
Chỉ một nhóm nhỏ (32 người) cho biết tình trạng quan hệ phức tạp.
Điều này cho thấy phần lớn người trẻ trong độ tuổi 16–25 vẫn còn độc thân, và tình trạng “phức tạp” là tương đối ít phổ biến trong nhóm được khảo sát.
prop.table(table(dt$Relationship_Status))
##
## Complicated In Relationship Single
## 0.04539007 0.40992908 0.54468085
pie(prop.table(table(dt$Relationship_Status)),
labels = paste0(names(table(dt$Relationship_Status)), " (", round(prop.table(table(dt$Relationship_Status)) * 100, 2), "%)"),
main = "Tỷ lệ tình trạng quan hệ")
Phần lớn sinh viên tham gia khảo sát đang độc thân (chiếm hơn một nửa).
Khoảng 41% đang trong một mối quan hệ yêu đương.
Chỉ có 4.5% sinh viên cho rằng tình trạng quan hệ của họ là “phức tạp”, cho thấy đây là nhóm khá nhỏ.
prop.test(x = sum(dt$Relationship_Status == "Single"),
n = length(dt$Relationship_Status),
conf.level = 0.95)$conf.int
## [1] 0.5070671 0.5818010
## attr(,"conf.level")
## [1] 0.95
Với độ tin cậy 95%, ta ước lượng rằng tỷ lệ sinh viên độc thân trong tổng thể nằm trong khoảng từ 50.7% đến 58.2%.
Xét giả thuyết về tỷ lệ p của nhóm sinh viên độc thân.
Bài toán kiểm định:
\[H_0: p = 0.54\]
\[H_1: p \neq 0.54\]
prop.test(x = sum(dt$Relationship_Status == "Single"),
n = length(dt$Relationship_Status),
p = 0.54,
conf.level = 0.95)
##
## 1-sample proportions test with continuity correction
##
## data: sum(dt$Relationship_Status == "Single") out of length(dt$Relationship_Status), null probability 0.54
## X-squared = 0.044769, df = 1, p-value = 0.8324
## alternative hypothesis: true p is not equal to 0.54
## 95 percent confidence interval:
## 0.5070671 0.5818010
## sample estimates:
## p
## 0.5446809
Với mức ý nghĩa \(\alpha = 0.05\), ta có p-value = 0.8324 > 0.05, nên chưa đủ cơ sở bác bỏ giả thuyết \(H_0\). Kết luận rằng tỷ lệ sinh viên độc thân bằng 54%.
prop.test(x = sum(dt$Most_Used_Platform == "Facebook"),
n = length(dt$Most_Used_Platform),
conf.level = 0.95)$conf.int
## [1] 0.1475776 0.2049758
## attr(,"conf.level")
## [1] 0.95
Kết quả ước lượng khoảng tin cậy 95% cho tỷ lệ sinh viên sử dụng Facebook làm nền tảng mạng xã hội chính là \(\left[14.76\%;\ 20.50\%\right]\).
Xét giả thuyết về tỷ lệ p của nhóm sinh viên dùng Facebook.
Bài toán kiểm định:
\[H_0: p = 0.17\]
\[H_1: p \neq 0.17\]
prop.test(x = sum(dt$Most_Used_Platform == "Facebook"),
n = length(dt$Most_Used_Platform),
p = 0.17,
conf.level = 0.95)
##
## 1-sample proportions test with continuity correction
##
## data: sum(dt$Most_Used_Platform == "Facebook") out of length(dt$Most_Used_Platform), null probability 0.17
## X-squared = 0.070595, df = 1, p-value = 0.7905
## alternative hypothesis: true p is not equal to 0.17
## 95 percent confidence interval:
## 0.1475776 0.2049758
## sample estimates:
## p
## 0.1744681
Với mức ý nghĩa \(\alpha = 0.05\), ta có p-value = 0.7905 > 0.05, nên chưa đủ cơ sở bác bỏ giả thuyết \(H_0\). Kết luận rằng tỷ lệ sinh viên dùng Facebook bằng 17%.
prop.test(x = sum(dt$Academic_Level == "Undergraduate"),
n = length(dt$Academic_Level),
conf.level = 0.95)$conf.int
## [1] 0.4631919 0.5382187
## attr(,"conf.level")
## [1] 0.95
Kết quả ước lượng khoảng tin cậy 95% cho tỷ lệ sinh viên bậc đại học là \(\left[46.32\%;\ 53.82\%\right]\).
prop.test(x = sum(dt$Academic_Level == "Undergraduate"),
n = length(dt$Academic_Level),
p = 0.5,
conf.level = 0.95)
##
## 1-sample proportions test with continuity correction
##
## data: sum(dt$Academic_Level == "Undergraduate") out of length(dt$Academic_Level), null probability 0.5
## X-squared = 0, df = 1, p-value = 1
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
## 0.4631919 0.5382187
## sample estimates:
## p
## 0.5007092
Với mức ý nghĩa \(\alpha = 0.05\), ta có p-value = 1 > 0.05, nên chưa đủ cơ sở bác bỏ giả thuyết \(H_0\). Kết luận rằng tỷ lệ sinh viên bậc đại học bằng 50%.
addmargins(table(dt$Gender, dt$Affects_Academic_Performance ))
##
## No Yes Sum
## Female 122 231 353
## Male 130 222 352
## Sum 252 453 705
Có 122 nữ không chịu tác động tiêu cực bởi mạng xã hội đến việc học.
Có 130 nam không chịu tác động tiêu cực bởi mạng xã hội đến việc học.
Có 231 nữ chịu tác động tiêu cực bởi mạng xã hội đến việc học.
Có 222 nam chịu tác động tiêu cực bởi mạng xã hội đến việc học.
prop.table(table(dt$Gender, dt$Affects_Academic_Performance ))
##
## No Yes
## Female 0.1730496 0.3276596
## Male 0.1843972 0.3148936
ggplot(dt, aes(x = Affects_Academic_Performance, fill = Gender)) +
geom_bar(position = "dodge") +
labs(
title = "Ảnh hưởng đến học tập theo giới tính",
x = "Ảnh hưởng đến học tập",
y = "Số lượng sinh viên",
fill = "Giới tính"
) +
scale_fill_manual(values = c("pink", "tomato")) +
theme_minimal()
Phần lớn sinh viên đều cảm nhận rằng việc sử dụng mạng xã hội ảnh hưởng tiêu cực đến kết quả học tập, chiếm khoảng 64.3% (453 trên 705 sinh viên).
Ở nhóm nữ giới, tỷ lệ cảm thấy bị ảnh hưởng chiếm 32.8% trên tổng số mẫu (tương đương 231 sinh viên), cao hơn một chút so với nhóm nam là 31.5% (222 sinh viên).
Tỷ lệ nữ sinh cảm thấy không bị ảnh hưởng là khoảng 17.3%, trong khi nam là 18.4%, cho thấy sự khác biệt không lớn.
Biểu đồ cột nhóm minh họa rõ ràng sự tương đồng này khi hai nhóm giới tính có chiều cao cột gần tương đương nhau trong cả hai mức “Có ảnh hưởng” và “Không ảnh hưởng”.
Bài toán kiểm định:
\(H_0\): Gender và Affects_Academic_Performance độc lập nhau.
\(H_1\): Gender và Affects_Academic_Performance có liên quan đến nhau.
chisq.test(table(dt$Gender, dt$Affects_Academic_Performance ))
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: table(dt$Gender, dt$Affects_Academic_Performance)
## X-squared = 0.33431, df = 1, p-value = 0.5631
Giá trị thống kê X-squared = 0.33431 với bậc tự do df = 1.
Giá trị p-value = 0.5631 > 0.05. Chưa đủ cơ sở bác bỏ \(H_0\). Kết luận rằng Gender và Affects_Academic_Performance độc lập nhau.
Kiểm tra xem tỷ lệ sinh viên bị ảnh hưởng học tập do mạng xã hội ở nhóm Nam và nhóm Nữ có khác biệt đáng kể hay không.
Bài toán kiểm định:
\[H_0: p_1 = p_2\]
\[H_1: p_1 \neq p_2\]
prop.test(table(dt$Gender, dt$Affects_Academic_Performance))
##
## 2-sample test for equality of proportions with continuity correction
##
## data: table(dt$Gender, dt$Affects_Academic_Performance)
## X-squared = 0.33431, df = 1, p-value = 0.5631
## alternative hypothesis: two.sided
## 95 percent confidence interval:
## -0.09727873 0.04986049
## sample estimates:
## prop 1 prop 2
## 0.3456091 0.3693182
Giá trị thống kê kiểm định Chi bình phương là 0.33431 với bậc tự do 1.
Giá trị p-value là 0.5631, lớn hơn mức ý nghĩa 0.05, nên chưa đủ cơ sở bác bỏ \(H_0\).
Khoảng tin cậy 95% cho hiệu hai tỷ lệ là từ -0.0973 đến 0.0499, bao gồm giá trị 0, chứng tỏ không có sự khác biệt ý nghĩa giữa hai tỷ lệ.
Tỷ lệ sinh viên nữ bị ảnh hưởng bởi mạng xã hội đến học tập là khoảng 34.56% (prop 1), trong khi tỷ lệ của nam là khoảng 36.93% (prop 2).
library(epitools)
riskratio(table(dt$Gender, dt$Affects_Academic_Performance))
## $data
##
## No Yes Total
## Female 122 231 353
## Male 130 222 352
## Total 252 453 705
##
## $measure
## risk ratio with 95% C.I.
## estimate lower upper
## Female 1.0000000 NA NA
## Male 0.9637692 0.8632283 1.07602
##
## $p.value
## two-sided
## midp.exact fisher.exact chi.square
## Female NA NA NA
## Male 0.5126596 0.530117 0.511323
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"
Kết quả cho thấy tỷ số nguy cơ (Relative Risk) của nhóm Nam so với nhóm Nữ là 0.96 với khoảng tin cậy 95% từ 0.86 đến 1.08. Điều này nghĩa là, so với nữ sinh, nam sinh có khả năng cảm nhận việc mạng xã hội ảnh hưởng tiêu cực đến học tập thấp hơn khoảng 4%, nhưng khoảng tin cậy có chứa giá trị 1 (không có sự khác biệt).
Giá trị p (p-value) từ các phương pháp kiểm định (midp.exact, fisher.exact, chi.square) đều lớn hơn 0.5, cụ thể p ≈ 0.51, cho thấy không có bằng chứng thống kê để kết luận rằng tỷ lệ ảnh hưởng học tập do mạng xã hội khác nhau giữa nam và nữ.
Không có sự khác biệt đáng kể về nguy cơ bị ảnh hưởng học tập do mạng xã hội giữa hai giới tính.
oddsratio(table(dt$Gender, dt$Affects_Academic_Performance))
## $data
##
## No Yes Total
## Female 122 231 353
## Male 130 222 352
## Total 252 453 705
##
## $measure
## odds ratio with 95% C.I.
## estimate lower upper
## Female 1.0000000 NA NA
## Male 0.9021089 0.6623095 1.228053
##
## $p.value
## two-sided
## midp.exact fisher.exact chi.square
## Female NA NA NA
## Male 0.5126596 0.530117 0.511323
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "median-unbiased estimate & mid-p exact CI"
Tỷ số odds (odds ratio) của nam so với nữ về việc cảm nhận mạng xã hội ảnh hưởng đến học tập là khoảng 0.90 (với khoảng tin cậy 95% từ 0.66 đến 1.23).
Vì khoảng tin cậy này bao gồm giá trị 1, nghĩa là không có sự khác biệt có ý nghĩa thống kê về odds giữa nam và nữ.
Các giá trị p-value từ các phương pháp kiểm định khác nhau đều lớn hơn 0.05 (ví dụ: p = 0.51), củng cố kết luận trên.
Như vậy, tỷ lệ sinh viên nam và nữ bị ảnh hưởng đến học tập do mạng xã hội là tương đương, không có sự khác biệt đáng kể.
fisher.test(table(dt$Gender, dt$Affects_Academic_Performance))
##
## Fisher's Exact Test for Count Data
##
## data: table(dt$Gender, dt$Affects_Academic_Performance)
## p-value = 0.5301
## alternative hypothesis: true odds ratio is not equal to 1
## 95 percent confidence interval:
## 0.6547805 1.2421305
## sample estimates:
## odds ratio
## 0.9020311
Kết quả kiểm định Fisher cho thấy giá trị p = 0.5301, lớn hơn mức ý nghĩa 0.05, cho thấy không có bằng chứng thống kê để khẳng định sự khác biệt về tỷ lệ ảnh hưởng của mạng xã hội đến kết quả học tập giữa nam và nữ.
Khoảng tin cậy 95% của tỷ số Odds (OR) nằm trong khoảng từ 0.65 đến 1.24 và bao gồm giá trị 1, chứng tỏ không có sự khác biệt chắc chắn về mức độ ảnh hưởng giữa hai nhóm giới tính.
Giá trị ước lượng OR là 0.90, cho thấy nữ có khả năng bị ảnh hưởng đến học tập do mạng xã hội thấp hơn nam khoảng 10%, nhưng sự khác biệt này không có ý nghĩa thống kê.
Nghiên cứu phân tích dữ liệu khảo sát về ảnh hưởng của mạng xã hội đến sinh viên từ 16–25 tuổi với 705 quan sát.
Các biến định tính chính như giới tính, trình độ học vấn, nền tảng sử dụng mạng xã hội được xử lý dưới dạng phân loại để phân tích.
Kết quả kiểm định Fisher cho thấy không có khác biệt ý nghĩa thống kê về ảnh hưởng tiêu cực đến học tập giữa nam và nữ (p = 0.5301).
Odds Ratio ước lượng là 0.90, khoảng tin cậy 95% chứa 1, khẳng định sự tương đồng giữa hai nhóm giới tính.
Nghiên cứu dựa trên dữ liệu tự báo cáo, có thể có sai số do khách quan và chưa xác định được mối quan hệ nhân quả.
Cần nghiên cứu thêm các yếu tố khác như thời gian sử dụng mạng xã hội, giấc ngủ và sức khỏe tinh thần.
Đề xuất mở rộng mẫu và áp dụng các phương pháp phân tích đa biến để hiểu rõ hơn về tác động của mạng xã hội.