Bộ dữ liệu “Student Social Media & Relationships” chứa các bản ghi ẩn danh về hành vi mạng xã hội của sinh viên và các kết quả cuộc sống liên quan. Bộ dữ liệu này trải dài trên nhiều quốc gia và trình độ học vấn, tập trung vào các chiều chính như cường độ sử dụng, sở thích nền tảng và động lực mối quan hệ. Mỗi hàng đại diện cho một phản hồi khảo sát của sinh viên, cung cấp ảnh chụp nhanh theo chiều ngang phù hợp cho phân tích thống kê và các ứng dụng học máy.
Đối tượng: Học sinh trong độ tuổi từ 16 đến 25 đang theo học chương trình trung học, đại học hoặc sau đại học.
Địa lý: Phạm vi nhiều quốc gia (ví dụ: Bangladesh, Ấn Độ, Hoa Kỳ, Vương quốc Anh, Canada, Úc, Đức, Brazil, Nhật Bản, Hàn Quốc).
Khung thời gian: Dữ liệu được thu thập thông qua khảo sát trực tuyến một lần được thực hiện vào quý 1 năm 2025.
library(xlsx)
## Warning: package 'xlsx' was built under R version 4.3.3
library(dplyr)
## Warning: package 'dplyr' was built under R version 4.3.3
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
library(ggplot2)
library(gmodels)
## Warning: package 'gmodels' was built under R version 4.3.3
data <- read.xlsx(file = "C:/Users/PC_Dell/Downloads/Students_Social_Media_Addiction.xlsx", sheetIndex = 1, header = T)
str(data)
## 'data.frame': 705 obs. of 13 variables:
## $ Student_ID : num 1 2 3 4 5 6 7 8 9 10 ...
## $ Age : num 19 22 20 18 21 19 23 20 18 21 ...
## $ Gender : chr "Female" "Male" "Female" "Male" ...
## $ Academic_Level : chr "Undergraduate" "Graduate" "Undergraduate" "High School" ...
## $ Country : chr "Bangladesh" "India" "USA" "UK" ...
## $ Avg_Daily_Usage_Hours : num 5.2 2.1 6 3 4.5 7.2 1.5 5.8 4 3.3 ...
## $ Most_Used_Platform : chr "Instagram" "Twitter" "TikTok" "YouTube" ...
## $ Affects_Academic_Performance: chr "Yes" "No" "Yes" "No" ...
## $ Sleep_Hours_Per_Night : num 6.5 7.5 5 7 6 4.5 8 6 6.5 7 ...
## $ Mental_Health_Score : num 6 8 5 7 6 4 9 6 7 7 ...
## $ Relationship_Status : chr "In Relationship" "Single" "Complicated" "Single" ...
## $ Conflicts_Over_Social_Media : num 3 0 4 1 2 5 0 2 1 1 ...
## $ Addicted_Score : num 8 3 9 4 7 9 2 8 5 4 ...
| Tên biến | Kiểu dữ liệu | Giải thích |
|---|---|---|
| Student_ID | Integer (Số nguyên) | Mã số định danh duy nhất cho từng sinh viên tham gia khảo sát |
| Age | Integer (Số nguyên) | Tuổi của sinh viên (tính theo năm) |
| Gender | Categorical | Giới tính của sinh viên: Nam hoặc Nữ |
| Academic_Level | Categorical | Trình độ học vấn: Trung học, Đại học, Sau đại học |
| Country | Categorical | Quốc gia sinh sống của sinh viên |
| Avg_Daily_Usage_Hours | Float (Số thực) | Số giờ trung bình mỗi ngày sinh viên dành cho mạng xã hội |
| Most_Used_Platform | Categorical | Nền tảng mạng xã hội được sử dụng nhiều nhất: Instagram, Facebook, TikTok,… |
| Affects_Academic_Performance | Boolean (Yes/No) | Tự đánh giá xem mạng xã hội có ảnh hưởng đến việc học hay không |
| Sleep_Hours_Per_Night | Float (Số thực) | Số giờ ngủ trung bình mỗi đêm của sinh viên |
| Mental_Health_Score | Integer (1-10) | Mức độ sức khỏe tinh thần tự đánh giá (1 = kém, 10 = rất tốt) |
| Relationship_Status | Categorical | Tình trạng mối quan hệ: Độc thân, Đang yêu, Phức tạp |
| Conflicts_Over_Social_Media | Integer (Số nguyên) | Số lần mâu thuẫn trong mối quan hệ do mạng xã hội gây ra |
| Addicted_Score | Integer (1-10) | Điểm nghiện mạng xã hội (1 = không nghiện, 10 = rất nghiện) |
Mục tiêu phân loại
- Phân loại sức khỏe tinh thần theo 3 dạng (Mental_Health_Score) → “Kém”, “Bình thường”, “Tốt”
- Phân loại độ nghiện mạng xã hội theo 3 dạnh Addicted_Score → “Không nghiện”, “Bình thường”, “Nghiện nặng”
- Phân loại số giờ ngủ để đánh giá theo 2 dạng (Sleep_Hours_Per_Night) -> “thiếu ngủ” và “ngủ đủ”
- Số lần mâu thuẫn (Conflicts_Over_Social_Media) Nhóm mới (Conflict_Level)
4 “Rất nhiều”
- Số giờ dùng MXH mỗi ngày (Avg_Daily_Usage_Hours) Mức độ sử dụng (Usage_Level) - < 3 giờ “Thấp” - 3 đến dưới 5 giờ “Trung bình” - ≥ 5 giờ “Cao”
data$Mental_Health_Category <- cut(
data$Mental_Health_Score,
breaks = c(0, 3, 6, 10),
labels = c("Kem", "Bình thường", "Tốt"),
include.lowest = TRUE,
right = TRUE
)
# Phân loại Addicted_Score
data$Addiction_Level <- cut(
data$Addicted_Score,
breaks = c(0, 3, 6, 10),
labels = c("Không nghiện", "Bình thường", "Nghiện nặng"),
include.lowest = TRUE,
right = TRUE
)
# Phân loại giấc ngủ
data$Sleep_Quality <- ifelse(
data$Sleep_Hours_Per_Night > 6.5,
"Ngủ đủ",
"Thiếu ngủ"
)
# Chuyển đổi số lần mâu thuẫn sang biến định tính
data$Conflict_Level <- cut(data$Conflicts_Over_Social_Media,
breaks = c(-1, 0, 4, Inf),
labels = c("Khong", "Khá nhiều", "Rất nhiều"),
right = TRUE)
data$Usage_Level <- cut(data$Avg_Daily_Usage_Hours,
breaks = c(-Inf, 3, 5, Inf),
labels = c("Thấp", "Trung bình", "Cao"),
right = FALSE)
# Kiểm tra lại kết quả
table(data$Mental_Health_Category)
##
## Kem Bình thường Tốt
## 0 421 284
table(data$Addiction_Level)
##
## Không nghiện Bình thường Nghiện nặng
## 17 280 408
table(data$Sleep_Quality)
##
## Ngủ đủ Thiếu ngủ
## 429 276
table(data$Conflict_Level)
##
## Khong Khá nhiều Rất nhiều
## 4 686 15
table(data$Usage_Level)
##
## Thấp Trung bình Cao
## 43 354 308
# Kiểm tra số lượng NA trong mỗi cột định tính
na_counts <- sapply(data, function(x) sum(is.na(x)))
na_counts
## Student_ID Age
## 0 0
## Gender Academic_Level
## 0 0
## Country Avg_Daily_Usage_Hours
## 0 0
## Most_Used_Platform Affects_Academic_Performance
## 0 0
## Sleep_Hours_Per_Night Mental_Health_Score
## 0 0
## Relationship_Status Conflicts_Over_Social_Media
## 0 0
## Addicted_Score Mental_Health_Category
## 0 0
## Addiction_Level Sleep_Quality
## 0 0
## Conflict_Level Usage_Level
## 0 0
Nhận xét - Kết quả thu được cho thấy rằng tất cả các cột định tính đều không có giá trị thiếu (NA) vì số lượng NA trong các cột đều hiển thị là 0
# Chuyển các biến định tính sang factor
data$Age <- as.factor(data$Age)
data$Gender <- as.factor(data$Gender)
data$Academic_Level <- as.factor(data$Academic_Level)
data$Country <- as.factor(data$Country)
data$Most_Used_Platform <- as.factor(data$Most_Used_Platform)
data$Affects_Academic_Performance <- as.factor(data$Affects_Academic_Performance)
data$Sleep_Quality <- as.factor(data$Sleep_Quality)
data$Mental_Health_Category <- as.factor(data$Mental_Health_Category)
data$Addiction_Level <- as.factor(data$Addiction_Level)
data$Relationship_Status <- as.factor(data$Relationship_Status)
data$Conflict_Level <- as.factor(data$Conflict_Level)
Kiểm tra lại sau khi chuyển đổi
Giải thích:
sapply(data, class): Áp dụng hàm class() cho từng cột để kiểm tra kiểu dữ liệu. Kết quả trả về là một vector hiển thị tên cột và loại dữ liệu tương ứng.
Nếu kết quả là “factor” cho tất cả các cột → chuyển đổi thành công.
sapply(data, class)
## Student_ID Age
## "numeric" "factor"
## Gender Academic_Level
## "factor" "factor"
## Country Avg_Daily_Usage_Hours
## "factor" "numeric"
## Most_Used_Platform Affects_Academic_Performance
## "factor" "factor"
## Sleep_Hours_Per_Night Mental_Health_Score
## "numeric" "numeric"
## Relationship_Status Conflicts_Over_Social_Media
## "factor" "numeric"
## Addicted_Score Mental_Health_Category
## "numeric" "factor"
## Addiction_Level Sleep_Quality
## "factor" "factor"
## Conflict_Level Usage_Level
## "factor" "factor"
Nhận xét : Kết quả thu được toàn bộ các biến định tính đã được chuyển đổi thành dạng factor.
install.packages("ggplot2", repos = "https://cloud.r-project.org")
## Warning: package 'ggplot2' is in use and will not be installed
library(ggplot2)
tab_gender <- table(data$Gender)
tab_gender
##
## Female Male
## 353 352
table(data$Gender)/sum(nrow(data))
##
## Female Male
## 0.5007092 0.4992908
# Tạo dataframe từ bảng tần số
gender_freq <- as.data.frame(tab_gender)
colnames(gender_freq) <- c("Gender", "Frequency")
# Tính phần trăm
gender_freq$Percentage <- gender_freq$Frequency / sum(gender_freq$Frequency) * 100
# Tạo nhãn chỉ gồm phần trăm
gender_freq$Label <- paste0(round(gender_freq$Percentage, 1), "%")
# Vẽ biểu đồ tròn với nhãn chỉ phần trăm
ggplot(gender_freq, aes(x = "", y = Percentage, fill = Gender)) +
geom_col(width = 1, color = "white") +
coord_polar(theta = "y") +
theme_void() +
geom_text(aes(label = Label), position = position_stack(vjust = 0.5), size = 5) +
labs(title = "Phân bố giới tính của sinh viên") +
scale_fill_brewer(palette = "Pastel1")
Biểu đồ tròn thể hiện phân bố giới tính trong bộ dữ liệu sinh viên cho thấy tỷ lệ giữa nam và nữ là gần như tương đương:
Nữ chiếm 50.1% (353 người)
Nam chiếm 49.9% (352 người)
Sự chênh lệch giữa hai nhóm là không đáng kể (chỉ 1 người), điều này cho thấy bộ dữ liệu có cân bằng về giới tính, phù hợp để tiến hành các phân tích so sánh theo giới mà không lo thiên lệch mẫu.
Việc có sự phân phối giới tính đồng đều là một yếu tố quan trọng giúp tăng độ tin cậy khi kiểm định các giả thuyết liên quan đến giới, như:
So sánh mức độ nghiện mạng xã hội giữa nam và nữ
Mối quan hệ giữa giới tính và sức khỏe tinh thần
Tác động của mạng xã hội đến học tập theo giới
level_freq <- table(data$Academic_Level)
level_percent <- prop.table(level_freq) * 100
data.frame(Academic_Level = names(level_freq),
Frequency = as.numeric(level_freq),
Percentage = round(as.numeric(level_percent), 1))
## Academic_Level Frequency Percentage
## 1 Graduate 325 46.1
## 2 High School 27 3.8
## 3 Undergraduate 353 50.1
# Load thư viện
library(ggplot2)
library(RColorBrewer) # dùng cho palette màu
# Hàm tái sử dụng để xử lý và vẽ biểu đồ
plot_pie <- function(data, var, title) {
tab <- table(data[[var]])
df <- as.data.frame(tab)
colnames(df) <- c("Category", "Frequency")
df$Percentage <- df$Frequency / sum(df$Frequency) * 100
df$Label <- paste0(round(df$Percentage, 1), "%")
ggplot(df, aes(x = "", y = Percentage, fill = Category)) +
geom_col(width = 1, color = "white") +
coord_polar(theta = "y") +
theme_void() +
geom_text(aes(label = Label), position = position_stack(vjust = 0.5), size = 5) +
labs(title = title, fill = var) +
scale_fill_brewer(palette = "Pastel1")
}
plot_pie(data, "Academic_Level", "Phân bố trình độ học vấn của sinh viên")
affect_freq <- table(data$Affects_Academic_Performance)
affect_percent <- prop.table(affect_freq) * 100
data.frame(Affects = names(affect_freq),
Frequency = as.numeric(affect_freq),
Percentage = round(as.numeric(affect_percent), 1))
## Affects Frequency Percentage
## 1 No 252 35.7
## 2 Yes 453 64.3
plot_pie(data, "Affects_Academic_Performance", "Tác động của mạng xã hội đến học tập")
rel_freq <- table(data$Relationship_Status)
rel_percent <- prop.table(rel_freq) * 100
data.frame(Relationship_Status = names(rel_freq),
Frequency = as.numeric(rel_freq),
Percentage = round(as.numeric(rel_percent), 1))
## Relationship_Status Frequency Percentage
## 1 Complicated 32 4.5
## 2 In Relationship 289 41.0
## 3 Single 384 54.5
plot_pie(data, "Relationship_Status", "Phân bố tình trạng mối quan hệ")
mh_freq <- table(data$Mental_Health_Category)
mh_percent <- prop.table(mh_freq) * 100
data.frame(Mental_Health = names(mh_freq),
Frequency = as.numeric(mh_freq),
Percentage = round(as.numeric(mh_percent), 1))
## Mental_Health Frequency Percentage
## 1 Kem 0 0.0
## 2 Bình thường 421 59.7
## 3 Tốt 284 40.3
plot_pie(data, "Mental_Health_Category", "Phân loại sức khỏe tinh thần")
addict_freq <- table(data$Addiction_Level)
addict_percent <- prop.table(addict_freq) * 100
data.frame(Addiction_Level = names(addict_freq),
Frequency = as.numeric(addict_freq),
Percentage = round(as.numeric(addict_percent), 1))
## Addiction_Level Frequency Percentage
## 1 Không nghiện 17 2.4
## 2 Bình thường 280 39.7
## 3 Nghiện nặng 408 57.9
plot_pie(data, "Addiction_Level", "Mức độ nghiện mạng xã hội")
sleep_freq <- table(data$Sleep_Quality)
sleep_percent <- prop.table(sleep_freq) * 100
data.frame(Sleep_Quality = names(sleep_freq),
Frequency = as.numeric(sleep_freq),
Percentage = round(as.numeric(sleep_percent), 1))
## Sleep_Quality Frequency Percentage
## 1 Ngủ đủ 429 60.9
## 2 Thiếu ngủ 276 39.1
plot_pie(data, "Sleep_Quality", "Tình trạng giấc ngủ")
conflict_freq <- table(data$Conflict_Level)
conflict_percent <- prop.table(conflict_freq) * 100
data.frame(Conflict_Level = names(conflict_freq),
Frequency = as.numeric(conflict_freq),
Percentage = round(as.numeric(conflict_percent), 1))
## Conflict_Level Frequency Percentage
## 1 Khong 4 0.6
## 2 Khá nhiều 686 97.3
## 3 Rất nhiều 15 2.1
plot_pie(data, "Conflict_Level", "Số lần mâu thuẫn do mạng xã hội")
Việc hơn 90% sinh viên trải nghiệm mâu thuẫn ở mức độ nhất định chứng minh rằng tác động tiêu cực của mạng xã hội là phổ biến, có thể bắt nguồn từ việc hiểu lầm qua tin nhắn, đăng tải nội dung nhạy cảm, hay so sánh bản thân với người khác. Điều này nhấn mạnh sự cần thiết của các chương trình giáo dục truyền thông số, giúp sinh viên nâng cao năng lực ứng xử và kiểm soát hành vi khi sử dụng mạng xã hội trong môi trường học đường và xã hội.
platform_freq <- table(data$Most_Used_Platform)
platform_percent <- prop.table(platform_freq) * 100
data.frame(Platform = names(platform_freq),
Frequency = as.numeric(platform_freq),
Percentage = round(as.numeric(platform_percent), 1))
## Platform Frequency Percentage
## 1 Facebook 123 17.4
## 2 Instagram 249 35.3
## 3 KakaoTalk 12 1.7
## 4 LINE 12 1.7
## 5 LinkedIn 21 3.0
## 6 Snapchat 13 1.8
## 7 TikTok 154 21.8
## 8 Twitter 30 4.3
## 9 VKontakte 12 1.7
## 10 WeChat 15 2.1
## 11 WhatsApp 54 7.7
## 12 YouTube 10 1.4
# Tạo bảng tần số
platform_freq <- as.data.frame(table(data$Most_Used_Platform))
colnames(platform_freq) <- c("Platform", "Frequency")
# Vẽ biểu đồ cột
ggplot(platform_freq, aes(x = reorder(Platform, -Frequency), y = Frequency, fill = Platform)) +
geom_bar(stat = "identity") +
labs(title = "Nền tảng mạng xã hội được sử dụng phổ biến",
x = "Nền tảng", y = "Số lượng") +
theme_minimal() +
theme(axis.text.x = element_text(angle = 30, hjust = 1)) +
guides(fill = "none")
Biểu đồ cho thấy Instagram là nền tảng phổ biến nhất, với 35.3% sinh viên lựa chọn, theo sau là TikTok (21.8%) và Facebook (17.4%). Ba nền tảng này chiếm tổng cộng gần 75% mức sử dụng, cho thấy xu hướng ưu tiên các nền tảng có nội dung trực quan, video ngắn và khả năng tương tác mạnh trong giới sinh viên. Trong khi đó, các ứng dụng nhắn tin như KakaoTalk, LINE, và các nền tảng ít phổ biến hơn như VKontakte, WeChat chỉ chiếm từ 1.7%–2.1%, phản ánh tính chất sử dụng theo khu vực địa lý hoặc mục đích chuyên biệt.
Sự ưu thế của Instagram và TikTok là minh chứng rõ ràng cho việc giới trẻ hiện nay bị thu hút bởi nội dung giải trí nhanh, bắt mắt và có tính lan truyền cao, đồng thời cũng tiềm ẩn nguy cơ gây nghiện và phân tán sự chú ý. Ngoài ra, nền tảng chuyên nghiệp như LinkedIn chỉ chiếm 3.0%, cho thấy sinh viên chưa quan tâm nhiều đến phát triển hình ảnh nghề nghiệp trên mạng xã hội. Điều này gợi mở tiềm năng cho các trường đại học và nhà hoạch định chính sách giáo dục trong việc khuyến khích sinh viên sử dụng mạng xã hội một cách hiệu quả hơn, cân bằng giữa giải trí và phát triển bản thân.
# Thống kê tần số
table_usage <- table(data$Usage_Level)
table_usage
##
## Thấp Trung bình Cao
## 43 354 308
# Thống kê tỷ lệ phần trăm
prop.table(table_usage) * 100
##
## Thấp Trung bình Cao
## 6.099291 50.212766 43.687943
plot_pie(data, "Usage_Level", "Phân bố trình Mức độ sử dụng mạng xã hội mỗi ngày")
prop.test(x = sum(data$Gender == "Male"),
n = nrow(data),
p = 0.5, # Giả thuyết H0: p = 0.5
conf.level = 0.95)
##
## 1-sample proportions test with continuity correction
##
## data: sum(data$Gender == "Male") out of nrow(data), null probability 0.5
## X-squared = 0, df = 1, p-value = 1
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
## 0.4617813 0.5368081
## sample estimates:
## p
## 0.4992908
Giả thuyết:
Nhận xét:
Giá trị p-value = 1, lớn hơn mức ý nghĩa thường dùng (α = 0.05), do đó không có đủ bằng chứng để bác bỏ giả thuyết H₀.
Khoảng tin cậy 95% cho tỷ lệ sinh viên nam nằm trong khoảng [46.18%; 53.68%], bao gồm giá trị 50%.
Ước lượng điểm cho tỷ lệ sinh viên nam là 49.93%, gần sát với 50%.
Với mức ý nghĩa 5%, không có sự khác biệt có ý nghĩa thống kê giữa tỷ lệ sinh viên nam và mức chuẩn 50%. Điều này cho thấy phân bố giới tính trong mẫu khảo sát là tương đối cân bằng và phù hợp với giả định tỷ lệ 1:1 giữa nam và nữ.
prop.test(x = sum(data$Academic_Level == "Undergraduate"),
n = nrow(data),
p = 0.5, # Giả thuyết H0: p = 0.5
conf.level = 0.95)
##
## 1-sample proportions test with continuity correction
##
## data: sum(data$Academic_Level == "Undergraduate") out of nrow(data), null probability 0.5
## X-squared = 0, df = 1, p-value = 1
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
## 0.4631919 0.5382187
## sample estimates:
## p
## 0.5007092
Giả thuyết:
Nhận xét:
Kết quả kiểm định cho thấy tỷ lệ sinh viên trong mẫu thuộc bậc Undergraduate là khoảng 50.07%, không khác biệt có ý nghĩa thống kê so với tỷ lệ giả định là 50%. Khoảng tin cậy 95% bao gồm giá trị 0.5, và p-value bằng 1 khẳng định rằng không có bằng chứng thống kê để kết luận tỷ lệ sinh viên đại học trong mẫu khác 50%.
Vì vậy, ta không bác bỏ giả thuyết H₀, và có thể nói rằng tỷ lệ sinh viên đại học trong mẫu khảo sát là cân bằng, không thiên lệch so với mức trung bình giả định. Điều này cho thấy mẫu khảo sát được xây dựng có tính đại diện tốt về mặt trình độ học vấn nếu giả định tổng thể cũng cân bằng theo cách đó.
prop.test(x = sum(data$Sleep_Quality == "Thiếu ngủ"),
n = sum(!is.na(data$Sleep_Quality)),
p = 0.4,
conf.level = 0.95)
##
## 1-sample proportions test with continuity correction
##
## data: sum(data$Sleep_Quality == "Thiếu ngủ") out of sum(!is.na(data$Sleep_Quality)), null probability 0.4
## X-squared = 0.17878, df = 1, p-value = 0.6724
## alternative hypothesis: true p is not equal to 0.4
## 95 percent confidence interval:
## 0.355448 0.428730
## sample estimates:
## p
## 0.3914894
Giả thuyết:
Nhận xét:
Tỷ lệ ước lượng từ mẫu (p̂) = 39.15%
Khoảng tin cậy 95%: [35.55%; 42.87%]
p-value = 0.6724, lớn hơn α = 0.05
Không đủ bằng chứng để bác bỏ giả thuyết H₀: p = 0.4
Kết quả kiểm định cho thấy rằng tỷ lệ sinh viên bị thiếu ngủ trong mẫu khảo sát là khoảng 39.15%, và không khác biệt có ý nghĩa thống kê so với tỷ lệ giả định 40%. Khoảng tin cậy 95% của tỷ lệ thiếu ngủ từ 35.5% đến 42.9% có bao gồm giá trị 0.4, và giá trị p-value khá lớn (0.6724) cho thấy sự khác biệt giữa tỷ lệ thực tế và giả định là không đáng kể. Nhưng bản thân con số 2 trong 5 sinh viên thiếu ngủ vẫn là một dấu hiệu đáng lo ngại về sức khỏe và chất lượng cuộc sống sinh viên. Điều này gợi ý cho tôi về kiểm định mối liên hệ giữa thiếu ngủ và các biến định tính khác
# Kiểm định 1 phía: p > 0.5 cho nhóm "Nghiện nặng"
prop.test(
x = sum(data$Addiction_Level == "Nghiện nặng"),
n = sum(!is.na(data$Addiction_Level)),
p = 0.5,
alternative = "greater", # Kiểm định một phía: lớn hơn
conf.level = 0.95
)
##
## 1-sample proportions test with continuity correction
##
## data: sum(data$Addiction_Level == "Nghiện nặng") out of sum(!is.na(data$Addiction_Level)), null probability 0.5
## X-squared = 17.163, df = 1, p-value = 1.715e-05
## alternative hypothesis: true p is greater than 0.5
## 95 percent confidence interval:
## 0.547178 1.000000
## sample estimates:
## p
## 0.5787234
Giả thuyết:
Nhận xét:
Kết quả kiểm định cho thấy p-value rất nhỏ (< 0.001), nhỏ hơn nhiều so với mức ý nghĩa α = 0.05. Điều này có nghĩa: Bác bỏ H₀ –Có đủ bằng chứng thống kê để kết luận rằng tỷ lệ sinh viên nghiện nặng mạng xã hội lớn hơn 50%.
Với tỷ lệ ước lượng là 57.87% và khoảng tin cậy 95% từ 54.7% đến 100%, dữ liệu cho thấy vấn đề nghiện mạng xã hội đã vượt mức “trung bình” và có dấu hiệu trở thành một hiện tượng phổ biến đáng lo ngại trong cộng đồng sinh viên.
Phân tích thực trạng (gắn với bối cảnh xã hội)
n_conflict_all <- sum(data$Conflict_Level %in% c("Khá nhiều", "Rất nhiều"))
n_total <- sum(!is.na(data$Conflict_Level))
prop.test(x = n_conflict_all,
n = n_total,
p = 0.8,
alternative = "greater")
##
## 1-sample proportions test with continuity correction
##
## data: n_conflict_all out of n_total, null probability 0.8
## X-squared = 165.18, df = 1, p-value < 2.2e-16
## alternative hypothesis: true p is greater than 0.8
## 95 percent confidence interval:
## 0.9864567 1.0000000
## sample estimates:
## p
## 0.9943262
Giả thuyết kiểm định (1 phía):
H₀: p ≤ 0.8 (tỷ lệ mâu thuẫn ≤ 80%)
H₁: p > 0.8 (tỷ lệ mâu thuẫn > 80%)
Nhận xét: - p-value < 2.2e-16 (rất nhỏ → có ý nghĩa thống kê mạnh)
Khoảng tin cậy 95%: [0.9865; 1.0000]
Kết quả kiểm định cho thấy tỷ lệ sinh viên có mâu thuẫn do mạng xã hội ở mức “khá nhiều” trở lên là 99.43%, cao hơn đáng kể so với mức giả định thông thường là 80%. Với p-value < 0.05, ta bác bỏ giả thuyết H₀ và chấp nhận H₁, tức là có đủ bằng chứng để kết luận rằng:
Tìm hiểu xem liệu Thiếu ngủ có liên hệ với mức độ nghiện mạng xã hội không? (Nói cách khác: Liệu những người thiếu ngủ có nghiện mạng xã hội nhiều hơn không?)
# Bảng chéo giữa chất lượng giấc ngủ và mức độ nghiện
table_sleep_addict <- table(data$Sleep_Quality, data$Addiction_Level)
table_sleep_addict
##
## Không nghiện Bình thường Nghiện nặng
## Ngủ đủ 17 273 139
## Thiếu ngủ 0 7 269
library(ggplot2)
# Bảng tần số giữa Sleep_Quality và Addiction_Level
sleep_addict_tbl <- as.data.frame(table(data$Sleep_Quality, data$Addiction_Level))
colnames(sleep_addict_tbl) <- c("Sleep_Quality", "Addiction_Level", "Count")
ggplot(sleep_addict_tbl, aes(x = Sleep_Quality, y = Count, fill = Addiction_Level)) +
geom_col(position = "dodge", width = 0.7) +
labs(
title = "Mối liên hệ giữa chất lượng giấc ngủ và mức độ nghiện mạng xã hội",
x = "Chất lượng giấc ngủ",
y = "Số lượng sinh viên",
fill = "Mức độ nghiện"
) +
scale_fill_brewer(palette = "Pastel2") +
theme_minimal(base_size = 13)
Tỷ lệ nghiện nặng cao ở nhóm thiếu ngủ:
Trong nhóm thiếu ngủ, hầu hết sinh viên rơi vào nhóm nghiện mạng xã hội nặng.
Điều này cho thấy có thể tồn tại một mối liên hệ tiêu cực giữa thời gian sử dụng mạng xã hội và chất lượng giấc ngủ.
Nhóm ngủ đủ vẫn có người nghiện nặng:
Tỷ lệ không nghiện rất thấp ở cả hai nhóm:
- Tỷ lệ sinh viên không nghiện mạng xã hội là rất nhỏ trong cả hai nhóm chất lượng giấc ngủ, phản ánh thực trạng mạng xã hội đã len lỏi vào thói quen hàng ngày của phần lớn sinh viên.
-> Cần làm rõ liệu nghiện mạng xã hội có phải là nguyên nhân chính gây ra tình trạng thiếu ngủ, hay là hệ quả của những vấn đề tâm lý khác.
# Bảng tần số
table_sleep_addict <- table(data$Sleep_Quality, data$Addiction_Level)
table_sleep_addict
##
## Không nghiện Bình thường Nghiện nặng
## Ngủ đủ 17 273 139
## Thiếu ngủ 0 7 269
# Kiểm định Chi bình phương
chisq.test(table_sleep_addict)
##
## Pearson's Chi-squared test
##
## data: table_sleep_addict
## X-squared = 291.65, df = 2, p-value < 2.2e-16
Các giả thuyết
H₀ (Giả thuyết không): Chất lượng giấc ngủ và mức độ nghiện mạng xã hội không có mối liên hệ (độc lập).
H₁ (Giả thuyết đối): Chất lượng giấc ngủ và mức độ nghiện mạng xã hội có mối liên hệ (không độc lập).
Kết quả kiểm định:
Chi-squared = 291.65
bậc tự do (df) = 2
p-value < 2.2e-16
Nhận xét:
Với giá trị p-value rất nhỏ (nhỏ hơn 0.05), chúng ta bác bỏ giả thuyết H₀ tại mức ý nghĩa 5%. Điều này cho thấy có mối liên hệ có ý nghĩa thống kê giữa chất lượng giấc ngủ và mức độ nghiện mạng xã hội. 2 Biến có mối quan hệ phụ thuộc
Cụ thể, ta thấy rằng:
Trong nhóm thiếu ngủ, tỷ lệ nghiện nặng là rất cao (269/276 ≈ 97.5%), trong khi nhóm ngủ đủ có tỷ lệ này thấp hơn (139/429 ≈ 32.4%).
Không có trường hợp không nghiện nào trong nhóm thiếu ngủ, trong khi nhóm ngủ đủ lại có đến 17 sinh viên.
install.packages("epitools", repos = "https://cloud.r-project.org")
## Installing package into 'C:/Users/PC_Dell/AppData/Local/R/win-library/4.3'
## (as 'lib' is unspecified)
## package 'epitools' successfully unpacked and MD5 sums checked
##
## The downloaded binary packages are in
## C:\Users\PC_Dell\AppData\Local\Temp\Rtmpkbilto\downloaded_packages
library(epitools)
# Tạo bảng chéo
table_Sleep_Addict <- table(data$Sleep_Quality, data$Addiction_Level)
# RR
riskratio(table_Sleep_Addict)
## $data
##
## Không nghiện Bình thường Nghiện nặng Total
## Ngủ đủ 17 273 139 429
## Thiếu ngủ 0 7 269 276
## Total 17 280 408 705
##
## $measure
## risk ratio with 95% C.I.
## estimate lower upper
## Ngủ đủ 1.000000 NA NA
## Thiếu ngủ 1.062271 1.032196 1.093222
##
## $p.value
## two-sided
## midp.exact fisher.exact chi.square
## Ngủ đủ NA NA NA
## Thiếu ngủ 0.6590497 1.59906e-77 4.658076e-64
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"
Nhận xét - nhóm tham chiếu được chọn là Ngủ đủ - Kết quả RR = 1.062 -> Nhóm thiếu ngủ có nguy cơ nghiện mạng xã hội nặng cao hơn 6.2% so với nhóm ngủ đủ. NHƯNG KHÁC BIỆT KHÔNG QUÁ NHIỀU
Khoảng tin cậy 95%: từ 1.032 đến 1.093 → không chứa 1, nghĩa là kết quả có ý nghĩa thống kê.
Chi-square p-value = 4.66e-64 ⇒ Rất nhỏ ⇒ bác bỏ giả thuyết H₀
Nghĩa là có mối liên hệ có ý nghĩa giữa thiếu ngủ và nghiện mạng xã hội nặng
# Tạo biến Addiction_Binary: TRUE nếu là "Nghiện nặng", FALSE nếu không
data$Addict_Heavy <- data$Addiction_Level == "Nghiện nặng"
# Tạo bảng 2x2 giữa Chất lượng giấc ngủ và Nghiện nặng
table_sleep_addict_2x2 <- table(data$Sleep_Quality, data$Addict_Heavy)
# Hiệu chỉnh để tránh lỗi
table_corrected <- table_sleep_addict_2x2
# Tính Odds Ratio
library(epitools)
oddsratio(table_corrected)
## $data
##
## FALSE TRUE Total
## Ngủ đủ 290 139 429
## Thiếu ngủ 7 269 276
## Total 297 408 705
##
## $measure
## odds ratio with 95% C.I.
## estimate lower upper
## Ngủ đủ 1.00000 NA NA
## Thiếu ngủ 78.00783 38.52593 187.6693
##
## $p.value
## two-sided
## midp.exact fisher.exact chi.square
## Ngủ đủ NA NA NA
## Thiếu ngủ 0 2.742975e-78 2.215124e-65
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "median-unbiased estimate & mid-p exact CI"
Nhận xét - nhóm tham chiếu được chọn là Ngủ đủ
- Kết quả OR = 78.00783 cho ta thấy Sinh viên thiếu ngủ có nguy cơ nghiện mạng xã hội cao hơn 78 lần so với sinh viên ngủ đủ, với độ tin cậy 95% (CI: [38.5 ; 187.7]). p-value cực kỳ nhỏ (≈ 0) ⇒ Mối liên hệ này rất có ý nghĩa thống kê.