Bộ dữ liệu “Student Social Media & Relationships” chứa các bản ghi ẩn danh về hành vi mạng xã hội của sinh viên và các kết quả cuộc sống liên quan. Bộ dữ liệu này trải dài trên nhiều quốc gia và trình độ học vấn, tập trung vào các chiều chính như cường độ sử dụng, sở thích nền tảng và động lực mối quan hệ. Mỗi hàng đại diện cho một phản hồi khảo sát của sinh viên, cung cấp ảnh chụp nhanh theo chiều ngang phù hợp cho phân tích thống kê và các ứng dụng học máy.
Đối tượng: Học sinh trong độ tuổi từ 16 đến 25 đang theo học chương trình trung học, đại học hoặc sau đại học.
Địa lý: Phạm vi nhiều quốc gia (ví dụ: Bangladesh, Ấn Độ, Hoa Kỳ, Vương quốc Anh, Canada, Úc, Đức, Brazil, Nhật Bản, Hàn Quốc).
Khung thời gian: Dữ liệu được thu thập thông qua khảo sát trực tuyến một lần được thực hiện vào quý 1 năm 2025.
library(xlsx)
## Warning: package 'xlsx' was built under R version 4.3.3
library(dplyr)
## Warning: package 'dplyr' was built under R version 4.3.3
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
library(ggplot2)
library(gmodels)
## Warning: package 'gmodels' was built under R version 4.3.3
data <- read.xlsx(file = "C:/Users/PC_Dell/Downloads/Students_Social_Media_Addiction.xlsx", sheetIndex = 1, header = T)
str(data)
## 'data.frame': 705 obs. of 12 variables:
## $ Age : num 19 22 20 18 21 19 23 20 18 21 ...
## $ Gender : chr "Female" "Male" "Female" "Male" ...
## $ Academic_Level : chr "Undergraduate" "Graduate" "Undergraduate" "High School" ...
## $ Country : chr "Bangladesh" "India" "USA" "UK" ...
## $ Avg_Daily_Usage_Hours : num 5.2 2.1 6 3 4.5 7.2 1.5 5.8 4 3.3 ...
## $ Most_Used_Platform : chr "Instagram" "Twitter" "TikTok" "YouTube" ...
## $ Affects_Academic_Performance: chr "Yes" "No" "Yes" "No" ...
## $ Relationship_Status : chr "In Relationship" "Single" "Complicated" "Single" ...
## $ MENTAL_HEALTH : chr "GOOD" "GOOD" "BAD" "GOOD" ...
## $ SLEEP_LEVEL : chr "BAD" "GOOD" "BAD" "GOOD" ...
## $ CONFLIT_LEVEL : chr "Moderate conflict" "Low conflict" "High conflict" "Low conflict" ...
## $ ADDICTED_LEVEL : chr "Heavily addicted" "Moderately addicted" "Heavily addicted" "Moderately addicted" ...
Biến định lượng (Numeric Variables)
| Tên biến | Kiểu dữ liệu | Mô tả | Ví dụ |
|---|---|---|---|
Age |
numeric | Tuổi của người tham gia khảo sát | 18, 20, 21, 23 |
Avg_Daily_Usage_Hours |
numeric | Thời gian trung bình sử dụng mạng xã hội mỗi ngày | 2.1, 4.5, 5.8, 7.2 |
Biến định tính (Categorical Variables)
| Tên biến | Kiểu dữ liệu | Mô tả | Ví dụ giá trị |
|---|---|---|---|
Gender |
character | Giới tính của người tham gia | “Male”, “Female” |
Academic_Level |
character | Trình độ học vấn hiện tại | “Undergraduate”, “Graduate” |
Country |
character | Quốc gia cư trú | “USA”, “India”, “UK”, “Bangladesh” |
Most_Used_Platform |
character | Mạng xã hội được sử dụng nhiều nhất | “TikTok”, “Instagram”, “YouTube” |
Affects_Academic_Performance |
character | Mạng xã hội có ảnh hưởng đến học tập không | “Yes”, “No” |
Relationship_Status |
character | Tình trạng mối quan hệ hiện tại | “Single”, “In Relationship”, “Complicated” |
MENTAL_HEALTH |
character | Tình trạng sức khỏe tinh thần | “GOOD”, “BAD” |
SLEEP_LEVEL |
character | Chất lượng giấc ngủ | “GOOD”, “BAD” |
CONFLIT_LEVEL |
character | Mức độ mâu thuẫn do mạng xã hội gây ra | “Low conflict”, “Moderate conflict”, “High conflict” |
ADDICTED_LEVEL |
character | Mức độ nghiện mạng xã hội | “Not addicted”, “Moderately addicted”, “Heavily addicted” |
# Kiểm tra số lượng NA trong mỗi cột định tính
na_counts <- sapply(data, function(x) sum(is.na(x)))
na_counts
## Age Gender
## 0 0
## Academic_Level Country
## 0 0
## Avg_Daily_Usage_Hours Most_Used_Platform
## 0 0
## Affects_Academic_Performance Relationship_Status
## 0 0
## MENTAL_HEALTH SLEEP_LEVEL
## 0 0
## CONFLIT_LEVEL ADDICTED_LEVEL
## 0 0
Nhận xét - Kết quả thu được cho thấy rằng tất cả các cột định tính đều không có giá trị thiếu (NA) vì số lượng NA trong các cột đều hiển thị là 0
# Chuyển các biến định tính sang factor
data$Age <- as.factor(data$Age)
data$Gender <- as.factor(data$Gender)
data$Academic_Level <- as.factor(data$Academic_Level)
data$Country <- as.factor(data$Country)
data$Most_Used_Platform <- as.factor(data$Most_Used_Platform)
data$Affects_Academic_Performance <- as.factor(data$Affects_Academic_Performance)
data$SLEEP_LEVEL <- as.factor(data$SLEEP_LEVEL)
data$MENTAL_HEALTH <- as.factor(data$MENTAL_HEALTH)
data$ADDICTED_LEVEL <- as.factor(data$ADDICTED_LEVEL)
data$Relationship_Status <- as.factor(data$Relationship_Status)
data$CONFLIT_LEVEL <- as.factor(data$CONFLIT_LEVEL)
Kiểm tra lại sau khi chuyển đổi
Giải thích:
sapply(data, class): Áp dụng hàm class() cho từng cột để kiểm tra kiểu dữ liệu. Kết quả trả về là một vector hiển thị tên cột và loại dữ liệu tương ứng.
Nếu kết quả là “factor” cho tất cả các cột → chuyển đổi thành công.
sapply(data, class)
## Age Gender
## "factor" "factor"
## Academic_Level Country
## "factor" "factor"
## Avg_Daily_Usage_Hours Most_Used_Platform
## "numeric" "factor"
## Affects_Academic_Performance Relationship_Status
## "factor" "factor"
## MENTAL_HEALTH SLEEP_LEVEL
## "factor" "factor"
## CONFLIT_LEVEL ADDICTED_LEVEL
## "factor" "factor"
Nhận xét : Kết quả thu được toàn bộ các biến định tính đã được chuyển đổi thành dạng factor.
install.packages("ggplot2", repos = "https://cloud.r-project.org")
## Warning: package 'ggplot2' is in use and will not be installed
library(ggplot2)
tab_gender <- table(data$Gender)
tab_gender
##
## Female Male
## 353 352
table(data$Gender)/sum(nrow(data))
##
## Female Male
## 0.5007092 0.4992908
# Tạo dataframe từ bảng tần số
gender_freq <- as.data.frame(tab_gender)
colnames(gender_freq) <- c("Gender", "Frequency")
# Tính phần trăm
gender_freq$Percentage <- gender_freq$Frequency / sum(gender_freq$Frequency) * 100
# Tạo nhãn chỉ gồm phần trăm
gender_freq$Label <- paste0(round(gender_freq$Percentage, 1), "%")
# Vẽ biểu đồ tròn với nhãn chỉ phần trăm
ggplot(gender_freq, aes(x = "", y = Percentage, fill = Gender)) +
geom_col(width = 1, color = "white") +
coord_polar(theta = "y") +
theme_void() +
geom_text(aes(label = Label), position = position_stack(vjust = 0.5), size = 5) +
labs(title = "Phân bố giới tính của sinh viên") +
scale_fill_brewer(palette = "Pastel1")
Biểu đồ tròn thể hiện phân bố giới tính trong bộ dữ liệu sinh viên cho thấy tỷ lệ giữa nam và nữ là gần như tương đương:
Nữ chiếm 50.1% (353 người)
Nam chiếm 49.9% (352 người)
Sự chênh lệch giữa hai nhóm là không đáng kể (chỉ 1 người), điều này cho thấy bộ dữ liệu có cân bằng về giới tính, phù hợp để tiến hành các phân tích so sánh theo giới mà không lo thiên lệch mẫu.
Việc có sự phân phối giới tính đồng đều là một yếu tố quan trọng giúp tăng độ tin cậy khi kiểm định các giả thuyết liên quan đến giới, như:
So sánh mức độ nghiện mạng xã hội giữa nam và nữ
Mối quan hệ giữa giới tính và sức khỏe tinh thần
Tác động của mạng xã hội đến học tập theo giới
level_freq <- table(data$Academic_Level)
level_percent <- prop.table(level_freq) * 100
data.frame(Academic_Level = names(level_freq),
Frequency = as.numeric(level_freq),
Percentage = round(as.numeric(level_percent), 1))
## Academic_Level Frequency Percentage
## 1 Graduate 325 46.1
## 2 High School 27 3.8
## 3 Undergraduate 353 50.1
# Load thư viện
library(ggplot2)
library(RColorBrewer) # dùng cho palette màu
# Hàm tái sử dụng để xử lý và vẽ biểu đồ
plot_pie <- function(data, var, title) {
tab <- table(data[[var]])
df <- as.data.frame(tab)
colnames(df) <- c("Category", "Frequency")
df$Percentage <- df$Frequency / sum(df$Frequency) * 100
df$Label <- paste0(round(df$Percentage, 1), "%")
ggplot(df, aes(x = "", y = Percentage, fill = Category)) +
geom_col(width = 1, color = "white") +
coord_polar(theta = "y") +
theme_void() +
geom_text(aes(label = Label), position = position_stack(vjust = 0.5), size = 5) +
labs(title = title, fill = var) +
scale_fill_brewer(palette = "Pastel1")
}
plot_pie(data, "Academic_Level", "Phân bố trình độ học vấn của sinh viên")
affect_freq <- table(data$Affects_Academic_Performance)
affect_percent <- prop.table(affect_freq) * 100
data.frame(Affects = names(affect_freq),
Frequency = as.numeric(affect_freq),
Percentage = round(as.numeric(affect_percent), 1))
## Affects Frequency Percentage
## 1 No 252 35.7
## 2 Yes 453 64.3
plot_pie(data, "Affects_Academic_Performance", "Tác động của mạng xã hội đến học tập")
rel_freq <- table(data$Relationship_Status)
rel_percent <- prop.table(rel_freq) * 100
data.frame(Relationship_Status = names(rel_freq),
Frequency = as.numeric(rel_freq),
Percentage = round(as.numeric(rel_percent), 1))
## Relationship_Status Frequency Percentage
## 1 Complicated 32 4.5
## 2 In Relationship 289 41.0
## 3 Single 384 54.5
plot_pie(data, "Relationship_Status", "Phân bố tình trạng mối quan hệ")
mh_freq <- table(data$MENTAL_HEALTH)
mh_percent <- prop.table(mh_freq) * 100
data.frame(MENTAL_HEALTH = names(mh_freq),
Frequency = as.numeric(mh_freq),
Percentage = round(as.numeric(mh_percent), 1))
## MENTAL_HEALTH Frequency Percentage
## 1 BAD 202 28.7
## 2 GOOD 503 71.3
plot_pie(data, "MENTAL_HEALTH", "Phân loại sức khỏe tinh thần")
Biểu đồ cho thấy có 71.3% sinh viên có sức khỏe tinh thần tốt, trong khi 28.7% có sức khỏe tinh thần kém.
Mặc dù phần lớn sinh viên duy trì được trạng thái tinh thần tích cực, tỷ lệ 28.7% gặp vấn đề về sức khỏe tâm lý là một con số đáng lưu ý. Điều này phản ánh nhu cầu cần thiết về các chương trình hỗ trợ tâm lý trong môi trường giáo dục đại học, đặc biệt trong bối cảnh áp lực học tập và ảnh hưởng từ mạng xã hội ngày càng gia tăng.
addict_freq <- table(data$ADDICTED_LEVEL)
addict_percent <- prop.table(addict_freq) * 100
data.frame(ADDICTED_LEVEL = names(addict_freq),
Frequency = as.numeric(addict_freq),
Percentage = round(as.numeric(addict_percent), 1))
## ADDICTED_LEVEL Frequency Percentage
## 1 Heavily addicted 605 85.8
## 2 Moderately addicted 99 14.0
## 3 Not addicted 1 0.1
library(ggplot2)
library(dplyr)
# Tính tần suất
data %>%
count(ADDICTED_LEVEL) %>%
ggplot(aes(x = reorder(ADDICTED_LEVEL, -n), y = n, fill = ADDICTED_LEVEL)) +
geom_bar(stat = "identity", width = 0.6) +
geom_text(aes(label = paste0(round(n / sum(n) * 100, 1), "%")),
vjust = -0.5, size = 4) +
labs(title = "Mức độ nghiện mạng xã hội",
x = "Mức độ",
y = "Số lượng sinh viên") +
theme_minimal() +
theme(legend.position = "none")
Biểu đồ cho thấy phần lớn sinh viên trong mẫu khảo sát đang ở tình trạng nghiện mạng xã hội ở mức độ nặng, chiếm tới 85.8%. Trong khi đó, chỉ có khoảng 14% được xếp vào nhóm nghiện vừa phải, và chưa đến 1% (0.1%) là không nghiện (SỬ DỤNG MXH < 2 TIẾNG MỖI NGÀY).
Điều này cho thấy mức độ phụ thuộc vào mạng xã hội trong đời sống sinh viên là rất đáng lo ngại, khi gần như toàn bộ đối tượng đều đang sử dụng mạng xã hội ở mức độ có khả năng ảnh hưởng đến sức khỏe tâm thần, thể chất hoặc hiệu suất học tập.
sleep_freq <- table(data$SLEEP_LEVEL)
sleep_percent <- prop.table(sleep_freq) * 100
data.frame(SLEEP_LEVEL = names(sleep_freq),
Frequency = as.numeric(sleep_freq),
Percentage = round(as.numeric(sleep_percent), 1))
## SLEEP_LEVEL Frequency Percentage
## 1 BAD 276 39.1
## 2 GOOD 429 60.9
plot_pie(data, "SLEEP_LEVEL", "Tình trạng giấc ngủ")
Biểu đồ cho thấy:
60.9% sinh viên có giấc ngủ tốt (GOOD),
Trong khi 39.1% rơi vào nhóm ngủ kém (BAD).
Tỷ lệ sinh viên có giấc ngủ kém chiếm gần 2/5 tổng mẫu, cho thấy một thực trạng đáng lo ngại trong lối sống và sức khỏe của sinh viên. Việc thiếu ngủ kéo dài có thể liên quan đến giảm tập trung, rối loạn tâm lý và tăng nguy cơ nghiện mạng xã hội – điều đã được xác lập rõ ràng qua các nghiên cứu gần đây.
conflict_freq <- table(data$CONFLIT_LEVEL)
conflict_percent <- prop.table(conflict_freq) * 100
data.frame(CONFLIT_LEVEL = names(conflict_freq),
Frequency = as.numeric(conflict_freq),
Percentage = round(as.numeric(conflict_percent), 1))
## CONFLIT_LEVEL Frequency Percentage
## 1 High conflict 189 26.8
## 2 Low conflict 51 7.2
## 3 Moderate conflict 465 66.0
plot_pie(data, "CONFLIT_LEVEL", "Số lần mâu thuẫn do mạng xã hội")
Biểu đồ thể hiện mức độ xung đột do sử dụng mạng xã hội của sinh viên:
66% sinh viên gặp mâu thuẫn ở mức độ vừa phải (Moderate conflict).
26.8% trải qua xung đột nghiêm trọng (High conflict).
Chỉ 7.2% cho biết ít hoặc không gặp mâu thuẫn (Low conflict).
Tỷ lệ sinh viên gặp xung đột do mạng xã hội là rất cao (chiếm tới 92.8%), trong đó trên 1/4 rơi vào tình trạng nghiêm trọng. Điều này phản ánh một thực trạng đáng báo động về ảnh hưởng tiêu cực của mạng xã hội đến các mối quan hệ cá nhân. Việc sử dụng mạng xã hội thiếu kiểm soát có thể dẫn đến hiểu lầm, căng thẳng, và thậm chí rạn nứt trong giao tiếp.
platform_freq <- table(data$Most_Used_Platform)
platform_percent <- prop.table(platform_freq) * 100
data.frame(Platform = names(platform_freq),
Frequency = as.numeric(platform_freq),
Percentage = round(as.numeric(platform_percent), 1))
## Platform Frequency Percentage
## 1 Facebook 123 17.4
## 2 Instagram 249 35.3
## 3 KakaoTalk 12 1.7
## 4 LINE 12 1.7
## 5 LinkedIn 21 3.0
## 6 Snapchat 13 1.8
## 7 TikTok 154 21.8
## 8 Twitter 30 4.3
## 9 VKontakte 12 1.7
## 10 WeChat 15 2.1
## 11 WhatsApp 54 7.7
## 12 YouTube 10 1.4
# Tạo bảng tần số
platform_freq <- as.data.frame(table(data$Most_Used_Platform))
colnames(platform_freq) <- c("Platform", "Frequency")
# Vẽ biểu đồ cột
ggplot(platform_freq, aes(x = reorder(Platform, -Frequency), y = Frequency, fill = Platform)) +
geom_bar(stat = "identity") +
labs(title = "Nền tảng mạng xã hội được sử dụng phổ biến",
x = "Nền tảng", y = "Số lượng") +
theme_minimal() +
theme(axis.text.x = element_text(angle = 30, hjust = 1)) +
guides(fill = "none")
Biểu đồ cho thấy Instagram là nền tảng phổ biến nhất, với 35.3% sinh viên lựa chọn, theo sau là TikTok (21.8%) và Facebook (17.4%). Ba nền tảng này chiếm tổng cộng gần 75% mức sử dụng, cho thấy xu hướng ưu tiên các nền tảng có nội dung trực quan, video ngắn và khả năng tương tác mạnh trong giới sinh viên. Trong khi đó, các ứng dụng nhắn tin như KakaoTalk, LINE, và các nền tảng ít phổ biến hơn như VKontakte, WeChat chỉ chiếm từ 1.7%–2.1%, phản ánh tính chất sử dụng theo khu vực địa lý hoặc mục đích chuyên biệt.
Sự ưu thế của Instagram và TikTok là minh chứng rõ ràng cho việc giới trẻ hiện nay bị thu hút bởi nội dung giải trí nhanh, bắt mắt và có tính lan truyền cao, đồng thời cũng tiềm ẩn nguy cơ gây nghiện và phân tán sự chú ý. Ngoài ra, nền tảng chuyên nghiệp như LinkedIn chỉ chiếm 3.0%, cho thấy sinh viên chưa quan tâm nhiều đến phát triển hình ảnh nghề nghiệp trên mạng xã hội. Điều này gợi mở tiềm năng cho các trường đại học và nhà hoạch định chính sách giáo dục trong việc khuyến khích sinh viên sử dụng mạng xã hội một cách hiệu quả hơn, cân bằng giữa giải trí và phát triển bản thân.
prop.test(x = sum(data$Gender == "Male"),
n = nrow(data),
p = 0.5, # Giả thuyết H0: p = 0.5
conf.level = 0.95)
##
## 1-sample proportions test with continuity correction
##
## data: sum(data$Gender == "Male") out of nrow(data), null probability 0.5
## X-squared = 0, df = 1, p-value = 1
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
## 0.4617813 0.5368081
## sample estimates:
## p
## 0.4992908
Giả thuyết:
Nhận xét:
Giá trị p-value = 1, lớn hơn mức ý nghĩa thường dùng (α = 0.05), do đó không có đủ bằng chứng để bác bỏ giả thuyết H₀.
Khoảng tin cậy 95% cho tỷ lệ sinh viên nam nằm trong khoảng [46.18%; 53.68%], bao gồm giá trị 50%.
Ước lượng điểm cho tỷ lệ sinh viên nam là 49.93%, gần sát với 50%.
Với mức ý nghĩa 5%, không có sự khác biệt có ý nghĩa thống kê giữa tỷ lệ sinh viên nam và mức chuẩn 50%. Điều này cho thấy phân bố giới tính trong mẫu khảo sát là tương đối cân bằng và phù hợp với giả định tỷ lệ 1:1 giữa nam và nữ.
prop.test(x = sum(data$Academic_Level == "Undergraduate"),
n = nrow(data),
p = 0.5, # Giả thuyết H0: p = 0.5
conf.level = 0.95)
##
## 1-sample proportions test with continuity correction
##
## data: sum(data$Academic_Level == "Undergraduate") out of nrow(data), null probability 0.5
## X-squared = 0, df = 1, p-value = 1
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
## 0.4631919 0.5382187
## sample estimates:
## p
## 0.5007092
Giả thuyết:
Nhận xét:
Kết quả kiểm định cho thấy tỷ lệ sinh viên trong mẫu thuộc bậc Undergraduate là khoảng 50.07%, không khác biệt có ý nghĩa thống kê so với tỷ lệ giả định là 50%. Khoảng tin cậy 95% bao gồm giá trị 0.5, và p-value bằng 1 khẳng định rằng không có bằng chứng thống kê để kết luận tỷ lệ sinh viên đại học trong mẫu khác 50%.
Vì vậy, ta không bác bỏ giả thuyết H₀, và có thể nói rằng tỷ lệ sinh viên đại học trong mẫu khảo sát là cân bằng, không thiên lệch so với mức trung bình giả định. Điều này cho thấy mẫu khảo sát được xây dựng có tính đại diện tốt về mặt trình độ học vấn nếu giả định tổng thể cũng cân bằng theo cách đó.
Tìm hiểu xem liệu Thiếu ngủ có liên hệ với mức độ nghiện mạng xã hội không? (Nói cách khác: Liệu những người thiếu ngủ có nghiện mạng xã hội nhiều hơn không?)
# Bảng chéo giữa chất lượng giấc ngủ và mức độ nghiện
table_sleep_addict <- table(data$SLEEP_LEVEL, data$ADDICTED_LEVEL)
table_sleep_addict
##
## Heavily addicted Moderately addicted Not addicted
## BAD 276 0 0
## GOOD 329 99 1
prop.table(table_sleep_addict, margin = 1)
##
## Heavily addicted Moderately addicted Not addicted
## BAD 1.000000000 0.000000000 0.000000000
## GOOD 0.766899767 0.230769231 0.002331002
# Tạo bảng tần suất
table_sleep_addict <- table(data$SLEEP_LEVEL, data$ADDICTED_LEVEL)
df_plot <- as.data.frame(table_sleep_addict)
colnames(df_plot) <- c("Sleep_Level", "Addiction_Level", "Count")
# Trực quan hóa nâng cấp
ggplot(df_plot, aes(x = Sleep_Level, y = Count, fill = Addiction_Level)) +
geom_col(position = position_dodge(width = 0.7), width = 0.6) +
geom_text(
aes(label = Count),
position = position_dodge(width = 0.7),
vjust = -0.4, size = 4
) +
labs(
title = "Mối liên hệ giữa chất lượng giấc ngủ và mức độ nghiện mạng xã hội",
subtitle = "Hiển thị số lượng sinh viên theo từng nhóm",
x = "Chất lượng giấc ngủ",
y = "Số lượng sinh viên",
fill = "Mức độ nghiện"
) +
theme_minimal(base_size = 13) +
scale_fill_manual(
values = c("Not addicted" = "#A8DADC",
"Moderately addicted" = "#F4A261",
"Heavily addicted" = "#E76F51")
)
Trong nhóm thiếu ngủ (BAD sleep), có đến 276 sinh viên nghiện nặng, trong khi không có sinh viên nào không nghiện → cho thấy tình trạng thiếu ngủ có liên quan mạnh đến nghiện mạng xã hội.
Ngược lại, trong nhóm ngủ đủ (GOOD sleep), số lượng sinh viên nghiện nặng vẫn cao (329) nhưng đã xuất hiện sinh viên không nghiện (1 người) và nghiện vừa (99 người) → cho thấy giấc ngủ tốt có thể liên quan đến mức độ nghiện thấp hơn.
- Tỷ lệ sinh viên không nghiện mạng xã hội là rất nhỏ trong cả hai nhóm chất lượng giấc ngủ, phản ánh thực trạng mạng xã hội đã len lỏi vào thói quen hàng ngày của phần lớn sinh viên.
-> Cần làm rõ liệu nghiện mạng xã hội có phải là nguyên nhân chính gây ra tình trạng thiếu ngủ, hay là hệ quả của những vấn đề tâm lý khác.
# Bảng tần số
table_sleep_addict <- table(data$SLEEP_LEVEL, data$ADDICTED_LEVEL)
table_sleep_addict
##
## Heavily addicted Moderately addicted Not addicted
## BAD 276 0 0
## GOOD 329 99 1
# Kiểm định Chi bình phương
chisq.test(table_sleep_addict)
## Warning in chisq.test(table_sleep_addict): Chi-squared approximation may be
## incorrect
##
## Pearson's Chi-squared test
##
## data: table_sleep_addict
## X-squared = 74.97, df = 2, p-value < 2.2e-16
Các giả thuyết
H₀ (Giả thuyết không): Không có mối liên hệ giữa chất lượng giấc ngủ và mức độ nghiện mạng xã hội. (Hai biến độc lập nhau.)
H₁ (Giả thuyết đối):Có mối liên hệ giữa chất lượng giấc ngủ và mức độ nghiện mạng xã hội. (Hai biến phụ thuộc nhau.)
Kết quả kiểm định:
Nhận xét:
Mức độ nghiện mạng xã hội có sự khác biệt đáng kể giữa các nhóm chất lượng giấc ngủ (ngủ đủ vs thiếu ngủ).
Với giá trị p-value rất nhỏ (nhỏ hơn 0.05), chúng ta bác bỏ giả thuyết H₀ tại mức ý nghĩa 5%. Điều này cho thấy có mối liên hệ có ý nghĩa thống kê giữa chất lượng giấc ngủ và mức độ nghiện mạng xã hội. 2 Biến có mối quan hệ phụ thuộc
Nhằm phân tích mối quan hệ giữa các biến, chúng ta sử dụng chỉ số Relative Risk (RR) để đo lường mức độ rủi ro hoặc khả năng xảy ra của một sự kiện.
install.packages("epitools", repos = "https://cloud.r-project.org")
## Installing package into 'C:/Users/PC_Dell/AppData/Local/R/win-library/4.3'
## (as 'lib' is unspecified)
## package 'epitools' successfully unpacked and MD5 sums checked
##
## The downloaded binary packages are in
## C:\Users\PC_Dell\AppData\Local\Temp\RtmpwbUzku\downloaded_packages
library(epitools)
# Gộp nhóm: Heavily addicted vs. Others
data$Addiction_Group <- ifelse(data$ADDICTED_LEVEL == "Heavily addicted",
"Heavily addicted",
"Not heavily addicted")
# Tạo bảng chéo với Sleep
table_addict_sleep <- table(data$Addiction_Group, data$SLEEP_LEVEL)
# Kiểm tra bảng
print(table_addict_sleep)
##
## BAD GOOD
## Heavily addicted 276 329
## Not heavily addicted 0 100
library(epitools)
riskratio(table_addict_sleep)
## $data
##
## BAD GOOD Total
## Heavily addicted 276 329 605
## Not heavily addicted 0 100 100
## Total 276 429 705
##
## $measure
## risk ratio with 95% C.I.
## estimate lower upper
## Heavily addicted 1.000000 NA NA
## Not heavily addicted 1.838906 1.709476 1.978135
##
## $p.value
## two-sided
## midp.exact fisher.exact chi.square
## Heavily addicted NA NA NA
## Not heavily addicted 0 1.705096e-24 4.780039e-18
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"
Risk Ratio (RR) là tỷ số giữa nguy cơ xảy ra một hiện tượng (như “ngủ đủ”) ở nhóm phơi nhiễm và nhóm không phơi nhiễm.
Công thức tổng quát:
\[ RR = \frac{\text{Tỷ lệ sự kiện ở nhóm không nghiện nặng}}{\text{Tỷ lệ sự kiện ở nhóm nghiện nặng}} \]
Trong trường hợp này, “sự kiện” là ngủ đủ (GOOD).
\[ = \frac{\text{100}}{\text{100}} = 1 \]
\[ = \frac{\text{329}}{\text{605}} = 0.5438 \]
\[ RR = \frac{\text{1}}{\text{0.5438}} \]
Số liệu cụ thể trong bảng
| Addiction.Level | BAD..Thiếu.ngủ. | GOOD..Ngủ.đủ. | Total |
|---|---|---|---|
| Heavily addicted | 276 | 329 | 605 |
| Not heavily addicted | 0 | 100 | 100 |
Nhận xét
nhóm tham chiếu được chọn là NHÓM NGHIÊN NẶNG
P-value cực kỳ nhỏ → loại bỏ giả thuyết H₀, cho thấy mối liên hệ giữa giấc ngủ và nghiện mạng xã hội là có ý nghĩa thống kê.
Nhóm “Not heavily addicted” có tỷ lệ có giấc ngủ tốt cao hơn 1.84 lần so với nhóm “Heavily addicted”.
-> Kết quả cho thấy sinh viên không nghiện mạng xã hội nặng có khả năng ngủ đủ cao hơn gần 2 lần so với sinh viên nghiện nặng. Điều này củng cố bằng chứng thống kê rằng nghiện mạng xã hội là một yếu tố rủi ro tiêu cực đối với chất lượng giấc ngủ. Do đó, việc giảm mức độ nghiện mạng xã hội có thể đóng vai trò quan trọng trong cải thiện sức khỏe giấc ngủ và chất lượng sống của sinh viên.
# Gộp nhóm: Heavily addicted vs. Others
data$Addiction_Group <- ifelse(data$ADDICTED_LEVEL == "Heavily addicted",
"Heavily addicted",
"Not heavily addicted")
# Tạo bảng chéo với Sleep
table_addict_sleep <- table(data$Addiction_Group, data$SLEEP_LEVEL)
# Kiểm tra bảng
print(table_addict_sleep)
##
## BAD GOOD
## Heavily addicted 276 329
## Not heavily addicted 0 100
library(epitools)
# Thêm 0.5 để tránh chia cho 0
library(epitools)
oddsratio(table_addict_sleep + 0.5, method = "wald")
## Warning in fisher.test(xx): 'x' has been rounded to integer: Mean relative
## difference: 0.002828854
## Warning in fisher.test(x, or = or, alternative = "l"): 'x' has been rounded to
## integer: Mean relative difference: 0.002828854
## Warning in fisher.test(x, or = or, alternative = "g"): 'x' has been rounded to
## integer: Mean relative difference: 0.002828854
## $data
##
## BAD GOOD Total
## Heavily addicted 276.5 329.5 606
## Not heavily addicted 0.5 100.5 101
## Total 277.0 430.0 707
##
## $measure
## odds ratio with 95% C.I.
## estimate lower upper
## Heavily addicted 1.0000 NA NA
## Not heavily addicted 168.6692 10.42963 2727.737
##
## $p.value
## two-sided
## midp.exact fisher.exact chi.square
## Heavily addicted NA NA NA
## Not heavily addicted 0 1.86261e-24 7.809761e-18
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"
LƯU Ý
vì trong bảng có giá trị = 0 nên ta + thêm 0.5. Kỹ thuật này gọi là continuity correction hoặc Haldane-Anscombe correction được dùng khi bảng có chứa số 0, nhằm tránh lỗi chia cho 0 hoặc log(0) khi tính toán odds ratio (OR) và khoảng tin cậy. Việc cộng thêm 0.5 vào mỗi ô giúp ước lượng ổn định hơn trong các bảng nhỏ hoặc mất cân đối.
method = “wald”
Chỉ định phương pháp tính khoảng tin cậy (CI) cho Odds Ratio:
“wald”: sử dụng ước lượng Wald dựa trên phân phối chuẩn. Đây là cách phổ biến, đơn giản và cho kết quả gần đúng nhanh.
GIẢI THÍCH CÁCH TÍNH OR
\[ OR = \frac{\text{odds của heavily addicted}}{\text{odds của Not heavily addicted}} = \frac{\text{0.839}}{\text{0.00498}} = 168.67 \]
Nhận xét - nhóm tham chiếu được chọn là nghiện nặng
Dựa trên kết quả phân tích Odds Ratio (OR), với độ tin cậy 95% . p-value cực kỳ nhỏ (≈ 0) ⇒ bác bỏ giả thuyết H₀, tồn tại Mối liên hệ có ý nghĩa thống kê
Hệ số rất lớn (OR = 168) cho ta thấy Nhóm “Not heavily addicted” (không nghiện nặng) có khả năng có giấc ngủ tốt cao hơn khoảng 169 lần so với nhóm “Heavily addicted”.
- Kết quả cho thấy sinh viên không nghiện mạng xã hội nặng có khả năng ngủ đủ cao hơn đáng kể so với những sinh viên nghiện nặng. Điều này củng cố lập luận rằng việc nghiện mạng xã hội có thể là yếu tố nguy cơ quan trọng gây ra thiếu ngủ. Hướng nghiên cứu này gợi ý về mối liên hệ nhân quả có thể có giữa hành vi sử dụng mạng xã hội và chất lượng giấc ngủ, và đặt nền tảng cho các chương trình can thiệp nhằm giảm mức độ sử dụng mạng xã hội để cải thiện sức khỏe giấc ngủ.