Bộ dữ liệu “Student Social Media & Relationships” chứa các bản ghi ẩn danh về hành vi mạng xã hội của sinh viên và các kết quả cuộc sống liên quan. Bộ dữ liệu này trải dài trên nhiều quốc gia và trình độ học vấn, tập trung vào các chiều chính như cường độ sử dụng, sở thích nền tảng và động lực mối quan hệ. Mỗi hàng đại diện cho một phản hồi khảo sát của sinh viên, cung cấp ảnh chụp nhanh theo chiều ngang phù hợp cho phân tích thống kê và các ứng dụng học máy.
Đối tượng: Học sinh trong độ tuổi từ 16 đến 25 đang theo học chương trình trung học, đại học hoặc sau đại học.
Địa lý: Phạm vi nhiều quốc gia (ví dụ: Bangladesh, Ấn Độ, Hoa Kỳ, Vương quốc Anh, Canada, Úc, Đức, Brazil, Nhật Bản, Hàn Quốc).
Khung thời gian: Dữ liệu được thu thập thông qua khảo sát trực tuyến một lần được thực hiện vào quý 1 năm 2025.
library(xlsx)
## Warning: package 'xlsx' was built under R version 4.3.3
library(dplyr)
## Warning: package 'dplyr' was built under R version 4.3.3
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
library(ggplot2)
## Warning: package 'ggplot2' was built under R version 4.3.3
library(gmodels)
## Warning: package 'gmodels' was built under R version 4.3.3
data <- read.xlsx(file =file.choose(), sheetIndex = 1, header = T)
str(data)
## 'data.frame': 506 obs. of 13 variables:
## $ Student_ID : num 1 2 3 4 5 6 7 8 9 10 ...
## $ Age : num 19 22 20 18 21 19 23 20 18 21 ...
## $ Gender : chr "Female" "Male" "Female" "Male" ...
## $ Academic_Level : chr "Undergraduate" "Graduate" "Undergraduate" "High School" ...
## $ Country : chr "USA" "USA" "USA" "Maldives" ...
## $ Avg_Daily_Usage_Hours : num 8.5 8.4 8.3 4.5 8.2 6.4 8.1 4.6 8 6.3 ...
## $ Most_Used_Platform : chr "Instagram" "TikTok" "Instagram" "TikTok" ...
## $ Affects_Academic_Performance: chr "Yes" "Yes" "Yes" "Yes" ...
## $ Sleep_Hours_Per_Night : num 3.8 3.9 4 4.1 4.1 4.2 4.2 4.3 4.3 4.4 ...
## $ Mental_Health_Score : num 5 5 5 6 5 6 5 6 5 6 ...
## $ Relationship_Status : chr "In Relationship" "In Relationship" "In Relationship" "In Relationship" ...
## $ Conflicts_Over_Social_Media : num 4 4 4 4 4 4 4 4 4 4 ...
## $ Addicted_Score : num 9 9 9 8 9 8 9 8 9 8 ...
| Tên biến | Kiểu dữ liệu | Giải thích |
|---|---|---|
| Student_ID | Integer (Số nguyên) | Mã số định danh duy nhất cho từng sinh viên tham gia khảo sát |
| Age | Integer (Số nguyên) | Tuổi của sinh viên (tính theo năm) |
| Gender | Categorical | Giới tính của sinh viên: Nam hoặc Nữ |
| Academic_Level | Categorical | Trình độ học vấn: Trung học, Đại học, Sau đại học |
| Country | Categorical | Quốc gia sinh sống của sinh viên |
| Avg_Daily_Usage_Hours | Float (Số thực) | Số giờ trung bình mỗi ngày sinh viên dành cho mạng xã hội |
| Most_Used_Platform | Categorical | Nền tảng mạng xã hội được sử dụng nhiều nhất: Instagram, Facebook, TikTok,… |
| Affects_Academic_Performance | Boolean (Yes/No) | Tự đánh giá xem mạng xã hội có ảnh hưởng đến việc học hay không |
| Sleep_Hours_Per_Night | Float (Số thực) | Số giờ ngủ trung bình mỗi đêm của sinh viên |
| Mental_Health_Score | Integer (1-10) | Mức độ sức khỏe tinh thần tự đánh giá (1 = kém, 10 = rất tốt) |
| Relationship_Status | Categorical | Tình trạng mối quan hệ: Độc thân, Đang yêu, Phức tạp |
| Conflicts_Over_Social_Media | Integer (Số nguyên) | Số lần mâu thuẫn trong mối quan hệ do mạng xã hội gây ra |
| Addicted_Score | Integer (1-10) | Điểm nghiện mạng xã hội (1 = không nghiện, 10 = rất nghiện) |
Mục tiêu phân loại
- Phân loại sức khỏe tinh thần theo 3 dạng (Mental_Health_Score) → “Kém”, “Bình thường”, “Tốt”
- Phân loại độ nghiện mạng xã hội theo 3 dạnh Addicted_Score → “Không nghiện”, “Bình thường”, “Nghiện nặng”
- Phân loại số giờ ngủ để đánh giá theo 2 dạng (Sleep_Hours_Per_Night) -> “thiếu ngủ” và “ngủ đủ”
- Số lần mâu thuẫn (Conflicts_Over_Social_Media) Nhóm mới (Conflict_Level)
= 0 “Không”
1 đến 4 “Khá nhiều”
4 “Rất nhiều”
- Số giờ dùng MXH mỗi ngày (Avg_Daily_Usage_Hours) Mức độ sử dụng (Usage_Level) - < 3 giờ “Thấp” - 3 đến dưới 5 giờ “Trung bình” - ≥ 5 giờ “Cao”
data$Mental_Health_Category <- cut(
data$Mental_Health_Score,
breaks = c(0, 3, 6, 10),
labels = c("Kem", "Bình thường", "Tốt"),
include.lowest = TRUE,
right = TRUE
)
# Phân loại Addicted_Score
data$Addiction_Level <- cut(
data$Addicted_Score,
breaks = c(0, 3, 6, 10),
labels = c("Không nghiện", "Bình thường", "Nghiện nặng"),
include.lowest = TRUE,
right = TRUE
)
# Phân loại giấc ngủ
data$Sleep_Quality <- ifelse(
data$Sleep_Hours_Per_Night > 6.5,
"Ngủ đủ",
"Thiếu ngủ"
)
# Chuyển đổi số lần mâu thuẫn sang biến định tính
data$Conflict_Level <- cut(data$Conflicts_Over_Social_Media,
breaks = c(-1, 0, 4, Inf),
labels = c("Khong", "Khá nhiều", "Rất nhiều"),
right = TRUE)
data$Usage_Level <- cut(data$Avg_Daily_Usage_Hours,
breaks = c(-Inf, 3, 5, Inf),
labels = c("Thấp", "Trung bình", "Cao"),
right = FALSE)
# Kiểm tra lại kết quả
table(data$Mental_Health_Category)
##
## Kem Bình thường Tốt
## 0 385 121
table(data$Addiction_Level)
##
## Không nghiện Bình thường Nghiện nặng
## 3 130 373
table(data$Sleep_Quality)
##
## Ngủ đủ Thiếu ngủ
## 230 276
table(data$Conflict_Level)
##
## Khong Khá nhiều Rất nhiều
## 2 489 15
table(data$Usage_Level)
##
## Thấp Trung bình Cao
## 21 177 308
# Kiểm tra số lượng NA trong mỗi cột định tính
na_counts <- sapply(data, function(x) sum(is.na(x)))
na_counts
## Student_ID Age
## 0 0
## Gender Academic_Level
## 0 0
## Country Avg_Daily_Usage_Hours
## 0 0
## Most_Used_Platform Affects_Academic_Performance
## 0 0
## Sleep_Hours_Per_Night Mental_Health_Score
## 0 0
## Relationship_Status Conflicts_Over_Social_Media
## 0 0
## Addicted_Score Mental_Health_Category
## 0 0
## Addiction_Level Sleep_Quality
## 0 0
## Conflict_Level Usage_Level
## 0 0
Nhận xét - Kết quả thu được cho thấy rằng tất cả các cột định tính đều không có giá trị thiếu (NA) vì số lượng NA trong các cột đều hiển thị là 0
# Chuyển các biến định tính sang factor
data$Age <- as.factor(data$Age)
data$Gender <- as.factor(data$Gender)
data$Academic_Level <- as.factor(data$Academic_Level)
data$Country <- as.factor(data$Country)
data$Most_Used_Platform <- as.factor(data$Most_Used_Platform)
data$Affects_Academic_Performance <- as.factor(data$Affects_Academic_Performance)
data$Sleep_Quality <- as.factor(data$Sleep_Quality)
data$Mental_Health_Category <- as.factor(data$Mental_Health_Category)
data$Addiction_Level <- as.factor(data$Addiction_Level)
data$Relationship_Status <- as.factor(data$Relationship_Status)
data$Conflict_Level <- as.factor(data$Conflict_Level)
Kiểm tra lại sau khi chuyển đổi
Giải thích:
sapply(data, class): Áp dụng hàm class() cho từng cột để kiểm tra kiểu dữ liệu. Kết quả trả về là một vector hiển thị tên cột và loại dữ liệu tương ứng.
Nếu kết quả là “factor” cho tất cả các cột → chuyển đổi thành công.
sapply(data, class)
## Student_ID Age
## "numeric" "factor"
## Gender Academic_Level
## "factor" "factor"
## Country Avg_Daily_Usage_Hours
## "factor" "numeric"
## Most_Used_Platform Affects_Academic_Performance
## "factor" "factor"
## Sleep_Hours_Per_Night Mental_Health_Score
## "numeric" "numeric"
## Relationship_Status Conflicts_Over_Social_Media
## "factor" "numeric"
## Addicted_Score Mental_Health_Category
## "numeric" "factor"
## Addiction_Level Sleep_Quality
## "factor" "factor"
## Conflict_Level Usage_Level
## "factor" "factor"
Nhận xét : Kết quả thu được toàn bộ các biến định tính đã được chuyển đổi thành dạng factor.
install.packages("ggplot2", repos = "https://cloud.r-project.org")
## Warning: package 'ggplot2' is in use and will not be installed
library(ggplot2)
tab_gender <- table(data$Gender)
tab_gender
##
## Female Male
## 253 253
table(data$Gender)/sum(nrow(data))
##
## Female Male
## 0.5 0.5
# Tạo dataframe từ bảng tần số
gender_freq <- as.data.frame(tab_gender)
colnames(gender_freq) <- c("Gender", "Frequency")
# Tính phần trăm
gender_freq$Percentage <- gender_freq$Frequency / sum(gender_freq$Frequency) * 100
# Tạo nhãn chỉ gồm phần trăm
gender_freq$Label <- paste0(round(gender_freq$Percentage, 1), "%")
# Vẽ biểu đồ tròn với nhãn chỉ phần trăm
ggplot(gender_freq, aes(x = "", y = Percentage, fill = Gender)) +
geom_col(width = 1, color = "white") +
coord_polar(theta = "y") +
theme_void() +
geom_text(aes(label = Label), position = position_stack(vjust = 0.5), size = 5) +
labs(title = "Phân bố giới tính của sinh viên") +
scale_fill_brewer(palette = "Pastel1")
Biểu đồ tròn thể hiện phân bố giới tính trong bộ dữ liệu sinh viên cho thấy tỷ lệ giữa nam và nữ là gần như tương đương:
-Giới tính phân bố hoàn toàn đồng đều: 253 nam và 253 nữ (50% mỗi giới). Điều này giúp đảm bảo tính công bằng khi so sánh theo giới. ### 2.2. Trình độ học vấn
level_freq <- table(data$Academic_Level)
level_percent <- prop.table(level_freq) * 100
data.frame(Academic_Level = names(level_freq),
Frequency = as.numeric(level_freq),
Percentage = round(as.numeric(level_percent), 1))
## Academic_Level Frequency Percentage
## 1 Graduate 226 44.7
## 2 High School 27 5.3
## 3 Undergraduate 253 50.0
# Load thư viện
library(ggplot2)
library(RColorBrewer) # dùng cho palette màu
# Hàm tái sử dụng để xử lý và vẽ biểu đồ
plot_pie <- function(data, var, title) {
tab <- table(data[[var]])
df <- as.data.frame(tab)
colnames(df) <- c("Category", "Frequency")
df$Percentage <- df$Frequency / sum(df$Frequency) * 100
df$Label <- paste0(round(df$Percentage, 1), "%")
ggplot(df, aes(x = "", y = Percentage, fill = Category)) +
geom_col(width = 1, color = "white") +
coord_polar(theta = "y") +
theme_void() +
geom_text(aes(label = Label), position = position_stack(vjust = 0.5), size = 5) +
labs(title = title, fill = var) +
scale_fill_brewer(palette = "Pastel1")
}
plot_pie(data, "Academic_Level", "Phân bố trình độ học vấn của sinh viên")
Trình độ học vấn của sinh viên chủ yếu tập trung ở bậc Đại học (Undergraduate – 50%), sau đại học (Graduate – 44.7%) và chỉ 5.3% thuộc bậc Trung học (High School). Điều này cho thấy phần lớn người tham gia khảo sát là sinh viên từ bậc đại học trở lên.
affect_freq <- table(data$Affects_Academic_Performance)
affect_percent <- prop.table(affect_freq) * 100
data.frame(Affects = names(affect_freq),
Frequency = as.numeric(affect_freq),
Percentage = round(as.numeric(affect_percent), 1))
## Affects Frequency Percentage
## 1 No 112 22.1
## 2 Yes 394 77.9
plot_pie(data, "Affects_Academic_Performance", "Tác động của mạng xã hội đến học tập")
Tổng cộng 394 sinh viên (77.87%) cho rằng mạng xã hội ảnh hưởng đến học tập, cho thấy đây là vấn đề đáng lo ngại.
rel_freq <- table(data$Relationship_Status)
rel_percent <- prop.table(rel_freq) * 100
data.frame(Relationship_Status = names(rel_freq),
Frequency = as.numeric(rel_freq),
Percentage = round(as.numeric(rel_percent), 1))
## Relationship_Status Frequency Percentage
## 1 Complicated 32 6.3
## 2 In Relationship 212 41.9
## 3 Single 262 51.8
plot_pie(data, "Relationship_Status", "Phân bố tình trạng mối quan hệ")
Sinh viên độc thân chiếm 51.78%, đang yêu chiếm 41.9% và 6.32% có mối quan hệ phức tạp.
mh_freq <- table(data$Mental_Health_Category)
mh_percent <- prop.table(mh_freq) * 100
data.frame(Mental_Health = names(mh_freq),
Frequency = as.numeric(mh_freq),
Percentage = round(as.numeric(mh_percent), 1))
## Mental_Health Frequency Percentage
## 1 Kem 0 0.0
## 2 Bình thường 385 76.1
## 3 Tốt 121 23.9
plot_pie(data, "Mental_Health_Category", "Phân loại sức khỏe tinh thần")
-Sức khỏe tinh thần chủ yếu ở mức bình thường (76.09%), 23.91% được đánh giá tốt. Không ai thuộc nhóm ‘kém’.
addict_freq <- table(data$Addiction_Level)
addict_percent <- prop.table(addict_freq) * 100
data.frame(Addiction_Level = names(addict_freq),
Frequency = as.numeric(addict_freq),
Percentage = round(as.numeric(addict_percent), 1))
## Addiction_Level Frequency Percentage
## 1 Không nghiện 3 0.6
## 2 Bình thường 130 25.7
## 3 Nghiện nặng 373 73.7
plot_pie(data, "Addiction_Level", "Mức độ nghiện mạng xã hội")
Tỷ lệ nghiện mạng xã hội nặng rất cao với 373 sinh viên (73.71%). Chỉ có 3 sinh viên (0.59%) không nghiện.
sleep_freq <- table(data$Sleep_Quality)
sleep_percent <- prop.table(sleep_freq) * 100
data.frame(Sleep_Quality = names(sleep_freq),
Frequency = as.numeric(sleep_freq),
Percentage = round(as.numeric(sleep_percent), 1))
## Sleep_Quality Frequency Percentage
## 1 Ngủ đủ 230 45.5
## 2 Thiếu ngủ 276 54.5
plot_pie(data, "Sleep_Quality", "Tình trạng giấc ngủ")
Có 276 sinh viên (54.55%) thiếu ngủ và 230 người ngủ đủ giấc (45.45%). Tỷ lệ thiếu ngủ vượt quá nửa mẫu khảo sát.
conflict_freq <- table(data$Conflict_Level)
conflict_percent <- prop.table(conflict_freq) * 100
data.frame(Conflict_Level = names(conflict_freq),
Frequency = as.numeric(conflict_freq),
Percentage = round(as.numeric(conflict_percent), 1))
## Conflict_Level Frequency Percentage
## 1 Khong 2 0.4
## 2 Khá nhiều 489 96.6
## 3 Rất nhiều 15 3.0
plot_pie(data, "Conflict_Level", "Số lần mâu thuẫn do mạng xã hội")
504/506 sinh viên (99.6%) gặp mâu thuẫn liên quan đến mạng xã hội. Đây là tỷ lệ cực kỳ cao và cảnh báo mối lo ngại xã hội.
platform_freq <- table(data$Most_Used_Platform)
platform_percent <- prop.table(platform_freq) * 100
data.frame(Platform = names(platform_freq),
Frequency = as.numeric(platform_freq),
Percentage = round(as.numeric(platform_percent), 1))
## Platform Frequency Percentage
## 1 Facebook 71 14.0
## 2 Instagram 163 32.2
## 3 KakaoTalk 11 2.2
## 4 LinkedIn 19 3.8
## 5 Snapchat 13 2.6
## 6 TikTok 126 24.9
## 7 Twitter 27 5.3
## 8 VKontakte 4 0.8
## 9 WeChat 8 1.6
## 10 WhatsApp 54 10.7
## 11 YouTube 10 2.0
# Tạo bảng tần số
platform_freq <- as.data.frame(table(data$Most_Used_Platform))
colnames(platform_freq) <- c("Platform", "Frequency")
# Vẽ biểu đồ cột
ggplot(platform_freq, aes(x = reorder(Platform, -Frequency), y = Frequency, fill = Platform)) +
geom_bar(stat = "identity") +
labs(title = "Nền tảng mạng xã hội được sử dụng phổ biến",
x = "Nền tảng", y = "Số lượng") +
theme_minimal() +
theme(axis.text.x = element_text(angle = 30, hjust = 1)) +
guides(fill = "none")
Instagram được sử dụng nhiều nhất (163 sinh viên – 32.21%), sau đó là TikTok (126 sinh viên – 24.9%) và Facebook (71 sinh viên – 14.03%).
# Thống kê tần số
table_usage <- table(data$Usage_Level)
table_usage
##
## Thấp Trung bình Cao
## 21 177 308
# Thống kê tỷ lệ phần trăm
prop.table(table_usage) * 100
##
## Thấp Trung bình Cao
## 4.150198 34.980237 60.869565
plot_pie(data, "Usage_Level", "Phân bố trình Mức độ sử dụng mạng xã hội mỗi ngày")
####2.10.2 Nhận xét 307 sinh viên (60.87%) sử dụng mạng xã hội từ 5 giờ trở lên mỗi ngày. Đây là mức sử dụng rất cao và có thể ảnh hưởng đến sức khỏe.
# Bước 1: Đếm số lượng sinh viên nam
x <- sum(data$Gender == "Male") # x là số sinh viên có giới tính "Male"
# Bước 2: Tính tổng số sinh viên trong dữ liệu
n <- nrow(data) # n là kích thước mẫu (tổng sinh viên)
# Bước 3: Kiểm định giả thuyết H0: tỷ lệ nam = 0.5 (50%)
# prop.test thực hiện kiểm định tỷ lệ 1 mẫu và xuất ra khoảng tin cậy
prop.test(x = x, n = n, p = 0.5, conf.level = 0.95)
##
## 1-sample proportions test without continuity correction
##
## data: x out of n, null probability 0.5
## X-squared = 0, df = 1, p-value = 1
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
## 0.4565989 0.5434011
## sample estimates:
## p
## 0.5
Giải thích toán học và thống kê: - Tính tỷ lệ mẫu: \(\hat{p} = \frac{x}{n} = \frac{253}{506} = 0.5\) - Sai số chuẩn (Standard Error - SE): \[SE = \sqrt{ \frac{p(1-p)}{n} } = \sqrt{ \frac{0.5(1-0.5)}{506} } = 0.022\] - Khoảng tin cậy 95%: \[CI = \hat{p} \pm z_{0.025} \cdot SE = 0.5 \pm 1.96 \cdot 0.022 = [0.4566, 0.5434]\] - p-value = 1 → Không bác bỏ H0 → Không có khác biệt so với tỷ lệ giả định.
Tỷ lệ sinh viên nam đúng bằng 50% như giả định ban đầu, không có khác biệt đáng kể.
x <- sum(data$Academic_Level == "Undergraduate")
n <- nrow(data)
prop.test(x = x, n = n, p = 0.5, conf.level = 0.95)
##
## 1-sample proportions test without continuity correction
##
## data: x out of n, null probability 0.5
## X-squared = 0, df = 1, p-value = 1
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
## 0.4565989 0.5434011
## sample estimates:
## p
## 0.5
Giải thích: - Giống 3.1, nhưng thay biến
Gender thành Academic_Level - Tỷ lệ mẫu cũng
là 0.5 → không khác biệt với giả định 50%
Tỷ lệ sinh viên bậc đại học và cao học là cân bằng trong mẫu nghiên cứu.
x <- sum(data$Sleep_Quality == "Thiếu ngủ") # Đếm số sinh viên thiếu ngủ
n <- sum(!is.na(data$Sleep_Quality)) # Tổng số sinh viên có dữ liệu
prop.test(x = x, n = n, p = 0.4, conf.level = 0.95) # So sánh với giả định 40%
##
## 1-sample proportions test with continuity correction
##
## data: x out of n, null probability 0.4
## X-squared = 44.002, df = 1, p-value = 3.28e-11
## alternative hypothesis: true p is not equal to 0.4
## 95 percent confidence interval:
## 0.5009010 0.5893076
## sample estimates:
## p
## 0.5454545
Giải thích: - \(x = 276\), \(n = 506\) - \(p_0 = 0.4\) là tỷ lệ giả định để so sánh - Tính tỷ lệ mẫu: \[\hat{p} = \frac{276}{506} \approx 0.5455\] - Sai số chuẩn: \[SE = \sqrt{ \frac{0.4(1-0.4)}{506} } \approx 0.0218\] - Khoảng tin cậy: \[CI = 0.5455 \pm 1.96 \cdot 0.0218 = [0.501, 0.589]\]
Tỷ lệ sinh viên thiếu ngủ cao hơn đáng kể so với giả định 40%, có ý nghĩa thống kê (p < 0.05).
x <- sum(data$Addiction_Level == "Nghiện nặng")
n <- sum(!is.na(data$Addiction_Level))
prop.test(x = x, n = n, p = 0.5, alternative = "greater", conf.level = 0.95)
##
## 1-sample proportions test with continuity correction
##
## data: x out of n, null probability 0.5
## X-squared = 112.89, df = 1, p-value < 2.2e-16
## alternative hypothesis: true p is greater than 0.5
## 95 percent confidence interval:
## 0.7027453 1.0000000
## sample estimates:
## p
## 0.7371542
Giải thích: - alternative = "greater":
kiểm định 1 phía, xem có lớn hơn 50% - Tỷ lệ mẫu: \(\hat{p} = 373 / 506 \approx 0.737\) -
Khoảng tin cậy: \[CI = [0.703,
0.770]\]
Tỷ lệ nghiện mạng xã hội nặng vượt xa mức giả định 50%, p-value < 0.001 → rất có ý nghĩa.
x <- sum(data$Conflict_Level %in% c("Khá nhiều", "Rất nhiều")) # Đếm các mức cao
n <- sum(!is.na(data$Conflict_Level))
prop.test(x = x, n = n, p = 0.8, alternative = "greater") # Giả định >= 80%
##
## 1-sample proportions test with continuity correction
##
## data: x out of n, null probability 0.8
## X-squared = 120.33, df = 1, p-value < 2.2e-16
## alternative hypothesis: true p is greater than 0.8
## 95 percent confidence interval:
## 0.9866748 1.0000000
## sample estimates:
## p
## 0.9960474
Giải thích: - \(\hat{p} = 504 / 506 \approx 0.996\) - Khoảng tin cậy: \[CI = [0.986, 0.999]\] - p rất nhỏ, cho thấy tỷ lệ thực tế vượt xa giả định 80%
Gần như tất cả sinh viên gặp xung đột mức cao, tỷ lệ này vượt rất xa mức dự đoán.
Tìm hiểu xem liệu Thiếu ngủ có liên hệ với mức độ nghiện mạng xã hội không? (Nói cách khác: Liệu những người thiếu ngủ có nghiện mạng xã hội nhiều hơn không?)
# Bảng chéo giữa chất lượng giấc ngủ và mức độ nghiện
table_sleep_addict <- table(data$Sleep_Quality, data$Addiction_Level)
table_sleep_addict
##
## Không nghiện Bình thường Nghiện nặng
## Ngủ đủ 3 123 104
## Thiếu ngủ 0 7 269
# Bảng tần suất chéo (contingency table) cho hai biến định tính:
# - Sleep_Quality: “Ngủ đủ” hoặc “Thiếu ngủ”
# - Addiction_Level: “Không nghiện”, “Bình thường”, “Nghiện nặng”
#
# table_sleep_addict[i, j] thể hiện số lượng sinh viên có
# Sleep_Quality = i và Addiction_Level = j
Ký hiệu và công thức
Gọi \(n_{ij}\) là số sinh viên ở hàng \(i\), cột \(j\), với:
Tần suất (tỷ lệ) tại ô \((i, j)\) được tính theo công thức:
\[ p_{ij} = \frac{n_{ij}}{n} \]
Một số tính toán cụ thể
Tỷ lệ sinh viên thuộc nhóm thiếu ngủ và nghiện mạng xã hội nặng:
\[ p_{23} = \frac{269}{506} \approx 0.5318 \]
Tổng số sinh viên thuộc nhóm thiếu ngủ:
\[ n_{2\cdot} = n_{21} + n_{22} + n_{23} = 0 + 7 + 269 = 276 \]
Tổng số sinh viên nghiện mạng xã hội nặng:
\[ n_{\cdot 3} = n_{13} + n_{23} = 104 + 269 = 373 \]
Tỷ lệ sinh viên nghiện nặng trong từng nhóm giấc ngủ:
\[ \frac{269}{276} \approx 0.9746 \quad (97.46\%) \]
\[ \frac{104}{230} \approx 0.4522 \quad (45.22\%) \]
Nhận xét
Nhóm Thiếu ngủ có đến 269 sinh viên nghiện mạng xã hội nặng, chiếm 97.5% trong nhóm này.
Trong khi đó, nhóm Ngủ đủ chỉ có 104/230 = 45.2% là nghiện nặng.
Tỷ lệ “Bình thường” trong nhóm ngủ đủ (123/230 = 53.5%) cao hơn rất nhiều so với nhóm thiếu ngủ (7/276 = 2.5%).
Điều này cho thấy sinh viên thiếu ngủ có xu hướng nghiện mạng xã hội nặng hơn rõ rệt so với sinh viên ngủ đủ. ### 4.1.2 Trực quan hoá
library(ggplot2)
# Bảng tần số giữa Sleep_Quality và Addiction_Level
sleep_addict_tbl <- as.data.frame(table(data$Sleep_Quality, data$Addiction_Level))
colnames(sleep_addict_tbl) <- c("Sleep_Quality", "Addiction_Level", "Count")
ggplot(sleep_addict_tbl, aes(x = Sleep_Quality, y = Count, fill = Addiction_Level)) +
geom_col(position = "dodge", width = 0.7) +
labs(
title = "Mối liên hệ giữa chất lượng giấc ngủ và mức độ nghiện mạng xã hội",
x = "Chất lượng giấc ngủ",
y = "Số lượng sinh viên",
fill = "Mức độ nghiện"
) +
scale_fill_brewer(palette = "Pastel2") +
theme_minimal(base_size = 13)
Biểu đồ cho thấy sự khác biệt rất rõ rệt: nhóm “Thiếu ngủ” gần như chỉ
có sinh viên ở mức “Nghiện nặng”, trong khi nhóm “Ngủ đủ” phân bố đều
hơn. Điều này củng cố nghi ngờ rằng giấc ngủ và mức độ nghiện có mối
liên hệ thống kê.
# Bảng tần số
table_sleep_addict <- table(data$Sleep_Quality, data$Addiction_Level)
table_sleep_addict
##
## Không nghiện Bình thường Nghiện nặng
## Ngủ đủ 3 123 104
## Thiếu ngủ 0 7 269
# Kiểm định Chi bình phương
chisq.test(table_sleep_addict)
## Warning in chisq.test(table_sleep_addict): Chi-squared approximation may be
## incorrect
##
## Pearson's Chi-squared test
##
## data: table_sleep_addict
## X-squared = 176.78, df = 2, p-value < 2.2e-16
Kiểm tra giả thuyết về sự độc lập giữa hai biến phân loại.
Công thức toán học
Giá trị kỳ vọng (Expected frequency) tại ô hàng \(i\), cột \(j\) được tính như sau:
\[ E_{ij} = \frac{n_{i\cdot} \times n_{\cdot j}}{n} \]
Trong đó:
Ví dụ, tại ô \((1, 3)\):
\[ E_{13} = \frac{230 \times 373}{506} \approx 169.61 \]
Thống kê kiểm định Chi bình phương:
\[ \chi^2 = \sum_{i=1}^{r} \sum_{j=1}^{c} \frac{(O_{ij} - E_{ij})^2}{E_{ij}} \]
Trong đó:
Bậc tự do (degrees of freedom):
\[ df = (r - 1)(c - 1) \]
Ở đây:
Nên:
\[ df = (2 - 1)(3 - 1) = 2 \] Nhận xét Giá trị thống kê rất lớn (χ² = 176.78), với p-value < 2.2e-1, rất nhỏ. Bác bỏ H₀: Chất lượng giấc ngủ và mức độ nghiện mạng xã hội không độc lập. Tồn tại mối liên hệ có ý nghĩa thống kê giữa hai biến. ### 4.1.5 Relative Risk
install.packages("epitools", repos = "https://cloud.r-project.org")
## Installing package into 'C:/Users/Tuyet Nhi/AppData/Local/R/win-library/4.3'
## (as 'lib' is unspecified)
## package 'epitools' successfully unpacked and MD5 sums checked
##
## The downloaded binary packages are in
## C:\Users\Tuyet Nhi\AppData\Local\Temp\RtmpiQIk9F\downloaded_packages
library(epitools)
# Tạo bảng chéo
table_Sleep_Addict <- table(data$Sleep_Quality, data$Addiction_Level)
# RR
riskratio(table_Sleep_Addict)
## Warning in chisq.test(xx, correct = correction): Chi-squared approximation may
## be incorrect
## $data
##
## Không nghiện Bình thường Nghiện nặng Total
## Ngủ đủ 3 123 104 230
## Thiếu ngủ 0 7 269 276
## Total 3 130 373 506
##
## $measure
## risk ratio with 95% C.I.
## estimate lower upper
## Ngủ đủ 1.00000 NA NA
## Thiếu ngủ 1.02439 0.9968335 1.052709
##
## $p.value
## two-sided
## midp.exact fisher.exact chi.square
## Ngủ đủ NA NA NA
## Thiếu ngủ 0.849191 7.927858e-45 4.107291e-39
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"
Nhận xét RGiá trị RR = 1.024 → nhóm thiếu ngủ có nguy cơ nghiện mạng xã hội nặng cao hơn 2.4% so với nhóm ngủ đủ. Tuy nhiên, khoảng tin cậy chứa 1 không có ý nghĩa thống kê. Không đủ cơ sở để kết luận rằng thiếu ngủ tăng nguy cơ nghiện nặng từ góc nhìn RR. ### 4.1.6 Odds ratio
# Tạo biến Addiction_Binary: TRUE nếu là "Nghiện nặng", FALSE nếu không
data$Addict_Heavy <- data$Addiction_Level == "Nghiện nặng"
# Tạo bảng 2x2 giữa Chất lượng giấc ngủ và Nghiện nặng
table_sleep_addict_2x2 <- table(data$Sleep_Quality, data$Addict_Heavy)
# Hiệu chỉnh để tránh lỗi
table_corrected <- table_sleep_addict_2x2
# Tính Odds Ratio
library(epitools)
oddsratio(table_corrected)
## $data
##
## FALSE TRUE Total
## Ngủ đủ 126 104 230
## Thiếu ngủ 7 269 276
## Total 133 373 506
##
## $measure
## odds ratio with 95% C.I.
## estimate lower upper
## Ngủ đủ 1.00000 NA NA
## Thiếu ngủ 45.26287 21.8881 111.1026
##
## $p.value
## two-sided
## midp.exact fisher.exact chi.square
## Ngủ đủ NA NA NA
## Thiếu ngủ 0 4.746216e-45 2.493726e-40
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "median-unbiased estimate & mid-p exact CI"
Nhận xét - Giá trị OR = 45.26 sinh viên thiếu ngủ có nguy cơ nghiện mạng xã hội nặng cao gấp ~45 lần so với nhóm ngủ đủ. Khoảng tin cậy 95%: [21.88 ; 111.10] và p-value ≈ 0 cực kỳ có ý nghĩa thống kê. Mối liên hệ rất mạnh và đáng tin cậy giữa hai biến.