Bộ dữ liệu “Student Social Media & Relationships” chứa các bản ghi ẩn danh về hành vi mạng xã hội của sinh viên và các kết quả cuộc sống liên quan. Bộ dữ liệu này trải dài trên nhiều quốc gia và trình độ học vấn, tập trung vào các chiều chính như cường độ sử dụng, sở thích nền tảng và động lực mối quan hệ. Mỗi hàng đại diện cho một phản hồi khảo sát của sinh viên, cung cấp ảnh chụp nhanh theo chiều ngang phù hợp cho phân tích thống kê và các ứng dụng học máy.
Đối tượng: Học sinh trong độ tuổi từ 16 đến 25 đang theo học chương trình trung học, đại học hoặc sau đại học.
Địa lý: Phạm vi nhiều quốc gia (ví dụ: Bangladesh, Ấn Độ, Hoa Kỳ, Vương quốc Anh, Canada, Úc, Đức, Brazil, Nhật Bản, Hàn Quốc).
Khung thời gian: Dữ liệu được thu thập thông qua khảo sát trực tuyến một lần được thực hiện vào quý 1 năm 2025.
library(xlsx)
library(dplyr)
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
library(ggplot2)
library(gmodels)
data <- read.xlsx(file =file.choose(), sheetIndex = 1, header = T)
str(data)
## 'data.frame': 506 obs. of 13 variables:
## $ Student_ID : num 1 2 3 4 5 6 7 8 9 10 ...
## $ Age : num 19 22 20 18 21 19 23 20 18 21 ...
## $ Gender : chr "Female" "Male" "Female" "Male" ...
## $ Academic_Level : chr "Undergraduate" "Graduate" "Undergraduate" "High School" ...
## $ Country : chr "USA" "USA" "USA" "Maldives" ...
## $ Avg_Daily_Usage_Hours : num 8.5 8.4 8.3 4.5 8.2 6.4 8.1 4.6 8 6.3 ...
## $ Most_Used_Platform : chr "Instagram" "TikTok" "Instagram" "TikTok" ...
## $ Affects_Academic_Performance: chr "Yes" "Yes" "Yes" "Yes" ...
## $ Sleep_Hours_Per_Night : num 3.8 3.9 4 4.1 4.1 4.2 4.2 4.3 4.3 4.4 ...
## $ Mental_Health_Score : num 5 5 5 6 5 6 5 6 5 6 ...
## $ Relationship_Status : chr "In Relationship" "In Relationship" "In Relationship" "In Relationship" ...
## $ Conflicts_Over_Social_Media : num 4 4 4 4 4 4 4 4 4 4 ...
## $ Addicted_Score : num 9 9 9 8 9 8 9 8 9 8 ...
| Tên biến | Kiểu dữ liệu | Giải thích |
|---|---|---|
| Student_ID | Integer (Số nguyên) | Mã số định danh duy nhất cho từng sinh viên tham gia khảo sát |
| Age | Integer (Số nguyên) | Tuổi của sinh viên (tính theo năm) |
| Gender | Categorical | Giới tính của sinh viên: Nam hoặc Nữ |
| Academic_Level | Categorical | Trình độ học vấn: Trung học, Đại học, Sau đại học |
| Country | Categorical | Quốc gia sinh sống của sinh viên |
| Avg_Daily_Usage_Hours | Float (Số thực) | Số giờ trung bình mỗi ngày sinh viên dành cho mạng xã hội |
| Most_Used_Platform | Categorical | Nền tảng mạng xã hội được sử dụng nhiều nhất: Instagram, Facebook, TikTok,… |
| Affects_Academic_Performance | Boolean (Yes/No) | Tự đánh giá xem mạng xã hội có ảnh hưởng đến việc học hay không |
| Sleep_Hours_Per_Night | Float (Số thực) | Số giờ ngủ trung bình mỗi đêm của sinh viên |
| Mental_Health_Score | Integer (1-10) | Mức độ sức khỏe tinh thần tự đánh giá (1 = kém, 10 = rất tốt) |
| Relationship_Status | Categorical | Tình trạng mối quan hệ: Độc thân, Đang yêu, Phức tạp |
| Conflicts_Over_Social_Media | Integer (Số nguyên) | Số lần mâu thuẫn trong mối quan hệ do mạng xã hội gây ra |
| Addicted_Score | Integer (1-10) | Điểm nghiện mạng xã hội (1 = không nghiện, 10 = rất nghiện) |
Mục tiêu phân loại
- Phân loại sức khỏe tinh thần theo 3 dạng (Mental_Health_Score) → “Kém”, “Bình thường”, “Tốt”
- Phân loại độ nghiện mạng xã hội theo 3 dạnh Addicted_Score → “Không nghiện”, “Bình thường”, “Nghiện nặng”
- Phân loại số giờ ngủ để đánh giá theo 2 dạng (Sleep_Hours_Per_Night) -> “thiếu ngủ” và “ngủ đủ”
- Số lần mâu thuẫn (Conflicts_Over_Social_Media) Nhóm mới (Conflict_Level)
= 0 “Không”
1 đến 4 “Khá nhiều”
4 “Rất nhiều”
- Số giờ dùng MXH mỗi ngày (Avg_Daily_Usage_Hours) Mức độ sử dụng (Usage_Level) - < 3 giờ “Thấp” - 3 đến dưới 5 giờ “Trung bình” - ≥ 5 giờ “Cao”
data$Mental_Health_Category <- cut(
data$Mental_Health_Score,
breaks = c(0, 3, 6, 10),
labels = c("Kem", "Bình thường", "Tốt"),
include.lowest = TRUE,
right = TRUE
)
# Phân loại Addicted_Score
data$Addiction_Level <- cut(
data$Addicted_Score,
breaks = c(0, 3, 6, 10),
labels = c("Không nghiện", "Bình thường", "Nghiện nặng"),
include.lowest = TRUE,
right = TRUE
)
# Phân loại giấc ngủ
data$Sleep_Quality <- ifelse(
data$Sleep_Hours_Per_Night > 6.5,
"Ngủ đủ",
"Thiếu ngủ"
)
# Chuyển đổi số lần mâu thuẫn sang biến định tính
data$Conflict_Level <- cut(data$Conflicts_Over_Social_Media,
breaks = c(-1, 0, 4, Inf),
labels = c("Khong", "Khá nhiều", "Rất nhiều"),
right = TRUE)
data$Usage_Level <- cut(data$Avg_Daily_Usage_Hours,
breaks = c(-Inf, 3, 5, Inf),
labels = c("Thấp", "Trung bình", "Cao"),
right = FALSE)
# Kiểm tra lại kết quả
table(data$Mental_Health_Category)
##
## Kem Bình thường Tốt
## 0 385 121
table(data$Addiction_Level)
##
## Không nghiện Bình thường Nghiện nặng
## 3 130 373
table(data$Sleep_Quality)
##
## Ngủ đủ Thiếu ngủ
## 230 276
table(data$Conflict_Level)
##
## Khong Khá nhiều Rất nhiều
## 2 489 15
table(data$Usage_Level)
##
## Thấp Trung bình Cao
## 21 177 308
# Kiểm tra số lượng NA trong mỗi cột định tính
na_counts <- sapply(data, function(x) sum(is.na(x)))
na_counts
## Student_ID Age
## 0 0
## Gender Academic_Level
## 0 0
## Country Avg_Daily_Usage_Hours
## 0 0
## Most_Used_Platform Affects_Academic_Performance
## 0 0
## Sleep_Hours_Per_Night Mental_Health_Score
## 0 0
## Relationship_Status Conflicts_Over_Social_Media
## 0 0
## Addicted_Score Mental_Health_Category
## 0 0
## Addiction_Level Sleep_Quality
## 0 0
## Conflict_Level Usage_Level
## 0 0
Nhận xét - Kết quả thu được cho thấy rằng tất cả các cột định tính đều không có giá trị thiếu (NA) vì số lượng NA trong các cột đều hiển thị là 0
# Chuyển các biến định tính sang factor
data$Age <- as.factor(data$Age)
data$Gender <- as.factor(data$Gender)
data$Academic_Level <- as.factor(data$Academic_Level)
data$Country <- as.factor(data$Country)
data$Most_Used_Platform <- as.factor(data$Most_Used_Platform)
data$Affects_Academic_Performance <- as.factor(data$Affects_Academic_Performance)
data$Sleep_Quality <- as.factor(data$Sleep_Quality)
data$Mental_Health_Category <- as.factor(data$Mental_Health_Category)
data$Addiction_Level <- as.factor(data$Addiction_Level)
data$Relationship_Status <- as.factor(data$Relationship_Status)
data$Conflict_Level <- as.factor(data$Conflict_Level)
Kiểm tra lại sau khi chuyển đổi
Giải thích:
sapply(data, class): Áp dụng hàm class() cho từng cột để kiểm tra kiểu dữ liệu. Kết quả trả về là một vector hiển thị tên cột và loại dữ liệu tương ứng.
Nếu kết quả là “factor” cho tất cả các cột → chuyển đổi thành công.
sapply(data, class)
## Student_ID Age
## "numeric" "factor"
## Gender Academic_Level
## "factor" "factor"
## Country Avg_Daily_Usage_Hours
## "factor" "numeric"
## Most_Used_Platform Affects_Academic_Performance
## "factor" "factor"
## Sleep_Hours_Per_Night Mental_Health_Score
## "numeric" "numeric"
## Relationship_Status Conflicts_Over_Social_Media
## "factor" "numeric"
## Addicted_Score Mental_Health_Category
## "numeric" "factor"
## Addiction_Level Sleep_Quality
## "factor" "factor"
## Conflict_Level Usage_Level
## "factor" "factor"
Nhận xét : Kết quả thu được toàn bộ các biến định tính đã được chuyển đổi thành dạng factor.
install.packages("ggplot2", repos = "https://cloud.r-project.org")
## Warning: package 'ggplot2' is in use and will not be installed
library(ggplot2)
tab_gender <- table(data$Gender)
tab_gender
##
## Female Male
## 253 253
table(data$Gender)/sum(nrow(data))
##
## Female Male
## 0.5 0.5
# Tạo dataframe từ bảng tần số
gender_freq <- as.data.frame(tab_gender)
colnames(gender_freq) <- c("Gender", "Frequency")
# Tính phần trăm
gender_freq$Percentage <- gender_freq$Frequency / sum(gender_freq$Frequency) * 100
# Tạo nhãn chỉ gồm phần trăm
gender_freq$Label <- paste0(round(gender_freq$Percentage, 1), "%")
# Vẽ biểu đồ tròn với nhãn chỉ phần trăm
ggplot(gender_freq, aes(x = "", y = Percentage, fill = Gender)) +
geom_col(width = 1, color = "white") +
coord_polar(theta = "y") +
theme_void() +
geom_text(aes(label = Label), position = position_stack(vjust = 0.5), size = 5) +
labs(title = "Phân bố giới tính của sinh viên") +
scale_fill_brewer(palette = "Pastel1")
Biểu đồ tròn thể hiện phân bố giới tính trong bộ dữ liệu sinh viên cho thấy tỷ lệ giữa nam và nữ là gần như tương đương:
-Giới tính phân bố hoàn toàn đồng đều: 253 nam và 253 nữ (50% mỗi giới). Điều này giúp đảm bảo tính công bằng khi so sánh theo giới. ### 2.2. Trình độ học vấn
level_freq <- table(data$Academic_Level)
level_percent <- prop.table(level_freq) * 100
data.frame(Academic_Level = names(level_freq),
Frequency = as.numeric(level_freq),
Percentage = round(as.numeric(level_percent), 1))
## Academic_Level Frequency Percentage
## 1 Graduate 226 44.7
## 2 High School 27 5.3
## 3 Undergraduate 253 50.0
# Load thư viện
library(ggplot2)
library(RColorBrewer) # dùng cho palette màu
# Hàm tái sử dụng để xử lý và vẽ biểu đồ
plot_pie <- function(data, var, title) {
tab <- table(data[[var]])
df <- as.data.frame(tab)
colnames(df) <- c("Category", "Frequency")
df$Percentage <- df$Frequency / sum(df$Frequency) * 100
df$Label <- paste0(round(df$Percentage, 1), "%")
ggplot(df, aes(x = "", y = Percentage, fill = Category)) +
geom_col(width = 1, color = "white") +
coord_polar(theta = "y") +
theme_void() +
geom_text(aes(label = Label), position = position_stack(vjust = 0.5), size = 5) +
labs(title = title, fill = var) +
scale_fill_brewer(palette = "Pastel1")
}
plot_pie(data, "Academic_Level", "Phân bố trình độ học vấn của sinh viên")
Trình độ học vấn của sinh viên chủ yếu tập trung ở bậc Đại học (Undergraduate – 50%), sau đại học (Graduate – 44.7%) và chỉ 5.3% thuộc bậc Trung học (High School). Điều này cho thấy phần lớn người tham gia khảo sát là sinh viên từ bậc đại học trở lên.
affect_freq <- table(data$Affects_Academic_Performance)
affect_percent <- prop.table(affect_freq) * 100
data.frame(Affects = names(affect_freq),
Frequency = as.numeric(affect_freq),
Percentage = round(as.numeric(affect_percent), 1))
## Affects Frequency Percentage
## 1 No 112 22.1
## 2 Yes 394 77.9
plot_pie(data, "Affects_Academic_Performance", "Tác động của mạng xã hội đến học tập")
Tổng cộng 394 sinh viên (77.87%) cho rằng mạng xã hội ảnh hưởng đến học tập, cho thấy đây là vấn đề đáng lo ngại.
rel_freq <- table(data$Relationship_Status)
rel_percent <- prop.table(rel_freq) * 100
data.frame(Relationship_Status = names(rel_freq),
Frequency = as.numeric(rel_freq),
Percentage = round(as.numeric(rel_percent), 1))
## Relationship_Status Frequency Percentage
## 1 Complicated 32 6.3
## 2 In Relationship 212 41.9
## 3 Single 262 51.8
plot_pie(data, "Relationship_Status", "Phân bố tình trạng mối quan hệ")
Sinh viên độc thân chiếm 51.78%, đang yêu chiếm 41.9% và 6.32% có mối quan hệ phức tạp.
mh_freq <- table(data$Mental_Health_Category)
mh_percent <- prop.table(mh_freq) * 100
data.frame(Mental_Health = names(mh_freq),
Frequency = as.numeric(mh_freq),
Percentage = round(as.numeric(mh_percent), 1))
## Mental_Health Frequency Percentage
## 1 Kem 0 0.0
## 2 Bình thường 385 76.1
## 3 Tốt 121 23.9
plot_pie(data, "Mental_Health_Category", "Phân loại sức khỏe tinh thần")
-Sức khỏe tinh thần chủ yếu ở mức bình thường (76.09%), 23.91% được đánh giá tốt. Không ai thuộc nhóm ‘kém’.
addict_freq <- table(data$Addiction_Level)
addict_percent <- prop.table(addict_freq) * 100
data.frame(Addiction_Level = names(addict_freq),
Frequency = as.numeric(addict_freq),
Percentage = round(as.numeric(addict_percent), 1))
## Addiction_Level Frequency Percentage
## 1 Không nghiện 3 0.6
## 2 Bình thường 130 25.7
## 3 Nghiện nặng 373 73.7
plot_pie(data, "Addiction_Level", "Mức độ nghiện mạng xã hội")
Tỷ lệ nghiện mạng xã hội nặng rất cao với 373 sinh viên (73.71%). Chỉ có 3 sinh viên (0.59%) không nghiện.
sleep_freq <- table(data$Sleep_Quality)
sleep_percent <- prop.table(sleep_freq) * 100
data.frame(Sleep_Quality = names(sleep_freq),
Frequency = as.numeric(sleep_freq),
Percentage = round(as.numeric(sleep_percent), 1))
## Sleep_Quality Frequency Percentage
## 1 Ngủ đủ 230 45.5
## 2 Thiếu ngủ 276 54.5
plot_pie(data, "Sleep_Quality", "Tình trạng giấc ngủ")
Có 276 sinh viên (54.55%) thiếu ngủ và 230 người ngủ đủ giấc (45.45%). Tỷ lệ thiếu ngủ vượt quá nửa mẫu khảo sát.
conflict_freq <- table(data$Conflict_Level)
conflict_percent <- prop.table(conflict_freq) * 100
data.frame(Conflict_Level = names(conflict_freq),
Frequency = as.numeric(conflict_freq),
Percentage = round(as.numeric(conflict_percent), 1))
## Conflict_Level Frequency Percentage
## 1 Khong 2 0.4
## 2 Khá nhiều 489 96.6
## 3 Rất nhiều 15 3.0
plot_pie(data, "Conflict_Level", "Số lần mâu thuẫn do mạng xã hội")
504/506 sinh viên (99.6%) gặp mâu thuẫn liên quan đến mạng xã hội. Đây là tỷ lệ cực kỳ cao và cảnh báo mối lo ngại xã hội.
platform_freq <- table(data$Most_Used_Platform)
platform_percent <- prop.table(platform_freq) * 100
data.frame(Platform = names(platform_freq),
Frequency = as.numeric(platform_freq),
Percentage = round(as.numeric(platform_percent), 1))
## Platform Frequency Percentage
## 1 Facebook 71 14.0
## 2 Instagram 163 32.2
## 3 KakaoTalk 11 2.2
## 4 LinkedIn 19 3.8
## 5 Snapchat 13 2.6
## 6 TikTok 126 24.9
## 7 Twitter 27 5.3
## 8 VKontakte 4 0.8
## 9 WeChat 8 1.6
## 10 WhatsApp 54 10.7
## 11 YouTube 10 2.0
# Tạo bảng tần số
platform_freq <- as.data.frame(table(data$Most_Used_Platform))
colnames(platform_freq) <- c("Platform", "Frequency")
# Vẽ biểu đồ cột
ggplot(platform_freq, aes(x = reorder(Platform, -Frequency), y = Frequency, fill = Platform)) +
geom_bar(stat = "identity") +
labs(title = "Nền tảng mạng xã hội được sử dụng phổ biến",
x = "Nền tảng", y = "Số lượng") +
theme_minimal() +
theme(axis.text.x = element_text(angle = 30, hjust = 1)) +
guides(fill = "none")
Instagram được sử dụng nhiều nhất (163 sinh viên – 32.21%), sau đó là TikTok (126 sinh viên – 24.9%) và Facebook (71 sinh viên – 14.03%).
# Thống kê tần số
table_usage <- table(data$Usage_Level)
table_usage
##
## Thấp Trung bình Cao
## 21 177 308
# Thống kê tỷ lệ phần trăm
prop.table(table_usage) * 100
##
## Thấp Trung bình Cao
## 4.150198 34.980237 60.869565
plot_pie(data, "Usage_Level", "Phân bố trình Mức độ sử dụng mạng xã hội mỗi ngày")
####2.10.2 Nhận xét 307 sinh viên (60.87%) sử dụng mạng xã hội từ 5 giờ trở lên mỗi ngày. Đây là mức sử dụng rất cao và có thể ảnh hưởng đến sức khỏe.
# Bước 1: Đếm số lượng sinh viên nam
x <- sum(data$Gender == "Male") # x là số sinh viên có giới tính "Male"
# Bước 2: Tính tổng số sinh viên trong dữ liệu
n <- nrow(data) # n là kích thước mẫu (tổng sinh viên)
# Bước 3: Kiểm định giả thuyết H0: tỷ lệ nam = 0.5 (50%)
# prop.test thực hiện kiểm định tỷ lệ 1 mẫu và xuất ra khoảng tin cậy
prop.test(x = x, n = n, p = 0.5, conf.level = 0.95)
##
## 1-sample proportions test without continuity correction
##
## data: x out of n, null probability 0.5
## X-squared = 0, df = 1, p-value = 1
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
## 0.4565989 0.5434011
## sample estimates:
## p
## 0.5
Giải thích toán học và thống kê: - Tính tỷ lệ mẫu: \(\hat{p} = \frac{x}{n} = \frac{253}{506} = 0.5\) - Sai số chuẩn (Standard Error - SE): \[SE = \sqrt{ \frac{p(1-p)}{n} } = \sqrt{ \frac{0.5(1-0.5)}{506} } = 0.022\] - Khoảng tin cậy 95%: \[CI = \hat{p} \pm z_{0.025} \cdot SE = 0.5 \pm 1.96 \cdot 0.022 = [0.4566, 0.5434]\] - p-value = 1 → Không bác bỏ H0 → Không có khác biệt so với tỷ lệ giả định.
Tỷ lệ sinh viên nam đúng bằng 50% như giả định ban đầu, không có khác biệt đáng kể.
x <- sum(data$Academic_Level == "Undergraduate")
n <- nrow(data)
prop.test(x = x, n = n, p = 0.5, conf.level = 0.95)
##
## 1-sample proportions test without continuity correction
##
## data: x out of n, null probability 0.5
## X-squared = 0, df = 1, p-value = 1
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
## 0.4565989 0.5434011
## sample estimates:
## p
## 0.5
Giải thích: - Giống 3.1, nhưng thay biến
Gender thành Academic_Level - Tỷ lệ mẫu cũng
là 0.5 → không khác biệt với giả định 50%
Tỷ lệ sinh viên bậc đại học và cao học là cân bằng trong mẫu nghiên cứu.
x <- sum(data$Sleep_Quality == "Thiếu ngủ") # Đếm số sinh viên thiếu ngủ
n <- sum(!is.na(data$Sleep_Quality)) # Tổng số sinh viên có dữ liệu
prop.test(x = x, n = n, p = 0.4, conf.level = 0.95) # So sánh với giả định 40%
##
## 1-sample proportions test with continuity correction
##
## data: x out of n, null probability 0.4
## X-squared = 44.002, df = 1, p-value = 3.28e-11
## alternative hypothesis: true p is not equal to 0.4
## 95 percent confidence interval:
## 0.5009010 0.5893076
## sample estimates:
## p
## 0.5454545
Giải thích: - \(x = 276\), \(n = 506\) - \(p_0 = 0.4\) là tỷ lệ giả định để so sánh - Tính tỷ lệ mẫu: \[\hat{p} = \frac{276}{506} \approx 0.5455\] - Sai số chuẩn: \[SE = \sqrt{ \frac{0.4(1-0.4)}{506} } \approx 0.0218\] - Khoảng tin cậy: \[CI = 0.5455 \pm 1.96 \cdot 0.0218 = [0.501, 0.589]\]
Tỷ lệ sinh viên thiếu ngủ cao hơn đáng kể so với giả định 40%, có ý nghĩa thống kê (p < 0.05).
x <- sum(data$Addiction_Level == "Nghiện nặng")
n <- sum(!is.na(data$Addiction_Level))
prop.test(x = x, n = n, p = 0.5, alternative = "greater", conf.level = 0.95)
##
## 1-sample proportions test with continuity correction
##
## data: x out of n, null probability 0.5
## X-squared = 112.89, df = 1, p-value < 2.2e-16
## alternative hypothesis: true p is greater than 0.5
## 95 percent confidence interval:
## 0.7027453 1.0000000
## sample estimates:
## p
## 0.7371542
Giải thích: - alternative = "greater":
kiểm định 1 phía, xem có lớn hơn 50% - Tỷ lệ mẫu: \(\hat{p} = 373 / 506 \approx 0.737\) -
Khoảng tin cậy: \[CI = [0.703,
0.770]\]
Tỷ lệ nghiện mạng xã hội nặng vượt xa mức giả định 50%, p-value < 0.001 → rất có ý nghĩa.
x <- sum(data$Conflict_Level %in% c("Khá nhiều", "Rất nhiều")) # Đếm các mức cao
n <- sum(!is.na(data$Conflict_Level))
prop.test(x = x, n = n, p = 0.8, alternative = "greater") # Giả định >= 80%
##
## 1-sample proportions test with continuity correction
##
## data: x out of n, null probability 0.8
## X-squared = 120.33, df = 1, p-value < 2.2e-16
## alternative hypothesis: true p is greater than 0.8
## 95 percent confidence interval:
## 0.9866748 1.0000000
## sample estimates:
## p
## 0.9960474
Giải thích: - \(\hat{p} = 504 / 506 \approx 0.996\) - Khoảng tin cậy: \[CI = [0.986, 0.999]\] - p rất nhỏ, cho thấy tỷ lệ thực tế vượt xa giả định 80%
Gần như tất cả sinh viên gặp xung đột mức cao, tỷ lệ này vượt rất xa mức dự đoán.
Tìm hiểu xem liệu Thiếu ngủ có liên hệ với mức độ nghiện mạng xã hội không? (Nói cách khác: Liệu những người thiếu ngủ có nghiện mạng xã hội nhiều hơn không?)
# Bảng chéo giữa chất lượng giấc ngủ và mức độ nghiện
table_sleep_addict <- table(data$Sleep_Quality, data$Addiction_Level)
table_sleep_addict
##
## Không nghiện Bình thường Nghiện nặng
## Ngủ đủ 3 123 104
## Thiếu ngủ 0 7 269
# Bảng tần suất chéo (contingency table) cho hai biến định tính:
# - Sleep_Quality: “Ngủ đủ” hoặc “Thiếu ngủ”
# - Addiction_Level: “Không nghiện”, “Bình thường”, “Nghiện nặng”
#
# table_sleep_addict[i, j] thể hiện số lượng sinh viên có
# Sleep_Quality = i và Addiction_Level = j
Ký hiệu và công thức
Gọi \(n_{ij}\) là số sinh viên ở hàng \(i\), cột \(j\), với:
Tần suất (tỷ lệ) tại ô \((i, j)\) được tính theo công thức:
\[ p_{ij} = \frac{n_{ij}}{n} \]
Một số tính toán cụ thể
Tỷ lệ sinh viên thuộc nhóm thiếu ngủ và nghiện mạng xã hội nặng:
\[ p_{23} = \frac{269}{506} \approx 0.5318 \]
Tổng số sinh viên thuộc nhóm thiếu ngủ:
\[ n_{2\cdot} = n_{21} + n_{22} + n_{23} = 0 + 7 + 269 = 276 \]
Tổng số sinh viên nghiện mạng xã hội nặng:
\[ n_{\cdot 3} = n_{13} + n_{23} = 104 + 269 = 373 \]
Tỷ lệ sinh viên nghiện nặng trong từng nhóm giấc ngủ:
\[ \frac{269}{276} \approx 0.9746 \quad (97.46\%) \]
\[ \frac{104}{230} \approx 0.4522 \quad (45.22\%) \]
Nhận xét
Dữ liệu cho thấy tỷ lệ nghiện mạng xã hội nặng ở nhóm sinh viên thiếu ngủ (97.46%) cao gần gấp đôi so với nhóm ngủ đủ (45.22%). Sự chênh lệch đáng kể này phản ánh xu hướng mức độ nghiện mạng xã hội có thể liên quan đến tình trạng giấc ngủ. Đây là dấu hiệu cho thấy hai biến có thể không độc lập với nhau và cần tiếp tục phân tích kiểm định để xác nhận mối liên hệ thống kê giữa chúng.
library(ggplot2)
# Bảng tần số giữa Sleep_Quality và Addiction_Level
sleep_addict_tbl <- as.data.frame(table(data$Sleep_Quality, data$Addiction_Level))
colnames(sleep_addict_tbl) <- c("Sleep_Quality", "Addiction_Level", "Count")
ggplot(sleep_addict_tbl, aes(x = Sleep_Quality, y = Count, fill = Addiction_Level)) +
geom_col(position = "dodge", width = 0.7) +
labs(
title = "Mối liên hệ giữa chất lượng giấc ngủ và mức độ nghiện mạng xã hội",
x = "Chất lượng giấc ngủ",
y = "Số lượng sinh viên",
fill = "Mức độ nghiện"
) +
scale_fill_brewer(palette = "Pastel2") +
theme_minimal(base_size = 13)
# Bảng tần số
table_sleep_addict <- table(data$Sleep_Quality, data$Addiction_Level)
table_sleep_addict
##
## Không nghiện Bình thường Nghiện nặng
## Ngủ đủ 3 123 104
## Thiếu ngủ 0 7 269
# Kiểm định Chi bình phương
chisq.test(table_sleep_addict)
## Warning in chisq.test(table_sleep_addict): Chi-squared approximation may be
## incorrect
##
## Pearson's Chi-squared test
##
## data: table_sleep_addict
## X-squared = 176.78, df = 2, p-value < 2.2e-16
Kiểm tra giả thuyết về sự độc lập giữa hai biến phân loại.
Công thức toán học
Giá trị kỳ vọng (Expected frequency) tại ô hàng \(i\), cột \(j\) được tính như sau:
\[ E_{ij} = \frac{n_{i\cdot} \times n_{\cdot j}}{n} \]
Trong đó:
Ví dụ, tại ô \((1, 3)\):
\[ E_{13} = \frac{230 \times 373}{506} \approx 169.61 \]
Thống kê kiểm định Chi bình phương:
\[ \chi^2 = \sum_{i=1}^{r} \sum_{j=1}^{c} \frac{(O_{ij} - E_{ij})^2}{E_{ij}} \]
Trong đó:
Bậc tự do (degrees of freedom):
\[ df = (r - 1)(c - 1) \]
Ở đây:
Nên:
\[ df = (2 - 1)(3 - 1) = 2 \]
install.packages("epitools", repos = "https://cloud.r-project.org")
## Installing package into 'C:/Users/Admin/AppData/Local/R/win-library/4.5'
## (as 'lib' is unspecified)
## package 'epitools' successfully unpacked and MD5 sums checked
##
## The downloaded binary packages are in
## C:\Users\Admin\AppData\Local\Temp\Rtmp4qTbfp\downloaded_packages
library(epitools)
# Tạo bảng chéo
table_Sleep_Addict <- table(data$Sleep_Quality, data$Addiction_Level)
# RR
riskratio(table_Sleep_Addict)
## Warning in chisq.test(xx, correct = correction): Chi-squared approximation may
## be incorrect
## $data
##
## Không nghiện Bình thường Nghiện nặng Total
## Ngủ đủ 3 123 104 230
## Thiếu ngủ 0 7 269 276
## Total 3 130 373 506
##
## $measure
## risk ratio with 95% C.I.
## estimate lower upper
## Ngủ đủ 1.00000 NA NA
## Thiếu ngủ 1.02439 0.9968335 1.052709
##
## $p.value
## two-sided
## midp.exact fisher.exact chi.square
## Ngủ đủ NA NA NA
## Thiếu ngủ 0.849191 7.927858e-45 4.107291e-39
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"
Nhận xét - nhóm tham chiếu được chọn là Ngủ đủ - Kết quả RR = 1.062 -> Nhóm thiếu ngủ có nguy cơ nghiện mạng xã hội nặng cao hơn 6.2% so với nhóm ngủ đủ. NHƯNG KHÁC BIỆT KHÔNG QUÁ NHIỀU
Khoảng tin cậy 95%: từ 1.032 đến 1.093 → không chứa 1, nghĩa là kết quả có ý nghĩa thống kê.
Chi-square p-value = 4.66e-64 ⇒ Rất nhỏ ⇒ bác bỏ giả thuyết H₀
Nghĩa là có mối liên hệ có ý nghĩa giữa thiếu ngủ và nghiện mạng xã hội nặng
# Tạo biến Addiction_Binary: TRUE nếu là "Nghiện nặng", FALSE nếu không
data$Addict_Heavy <- data$Addiction_Level == "Nghiện nặng"
# Tạo bảng 2x2 giữa Chất lượng giấc ngủ và Nghiện nặng
table_sleep_addict_2x2 <- table(data$Sleep_Quality, data$Addict_Heavy)
# Hiệu chỉnh để tránh lỗi
table_corrected <- table_sleep_addict_2x2
# Tính Odds Ratio
library(epitools)
oddsratio(table_corrected)
## $data
##
## FALSE TRUE Total
## Ngủ đủ 126 104 230
## Thiếu ngủ 7 269 276
## Total 133 373 506
##
## $measure
## odds ratio with 95% C.I.
## estimate lower upper
## Ngủ đủ 1.00000 NA NA
## Thiếu ngủ 45.26287 21.8881 111.1026
##
## $p.value
## two-sided
## midp.exact fisher.exact chi.square
## Ngủ đủ NA NA NA
## Thiếu ngủ 0 4.746216e-45 2.493726e-40
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "median-unbiased estimate & mid-p exact CI"
Nhận xét - nhóm tham chiếu được chọn là Ngủ đủ
- Kết quả OR = 78.00783 cho ta thấy Sinh viên thiếu ngủ có nguy cơ nghiện mạng xã hội cao hơn 78 lần so với sinh viên ngủ đủ, với độ tin cậy 95% (CI: [38.5 ; 187.7]). p-value cực kỳ nhỏ (≈ 0) ⇒ Mối liên hệ này rất có ý nghĩa thống kê.