Bộ dữ liệu Students Social Media Addiction bao gồm thông tin của 705 sinh viên đến từ nhiều quốc gia khác nhau, được thu thập nhằm nghiên cứu mức độ sử dụng mạng xã hội và ảnh hưởng của nó đến sức khỏe tinh thần, kết quả học tập và các khía cạnh xã hội của sinh viên. Dữ liệu ghi nhận nhiều đặc điểm cá nhân như độ tuổi, giới tính, trình độ học vấn, quốc gia, tình trạng mối quan hệ, cũng như các yếu tố liên quan đến hành vi sử dụng mạng xã hội như thời gian sử dụng trung bình mỗi ngày, nền tảng sử dụng nhiều nhất, số lần xảy ra mâu thuẫn do mạng xã hội, và điểm đánh giá mức độ nghiện. Ngoài ra, dữ liệu còn bao gồm chỉ số về số giờ ngủ mỗi đêm và điểm sức khỏe tinh thần. Bộ dữ liệu này là cơ sở hữu ích để phân tích mối liên hệ giữa việc sử dụng mạng xã hội với sức khỏe tinh thần, chất lượng cuộc sống và hiệu quả học tập của sinh viên, từ đó hỗ trợ xây dựng các khuyến nghị cho giáo dục và sức khỏe cộng đồng trong môi trường học đường hiện đại.
l <- read.csv(file.choose(), header = T)
str(l)
## 'data.frame': 705 obs. of 13 variables:
## $ Student_ID : int 1 2 3 4 5 6 7 8 9 10 ...
## $ Age : int 19 22 20 18 21 19 23 20 18 21 ...
## $ Gender : chr "Female" "Male" "Female" "Male" ...
## $ Academic_Level : chr "Undergraduate" "Graduate" "Undergraduate" "High School" ...
## $ Country : chr "Bangladesh" "India" "USA" "UK" ...
## $ Avg_Daily_Usage_Hours : num 5.2 2.1 6 3 4.5 7.2 1.5 5.8 4 3.3 ...
## $ Most_Used_Platform : chr "Instagram" "Twitter" "TikTok" "YouTube" ...
## $ Affects_Academic_Performance: chr "Yes" "No" "Yes" "No" ...
## $ Sleep_Hours_Per_Night : num 6.5 7.5 5 7 6 4.5 8 6 6.5 7 ...
## $ Mental_Health_Score : int 6 8 5 7 6 4 9 6 7 7 ...
## $ Relationship_Status : chr "In Relationship" "Single" "Complicated" "Single" ...
## $ Conflicts_Over_Social_Media : int 3 0 4 1 2 5 0 2 1 1 ...
## $ Addicted_Score : int 8 3 9 4 7 9 2 8 5 4 ...
Bộ dữ liệu có cấu trúc dạng data frame gồm 705 quan sát (observations) và 13 biến (variables), mỗi quan sát đại diện cho một sinh viên. Trong đó, các biến được định dạng với kiểu dữ liệu phù hợp: các biến định lượng như Age, Avg_Daily_Usage_Hours, Sleep_Hours_Per_Night, Mental_Health_Score, Conflicts_Over_Social_Media, và Addicted_Score được lưu dưới dạng số nguyên hoặc số thực (int, num). Các biến định tính như Gender, Academic_Level, Country, Most_Used_Platform, Affects_Academic_Performance và Relationship_Status được lưu dưới dạng chuỗi ký tự (chr), cho phép biểu diễn thông tin dạng phân loại.
Đáng chú ý, biến Student_ID được sử dụng như một định danh duy nhất cho từng sinh viên. Các biến như Most_Used_Platform và Affects_Academic_Performance cung cấp thông tin định tính có giá trị trong việc phân nhóm và kiểm định mối liên hệ giữa hành vi sử dụng mạng xã hội và các chỉ số về giấc ngủ, sức khỏe tinh thần hay xung đột xã hội. Cấu trúc rõ ràng và kiểu dữ liệu được tổ chức hợp lý giúp bộ dữ liệu sẵn sàng cho các phân tích thống kê, mô hình hóa và trực quan hóa.
table(l$Gender)
##
## Female Male
## 353 352
Bảng tần số cho thấy phân bố số lượng sinh viên theo giới tính. Kết quả cho thấy trong tổng số 705 sinh viên được khảo sát, có 353 sinh viên là nữ và 352 sinh viên là nam. Sự phân bố này gần như cân bằng, không có sự chênh lệch đáng kể giữa hai nhóm.
l1 <- table(l$Gender)/sum(nrow(l))
table(l$Gender)/sum(nrow(l))
##
## Female Male
## 0.5007092 0.4992908
Khi quy đổi sang tỷ lệ phần trăm, ta thấy tỷ lệ sinh viên nữ chiếm khoảng 50.07%, trong khi sinh viên nam chiếm khoảng 49.93%. Điều này tiếp tục khẳng định rằng giới tính của mẫu dữ liệu được phân bố gần như đều nhau.
library(ggplot2)
library(tidyverse)
library(scales)
l1_df <- as.data.frame(l1)
names(l1_df) <- c("Gender", "Tansuat")
ggplot(l1_df, aes(x = "", y = Tansuat, fill = Gender)) +
geom_col(width = 1, color = "white") +
coord_polar(theta = "y") +
scale_fill_manual(values = c("Female" = "#00C49A", "Male" = "#FF6384")) +
labs(title = "Biểu đồ tần suất giới tính") +
theme_void() +
geom_text(aes(label = paste0(round(Tansuat,6), "%")),
position = position_stack(vjust = 0.5),
color = "white", size = 4)
Biểu đồ tròn được sử dụng để trực quan hóa tỷ lệ phân bố giới tính trong tập dữ liệu gồm 705 sinh viên. Mỗi phần hình tròn đại diện cho một nhóm giới tính, được phân biệt bằng màu sắc: xanh ngọc cho nữ và hồng cho nam. Tỷ lệ phần trăm của mỗi nhóm được hiển thị trực tiếp trên biểu đồ, cho thấy sinh viên nữ chiếm khoảng 50.07%, trong khi sinh viên nam chiếm khoảng 49.93%. Cả hai phần gần như bằng nhau, phản ánh sự cân bằng về giới tính trong mẫu khảo sát.
table(l$Academic_Level)
##
## Graduate High School Undergraduate
## 325 27 353
Biến Academic_Level phản ánh trình độ học vấn hiện tại của các sinh viên trong bộ dữ liệu. Qua bảng tần số, ta thấy có 353 sinh viên ở bậc Undergraduate (Đại học), 325 sinh viên thuộc nhóm Graduate (Sau đại học), và chỉ có 27 sinh viên đang theo học High School (Trung học). Điều này cho thấy dữ liệu chủ yếu tập trung vào đối tượng sinh viên đại học và sau đại học, trong khi học sinh trung học chiếm tỷ lệ rất nhỏ.
l2 <- table(l$Academic_Level)/sum(nrow(l))
table(l$Academic_Level)/sum(nrow(l))
##
## Graduate High School Undergraduate
## 0.46099291 0.03829787 0.50070922
Tính toán tần suất cho thấy sinh viên đại học chiếm khoảng 50.07%, sinh viên sau đại học chiếm 46.10%, còn học sinh trung học chỉ chiếm khoảng 3.83% tổng mẫu. Sự chênh lệch này phản ánh mục tiêu khảo sát chủ yếu hướng đến nhóm sinh viên trưởng thành – những người có mức độ sử dụng mạng xã hội cao hơn và dễ bị ảnh hưởng đến học tập, sức khỏe tinh thần hoặc các mối quan hệ xã hội.
ggplot(l, aes(x = Academic_Level)) +
geom_bar(fill = "pink", color = "black") +
labs(x = "Mối quan hệ", y = "Tần số", title = "Biểu đồ tần số của biến Academic_Level") +
theme(axis.text.x = element_text(angle = 45, hjust = 1))
Biểu đồ cột thể hiện rõ sự phân bố tần số của ba nhóm trình độ học vấn. Nhóm Undergraduate có số lượng cao nhất với 353 sinh viên (50.07%), tiếp theo là Graduate với 325 sinh viên (46.10%), và cuối cùng là High School với 27 sinh viên (3.83%). Hai nhóm chính chiếm gần như toàn bộ mẫu khảo sát, trong khi nhóm học sinh trung học chỉ chiếm tỷ lệ rất nhỏ. Điều này cho thấy khảo sát tập trung chủ yếu vào đối tượng sinh viên bậc đại học và sau đại học. Biểu đồ giúp so sánh trực quan sự chênh lệch số lượng giữa các nhóm một cách rõ ràng và trực tiếp.
table(l$Most_Used_Platform)
##
## Facebook Instagram KakaoTalk LINE LinkedIn Snapchat TikTok Twitter
## 123 249 12 12 21 13 154 30
## VKontakte WeChat WhatsApp YouTube
## 12 15 54 10
Biến Most_Used_Platform phản ánh nền tảng mạng xã hội mà sinh viên sử dụng nhiều nhất. Theo bảng tần số, ba nền tảng phổ biến nhất là Instagram với 249 sinh viên, TikTok với 154 sinh viên và Facebook với 123 sinh viên. Các nền tảng còn lại có số lượng người dùng thấp hơn nhiều như WhatsApp (54), Twitter (30), LinkedIn (21), Snapchat (13), và một số nền tảng ít phổ biến như YouTube, WeChat, LINE, KakaoTalk, VKontakte – mỗi nền tảng chỉ có từ 10 đến 15 sinh viên sử dụng. Tổng cộng có 12 nền tảng xuất hiện trong khảo sát này.
l3 <- table(l$Most_Used_Platform)/sum(nrow(l))
table(l$Most_Used_Platform)/sum(nrow(l))
##
## Facebook Instagram KakaoTalk LINE LinkedIn Snapchat TikTok
## 0.17446809 0.35319149 0.01702128 0.01702128 0.02978723 0.01843972 0.21843972
## Twitter VKontakte WeChat WhatsApp YouTube
## 0.04255319 0.01702128 0.02127660 0.07659574 0.01418440
Về tần suất, Instagram chiếm 35.32% tổng số sinh viên, tiếp theo là TikTok (21.84%) và Facebook (17.45%). Trong khi đó, các nền tảng còn lại đều chiếm tỷ lệ khá thấp: WhatsApp (7.66%), Twitter (4.26%), LinkedIn (2.98%) và những nền tảng như YouTube, LINE, VKontakte chỉ dao động quanh mức 1.4%–1.7%. Điều này cho thấy phần lớn sinh viên tập trung sử dụng các mạng xã hội có tính năng chia sẻ hình ảnh và video ngắn, trong khi các nền tảng chuyên biệt hoặc khu vực có mức độ phổ biến hạn chế hơn.
ggplot(l, aes(x = Most_Used_Platform)) +
geom_bar(fill = "#FF6384", color = "black") +
labs(x = "Nền tảng ", y = "Tần suất", title = "Biểu đồ tần số nền tảng xã hội được sử dụng") +
theme(axis.text.x = element_text(angle = 45, hjust = 1)) +
coord_flip()
Biểu đồ cột ngang trực quan hóa rõ sự phân bố này. Thanh dài nhất thuộc về Instagram, cho thấy sự áp đảo về mức độ phổ biến. TikTok và Facebook cũng có chiều cao nổi bật, trong khi các nền tảng còn lại có tần suất thấp hơn nhiều. Biểu đồ cho thấy người trẻ trong khảo sát có xu hướng ưa chuộng các nền tảng thiên về hình ảnh và video ngắn. Dữ liệu này là cơ sở quan trọng để phân tích sâu hơn mối liên hệ giữa loại nền tảng được sử dụng và các yếu tố như thời gian sử dụng, mức độ nghiện, hoặc ảnh hưởng đến học tập và sức khỏe tinh thần.
table(l$Affects_Academic_Performance)
##
## No Yes
## 252 453
Biến Affects_Academic_Performance thể hiện việc sinh viên có cho rằng việc sử dụng mạng xã hội ảnh hưởng đến kết quả học tập hay không. Theo bảng tần số, có 453 sinh viên trả lời “Yes” (có ảnh hưởng) và 252 sinh viên trả lời “No” (không ảnh hưởng). Điều này cho thấy đa số sinh viên cảm nhận rằng mạng xã hội có tác động tiêu cực đến hiệu quả học tập của họ.
l4 <- table(l$Affects_Academic_Performance)/sum(nrow(l))
table(l$Affects_Academic_Performance)/sum(nrow(l))
##
## No Yes
## 0.3574468 0.6425532
Tính theo tần suất, có khoảng 64.25% sinh viên thừa nhận rằng mạng xã hội ảnh hưởng đến kết quả học tập, trong khi chỉ có 35.74% không cảm thấy bị ảnh hưởng. Sự chênh lệch này phản ánh mối lo ngại thực tế về việc sử dụng mạng xã hội có thể gây xao nhãng, giảm thời gian học tập hoặc ảnh hưởng đến khả năng tập trung của sinh viên.
ggplot(l, aes(x = Affects_Academic_Performance)) +
geom_bar(fill = "#FF6384", color = "black") +
labs(x = "Ảnh hưởng ", y = "Tần suất", title = "Biểu đồ tần số liệu Mạng xã hội có ảnh hưởng đến kết quả học tập không") +
theme(axis.text.x = element_text(angle = 45, hjust = 1)) +
coord_flip()
Biểu đồ cột ngang trực quan hóa sự khác biệt này một cách rõ rệt. Cột đại diện cho lựa chọn “Yes” cao vượt trội so với cột “No”, cho thấy nhận thức chung của sinh viên nghiêng nhiều về phía cho rằng mạng xã hội có tác động tiêu cực. Đây là cơ sở quan trọng để tiếp tục phân tích sâu hơn mối liên hệ giữa tần suất sử dụng mạng xã hội, nền tảng sử dụng và mức độ ảnh hưởng đến học tập.
table(l$Relationship_Status)
##
## Complicated In Relationship Single
## 32 289 384
Biến Relationship_Status thể hiện tình trạng mối quan hệ của sinh viên tại thời điểm khảo sát. Theo bảng tần số, trong tổng số 705 sinh viên, có 384 người độc thân (Single), 289 người đang trong mối quan hệ (In Relationship) và 32 người có mối quan hệ phức tạp (Complicated). Nhóm độc thân chiếm số lượng lớn nhất trong bộ dữ liệu.
l5 <- table(l$Relationship_Status)/sum(nrow(l))
table(l$Relationship_Status)/sum(nrow(l))
##
## Complicated In Relationship Single
## 0.04539007 0.40992908 0.54468085
Khi quy đổi thành tần suất, tỷ lệ sinh viên độc thân chiếm khoảng 54.47%, trong khi tỷ lệ đang trong mối quan hệ là 40.99%, và chỉ có 4.54% sinh viên cho biết tình trạng mối quan hệ của họ là “phức tạp”. Điều này cho thấy phần lớn sinh viên trong mẫu khảo sát không có ràng buộc tình cảm, điều có thể ảnh hưởng đến cách họ sử dụng thời gian, đặc biệt là với mạng xã hội.
l5_df <- as.data.frame(l5)
names(l5_df) <- c("Relationship_Status", "Tansuat")
ggplot(l5_df, aes(x = Relationship_Status, y = Tansuat, fill = Relationship_Status)) +
geom_col(width = 0.6) +
geom_text(aes(label = round(Tansuat, 3)), vjust = -0.2, size = 5) +
scale_y_continuous(labels = scales::percent_format(accuracy = 1)) +
labs(
title = "Biểu đồ tỷ lệ mối quan hệ ",
x = "Mối quan hệ",
y = "Tần suất (%)"
) +
theme_minimal(base_size = 14)
Biểu đồ cột minh họa rõ sự chênh lệch về tỷ lệ giữa các nhóm. Cột đại diện cho nhóm độc thân cao nhất, tiếp theo là nhóm đang yêu, và thấp nhất là nhóm có mối quan hệ phức tạp. Các con số tỷ lệ phần trăm được hiển thị trực tiếp trên đỉnh cột giúp người xem dễ dàng nhận biết sự phân bố. Biểu đồ này không chỉ hỗ trợ mô tả dữ liệu mà còn tạo tiền đề cho phân tích mối liên hệ giữa tình trạng quan hệ và các yếu tố như thời gian sử dụng mạng xã hội, sức khỏe tinh thần hoặc xung đột cá nhân.
“Yes” của biến Affects_Academic_Performance
“Female” của biến Gender
“Yes” của biến Affects_Academic_Performance giữa hai nhóm “Single” và “In Relationship” (biến Relationship_Status)
prop.test(sum(l$Affects_Academic_Performance == "Yes"), nrow(l), conf.level = 0.95)
##
## 1-sample proportions test with continuity correction
##
## data: sum(l$Affects_Academic_Performance == "Yes") out of nrow(l), null probability 0.5
## X-squared = 56.738, df = 1, p-value = 4.98e-14
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
## 0.6057710 0.6777594
## sample estimates:
## p
## 0.6425532
Phân tích này nhằm xác định xem tỷ lệ sinh viên cho rằng mạng xã hội có ảnh hưởng đến kết quả học tập có vượt quá mức 60% hay không. Ta thực hiện kiểm định giả thuyết một mẫu cho biến định tính Affects_Academic_Performance, trong đó lựa chọn hạng mục “Yes” làm đối tượng phân tích.
Giả thuyết được xây dựng như sau:
H₀ (Giả thuyết không): Tỷ lệ sinh viên bị ảnh hưởng bởi mạng xã hội không vượt quá 60% (p ≤ 0.6)
H₁ (Giả thuyết đối): Tỷ lệ sinh viên bị ảnh hưởng bởi mạng xã hội vượt quá 60% (p > 0.6)
Số sinh viên trả lời “Yes” là 453 trên tổng số 705 sinh viên, tương ứng với tỷ lệ mẫu là 64.25%. Kết quả kiểm định tỷ lệ một mẫu có điều chỉnh liên tục (continuity correction) cho thấy:
Giá trị thống kê chi bình phương (X²) = 56.738,
bậc tự do df = 1,
giá trị p-value = 4.98 × 10⁻¹⁴.
Với mức ý nghĩa α = 0.05, giá trị p nhỏ hơn 0.05 cho phép bác bỏ giả thuyết H₀. Kết luận rằng có bằng chứng thống kê cho thấy tỷ lệ sinh viên bị ảnh hưởng bởi mạng xã hội vượt quá 60%. Khoảng tin cậy 95% cho tỷ lệ này được ước lượng nằm trong khoảng từ 60.58% đến 67.78%, củng cố thêm cho nhận định trên. Điều này phản ánh một thực trạng đáng lưu ý rằng đa số sinh viên tự nhận thức được tác động tiêu cực của mạng xã hội đến quá trình học tập, từ đó đặt ra yêu cầu cho các can thiệp giáo dục phù hợp.
prop.test(sum(l$Gender == "Female"), nrow(l), conf.level = 0.95)
##
## 1-sample proportions test with continuity correction
##
## data: sum(l$Gender == "Female") out of nrow(l), null probability 0.5
## X-squared = 0, df = 1, p-value = 1
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
## 0.4631919 0.5382187
## sample estimates:
## p
## 0.5007092
Mục tiêu của phân tích này là xác định liệu tỷ lệ sinh viên nữ trong mẫu khảo sát có khác biệt đáng kể so với tỷ lệ giả định là 50% hay không. Ta tiến hành kiểm định giả thuyết cho tỷ lệ một mẫu với biến định tính Gender, tập trung vào nhóm Female.
Giả thuyết kiểm định được thiết lập như sau:
H₀ (Giả thuyết không): Tỷ lệ sinh viên nữ trong tổng thể là 50% (p = 0.5)
H₁ (Giả thuyết đối): Tỷ lệ sinh viên nữ khác 50% (p ≠ 0.5)
Trong tổng số 705 sinh viên, có 353 người là nữ, chiếm tỷ lệ mẫu là 50.07%. Kiểm định tỷ lệ một mẫu với hiệu chỉnh liên tục (continuity correction) cho kết quả:
Giá trị thống kê chi bình phương (X²) = 0,
bậc tự do df = 1,
giá trị p-value = 1.000.
Với mức ý nghĩa α = 0.05, kết quả kiểm định cho thấy không có đủ bằng chứng để bác bỏ giả thuyết H₀. Điều này có nghĩa là tỷ lệ sinh viên nữ trong mẫu không khác biệt có ý nghĩa thống kê so với tỷ lệ 50% giả định ban đầu. Khoảng tin cậy 95% cho tỷ lệ nữ trong tổng thể được ước lượng nằm trong khoảng từ 46.32% đến 53.82%, bao trùm giá trị 0.5. Kết quả này cho thấy phân bố giới tính trong bộ dữ liệu là cân bằng, phù hợp với kỳ vọng về tính đại diện của mẫu khảo sát đối với cộng đồng sinh viên nói chung.
# Tạo bảng 2 chiều
tab_rs <- table(l$Relationship_Status, l$Affects_Academic_Performance)
# Chọn 2 nhóm để so sánh: "Single" và "In Relationship"
tab_si <- tab_rs[c("Single", "In Relationship"), ]
# Thực hiện kiểm định tỷ lệ 2 nhóm
prop.test(
x = c(tab_si["Single", "Yes"], tab_si["In Relationship", "Yes"]),
n = c(sum(tab_si["Single", ]), sum(tab_si["In Relationship", ])),
alternative = "two.sided",
conf.level = 0.95
)
##
## 2-sample test for equality of proportions with continuity correction
##
## data: c(tab_si["Single", "Yes"], tab_si["In Relationship", "Yes"]) out of c(sum(tab_si["Single", ]), sum(tab_si["In Relationship", ]))
## X-squared = 20.165, df = 1, p-value = 7.104e-06
## alternative hypothesis: two.sided
## 95 percent confidence interval:
## 0.0949156 0.2473746
## sample estimates:
## prop 1 prop 2
## 0.7109375 0.5397924
Mục tiêu của phân tích này là xác định liệu tỷ lệ sinh viên bị ảnh hưởng bởi mạng xã hội đến kết quả học tập có khác biệt đáng kể giữa hai nhóm sinh viên độc thân (Single) và đang trong mối quan hệ (In Relationship) hay không. Ta tiến hành kiểm định giả thuyết cho sự khác biệt giữa hai tỷ lệ độc lập, với biến định tính Affects_Academic_Performance, tập trung vào hạng mục “Yes”.
Giả thuyết kiểm định được thiết lập như sau:
H₀ (Giả thuyết không): Tỷ lệ sinh viên bị ảnh hưởng học tập ở hai nhóm là bằng nhau (p₁ = p₂)
H₁ (Giả thuyết đối): Tỷ lệ bị ảnh hưởng giữa hai nhóm là khác nhau (p₁ ≠ p₂)
Trong tổng số sinh viên thuộc hai nhóm, có 71.09% sinh viên độc thân và 53.98% sinh viên đang trong mối quan hệ cho biết họ cảm thấy bị ảnh hưởng bởi mạng xã hội đến kết quả học tập. Kiểm định tỷ lệ hai mẫu độc lập với hiệu chỉnh liên tục (continuity correction) cho kết quả:
Giá trị thống kê chi bình phương (X²) = 20.165
Bậc tự do df = 1
Giá trị p-value = 7.104 × 10⁻⁶
Với mức ý nghĩa α = 0.05, p-value rất nhỏ cho phép bác bỏ giả thuyết H₀. Điều này cho thấy có sự khác biệt có ý nghĩa thống kê giữa hai nhóm sinh viên. Cụ thể, sinh viên độc thân có tỷ lệ bị ảnh hưởng học tập cao hơn đáng kể so với sinh viên đang trong mối quan hệ.
Khoảng tin cậy 95% cho hiệu tỷ lệ giữa hai nhóm được ước lượng nằm trong khoảng từ 9.49% đến 24.74%, không bao gồm giá trị 0, càng củng cố thêm kết luận về sự khác biệt. Kết quả này cho thấy tình trạng mối quan hệ cá nhân có thể đóng vai trò trong cách sinh viên cảm nhận và bị ảnh hưởng bởi việc sử dụng mạng xã hội trong học tập.
Trong phần này, tập trung phân tích mối liên hệ giữa hai biến định tính đóng vai trò là biến phụ thuộc, bao gồm:
Affects_Academic_Performance – thể hiện sinh viên có cho rằng mạng xã hội ảnh hưởng đến kết quả học tập hay không, và Relationship_Status – phản ánh tình trạng mối quan hệ cá nhân của sinh viên. Mục tiêu là tìm hiểu xem các yếu tố liên quan có ảnh hưởng đáng kể đến hai biến này hay không.
Cụ thể, với biến Affects_Academic_Performance, chọn Most_Used_Platform làm biến độc lập để kiểm tra xem loại nền tảng mạng xã hội mà sinh viên sử dụng nhiều nhất có liên quan đến việc họ cảm thấy bị ảnh hưởng trong học tập hay không. Đối với biến Relationship_Status, biến độc lập được chọn là Gender nhằm phân tích xem giới tính có ảnh hưởng đến tình trạng mối quan hệ của sinh viên hay không. Để thực hiện phân tích, chúng tôi sử dụng bảng tần suất chéo (cross-tabulation) để quan sát phân bố dữ liệu, tính tỷ lệ phần trăm theo từng nhóm, tiến hành trục quan hoá và tiến hành kiểm định Chi-squared để xác định liệu mối liên hệ giữa các biến có ý nghĩa thống kê hay không
tabl <- table(l$Affects_Academic_Performance, l$Most_Used_Platform)
tabl
##
## Facebook Instagram KakaoTalk LINE LinkedIn Snapchat TikTok Twitter
## No 86 77 0 12 21 1 10 19
## Yes 37 172 12 0 0 12 144 11
##
## VKontakte WeChat WhatsApp YouTube
## No 12 7 0 7
## Yes 0 8 54 3
Phân tích mối quan hệ giữa biến Affects_Academic_Performance và Most_Used_Platform được thực hiện thông qua bảng tần suất chéo. Kết quả cho thấy sự phân bố khác biệt rõ rệt về tỷ lệ sinh viên bị ảnh hưởng đến học tập giữa các nền tảng mạng xã hội. Chẳng hạn, trong khi TikTok và Instagram có số lượng lớn sinh viên trả lời “Yes” (bị ảnh hưởng) với lần lượt là 144 và 172 người, thì các nền tảng như LinkedIn, LINE, VKontakte lại không ghi nhận sinh viên nào chọn “Yes”. Ngược lại, các nền tảng như Facebook và Twitter có tỷ lệ “No” cao hơn đáng kể.
# Tính tỷ lệ theo hàng
propl <- prop.table(tabl, margin = 1) * 100
# Hiển thị bảng
round(propl, 2)
##
## Facebook Instagram KakaoTalk LINE LinkedIn Snapchat TikTok Twitter
## No 34.13 30.56 0.00 4.76 8.33 0.40 3.97 7.54
## Yes 8.17 37.97 2.65 0.00 0.00 2.65 31.79 2.43
##
## VKontakte WeChat WhatsApp YouTube
## No 4.76 2.78 0.00 2.78
## Yes 0.00 1.77 11.92 0.66
Tỷ lệ phần trăm theo hàng cho thấy sinh viên sử dụng Instagram và TikTok chiếm tới gần 38% và 32% trong nhóm bị ảnh hưởng học tập, trong khi các nền tảng như WeChat, Snapchat và WhatsApp cũng có tỷ lệ “Yes” tương đối cao so với tổng thể.
df_tabl <- as.data.frame(tabl)
colnames(df_tabl) <- c("Affects_Academic_Performance", "Most_Used_Platform", "Freq")
ggplot(df_tabl, aes(x = Affects_Academic_Performance, y = Freq, fill = Most_Used_Platform)) +
geom_bar(stat = "identity", position = "fill") +
labs(title = "Tỷ lệ sự ảnh hưởng theo nền tảng mạng xã hội",
y = "Tỷ lệ", x = "Sự ảnh hưởng") +
scale_y_continuous(labels = scales::percent)
chisq.test(tabl)
##
## Pearson's Chi-squared test
##
## data: tabl
## X-squared = 260.32, df = 11, p-value < 2.2e-16
Kết quả kiểm định Chi-squared cho bảng tần suất 2 chiều giữa hai biến cho ra giá trị X² = 260.32 với 11 bậc tự do, và p-value < 2.2×10⁻¹⁶. Điều này cho thấy có mối liên hệ có ý nghĩa thống kê rất mạnh giữa nền tảng mạng xã hội được sử dụng và việc sinh viên cảm thấy bị ảnh hưởng đến kết quả học tập.
library(epitools)
tab <- table(l$Most_Used_Platform, l$Affects_Academic_Performance)
riskratio(tab)
## $data
##
## No Yes Total
## Facebook 86 37 123
## Instagram 77 172 249
## KakaoTalk 0 12 12
## LINE 12 0 12
## LinkedIn 21 0 21
## Snapchat 1 12 13
## TikTok 10 144 154
## Twitter 19 11 30
## VKontakte 12 0 12
## WeChat 7 8 15
## WhatsApp 0 54 54
## YouTube 7 3 10
## Total 252 453 705
##
## $measure
## risk ratio with 95% C.I.
## estimate lower upper
## Facebook 1.0000000 NA NA
## Instagram 2.2963204 1.7321328 3.044274
## KakaoTalk 3.3243243 2.5391712 4.352260
## LINE 0.0000000 0.0000000 NaN
## LinkedIn 0.0000000 0.0000000 NaN
## Snapchat 3.0686071 2.2466226 4.191336
## TikTok 3.1084591 2.3667144 4.082672
## Twitter 1.2189189 0.7089019 2.095866
## VKontakte 0.0000000 0.0000000 NaN
## WeChat 1.7729730 1.0283722 3.056708
## WhatsApp 3.3243243 2.5391712 4.352260
## YouTube 0.9972973 0.3726745 2.668822
##
## $p.value
## two-sided
## midp.exact fisher.exact chi.square
## Facebook NA NA NA
## Instagram 9.585666e-13 1.111418e-12 9.946069e-13
## KakaoTalk 1.995187e-06 1.995187e-06 1.525180e-06
## LINE 1.756640e-02 3.614860e-02 2.575156e-02
## LinkedIn 1.107902e-03 2.000217e-03 3.548574e-03
## Snapchat 1.767794e-05 1.713513e-05 8.814799e-06
## TikTok 0.000000e+00 2.812067e-30 3.010868e-28
## Twitter 4.911647e-01 5.145224e-01 4.858121e-01
## VKontakte 1.756640e-02 3.614860e-02 2.575156e-02
## WeChat 8.706546e-02 8.409416e-02 6.973328e-02
## WhatsApp 0.000000e+00 3.438036e-21 1.038640e-17
## YouTube 9.758515e-01 1.000000e+00 9.956983e-01
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"
Phân tích tỉ số nguy cơ (Risk Ratio) được thực hiện để so sánh mức độ ảnh hưởng đến kết quả học tập (biến Affects_Academic_Performance) giữa các nhóm sinh viên sử dụng các nền tảng mạng xã hội khác nhau. Trong bảng kết quả, nền tảng Facebook được chọn làm nhóm tham chiếu với Risk Ratio = 1.00, và các nhóm còn lại được so sánh với nền tảng này.
Một số kết quả đáng chú ý trong bảng $measure:
KakaoTalk có Risk Ratio = 3.32, nghĩa là sinh viên sử dụng KakaoTalk có nguy cơ cho biết bị ảnh hưởng đến học tập cao gấp khoảng 3.3 lần so với sinh viên dùng Facebook. Khoảng tin cậy 95% cho giá trị này nằm trong khoảng 2.54 đến 4.35, cho thấy kết quả ước lượng có độ tin cậy cao và khác biệt có ý nghĩa thống kê (p < 0.001).
TikTok (RR = 3.11) và WhatsApp (RR = 3.32) cũng có tỉ số nguy cơ cao, thể hiện mức ảnh hưởng cao hơn đáng kể so với Facebook. Điều này cho thấy sinh viên dùng các nền tảng thiên về video ngắn hoặc trò chuyện nhóm có xu hướng bị ảnh hưởng học tập nhiều hơn.
Một số nền tảng như Twitter (RR = 1.22) và YouTube (RR ≈ 1.00) có mức nguy cơ tương đương với Facebook và không cho thấy sự khác biệt đáng kể.
l2 <- subset(l, Most_Used_Platform %in% c("Facebook", "TikTok"))
tab2 <- table(l2$Affects_Academic_Performance, l2$Most_Used_Platform)
oddsratio(tab2)
## $data
##
## Facebook TikTok Total
## No 86 10 96
## Yes 37 144 181
## Total 123 154 277
##
## $measure
## odds ratio with 95% C.I.
## estimate lower upper
## No 1.00000 NA NA
## Yes 32.49278 15.99137 72.86998
##
## $p.value
## two-sided
## midp.exact fisher.exact chi.square
## No NA NA NA
## Yes 0 2.812067e-30 3.010868e-28
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "median-unbiased estimate & mid-p exact CI"
Phân tích odds ratio được sử dụng để đánh giá khả năng sinh viên cảm thấy bị ảnh hưởng bởi mạng xã hội đến kết quả học tập khi sử dụng TikTok so với Facebook. Bảng dữ liệu cho thấy, trong số 277 sinh viên thuộc hai nhóm này, có 144 sinh viên dùng TikTok trả lời “Yes” (bị ảnh hưởng), trong khi chỉ 37 sinh viên dùng Facebook có cùng phản hồi.
Giá trị odds ratio ước lượng là 32.49, nghĩa là xác suất bị ảnh hưởng học tập khi dùng TikTok cao gấp hơn 32 lần so với khi dùng Facebook. Khoảng tin cậy 95% cho odds ratio nằm trong khoảng 15.99 đến 72.87, cho thấy độ tin cậy cao và sự khác biệt có ý nghĩa lớn. Giá trị p-value gần bằng 0 (p < 2.81 × 10⁻³⁰) từ cả kiểm định Fisher và chi-squared, khẳng định rằng sự khác biệt này là rất có ý nghĩa thống kê.
Kết quả này cho thấy TikTok – một nền tảng nổi bật với nội dung video ngắn, dễ gây nghiện và cập nhật liên tục – có khả năng liên quan đến mức độ ảnh hưởng tiêu cực đến học tập cao hơn đáng kể so với Facebook. Điều này phản ánh một mối quan ngại thực tế trong bối cảnh sinh viên ngày càng sử dụng các nền tảng có tính giải trí cao như TikTok trong thời gian biểu hàng ngày.
tabl2 <- table(l$Relationship_Status , l$Gender)
tabl2
##
## Female Male
## Complicated 17 15
## In Relationship 138 151
## Single 198 186
Phân tích mối quan hệ giữa Relationship_Status và Gender được thực hiện thông qua bảng tần suất chéo. Về số lượng, nhóm “In Relationship” chiếm phần lớn với 138 nữ và 151 nam; nhóm “Single” gồm 198 nữ và 186 nam; nhóm “Complicated” có 17 nữ và 15 nam – cho thấy phân bố giới tính trong từng nhóm là khá đồng đều.
# Tính tỷ lệ theo hàng
propl2 <- prop.table(tabl2, margin = 1) * 100
# Hiển thị bảng
round(propl2, 2)
##
## Female Male
## Complicated 53.12 46.88
## In Relationship 47.75 52.25
## Single 51.56 48.44
Tỷ lệ phần trăm theo hàng (bảng tần số) cho thấy: trong nhóm “Complicated”, nữ chiếm 53.12%, nam chiếm 46.88%; trong nhóm “In Relationship”, tỷ lệ nam và nữ lần lượt là 52.25% và 47.75%; còn trong nhóm “Single”, nữ chiếm 51.56%, nam chiếm 48.44%. Nhìn chung, các tỷ lệ dao động quanh mức 50% và không có sự chênh lệch lớn giữa hai giới.
df_tabl2 <- as.data.frame(tabl2)
colnames(df_tabl2) <- c("Relationship_Status", "Gender", "Freq")
ggplot(df_tabl2, aes(x = Relationship_Status, y = Freq, fill = Gender)) +
geom_bar(stat = "identity", position = "fill") +
labs(title = "Tỷ lệ sự ảnh hưởng theo nền tảng mạng xã hội",
y = "Tỷ lệ", x = "Sự ảnh hưởng") +
scale_y_continuous(labels = scales::percent)
### 4.2.3 Kiểm định Thống kê (Kiểm định Chi-bình
phương)
chisq.test(tabl2)
##
## Pearson's Chi-squared test
##
## data: tabl2
## X-squared = 1.0834, df = 2, p-value = 0.5818
Kết quả kiểm định Chi-squared cho thấy X² = 1.0834, với 2 bậc tự do, p-value = 0.5818. Với mức ý nghĩa 0.05, ta không có đủ bằng chứng để bác bỏ giả thuyết rằng giới tính và tình trạng mối quan hệ là độc lập. Nói cách khác, giới tính không có mối liên hệ thống kê đáng kể với tình trạng mối quan hệ cá nhân trong mẫu khảo sát này.
library(epitools)
tabe <- table(l$Relationship_Status, l$Gender)
riskratio(tabe)
## $data
##
## Female Male Total
## Complicated 17 15 32
## In Relationship 138 151 289
## Single 198 186 384
## Total 353 352 705
##
## $measure
## risk ratio with 95% C.I.
## estimate lower upper
## Complicated 1.000000 NA NA
## In Relationship 1.114648 0.7584882 1.638049
## Single 1.033333 0.7045291 1.515591
##
## $p.value
## two-sided
## midp.exact fisher.exact chi.square
## Complicated NA NA NA
## In Relationship 0.5702291 0.5816013 0.5637695
## Single 0.8688549 1.0000000 0.8650590
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"
Phân tích tỉ số nguy cơ (Relative Risk) được thực hiện nhằm đánh giá mối liên hệ giữa tình trạng mối quan hệ cá nhân (Relationship_Status) và giới tính (Gender) của sinh viên. Trong phân tích này, nhóm “Complicated” được chọn làm nhóm tham chiếu (RR = 1.00), và các nhóm còn lại được so sánh với nhóm này để xem liệu nam hay nữ có khả năng rơi vào từng tình trạng mối quan hệ khác nhau hay không.
Kết quả cho thấy:
Nhóm “In Relationship” có RR = 1.11 (khoảng tin cậy 95%: 0.76 đến 1.64), nghĩa là nữ có khả năng đang trong mối quan hệ cao hơn 11% so với nam, nhưng sự khác biệt này không có ý nghĩa thống kê (p-value = 0.57).
Tương tự, nhóm “Single” có RR = 1.03 (khoảng tin cậy 95%: 0.70 đến 1.52), cho thấy khả năng là nữ độc thân chỉ nhỉnh hơn nam khoảng 3%, và sự khác biệt này cũng không có ý nghĩa thống kê (p-value = 0.87).
Tất cả khoảng tin cậy đều bao gồm giá trị 1 và p-value đều lớn hơn 0.05, cho thấy không có mối liên hệ đáng kể về mặt thống kê giữa giới tính và tình trạng quan hệ cá nhân trong bộ dữ liệu khảo sát. Điều này cho thấy phân bố giới tính trong các nhóm mối quan hệ là tương đối đồng đều, và giới tính không phải là yếu tố quyết định đáng kể đến việc sinh viên đang độc thân, đang yêu hay có mối quan hệ phức tạp.
oddsratio(tabe)
## $data
##
## Female Male Total
## Complicated 17 15 32
## In Relationship 138 151 289
## Single 198 186 384
## Total 353 352 705
##
## $measure
## odds ratio with 95% C.I.
## estimate lower upper
## Complicated 1.000000 NA NA
## In Relationship 1.237838 0.5912953 2.616212
## Single 1.063217 0.5125110 2.227310
##
## $p.value
## two-sided
## midp.exact fisher.exact chi.square
## Complicated NA NA NA
## In Relationship 0.5702291 0.5816013 0.5637695
## Single 0.8688549 1.0000000 0.8650590
##
## $correction
## [1] FALSE
##
## attr(,"method")
## [1] "median-unbiased estimate & mid-p exact CI"
Phân tích odds ratio được thực hiện nhằm đánh giá khả năng nữ sinh viên rơi vào từng tình trạng mối quan hệ cá nhân so với nam, với nhóm “Complicated” được chọn làm nhóm tham chiếu (OR = 1.00). Các nhóm “In Relationship” và “Single” được so sánh tương ứng để xem liệu giới tính có liên quan đến tình trạng quan hệ hay không.
Kết quả cho thấy:
Ở nhóm “In Relationship”, odds ratio ước tính là 1.24, với khoảng tin cậy 95% từ 0.59 đến 2.62. Điều này cho thấy nữ sinh có khả năng đang trong một mối quan hệ cao hơn 24% so với nam, tuy nhiên sự khác biệt này không có ý nghĩa thống kê (p-value = 0.57).
Ở nhóm “Single”, odds ratio là 1.06 (khoảng tin cậy 95%: 0.51 đến 2.23), cho thấy khả năng nữ sinh đang độc thân gần như tương đương với nam sinh. Sự khác biệt không có ý nghĩa thống kê (p-value = 0.87).
Tất cả khoảng tin cậy đều bao gồm giá trị 1 và p-value đều lớn hơn 0.05, cho thấy không có mối liên hệ đáng kể về mặt thống kê giữa giới tính và tình trạng mối quan hệ. Kết quả odds ratio nhất quán với các kiểm định khác, khẳng định rằng giới tính không phải là yếu tố quyết định đến tình trạng quan hệ cá nhân trong mẫu khảo sát này.
Phân tích dữ liệu từ 705 sinh viên cho thấy một số xu hướng nổi bật liên quan đến việc sử dụng mạng xã hội và ảnh hưởng đến kết quả học tập. Trước hết, có đến 64.25% sinh viên cho biết họ cảm thấy mạng xã hội ảnh hưởng đến học tập, và kết quả kiểm định tỷ lệ khẳng định đây là một hiện tượng phổ biến với ý nghĩa thống kê cao. Trong khi đó, tỷ lệ sinh viên nữ (50.07%) không khác biệt đáng kể so với nam, phản ánh sự cân bằng giới tính trong mẫu khảo sát.
Đáng chú ý, sinh viên độc thân có tỷ lệ bị ảnh hưởng học tập cao hơn đáng kể so với nhóm đang trong mối quan hệ (71.09% so với 53.98%), cho thấy tình trạng mối quan hệ có thể liên quan đến cách sinh viên kiểm soát việc sử dụng mạng xã hội. Ngoài ra, các nền tảng như TikTok, WhatsApp, Snapchat và KakaoTalk đều cho thấy nguy cơ sinh viên bị ảnh hưởng học tập cao hơn gấp 3 lần so với Facebook, với các risk ratio và odds ratio rất lớn và p-value nhỏ. Trong đó, odds ratio giữa TikTok và Facebook lên tới 32.49, phản ánh sự chênh lệch cực kỳ rõ rệt.
Trong khi đó, khi xét mối liên hệ giữa giới tính và tình trạng quan hệ, kết quả không cho thấy sự khác biệt đáng kể, với các p-value đều lớn hơn 0.5. Điều này chứng tỏ rằng phân bố giới tính trong các nhóm quan hệ là tương đối đồng đều. Những kết quả này giúp xác định rõ những yếu tố có khả năng liên quan đến tác động của mạng xã hội trong môi trường sinh viên.
Mặc dù phân tích đưa ra nhiều kết quả có ý nghĩa, nhưng vẫn tồn tại một số hạn chế. Thứ nhất, một số nền tảng mạng xã hội có số lượng người dùng rất thấp (ví dụ LINE, VKontakte, KakaoTalk), khiến các tỉ lệ ước lượng dễ bị sai lệch hoặc không thể tính được khoảng tin cậy. Thứ hai, các phương pháp như odds ratio và risk ratio chỉ áp dụng cho bảng 2x2, nên việc so sánh nhiều nhóm đồng thời bị giới hạn. Thứ ba, dữ liệu thu thập mang tính tự báo cáo (self-reported) nên có thể chịu ảnh hưởng từ định kiến, thiên kiến nhận thức hoặc trí nhớ chủ quan của người tham gia, dẫn đến sai số trong phản hồi. Cuối cùng, mô hình phân tích chưa kiểm soát các biến nhiễu như độ tuổi, học lực, thời gian sử dụng cụ thể, hay đặc điểm học tập.
Từ những kết quả trên, có thể đưa ra một số đề xuất thực tiễn. Nhà trường và các đơn vị quản lý giáo dục cần đặc biệt lưu ý đến nhóm sinh viên sử dụng TikTok, WhatsApp, Snapchat – những nền tảng liên quan mạnh đến khả năng bị ảnh hưởng học tập. Các chương trình định hướng kỹ năng số, quản lý thời gian, và can thiệp hành vi sử dụng mạng xã hội nên được thiết kế và áp dụng phù hợp theo nhóm hành vi và nền tảng sử dụng. Ngoài ra, khi thiết kế khảo sát trong tương lai, cần đảm bảo số lượng phân bổ hợp lý giữa các nền tảng để đảm bảo kết quả đại diện và có thể so sánh được.
Từ kết quả hiện tại, một số hướng nghiên cứu mở có thể đặt ra như sau:
Liệu mức độ nghiện mạng xã hội (Addicted_Score) có đóng vai trò trung gian giữa nền tảng sử dụng và ảnh hưởng đến học tập không?
Có sự tương tác giữa giới tính, trình độ học vấn, và nền tảng mạng xã hội trong việc làm tăng nguy cơ ảnh hưởng học tập không?
Ngoài mặt tiêu cực, liệu mạng xã hội có đóng vai trò hỗ trợ học tập tích cực như chia sẻ kiến thức, tạo động lực học không?
Các nghiên cứu tiếp theo có thể áp dụng mô hình hồi quy đa biến hoặc nghiên cứu dọc (longitudinal) để đánh giá nguyên nhân – hệ quả rõ ràng hơn, cũng như mở rộng đến các chỉ số học tập thực tế như GPA, điểm rèn luyện hay thời gian học trung bình hằng ngày.
Phương pháp ước lượng tối đa hợp lý – trong tiếng Anh là Maximum Likelihood Estimation (viết tắt là MLE) – là một trong những phương pháp ước lượng tham số phổ biến và có nền tảng lý thuyết vững chắc nhất trong thống kê suy diễn hiện đại. Về bản chất, MLE là một kỹ thuật tìm kiếm giá trị của tham số chưa biết sao cho khả năng xảy ra của toàn bộ dữ liệu quan sát được là lớn nhất dưới giả định rằng dữ liệu đó tuân theo một phân phối xác suất cụ thể.
Khái niệm “hợp lý” trong phương pháp này được hiểu theo nghĩa xác suất: nếu một mô hình là “hợp lý”, thì nó sẽ gán xác suất cao cho những dữ liệu mà ta thực tế quan sát được. Do đó, MLE chọn ra giá trị tham số mà dưới nó, xác suất (hoặc mật độ xác suất) để dữ liệu xuất hiện là lớn nhất có thể. Cách tiếp cận này mang tính nguyên lý và trực giác mạnh mẽ: trong vô số khả năng, chọn phương án giải thích dữ liệu “tự nhiên” nhất.
Phương pháp MLE không chỉ áp dụng được cho các mô hình phân phối đơn giản như phân phối chuẩn, nhị thức hay Poisson, mà còn mở rộng sang các mô hình thống kê phức tạp hơn như hồi quy logistic, mô hình chuỗi thời gian, mô hình hỗn hợp (mixture models), và các thuật toán trong học máy như Naive Bayes, Expectation-Maximization (EM), hoặc mạng Bayes.
Tầm quan trọng của MLE không chỉ nằm ở khả năng ước lượng chính xác tham số mà còn ở việc cung cấp nền tảng lý thuyết cho nhiều công cụ thống kê khác, chẳng hạn như kiểm định tỉ số hợp lý (Likelihood Ratio Test – LRT), thống kê Wald, hay xây dựng khoảng tin cậy từ thông tin Fisher. Trong nhiều tình huống, MLE là lựa chọn mặc định trong phần mềm thống kê như R, Stata, SAS, Python (statsmodels, scikit-learn), và các hệ thống phân tích học máy hiện đại.
Phương pháp ước lượng tối đa hợp lý (MLE) được xây dựng dựa trên nguyên lý xác suất: nếu ta biết mô hình phân phối xác suất của một hiện tượng ngẫu nhiên, thì ta có thể tìm giá trị tham số mà dưới đó, dữ liệu quan sát được là “phù hợp” nhất. Cốt lõi của phương pháp này là xây dựng hàm hợp lý (likelihood function) – biểu diễn khả năng xảy ra của dữ liệu thực tế dưới một giá trị tham số cụ thể – và sau đó tìm giá trị tham số làm cực đại hàm này.
Giả sử ta có một mẫu ngẫu nhiên gồm 𝑛quan sát X = (X1, X2,…, Xn) ược rút ra độc lập từ một phân phối xác suất có hàm mật độ hoặc hàm khối xác suất 𝑓(𝑥;𝜃) trong đó 𝜃là tham số (hoặc vector tham số) chưa biết. Hàm hợp lý (likelihood function) được định nghĩa là:
\[ L(\theta \mid x_1, ..., x_n) = \prod_{i=1}^n f(x_i; \theta) \] Hàm hợp lý biểu thị xác suất đồng thời để tất cả dữ liệu xi cùng xảy ra dưới tham số 𝜃. MLE đi tìm giá trị 𝜃sao cho 𝐿(𝜃) lớn nhất.
Vì tích nhiều xác suất thường rất nhỏ và gây khó khăn cho tính toán số học, ta thường sử dụng logarit của hàm hợp lý. Khi đó, ta thu được hàm log-likelihood, thuận tiện hơn cho việc đạo hàm và tối ưu hóa:
\[ \ell(\theta) = \log L(\theta) = \sum_{i=1}^n \log f(x_i; \theta) \]
Hàm log-likelihood giữ nguyên vị trí cực đại của hàm hợp lý gốc nhưng giúp đơn giản hóa quá trình xử lý toán học. Mục tiêu của MLE là tìm giá trị𝜃sao cho ℓ(𝜃) đạt giá trị lớn nhất.
Ước lượng tối đa hợp lý là giá trị tham số mà tại đó hàm log-likelihood đạt cực đại. Ký hiệu:
\[ \hat{\theta} = \arg\max_{\theta} \ell(\theta) \]
Việc tìm cực trị của ℓ(𝜃) thường được thực hiện bằng cách giải phương trình đạo hàm bậc nhất của hàm này.
Để tìm cực đại, ta lấy đạo hàm bậc nhất của hàm log-likelihood theo 𝜃và giải phương trình:
\[ \frac{d\ell(\theta)}{d\theta} = 0 \]
Sau đó, cần kiểm tra điều kiện cực trị bằng đạo hàm bậc hai. Nếu:
\[ \frac{d^2\ell(\theta)}{d\theta^2} < 0 \] thì 𝜃là điểm cực đại của hàm log-likelihood, tức là ước lượng tối đa hợp lý hợp lệ.
Để minh họa, giả sử mỗi quan sát Xi tuân theo phân phối Bernoulli với xác suất thành công 𝑝, tức là:
\[ f(x_i; p) = p^{x_i}(1 - p)^{1 - x_i}, \quad x_i \in \{0, 1\} \]
Khi đó, hàm log-likelihood cho mẫu gồm 𝑛quan sát là:
\[ \ell(p) = \sum_{i=1}^n [x_i \log p + (1 - x_i) \log (1 - p)] \]
\[ = n\bar{x} \log p + n(1 - \bar{x}) \log (1 - p) \]
Lấy đạo hàm và giải phương trình
\[ \hat{p} = \bar{x} \]
Nghĩa là, ước lượng tối đa hợp lý của tham số 𝑝trong phân phối Bernoulli chính là tần suất trung bình của các giá trị bằng 1 trong mẫu – một kết quả rất trực quan
Quy trình áp dụng MLE trong thực hành bao gồm các bước cụ thể sau:
Xác định mô hình xác suất phù hợp với dữ liệu: ví dụ như phân phối nhị thức cho dữ liệu nhị phân, phân phối chuẩn cho dữ liệu liên tục, hoặc phân phối Poisson cho dữ liệu đếm.
Thiết lập hàm hợp lý (likelihood function) dựa trên mô hình và dữ liệu thu được. Hàm này thể hiện xác suất để quan sát dữ liệu xảy ra dưới một giá trị tham số cụ thể.
Lấy logarit của hàm hợp lý để thu được hàm log-likelihood, nhằm đơn giản hóa các phép toán (chuyển tích thành tổng).
Lấy đạo hàm bậc nhất của hàm log-likelihood theo tham số và giải phương trình đạo hàm bằng 0 để tìm nghiệm.
Kiểm tra điều kiện cực trị để đảm bảo rằng nghiệm tìm được là cực đại chứ không phải cực tiểu hay điểm yên ngựa. Điều này thường thực hiện bằng đạo hàm bậc hai hoặc quan sát đồ thị.
Phương pháp ước lượng tối đa hợp lý (MLE) sở hữu nhiều đặc tính nổi bật khiến nó trở thành một trong những công cụ ước lượng phổ biến nhất trong thống kê hiện đại. Trước hết, về mặt lý thuyết, MLE được chứng minh là một phương pháp hiệu quả trong nhiều tình huống, tức là có phương sai nhỏ nhất trong số các ước lượng không chệch, phù hợp với giới hạn của định lý Cramér–Rao. Ngoài ra, MLE là một phương pháp nhất quán: khi cỡ mẫu tăng lên, ước lượng tiến gần đến đúng giá trị tham số thật. Một tính chất nổi bật khác của MLE là tính bất biến: nếu một tham số được ước lượng bằng MLE, thì bất kỳ hàm biến đổi nào của tham số đó cũng có thể được ước lượng bằng cách áp dụng cùng hàm biến đổi lên giá trị MLE ban đầu. Điều này rất thuận tiện khi cần ước lượng một đại lượng dẫn xuất thay vì chính tham số gốc. Thêm vào đó, MLE có thể được áp dụng linh hoạt trong nhiều loại mô hình, từ mô hình tuyến tính đến phi tuyến, từ mô hình đơn giản đến nhiều tham số, và cả các mô hình hiện đại như hồi quy logistic, mô hình chuỗi thời gian, mô hình hỗn hợp, v.v.
Tuy nhiên, phương pháp này cũng tồn tại những hạn chế cần lưu ý. Một trong những nhược điểm quan trọng là MLE phụ thuộc chặt chẽ vào mô hình phân phối giả định. Nếu mô hình không phản ánh đúng bản chất của dữ liệu, kết quả ước lượng có thể không đáng tin cậy. Ngoài ra, trong một số trường hợp, hàm log-likelihood có thể không có nghiệm rõ ràng, hoặc có nhiều nghiệm cục bộ, gây khó khăn trong việc tìm nghiệm tối ưu. Quá trình giải bài toán MLE trong các mô hình nhiều tham số hoặc phi tuyến có thể phức tạp, đòi hỏi sử dụng các thuật toán số như Newton-Raphson hoặc Expectation-Maximization. Cuối cùng, MLE có thể rất nhạy với các giá trị ngoại lai trong dữ liệu, đặc biệt là khi cỡ mẫu nhỏ hoặc phân phối không đối xứng.
MLE là một phương pháp nền tảng được áp dụng rộng rãi trong nhiều lĩnh vực thống kê và học máy. Trong hồi quy logistic, MLE được dùng để ước lượng xác suất xảy ra của một sự kiện nhị phân – một ứng dụng rất phổ biến trong các nghiên cứu y học, xã hội học và kinh tế học hành vi. Đối với dữ liệu đếm, MLE là phương pháp chuẩn để ước lượng tham số trong các mô hình như Poisson hay Negative Binomial, ứng dụng trong các nghiên cứu dịch tễ học, sản xuất công nghiệp hoặc phân tích mạng xã hội.
Trong phân tích chuỗi thời gian, MLE thường được sử dụng để ước lượng hệ số trong các mô hình ARIMA, GARCH, hoặc các mô hình có yếu tố mùa vụ. Ngoài thống kê cổ điển, MLE còn là thành phần cốt lõi của nhiều thuật toán học máy, chẳng hạn như Naive Bayes, Gaussian Mixture Model, hoặc Hidden Markov Model. Trong các mô hình này, toàn bộ quá trình “huấn luyện” mô hình là tìm bộ tham số sao cho hàm log-likelihood đạt cực đại. Bên cạnh đó, MLE cũng xuất hiện trong các mô hình phân tích sống sót như hồi quy Cox, và các mô hình đa cấp hoặc có hiệu ứng ngẫu nhiên trong phân tích dữ liệu bảng. Tính tổng quát và nhất quán của MLE giúp phương pháp này giữ vai trò then chốt trong việc kết nối giữa lý thuyết thống kê truyền thống và các kỹ thuật phân tích hiện đại.