PHẦN 1: TÌM HIỂU VÀ CHUẨN BỊ DỮ LIỆU

1.1. Giới thiệu bộ dữ liệu

d <- read.csv("D:/PTDLDT CT2/Students Social Media Addiction.csv")
str(d)
## 'data.frame':    705 obs. of  13 variables:
##  $ Student_ID                  : int  1 2 3 4 5 6 7 8 9 10 ...
##  $ Age                         : int  19 22 20 18 21 19 23 20 18 21 ...
##  $ Gender                      : chr  "Female" "Male" "Female" "Male" ...
##  $ Academic_Level              : chr  "Undergraduate" "Graduate" "Undergraduate" "High School" ...
##  $ Country                     : chr  "Bangladesh" "India" "USA" "UK" ...
##  $ Avg_Daily_Usage_Hours       : num  5.2 2.1 6 3 4.5 7.2 1.5 5.8 4 3.3 ...
##  $ Most_Used_Platform          : chr  "Instagram" "Twitter" "TikTok" "YouTube" ...
##  $ Affects_Academic_Performance: chr  "Yes" "No" "Yes" "No" ...
##  $ Sleep_Hours_Per_Night       : num  6.5 7.5 5 7 6 4.5 8 6 6.5 7 ...
##  $ Mental_Health_Score         : int  6 8 5 7 6 4 9 6 7 7 ...
##  $ Relationship_Status         : chr  "In Relationship" "Single" "Complicated" "Single" ...
##  $ Conflicts_Over_Social_Media : int  3 0 4 1 2 5 0 2 1 1 ...
##  $ Addicted_Score              : int  8 3 9 4 7 9 2 8 5 4 ...
  • Bộ dữ liệu “Nghiện Mạng Xã Hội của Sinh Viên” là kết quả của một khảo sát được thực hiện trên nhóm sinh viên trong độ tuổi từ 16 đến 25, đến từ nhiều quốc gia khác nhau. Mục tiêu của khảo sát là thu thập thông tin về thói quen sử dụng mạng xã hội của sinh viên, cũng như đánh giá ảnh hưởng của việc sử dụng mạng xã hội đến các khía cạnh quan trọng trong cuộc sống như học tập, sức khỏe tinh thần, giấc ngủ và các mối quan hệ xã hội.

  • Bộ dữ liệu có 705 quan sát và 13 biến.

  • Bộ dữ liệu bao gồm các biến chính sau:

Tên biến Mô tả
Student_ID Mã số duy nhất cho từng người tham gia khảo sát, không tiết lộ thông tin cá nhân
Age Tuổi của sinh viên tại thời điểm khảo sát
Gender Giới tính của sinh viên: Nam hoặc Nữ
Academic_Level Trình độ học vấn hiện tại: Trung học, Đại học, hoặc Sau đại học
Country Quốc gia nơi sinh viên thực hiện khảo sát
Avg_Daily_Usage_Hours Thời gian trung bình mỗi ngày sinh viên dành cho mạng xã hội
Most_Used_Platform Nền tảng mạng xã hội sử dụng nhiều nhất (ví dụ: Instagram, Facebook, TikTok)
Affects_Academic_Performance Sinh viên cảm nhận mạng xã hội ảnh hưởng tiêu cực đến kết quả học tập (Có / Không)
Sleep_Hours_Per_Night Số giờ ngủ trung bình mỗi đêm
Mental_Health_Score Điểm tự đánh giá sức khỏe tinh thần từ 1 (kém) đến 10 (tốt)
Relationship_Status Tình trạng quan hệ tình cảm hiện tại: Độc thân, Đang yêu, hoặc Phức tạp
Conflicts_Over_Social_Media Số lần xảy ra xung đột với gia đình, bạn bè, hoặc người yêu do sử dụng mạng xã hội
Addicted_Score Điểm đo mức độ nghiện mạng xã hội, từ 1 (thấp) đến 10 (cao)
  • Bộ dữ liệu này cung cấp nền tảng phong phú để phân tích các mối quan hệ phức tạp giữa thói quen sử dụng mạng xã hội và các khía cạnh quan trọng của đời sống sinh viên, từ đó hỗ trợ nghiên cứu và phát triển các giải pháp can thiệp hiệu quả.

1.2. Chọn các biến định tính

bdt <- c("Gender", "Academic_Level", "Country", "Most_Used_Platform", "Affects_Academic_Performance", "Relationship_Status")
bdt
## [1] "Gender"                       "Academic_Level"              
## [3] "Country"                      "Most_Used_Platform"          
## [5] "Affects_Academic_Performance" "Relationship_Status"
Biến Giải thích
Gender Giới tính của sinh viên (Nam hoặc Nữ)
Academic_Level Trình độ học vấn hiện tại (Trung học, Đại học, hoặc Sau đại học)
Country Quốc gia nơi sinh viên cư trú
Most_Used_Platform Nền tảng mạng xã hội sinh viên sử dụng nhiều nhất
Affects_Academic_Performance Sinh viên cảm nhận mạng xã hội có ảnh hưởng tiêu cực đến học tập
Relationship_Status Tình trạng quan hệ tình cảm hiện tại của sinh viên

1.3. Tạo bộ dữ liệu mới chỉ chứa các biến định tính

dt <- d[, bdt]

1.4. Hiển thị cấu trúc của dữ liệu

str(dt)
## 'data.frame':    705 obs. of  6 variables:
##  $ Gender                      : chr  "Female" "Male" "Female" "Male" ...
##  $ Academic_Level              : chr  "Undergraduate" "Graduate" "Undergraduate" "High School" ...
##  $ Country                     : chr  "Bangladesh" "India" "USA" "UK" ...
##  $ Most_Used_Platform          : chr  "Instagram" "Twitter" "TikTok" "YouTube" ...
##  $ Affects_Academic_Performance: chr  "Yes" "No" "Yes" "No" ...
##  $ Relationship_Status         : chr  "In Relationship" "Single" "Complicated" "Single" ...

1.5. Hiển thị một vài dòng đầu của dữ liệu

head(dt)
##   Gender Academic_Level    Country Most_Used_Platform
## 1 Female  Undergraduate Bangladesh          Instagram
## 2   Male       Graduate      India            Twitter
## 3 Female  Undergraduate        USA             TikTok
## 4   Male    High School         UK            YouTube
## 5   Male       Graduate     Canada           Facebook
## 6 Female  Undergraduate  Australia          Instagram
##   Affects_Academic_Performance Relationship_Status
## 1                          Yes     In Relationship
## 2                           No              Single
## 3                          Yes         Complicated
## 4                           No              Single
## 5                          Yes     In Relationship
## 6                          Yes         Complicated

1.6. Hiển thị một vài dòng cuối của dữ liệu

tail(dt)
##     Gender Academic_Level Country Most_Used_Platform
## 700   Male       Graduate      UK            Twitter
## 701 Female  Undergraduate   Italy             TikTok
## 702   Male       Graduate  Russia          Instagram
## 703 Female  Undergraduate   China             WeChat
## 704   Male       Graduate   Japan            Twitter
## 705 Female  Undergraduate  Poland           Facebook
##     Affects_Academic_Performance Relationship_Status
## 700                          Yes              Single
## 701                           No     In Relationship
## 702                          Yes              Single
## 703                          Yes     In Relationship
## 704                           No              Single
## 705                          Yes              Single

1.7. Kiểm tra giá trị thiếu trong các cột định tính

sum(is.na(dt))
## [1] 0

Bộ dữ liệu không có giá trị thiếu.

1.8. Kiểm tra kiểu dữ liệu của các biến định tính

sapply(dt, class)
##                       Gender               Academic_Level 
##                  "character"                  "character" 
##                      Country           Most_Used_Platform 
##                  "character"                  "character" 
## Affects_Academic_Performance          Relationship_Status 
##                  "character"                  "character"

1.9. Chuyển các biến định tính sang kiểu factor

dt <- as.data.frame(lapply(dt, as.factor))

PHẦN 2: PHÂN TÍCH MÔ TẢ MỘT BIẾN ĐỊNH TÍNH

2.1. Biến Gender - Giới tính

2.1.1. Bảng tần số

table(dt$Gender)
## 
## Female   Male 
##    353    352

2.1.2. Biểu đồ của bảng tần số

library(ggplot2)
ggplot(dt, aes(x = Gender)) +
  geom_bar(fill = "pink") +
  geom_text(stat = "count", aes(label = ..count..), 
            position = position_stack(vjust = 0.5), color = "white", size = 5) +
  labs(title = "Phân bố giới tính của sinh viên trong khảo sát",
       x = "Giới tính",
       y = "Tần số")
## Warning: The dot-dot notation (`..count..`) was deprecated in ggplot2 3.4.0.
## ℹ Please use `after_stat(count)` instead.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.

  • Số lượng sinh viên nữ (Female): 353 người

  • Số lượng sinh viên nam (Male): 352 người

  • Phân bố giới tính gần như cân bằng tuyệt đối, chênh lệch chỉ 1 người.

2.1.3. Bảng tần suất

prop.table(table(dt$Gender))
## 
##    Female      Male 
## 0.5007092 0.4992908

2.1.4. Biểu đồ của bảng tần suất

pie(prop.table(table(dt$Gender)),
    labels = paste0(names(table(dt$Gender)), " (", round(prop.table(table(dt$Gender)) * 100, 2), "%)"),
    main = "Tỷ lệ phân bố giới tính")

  • Tỷ lệ sinh viên nữ chiếm khoảng 50.07%, trong khi sinh viên nam chiếm khoảng 49.93%.

  • Sự phân bố giới tính giữa nam và nữ gần như cân bằng, không có sự chênh lệch đáng kể trong mẫu khảo sát.

2.2. Biến Academic_Level - Trình độ học vấn

2.2.1. Bảng tần số

table(dt$Academic_Level)
## 
##      Graduate   High School Undergraduate 
##           325            27           353

2.2.2. Biểu đồ của bảng tần số

ggplot(dt, aes(x = Academic_Level)) +
  geom_bar(fill = "pink") +
  geom_text(stat = "count", aes(label = ..count..), 
            position = position_stack(vjust = 0.5), color = "white", size = 5) +
  labs(title = "Phân bố trình độ học vấn của sinh viên tham gia khảo sát",
       x = "Trình độ học vấn",
       y = "Tần số")

  • Phần lớn sinh viên tham gia khảo sát đang ở bậc Đại học (Undergraduate) – chiếm tỉ trọng lớn nhất với 353 người.

  • Số lượng sinh viên bậc Sau đại học (Graduate) cũng khá cao với 325 người, gần tương đương với bậc Đại học.

  • Số lượng học sinh Trung học (High School) rất thấp, chỉ 27 người – chiếm tỷ lệ nhỏ trong tổng thể mẫu khảo sát (705 người).

2.2.3. Bảng tần suất

prop.table(table(dt$Academic_Level))
## 
##      Graduate   High School Undergraduate 
##    0.46099291    0.03829787    0.50070922

2.2.4. Biểu đồ của bảng tần suất

pie(prop.table(table(dt$Academic_Level)),
    labels = paste0(names(table(dt$Academic_Level)), " (", round(prop.table(table(dt$Academic_Level)) * 100, 2), "%)"),
    main = "Tỷ lệ trình độ học vấn")

  • Phần lớn người tham gia khảo sát là sinh viên đại học (Undergraduate), chiếm hơn một nửa tổng mẫu.

  • Nhóm sau đại học (Graduate) cũng chiếm tỷ lệ lớn, gần 46.1%.

  • Rất ít học sinh trung học (High School) tham gia khảo sát, chỉ khoảng 3.83%, cho thấy mẫu khảo sát nghiêng về đối tượng sinh viên đại học trở lên.

2.3. Biến Country - Quốc gia

2.3.1. Bảng tần số

table(dt$Country)
## 
##     Afghanistan         Albania         Andorra       Argentina         Armenia 
##               1               1               1               1               1 
##       Australia         Austria      Azerbaijan         Bahamas         Bahrain 
##              14               1               1               1               1 
##      Bangladesh         Belarus         Belgium          Bhutan         Bolivia 
##              20               1               1               1               1 
##          Bosnia          Brazil        Bulgaria          Canada        Colombia 
##               1               8               1              34               1 
##      Costa Rica         Croatia          Cyprus  Czech Republic           Chile 
##               1               1               1               1               1 
##           China         Denmark         Ecuador           Egypt         Estonia 
##              16              27               1               1               1 
##         Finland          France         Georgia         Germany           Ghana 
##               8              27               1              14               1 
##          Greece       Hong Kong         Hungary         Iceland           India 
##               1               1               1               1              53 
##       Indonesia            Iraq         Ireland          Israel           Italy 
##               1               1              27               1              21 
##         Jamaica           Japan          Jordan      Kazakhstan           Kenya 
##               1              21               1               1               1 
##          Kosovo          Kuwait      Kyrgyzstan          Latvia         Lebanon 
##               1               1               1               1               1 
##   Liechtenstein       Lithuania      Luxembourg        Malaysia        Maldives 
##               1               1               1               8              19 
##           Malta          Mexico         Moldova          Monaco      Montenegro 
##               1              27               1               1               1 
##         Morocco           Nepal     Netherlands     New Zealand         Nigeria 
##               1              19               8               8               1 
## North Macedonia          Norway            Oman        Pakistan          Panama 
##               1               1               1              19               1 
##        Paraguay            Peru          Poland        Portugal     Philippines 
##               1               1              16               1               1 
##           Qatar         Romania          Russia      San Marino          Serbia 
##               1               1              21               1               1 
##       Singapore        Slovakia        Slovenia    South Africa     South Korea 
##               8               1               1               1              13 
##           Spain       Sri Lanka          Sweden     Switzerland           Syria 
##              27              19               1              27               1 
##          Taiwan      Tajikistan          Turkey        Thailand        Trinidad 
##               1               1              27               1               1 
##             UAE              UK         Ukraine         Uruguay             USA 
##               8              22               1               1              40 
##      Uzbekistan    Vatican City       Venezuela         Vietnam           Yemen 
##               1               1               1               1               1

2.3.2. Biểu đồ của bảng tần số

barplot(table(dt$Country), las=2, cex.names=0.6)

  • Bộ dữ liệu có rất nhiều quốc gia (hơn 70 quốc gia), trong đó có một số nước có số lượng mẫu lớn (ví dụ: India 53, USA 40, Canada 34, China 16, Italy 21, UK 22, …) và rất nhiều quốc gia chỉ có 1-2 quan sát.

2.3.3. Bảng tần suất

prop.table(table(dt$Country))
## 
##     Afghanistan         Albania         Andorra       Argentina         Armenia 
##      0.00141844      0.00141844      0.00141844      0.00141844      0.00141844 
##       Australia         Austria      Azerbaijan         Bahamas         Bahrain 
##      0.01985816      0.00141844      0.00141844      0.00141844      0.00141844 
##      Bangladesh         Belarus         Belgium          Bhutan         Bolivia 
##      0.02836879      0.00141844      0.00141844      0.00141844      0.00141844 
##          Bosnia          Brazil        Bulgaria          Canada        Colombia 
##      0.00141844      0.01134752      0.00141844      0.04822695      0.00141844 
##      Costa Rica         Croatia          Cyprus  Czech Republic           Chile 
##      0.00141844      0.00141844      0.00141844      0.00141844      0.00141844 
##           China         Denmark         Ecuador           Egypt         Estonia 
##      0.02269504      0.03829787      0.00141844      0.00141844      0.00141844 
##         Finland          France         Georgia         Germany           Ghana 
##      0.01134752      0.03829787      0.00141844      0.01985816      0.00141844 
##          Greece       Hong Kong         Hungary         Iceland           India 
##      0.00141844      0.00141844      0.00141844      0.00141844      0.07517730 
##       Indonesia            Iraq         Ireland          Israel           Italy 
##      0.00141844      0.00141844      0.03829787      0.00141844      0.02978723 
##         Jamaica           Japan          Jordan      Kazakhstan           Kenya 
##      0.00141844      0.02978723      0.00141844      0.00141844      0.00141844 
##          Kosovo          Kuwait      Kyrgyzstan          Latvia         Lebanon 
##      0.00141844      0.00141844      0.00141844      0.00141844      0.00141844 
##   Liechtenstein       Lithuania      Luxembourg        Malaysia        Maldives 
##      0.00141844      0.00141844      0.00141844      0.01134752      0.02695035 
##           Malta          Mexico         Moldova          Monaco      Montenegro 
##      0.00141844      0.03829787      0.00141844      0.00141844      0.00141844 
##         Morocco           Nepal     Netherlands     New Zealand         Nigeria 
##      0.00141844      0.02695035      0.01134752      0.01134752      0.00141844 
## North Macedonia          Norway            Oman        Pakistan          Panama 
##      0.00141844      0.00141844      0.00141844      0.02695035      0.00141844 
##        Paraguay            Peru          Poland        Portugal     Philippines 
##      0.00141844      0.00141844      0.02269504      0.00141844      0.00141844 
##           Qatar         Romania          Russia      San Marino          Serbia 
##      0.00141844      0.00141844      0.02978723      0.00141844      0.00141844 
##       Singapore        Slovakia        Slovenia    South Africa     South Korea 
##      0.01134752      0.00141844      0.00141844      0.00141844      0.01843972 
##           Spain       Sri Lanka          Sweden     Switzerland           Syria 
##      0.03829787      0.02695035      0.00141844      0.03829787      0.00141844 
##          Taiwan      Tajikistan          Turkey        Thailand        Trinidad 
##      0.00141844      0.00141844      0.03829787      0.00141844      0.00141844 
##             UAE              UK         Ukraine         Uruguay             USA 
##      0.01134752      0.03120567      0.00141844      0.00141844      0.05673759 
##      Uzbekistan    Vatican City       Venezuela         Vietnam           Yemen 
##      0.00141844      0.00141844      0.00141844      0.00141844      0.00141844

2.4. Biến Most_Used_Platform - Nền Tảng Sử Dụng Nhiều Nhất

2.4.1. Bảng tần số

table(dt$Most_Used_Platform)
## 
##  Facebook Instagram KakaoTalk      LINE  LinkedIn  Snapchat    TikTok   Twitter 
##       123       249        12        12        21        13       154        30 
## VKontakte    WeChat  WhatsApp   YouTube 
##        12        15        54        10

2.4.2. Biểu đồ của bảng tần số

ggplot(dt, aes(x = Most_Used_Platform)) +
  geom_bar(fill = "pink") +
  geom_text(stat = "count", aes(label = ..count..), 
            position = position_stack(vjust = 0.5), color = "white", size = 3) +
  labs(title = "Phân bố người dùng theo nền tảng mạng xã hội",
       x = "Nền tảng mạng xã hội",
       y = "Tần số") +
    theme(axis.text.x = element_text(angle = 45, hjust = 1))

  • Instagram là nền tảng phổ biến nhất với 249 sinh viên sử dụng nhiều nhất, chiếm tỉ lệ lớn trong mẫu.

  • TikTok đứng thứ hai với 154 người dùng.

  • Facebook xếp thứ ba với 123 người dùng.

  • Các nền tảng khác như WhatsApp (54), Twitter (30), LinkedIn (21) và các nền tảng còn lại có số lượng người dùng khá thấp (dưới 20).

  • Một số nền tảng như KakaoTalk, LINE, VKontakte chỉ có 12 người dùng, rất ít so với các nền tảng chính.

2.4.3. Bảng tần suất

prop.table(table(dt$Most_Used_Platform))
## 
##   Facebook  Instagram  KakaoTalk       LINE   LinkedIn   Snapchat     TikTok 
## 0.17446809 0.35319149 0.01702128 0.01702128 0.02978723 0.01843972 0.21843972 
##    Twitter  VKontakte     WeChat   WhatsApp    YouTube 
## 0.04255319 0.01702128 0.02127660 0.07659574 0.01418440

2.5. Biến Affects_Academic_Performance - Ảnh Hưởng Đến Hiệu Suất Học Tập

2.5.1. Bảng tần số

table(dt$Affects_Academic_Performance)
## 
##  No Yes 
## 252 453

2.5.2. Biểu đồ của bảng tần số

ggplot(dt, aes(x = Affects_Academic_Performance)) +
  geom_bar(fill = "pink") +
  geom_text(stat = "count", aes(label = ..count..), 
            position = position_stack(vjust = 0.5), color = "white", size = 5) +
  labs(title = "Phân bố ảnh hưởng mạng xã hội đến kết quả học tập",
       x = "Hiệu suất học tập",
       y = "Tần số")

  • Số lượng sinh viên cảm nhận mạng xã hội ảnh hưởng tiêu cực đến kết quả học tập (Yes) chiếm đa số, khoảng 64% (453/705).

  • Số sinh viên không cảm nhận ảnh hưởng tiêu cực (No) chiếm khoảng 36%.

  • Điều này cho thấy phần lớn sinh viên tham gia khảo sát nhận thấy mạng xã hội ảnh hưởng đến học tập của họ.

2.5.3. Bảng tần suất

prop.table(table(dt$Affects_Academic_Performance))
## 
##        No       Yes 
## 0.3574468 0.6425532

2.5.4. Biểu đồ của bảng tần suất

pie(prop.table(table(dt$Affects_Academic_Performance)),
    labels = paste0(names(table(dt$Affects_Academic_Performance)), " (", round(prop.table(table(dt$Affects_Academic_Performance)) * 100, 2), "%)"),
    main = "Tỷ lệ sinh viên bị ảnh hưởng học tập bởi mạng xã hội")

Phần lớn sinh viên (khoảng 64.3%) cho rằng việc sử dụng mạng xã hội có ảnh hưởng tiêu cực đến kết quả học tập của họ. Chỉ có khoảng 35.7% sinh viên không cảm thấy bị ảnh hưởng. Điều này cho thấy mạng xã hội là một yếu tố đáng quan tâm trong môi trường học tập của sinh viên.

2.6. Biến Relationship_Status - Tình Trạng Quan Hệ

2.6.1. Bảng tần số

table(dt$Relationship_Status)
## 
##     Complicated In Relationship          Single 
##              32             289             384

2.6.2. Biểu đồ của bảng tần số

ggplot(dt, aes(x = Relationship_Status)) +
  geom_bar(fill = "pink") +
  geom_text(stat = "count", aes(label = ..count..), 
            position = position_stack(vjust = 0.5), color = "white", size = 5) +
  labs(title = "Tình trạng quan hệ của sinh viên tham gia khảo sátp",
       x = "Tình trạng",
       y = "Tần số")

  • Phần lớn sinh viên tham gia khảo sát đang độc thân (384 người, chiếm hơn một nửa).

  • Số sinh viên đang trong mối quan hệ là 289 người, cũng chiếm tỷ lệ lớn.

  • Chỉ một nhóm nhỏ (32 người) cho biết tình trạng quan hệ phức tạp.

  • Điều này cho thấy phần lớn người trẻ trong độ tuổi 16–25 vẫn còn độc thân, và tình trạng “phức tạp” là tương đối ít phổ biến trong nhóm được khảo sát.

2.6.3. Bảng tần suất

prop.table(table(dt$Relationship_Status))
## 
##     Complicated In Relationship          Single 
##      0.04539007      0.40992908      0.54468085

2.6.4. Biểu đồ của bảng tần suất

pie(prop.table(table(dt$Relationship_Status)),
    labels = paste0(names(table(dt$Relationship_Status)), " (", round(prop.table(table(dt$Relationship_Status)) * 100, 2), "%)"),
    main = "Tỷ lệ tình trạng quan hệ")

  • Phần lớn sinh viên tham gia khảo sát đang độc thân (chiếm hơn một nửa).

  • Khoảng 41% đang trong một mối quan hệ yêu đương.

  • Chỉ có 4.5% sinh viên cho rằng tình trạng quan hệ của họ là “phức tạp”, cho thấy đây là nhóm khá nhỏ.

PHẦN 3: ƯỚC LƯỢNG KHOẢNG VÀ KIỂM ĐỊNH GIẢ THUYẾT CHO TỶ LỆ

3.1. “Single” trong Relationship_Status

3.1.1. Ước lượng khoảng tin cậy 95%

prop.test(x = sum(dt$Relationship_Status == "Single"),
          n = length(dt$Relationship_Status),
          conf.level = 0.95)$conf.int
## [1] 0.5070671 0.5818010
## attr(,"conf.level")
## [1] 0.95

Với độ tin cậy 95%, ta ước lượng rằng tỷ lệ sinh viên độc thân trong tổng thể nằm trong khoảng từ 50.7% đến 58.2%.

3.1.2. Kiểm định giả thuyết

Xét giả thuyết về tỷ lệ p của nhóm sinh viên độc thân.

Bài toán kiểm định:

\[H_0: p = 0.54\]

\[H_1: p \neq 0.54\]

prop.test(x = sum(dt$Relationship_Status == "Single"),
          n = length(dt$Relationship_Status),
          p = 0.54,
          conf.level = 0.95)
## 
##  1-sample proportions test with continuity correction
## 
## data:  sum(dt$Relationship_Status == "Single") out of length(dt$Relationship_Status), null probability 0.54
## X-squared = 0.044769, df = 1, p-value = 0.8324
## alternative hypothesis: true p is not equal to 0.54
## 95 percent confidence interval:
##  0.5070671 0.5818010
## sample estimates:
##         p 
## 0.5446809

Với mức ý nghĩa \(\alpha = 0.05\), ta có p-value = 0.8324 > 0.05, nên chưa đủ cơ sở bác bỏ giả thuyết \(H_0\). Kết luận rằng tỷ lệ sinh viên độc thân bằng 54%.

3.2. “Facebook” trong Most_Used_Platform

3.2.1. Ước lượng khoảng tin cậy 95%

prop.test(x = sum(dt$Most_Used_Platform == "Facebook"),
          n = length(dt$Most_Used_Platform),
          conf.level = 0.95)$conf.int
## [1] 0.1475776 0.2049758
## attr(,"conf.level")
## [1] 0.95

Kết quả ước lượng khoảng tin cậy 95% cho tỷ lệ sinh viên sử dụng Facebook làm nền tảng mạng xã hội chính là \(\left[14.76\%;\ 20.50\%\right]\).

3.2.2. Kiểm định giả thuyết

Xét giả thuyết về tỷ lệ p của nhóm sinh viên dùng Facebook.

Bài toán kiểm định:

\[H_0: p = 0.17\]

\[H_1: p \neq 0.17\]

prop.test(x = sum(dt$Most_Used_Platform == "Facebook"),
          n = length(dt$Most_Used_Platform),
          p = 0.17,
          conf.level = 0.95)
## 
##  1-sample proportions test with continuity correction
## 
## data:  sum(dt$Most_Used_Platform == "Facebook") out of length(dt$Most_Used_Platform), null probability 0.17
## X-squared = 0.070595, df = 1, p-value = 0.7905
## alternative hypothesis: true p is not equal to 0.17
## 95 percent confidence interval:
##  0.1475776 0.2049758
## sample estimates:
##         p 
## 0.1744681

Với mức ý nghĩa \(\alpha = 0.05\), ta có p-value = 0.7905 > 0.05, nên chưa đủ cơ sở bác bỏ giả thuyết \(H_0\). Kết luận rằng tỷ lệ sinh viên dùng Facebook bằng 17%.

3.3. “Undergraduate” trong Academic_Level

3.3.1. Ước lượng khoảng tin cậy 95%

prop.test(x = sum(dt$Academic_Level == "Undergraduate"),
          n = length(dt$Academic_Level),
          conf.level = 0.95)$conf.int
## [1] 0.4631919 0.5382187
## attr(,"conf.level")
## [1] 0.95

Kết quả ước lượng khoảng tin cậy 95% cho tỷ lệ sinh viên bậc đại học là \(\left[46.32\%;\ 53.82\%\right]\).

3.3.2. Kiểm định giả thuyết

prop.test(x = sum(dt$Academic_Level == "Undergraduate"),
          n = length(dt$Academic_Level),
          p = 0.5,
          conf.level = 0.95)
## 
##  1-sample proportions test with continuity correction
## 
## data:  sum(dt$Academic_Level == "Undergraduate") out of length(dt$Academic_Level), null probability 0.5
## X-squared = 0, df = 1, p-value = 1
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
##  0.4631919 0.5382187
## sample estimates:
##         p 
## 0.5007092

Với mức ý nghĩa \(\alpha = 0.05\), ta có p-value = 1 > 0.05, nên chưa đủ cơ sở bác bỏ giả thuyết \(H_0\). Kết luận rằng tỷ lệ sinh viên bậc đại học bằng 50%.

PHẦN 4: PHÂN TÍCH MỐI QUAN HỆ GIỮA HAI BIẾN ĐỊNH TÍNH

4.1. Gender và Affects_Academic_Performance

4.1.1. Bảng tần số

addmargins(table(dt$Gender, dt$Affects_Academic_Performance ))
##         
##           No Yes Sum
##   Female 122 231 353
##   Male   130 222 352
##   Sum    252 453 705
  • Có 122 nữ không chịu tác động tiêu cực bởi mạng xã hội đến việc học.

  • Có 130 nam không chịu tác động tiêu cực bởi mạng xã hội đến việc học.

  • Có 231 nữ chịu tác động tiêu cực bởi mạng xã hội đến việc học.

  • Có 222 nam chịu tác động tiêu cực bởi mạng xã hội đến việc học.

4.1.2. Bảng tần suất

prop.table(table(dt$Gender, dt$Affects_Academic_Performance ))
##         
##                 No       Yes
##   Female 0.1730496 0.3276596
##   Male   0.1843972 0.3148936

4.1.3. Biểu đồ

ggplot(dt, aes(x = Affects_Academic_Performance, fill = Gender)) +
  geom_bar(position = "dodge") +
  labs(
    title = "Ảnh hưởng đến học tập theo giới tính",
    x = "Ảnh hưởng đến học tập",
    y = "Số lượng sinh viên",
    fill = "Giới tính"
  ) +
  scale_fill_manual(values = c("pink", "tomato")) +
  theme_minimal()

  • Phần lớn sinh viên đều cảm nhận rằng việc sử dụng mạng xã hội ảnh hưởng tiêu cực đến kết quả học tập, chiếm khoảng 64.3% (453 trên 705 sinh viên).

  • Ở nhóm nữ giới, tỷ lệ cảm thấy bị ảnh hưởng chiếm 32.8% trên tổng số mẫu (tương đương 231 sinh viên), cao hơn một chút so với nhóm nam là 31.5% (222 sinh viên).

  • Tỷ lệ nữ sinh cảm thấy không bị ảnh hưởng là khoảng 17.3%, trong khi nam là 18.4%, cho thấy sự khác biệt không lớn.

  • Biểu đồ cột nhóm minh họa rõ ràng sự tương đồng này khi hai nhóm giới tính có chiều cao cột gần tương đương nhau trong cả hai mức “Có ảnh hưởng” và “Không ảnh hưởng”.

4.1.4. Kiểm định Thống kê (Kiểm định Chi-bình phương)

Bài toán kiểm định:

\(H_0\): Gender và Affects_Academic_Performance độc lập nhau.

\(H_1\): Gender và Affects_Academic_Performance có liên quan đến nhau.

chisq.test(table(dt$Gender, dt$Affects_Academic_Performance ))
## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  table(dt$Gender, dt$Affects_Academic_Performance)
## X-squared = 0.33431, df = 1, p-value = 0.5631
  • Giá trị thống kê X-squared = 0.33431 với bậc tự do df = 1.

  • Giá trị p-value = 0.5631 > 0.05. Chưa đủ cơ sở bác bỏ \(H_0\). Kết luận rằng Gender và Affects_Academic_Performance độc lập nhau.

4.1.5. Hiệu hai tỷ lệ của Gender và Affects_Academic_Performance

Kiểm tra xem tỷ lệ sinh viên bị ảnh hưởng học tập do mạng xã hội ở nhóm Nam và nhóm Nữ có khác biệt đáng kể hay không.

Bài toán kiểm định:

\[H_0: p_1 = p_2\]

\[H_1: p_1 \neq p_2\]

prop.test(table(dt$Gender, dt$Affects_Academic_Performance))
## 
##  2-sample test for equality of proportions with continuity correction
## 
## data:  table(dt$Gender, dt$Affects_Academic_Performance)
## X-squared = 0.33431, df = 1, p-value = 0.5631
## alternative hypothesis: two.sided
## 95 percent confidence interval:
##  -0.09727873  0.04986049
## sample estimates:
##    prop 1    prop 2 
## 0.3456091 0.3693182
  • Giá trị thống kê kiểm định Chi bình phương là 0.33431 với bậc tự do 1.

  • Giá trị p-value là 0.5631, lớn hơn mức ý nghĩa 0.05, nên chưa đủ cơ sở bác bỏ \(H_0\).

  • Khoảng tin cậy 95% cho hiệu hai tỷ lệ là từ -0.0973 đến 0.0499, bao gồm giá trị 0, chứng tỏ không có sự khác biệt ý nghĩa giữa hai tỷ lệ.

  • Tỷ lệ sinh viên nữ bị ảnh hưởng bởi mạng xã hội đến học tập là khoảng 34.56% (prop 1), trong khi tỷ lệ của nam là khoảng 36.93% (prop 2).

4.1.6. Tính Relative Risk

library(epitools)
riskratio(table(dt$Gender, dt$Affects_Academic_Performance))
## $data
##         
##           No Yes Total
##   Female 122 231   353
##   Male   130 222   352
##   Total  252 453   705
## 
## $measure
##         risk ratio with 95% C.I.
##           estimate     lower   upper
##   Female 1.0000000        NA      NA
##   Male   0.9637692 0.8632283 1.07602
## 
## $p.value
##         two-sided
##          midp.exact fisher.exact chi.square
##   Female         NA           NA         NA
##   Male    0.5126596     0.530117   0.511323
## 
## $correction
## [1] FALSE
## 
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"
  • Kết quả cho thấy tỷ số nguy cơ (Relative Risk) của nhóm Nam so với nhóm Nữ là 0.96 với khoảng tin cậy 95% từ 0.86 đến 1.08. Điều này nghĩa là, so với nữ sinh, nam sinh có khả năng cảm nhận việc mạng xã hội ảnh hưởng tiêu cực đến học tập thấp hơn khoảng 4%, nhưng khoảng tin cậy có chứa giá trị 1 (không có sự khác biệt).

  • Giá trị p (p-value) từ các phương pháp kiểm định (midp.exact, fisher.exact, chi.square) đều lớn hơn 0.5, cụ thể p ≈ 0.51, cho thấy không có bằng chứng thống kê để kết luận rằng tỷ lệ ảnh hưởng học tập do mạng xã hội khác nhau giữa nam và nữ.

  • Không có sự khác biệt đáng kể về nguy cơ bị ảnh hưởng học tập do mạng xã hội giữa hai giới tính.

4.1.7. Tính Odds Ratio

oddsratio(table(dt$Gender, dt$Affects_Academic_Performance))
## $data
##         
##           No Yes Total
##   Female 122 231   353
##   Male   130 222   352
##   Total  252 453   705
## 
## $measure
##         odds ratio with 95% C.I.
##           estimate     lower    upper
##   Female 1.0000000        NA       NA
##   Male   0.9021089 0.6623095 1.228053
## 
## $p.value
##         two-sided
##          midp.exact fisher.exact chi.square
##   Female         NA           NA         NA
##   Male    0.5126596     0.530117   0.511323
## 
## $correction
## [1] FALSE
## 
## attr(,"method")
## [1] "median-unbiased estimate & mid-p exact CI"
  • Tỷ số odds (odds ratio) của nam so với nữ về việc cảm nhận mạng xã hội ảnh hưởng đến học tập là khoảng 0.90 (với khoảng tin cậy 95% từ 0.66 đến 1.23).

  • Vì khoảng tin cậy này bao gồm giá trị 1, nghĩa là không có sự khác biệt có ý nghĩa thống kê về odds giữa nam và nữ.

  • Các giá trị p-value từ các phương pháp kiểm định khác nhau đều lớn hơn 0.05 (ví dụ: p = 0.51), củng cố kết luận trên.

  • Như vậy, tỷ lệ sinh viên nam và nữ bị ảnh hưởng đến học tập do mạng xã hội là tương đương, không có sự khác biệt đáng kể.

4.1.8. Tính và diễn giải khoảng tin cậy 95% cho Odds Ratio

fisher.test(table(dt$Gender, dt$Affects_Academic_Performance))
## 
##  Fisher's Exact Test for Count Data
## 
## data:  table(dt$Gender, dt$Affects_Academic_Performance)
## p-value = 0.5301
## alternative hypothesis: true odds ratio is not equal to 1
## 95 percent confidence interval:
##  0.6547805 1.2421305
## sample estimates:
## odds ratio 
##  0.9020311
  • Kết quả kiểm định Fisher cho thấy giá trị p = 0.5301, lớn hơn mức ý nghĩa 0.05, cho thấy không có bằng chứng thống kê để khẳng định sự khác biệt về tỷ lệ ảnh hưởng của mạng xã hội đến kết quả học tập giữa nam và nữ.

  • Khoảng tin cậy 95% của tỷ số Odds (OR) nằm trong khoảng từ 0.65 đến 1.24 và bao gồm giá trị 1, chứng tỏ không có sự khác biệt chắc chắn về mức độ ảnh hưởng giữa hai nhóm giới tính.

  • Giá trị ước lượng OR là 0.90, cho thấy nữ có khả năng bị ảnh hưởng đến học tập do mạng xã hội thấp hơn nam khoảng 10%, nhưng sự khác biệt này không có ý nghĩa thống kê.

PHẦN 5: TỔNG KẾT VÀ THẢO LUẬN

  • Nghiên cứu phân tích dữ liệu khảo sát về ảnh hưởng của mạng xã hội đến sinh viên từ 16–25 tuổi với 705 quan sát.

  • Các biến định tính chính như giới tính, trình độ học vấn, nền tảng sử dụng mạng xã hội được xử lý dưới dạng phân loại để phân tích.

  • Kết quả kiểm định Fisher cho thấy không có khác biệt ý nghĩa thống kê về ảnh hưởng tiêu cực đến học tập giữa nam và nữ (p = 0.5301).

  • Odds Ratio ước lượng là 0.90, khoảng tin cậy 95% chứa 1, khẳng định sự tương đồng giữa hai nhóm giới tính.

  • Nghiên cứu dựa trên dữ liệu tự báo cáo, có thể có sai số do khách quan và chưa xác định được mối quan hệ nhân quả.

  • Cần nghiên cứu thêm các yếu tố khác như thời gian sử dụng mạng xã hội, giấc ngủ và sức khỏe tinh thần.

  • Đề xuất mở rộng mẫu và áp dụng các phương pháp phân tích đa biến để hiểu rõ hơn về tác động của mạng xã hội.