Analiza danych w R - projekt zespołowy

Wstęp

Celem projektu jest analiza danych dotyczących uzależnień od social mediów wśród studentów. Dane zawierają wiek, płeć, stopień wykształcenia, narodowość, najczęściej używana platforma, czas snu, zdrowie psychiczne, status związku. Głównym celem jest zbadanie, w jaki sposób korzystanie z mediów społecznościowych wpływa na uczniów:

  1. Wyniki w nauce
  2. Jakość snu

Pytania badawcze

  1. Jaki jest średni czas jaki studenci spedzają dziennie na używanie social mediów?

  2. Jaka jest najczęściej używana przez studentów platforma?

  3. Jakie są różnice w czasie spędzanym na platformach social media w zależności od płci?

  4. Jaki jest średni czas snu w zależności od średniego czasu spędzanego na platformach social media?

  5. Jakie platformy społecznościowe najczęściej powodują objawy uzależnienia wśród studentów?

  6. Czy poziom wykształcenia wpływa na intensywność używania mediów społecznościowych?

  7. Czy status związku wpływa na czas spędzany w social mediach?

  8. Jaki jest średni czas spędzany w social mediach w zależności od narodowości?

  9. Czy istnieją różnice w poziomie uzależnienia w zależności od narodowości studentów?

  10. Czy poziom uzależnienia od mediów społecznościowych różni się między studentami płci żeńskiej i męskiej?

Opis danych

Zbiór danych “Students_Social_Media_Addiction.csv” zawiera informacje o 705 obserwacji i 13 zmiennych.

Poniżej znajduje się opis najważniejszych zmiennych w zbiorze danych:

  • Age: Wiek studenta (od 16 do 100 lat)

  • Gender: Płeć studenta (Mężczyzna/Kobieta)

  • Academic_level: Poziom wykształcenia (Średnie/W trakcie studiów/Studia wyższe)

  • Country: Narodowość studenta

  • Avg_Daily_Usage_Hours: Średni dzienny czas spędzany na mediach społecznościowych (w godzinach - wartości od 0 do 24)

  • Most_Used_Platform: Najczęściej używana platforma mediów społecznościowych (Facebook, Instagram, Twitter, TikTok, Snapchat, Inne)

  • Affects_Academic_Performance: Wpływ na wyniki w nauce (Tak/Nie)

  • Sleep_Hours_Per_Night: Liczba godzin snu na dobę (od 0 do 24 godzin)

  • Mental_Health_Score: Wynik zdrowia psychicznego (skala od 1 do 10)

  • Relationship_Status: Status związku (Singiel/W związku/To skomplikowane)

  • Conflicts_Over_Social_Media: Konflikty związane z używaniem mediów społecznościowych (skala od 1 do 5)

  • Addicted_Score: Wynik uzależnienia od mediów społecznościowych (skala od 1 do 10)

1. Porządkowanie i czyszczenie danych

Tu zajmiemy się przygotowaniem danych.

1.1 Wprowadzenie

Dane należy odpowiednio przygotować.

W danych znajduje się 100 % kompletnych wartości.

1.2 Wzorzec braków danych

Badamy wzorzec danych.

## 
##  Variables sorted by number of missings: 
##                      Variable Count
##                    Student_ID     0
##                           Age     0
##                        Gender     0
##                Academic_Level     0
##                       Country     0
##         Avg_Daily_Usage_Hours     0
##            Most_Used_Platform     0
##  Affects_Academic_Performance     0
##         Sleep_Hours_Per_Night     0
##           Mental_Health_Score     0
##           Relationship_Status     0
##   Conflicts_Over_Social_Media     0
##                Addicted_Score     0
##  /\     /\
## {  `---'  }
## {  O   O  }
## ==>  V <==  No need for mice. This data set is completely observed.
##  \  \|/  /
##   `-----'

##     Student_ID Age Gender Academic_Level Country Avg_Daily_Usage_Hours
## 705          1   1      1              1       1                     1
##              0   0      0              0       0                     0
##     Most_Used_Platform Affects_Academic_Performance Sleep_Hours_Per_Night
## 705                  1                            1                     1
##                      0                            0                     0
##     Mental_Health_Score Relationship_Status Conflicts_Over_Social_Media
## 705                   1                   1                           1
##                       0                   0                           0
##     Addicted_Score  
## 705              1 0
##                  0 0

## 
##  Variables sorted by number of missings: 
##                      Variable Count
##                    Student_ID     0
##                           Age     0
##                        Gender     0
##                Academic_Level     0
##                       Country     0
##         Avg_Daily_Usage_Hours     0
##            Most_Used_Platform     0
##  Affects_Academic_Performance     0
##         Sleep_Hours_Per_Night     0
##           Mental_Health_Score     0
##           Relationship_Status     0
##   Conflicts_Over_Social_Media     0
##                Addicted_Score     0

1.3 Imputacje metodą hotdeck

Imputacja metodą hotdeck

2. Walidacja danych

Definicja

Walidacja danych to proces sprawdzania poprawności, kompletności i spójności danych w celu zapewnienia ich jakości i wiarygodności. Polega na identyfikacji i eliminacji błędów, nieścisłości oraz braków danych, co pozwala na uzyskanie rzetelnych wyników analizy.

Reguły

Reguły, które muszą spełnić nasze dane:

  1. Wiek studentów mieści się w przedziale <16, 100>
  2. Średni czas spędzany na platformach social media mieści się w przedziale <0, 24>
  3. Średni czas snu na dobę mieści się w przedziale <0, 24>
  4. Wynik zdrowia psychicznego mieści się w przedziale <0,10>
  5. Wynik uzależnienia mieści się w przedziale <0,10>
  6. Płeć to “Female”, “Male” lub “Other”
  7. Poziom wykształcenia to “Undergraduate”, “Graduate”, “High School”
  8. Najczęściej używane platfomy to : “Instagram”, “Facebook”, “TikTok”, “Snapchat”, “LinkedIn”, “LINE”, “KakaoTalk”, “Twitter”, “VKontakte”, “WeChat”, “WhatsApp”, “YouTube”
  9. Status relacji to “Single”, “In Relationship”, “Complicated”
  10. Wynik wpływu na wyniki akademickie to “Yes” lub “No”
  11. Wynik konfliktu z social mediami to “0”, “1”, “2”, “3”, “4”, “5”
## 
##  Facebook Instagram KakaoTalk      LINE  LinkedIn  Snapchat    TikTok   Twitter 
##       123       249        12        12        21        13       154        30 
## VKontakte    WeChat  WhatsApp   YouTube 
##        12        15        54        10
## 
##     Complicated In Relationship          Single 
##              32             289             384
## 
##      Graduate   High School Undergraduate 
##           325            27           353

Czy zbiór danych spełnia te reguły? Upewniamy się za pomocą funkcji confront

##    name items passes fails nNA error warning
## 1   V01   705    705     0   0 FALSE   FALSE
## 2   V02   705    705     0   0 FALSE   FALSE
## 3   V03   705    705     0   0 FALSE   FALSE
## 4   V04   705    705     0   0 FALSE   FALSE
## 5   V05   705    705     0   0 FALSE   FALSE
## 6   V06   705    705     0   0 FALSE   FALSE
## 7   V07   705    705     0   0 FALSE   FALSE
## 8   V08   705    705     0   0 FALSE   FALSE
## 9   V09   705    705     0   0 FALSE   FALSE
## 10  V10   705    705     0   0 FALSE   FALSE
## 11  V11   705    705     0   0 FALSE   FALSE
##                                                                                                                                                             expression
## 1                                                                                                                              Age - 16 >= -1e-08 & Age - 100 <= 1e-08
## 2                                                                                            Avg_Daily_Usage_Hours - 0 >= -1e-08 & Avg_Daily_Usage_Hours - 24 <= 1e-08
## 3                                                                                            Sleep_Hours_Per_Night - 0 >= -1e-08 & Sleep_Hours_Per_Night - 24 <= 1e-08
## 4                                                                                                Mental_Health_Score - 0 >= -1e-08 & Mental_Health_Score - 10 <= 1e-08
## 5                                                                                                          Addicted_Score - 0 >= -1e-08 & Addicted_Score - 10 <= 1e-08
## 6                                                                                                                            Gender %vin% c("Male", "Female", "Other")
## 7                                                                                                   Academic_Level %vin% c("Undergraduate", "Graduate", "High School")
## 8  Most_Used_Platform %vin% c("Instagram", "Facebook", "TikTok", "Snapchat", "LinkedIn", "LINE", "KakaoTalk", "Twitter", "VKontakte", "WeChat", "WhatsApp", "YouTube")
## 9                                                                                              Relationship_Status %vin% c("Single", "In Relationship", "Complicated")
## 10                                                                                                                   Affects_Academic_Performance %vin% c("Yes", "No")
## 11                                                                                                   Conflicts_Over_Social_Media %vin% c("0", "1", "2", "3", "4", "5")

W naszym zbiorze danych nie ma żadnego konfliktu; 100% reguł jest spełnione, teraz sprawdzamy kompletność danych z pakietem vis_miss

## [1] 0
## [1] 0
## # A tibble: 13 × 3
##    variable                     n_miss pct_miss
##    <chr>                         <int>    <num>
##  1 Student_ID                        0        0
##  2 Age                               0        0
##  3 Gender                            0        0
##  4 Academic_Level                    0        0
##  5 Country                           0        0
##  6 Avg_Daily_Usage_Hours             0        0
##  7 Most_Used_Platform                0        0
##  8 Affects_Academic_Performance      0        0
##  9 Sleep_Hours_Per_Night             0        0
## 10 Mental_Health_Score               0        0
## 11 Relationship_Status               0        0
## 12 Conflicts_Over_Social_Media       0        0
## 13 Addicted_Score                    0        0

Dane są kompletne – brak wartości brakujących (NA) w żadnej kolumnie. Możemy przejść do wizualizacji danych.

3. Wizualizacja danych

Celem naszego projektu jest zbadanie uzależnienia od korzystania z mediów społecznościowych wśród studentów. Postanowiliśmy zbadać korelację czasu spędzanego w social mediach ze średnim czasem snu, czy uzależnienie od mediów społecznościowych zależy od poziomu wykształcenia oraz sprawdzić jak wygląda uzależnienie od mediów społecznościowych w zależności od krajów.

3.1 Sprawdzamy jaki jest średni czas snu w zależności od średniego czasu spędzanego na platformach social media?

## `geom_smooth()` using formula = 'y ~ x'

Średnia czasu spędzanego na platforach social media jest odwrotnie proporcjonalna do średniego czasu snu. Na podstawie pierwszego wykresu można zauważyć, że osoby, na których wyniki akademickie wpływa czas spędzony na social mediach śpią średnio krócej i spędzają więcej czasu na platformach społecznościowych.

Na podstawie drugiego wykresu można zauważyć ujemną korelację średniej czasu snu ze średnią czasu spędzonego w social mediach.

3.2 Sprawdzamy czy poziom wykształcenia wpływa na intensywność używania mediów społecznościowych?

Na podstawie powyższego wykresu można stwierdzić, że średni czas korzystania z mediów społecznościowych zależy w nieznacznym stopniu od wykształcenia. Wśród grupy, która spędza od 0 do 2 godzin w social media są jedynie absolwenci szkół wyższych a wśród grupy, która spędza od 8 do 10 godzin dziennie na platformach social media są wyłącznie osoby, które nie ukończyły jeszcze studiów. Osoby z wykształceniem średnim najczęściej spędzają od 4 do 6 godzin dziennie w mediach społecznościowych.

3.3 Sprawdzamy jaki jest średni czas spędzany w social mediach w zależności od narodowości?

## # A tibble: 6 × 2
##   Country     mean_hours
##   <chr>            <dbl>
## 1 Afghanistan       2.9 
## 2 Albania           4.7 
## 3 Andorra           5.3 
## 4 Argentina         5.5 
## 5 Armenia           5.9 
## 6 Australia         4.56

3.4 Sprawdzamy czy zdrowie psychiczne zależy od czasu spędzonego w mediach społecznościowych

Na podstawie powyższego wykresu można stwierdzić, że istnieje negatywna korelacja między czasem spędzonym w mediach społecznościowych a zdrowiem psychicznym, przy czym najlepszy wynik zdrowia psychicznego wydaje się być w przedziale “0–2” godziny. Wzrost czasu spędzanego na platformach społecznościowych (z 2 do 8 godzin) wiąże się ze stopniowym pogorszeniem zdrowia psychicznego.Wykres sugeruje, że umiarkowane lub wysokie wykorzystanie mediów społecznościowych (od 2 do 8 godzin) jest związane zarówno z gorszym średnim zdrowiem psychicznym, jak i większą niepewnością wyników w tej grupie.

4. Analiza opisowa

4.1 Sprawdzamy czy poziom wykształcenia wpływa na intensywność używania mediów społecznościowych

Tabela 1. Średni czas korzystania z mediów społecznościowych wg poziomu edukacji.
Poziom Edukacji
Statystyka High School Undergraduate Graduate
Min 1.50 3.00 2.20
Max 7.50 6.50 8.50
Kwartyl dolny 4.00 5.45 4.10
Mediana 4.70 5.60 4.70
Kwartyl górny 5.60 5.85 5.90
Średnia 4.78 5.54 5.00
Odch. std. 1.23 0.69 1.30
IQR 1.60 0.40 1.80
Odchylenie ćwiartkowe 0.80 0.20 0.90
Odch. std. w % 25.72 12.45 25.93
Odch. ćwiartkowe w % 34.04 7.14 38.30
Skośność -0.04 -2.06 0.40
Kurtoza -0.45 5.04 -0.48

Na podstawie danych z tabeli można zauważyć, że poziom wykształcenia różnicuje intensywność korzystania z mediów społecznościowych. Najwyższy poziom aktywności wykazuje grupa Undergraduate, osiągając najwyższą średnią (5.54) oraz medianę (5.60). Osoby z wykształceniem High School korzystają z mediów najmniej intensywnie (średnia 4.78), natomiast grupa Graduate plasuje się pośrodku ze średnią 5.00. Wyniki sugerują więc, że etap studiów licencjackich sprzyja najczęstszemu korzystaniu z mediów społecznościowych w porównaniu do osób przed studiami lub z wyższym stopniem naukowym.

4.2 Sprawdzamy: Czy status związku ma wpływ na ilość przespanych godzin w nocy?

Zakres danych
Miary tendencji centralnej
Kwantyle
Kształt rozkładu
Status związku Min Max Średnia Odch. std Mediana Q1 Q3 Skośność Kurtoza
Singiel 4.2 9.6 6.98 1.05 6.9 6.2 7.80 0.00 -0.66
To skomplikowane 4.5 7.4 5.9 0.71 5.8 5.4 6.28 0.48 -0.57
W związku 3.8 9.5 6.83 1.21 7.0 5.9 7.70 -0.26 -0.50

Najgorzej wypada grupa o statusie „To skomplikowane”, gdzie średnia długość snu wynosi zaledwie 5,9 godziny, co jest wynikiem znacznie niższym niż w pozostałych kategoriach. Osoby te nie tylko śpią najkrócej, ale też żadna z nich nie przekroczyła 7,4 godziny snu. „Single” śpią średnio najdłużej (6,98 h), wyprzedzając nieznacznie osoby „W związku” (6,83 h). Warto jednak zauważyć, że choć osoby w związku mają nieco niższą średnią, to ich mediana wynosi 7,0, co oznacza, że typowy przedstawiciel tej grupy śpi optymalną ilość czasu.Różnica między niepewną relacją a stabilnymi statusami jest więc wyraźna i sugeruje, że brak stabilizacji może negatywnie wpływać na regenerację. Podsumowując, osoby w ustabilizowanej sytuacji (singiel lub związek) śpią o około godzinę dłużej niż te w skomplikowanych relacjach.

4.3 Macierz korelacji

Najsilniejsza zależność widoczna jest w negatywnym wpływie mediów społecznościowych na zdrowie psychiczne – im wyższy wskaźnik uzależnienia oraz częstsze konflikty na tym tle, tym drastycznie niższy wynik zdrowia psychicznego. Istnieje wyraźna korelacja ujemna (-0.79) między czasem spędzanym w social mediach a długością snu, co oznacza, że intensywne korzystanie z sieci odbywa się kosztem nocnego wypoczynku. Długość snu ma silny, pozytywny wpływ na kondycję psychiczną (współczynnik 0.71), a to sugeruje, że dbanie o sen jest ważne dla dobrostanu psychicznego w kontekście cyfrowym. Wskaźniki problematycznego korzystania z sieci są ze sobą ściśle powiązane: wysoki poziom uzależnienia bardzo mocno koreluje z występowaniem konfliktów z powodu social mediów (0.93) oraz z czasem ich użytkowania (0.83). Zmienna wieku nie wykazuje istotnych powiązań z pozostałymi czynnikami (bardzo słabe korelacje, np. 0.13 czy -0.11), co sugeruje, że opisane problemy dotykają badanych niezależnie od tego, ile mają lat.

5. Istotność statystyczna

Definicja

Istotność statystyczna pozwala na określenie z jakim prawdopodobieństwem otrzymany wynik odzwierciedla rzeczywistą sytuację w populacji. Poziom istotność przyjęliśmy 0.05, co oznacza akceptację na 5% ryzyko popełnienia błędu I rodzaju.

  1. Jaki jest średni czas jaki studenci spędzają dziennie na używanie social mediów?

Hipotezy: H_0: = 5; H_1: =/= 5.

Poziom istotności: alpha = 0,05.

Test: Test t dla jednej próby (t-Student).

Wynik: t_Student(704) = -1,72, p = 0,09.Wielkość efektu: = -0,06.

Decyzja: p > 0,05brak podstaw do odrzucenia H_0.

Rozkład czasu spędzanego w mediach społecznościowych jest zbliżony do rozkładu normalnego ze średnią wynoszącą 4,92 h. Przeprowadzona weryfikacja hipotezy wykazała, że uzyskany wynik nie jest istotny statystycznie (p > 0,05). Oznacza to, że studenci spędzają w mediach społecznościowych średnio tyle czasu, ile zakładano w hipotezie testowej (ok. 5 godzin dziennie).

  1. Jaka jest najczęściej używana przez studentów platforma?

Hipotezy: H_0: = 5; H_1: =/= 5.

Poziom istotności: alpha = 0,05.

Test: Test dobroci dopasowania chi^2.

Wynik: Analiza struktury wykazuje istotne zróżnicowanie (p < 0,05).

Wielkość efektu: VCramer.

Decyzja: Odrzucenie H_0.

Struktura korzystania z mediów społecznościowych wśród studentów jest silnie zróżnicowana. Liderem wśród studentów jest Instagram (35%), wyprzedzając Facebooka oraz TikToka. Wynik testu statystycznego (p < 0,05) potwierdza, że różnice w popularności poszczególnych platform są istotne statystycznie. Studenci w badanej grupie istotnie preferują serwisy oparte na treściach wizualnych i krótkich formach wideo.

  1. Jakie są różnice w czasie spędzanym na platformach social media w zależności od płci?

Hipotezy: H_0: = mu_{K} = mu_{M}; H_1: mu_{K} neq mu_{M}

Poziom istotności: alpha = 0,05.

Test: Test t dla prób niezależnych.

Wynik: Wartość t i p z wykresu ggbetweenstats.

Wielkość efektu: Hedges.

Decyzja: Jeśli p < 0,05, odrzucamy H_0.

Analiza wykazała, że kobiety spędzają w mediach społecznościowych średnio o około 11 minut dziennie więcej niż mężczyźni (5,01 h vs 4,83 h). Uzyskana wartość testu (p = 0,05) znajduje się na granicy przyjętego poziomu istotności, co przy uwzględnieniu bardzo małej wielkości efektu (widehat = 0,15) pozwala stwierdzić, że płeć nie jest kluczowym czynnikiem różnicującym czas spędzany w mediach społecznościowych w badanej próbie. Różnica może wynikać z błędu losowego.

  1. Jaki jest średni czas snu w zależności od średniego czasu spędzanego na platformach?

Hipotezy: H_0: p = 0 (brak korelacji); H_1: =p =/= 0 (istnieje istotna korelacja)

Poziom istotności: alpha = 0,05.

Test: Test korelacji Pearsona.

Wynik: Wartość r (współczynnik korelacji) i p z wykresu ggscatterstats.

Wielkość efektu: r Pearsona (siła korelacji).

Decyzja: Jeśli p < 0,05, odrzucamy H_0 (związek jest istotny statystycznie).

Istnieje bardzo silna i statystycznie istotna ujemna zależność między czasem spędzanym w mediach społecznościowych a długością snu (r = -0,79, p < 0,001). Wyniki sugerują, że nadmierne korzystanie z platform odbywa się kosztem odpoczynku studentów. Każda dodatkowa godzina w social mediach wiąże się z mierzalnym skróceniem czasu snu, co potwierdza hipotezę o negatywnym wpływie technologii na higienę snu.

  1. Jakie platformy społecznościowe najczęściej powodują objawy uzależnienia?

Hipotezy: H_0: mu_{1} = mu_{2} = … = mu_{k} (średnie wyniki uzależnienia są równe dla wszystkich platform); H_1: Przynajmniej jedna średnia różni się od pozostałych.

Poziom istotności: alpha = 0,05.

Test: Jednoczynnikowa analiza wariancji (One-way ANOVA).

Wynik: Wartość statystyki F i p z wykresu ggbetweenstats.

Wielkość efektu: omega^2 (Omega-kwadrat) lub eta^2 (Eta-kwadrat).

Decyzja: Jeśli p < 0,05, odrzucamy H_0 (rodzaj platformy ma wpływ na poziom uzależnienia).

Rodzaj najczęściej używanej platformy społecznościowej ma kluczowe znaczenie dla poziomu deklarowanego uzależnienia studentów. Użytkownicy aplikacji opartych na krótkich formach wideo, takich jak TikTok i Snapchat, wykazują znacznie wyższy poziom uzależnienia w porównaniu do użytkowników innych serwisów. Statystyki Bayesowskie potwierdzają, że rodzaj medium tłumaczy aż 35% (w2p) zmienności w wynikach uzależnienia, co sugeruje, że mechanizmy angażujące konkretnych aplikacji (np. algorytmy) mogą bezpośrednio stymulować zachowania nałogowe.

  1. Czy poziom wykształcenia wpływa na intensywność używania mediów społecznościowych?

Hipotezy: H_0: mu_{HighSchool} = mu_{Undergrad} = mu_{Grad} (średni czas jest taki sam dla każdego wykształcenia); H_1: Przynajmniej jedna grupa różni się średnim czasem.

Poziom istotności: alpha = 0,05.

Test: Jednoczynnikowa analiza wariancji (One-way ANOVA).

Wynik: Wartość statystyki F i p z wykresu ggbetweenstats.

Wielkość efektu: omega^2 (Omega-kwadrat).

Decyzja: Jeśli p < 0,05, odrzucamy H_0

Poziom wykształcenia jest czynnikiem silnie różnicującym czas spędzany w mediach społecznościowych (p < 0.001, w2p = 0.22). Najwięcej czasu w sieci spędzają osoby z wykształceniem średnim, podczas gdy absolwenci wykazują najniższą aktywność. Wyniki te sugerują, że wraz z postępem edukacyjnym i wiekiem, intensywność korzystania z mediów społecznościowych ulega istotnemu zmniejszeniu.

  1. Czy status związku wpływa na czas spędzany w social mediach?

Hipotezy: H_0: mu_{Single} = mu_{InRel} = mu_{Complicated} (status związku nie różnicuje czasu spędzanego w mediach); H_1: Przynajmniej jedna średnia jest inna.

Poziom istotności: alpha = 0,05.

Test: Jednoczynnikowa analiza wariancji (One-way ANOVA).

Wynik: Wartość statystyki F i p z wykresu ggbetweenstats.

Wielkość efektu: omega^2 (Omega-kwadrat).

Decyzja: Jeśli p < 0,05, odrzucamy H_0.

Status związku nie ma żadnego istotnego wpływu na to, ile czasu studenci spędzają w mediach społecznościowych. Różnice między grupami są minimalne i wynikają wyłącznie z przypadku.

6. Modele Mikroekonometrzyczne

W końcowym etapie naszego projektu zdecydowaliśmy się na zbudowanie dwóch modeli ekonometrycznych, które odpowiedzą na pytania będące celem naszego badania, czyli: w jaki sposób korzystanie z mediów społecznościowych wpływa na wyniki w nauce i jakość snu uczniów. Pierwszy model, jaki oszacowaliśmy to model regresji liniowej, ponieważ nasza zmienna objaśniana jest ilościowa a zmienne objaśniające są zarówno ciągłe jak i jakościowe. Zdecydowaliśmy się oszacować wpływ średniego dziennego użycia mediów społecznościowych, wieku, płci, wyniky zdrowia psychicznego i faktu, czy korzystanie z miediów społecznościowych wpływa na wynik akademicki na średnią liczbę godzin snu ucnziów.

## 
## Call:
## lm(formula = Sleep_Hours_Per_Night ~ Avg_Daily_Usage_Hours + 
##     Age + Gender_Female + Mental_Health_Score + Affects_Academic_Performance, 
##     data = df_clean)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -2.8814 -0.2304  0.2038  0.4343  1.3600 
## 
## Coefficients:
##                                 Estimate Std. Error t value Pr(>|t|)    
## (Intercept)                      8.61679    0.61386  14.037  < 2e-16 ***
## Avg_Daily_Usage_Hours           -0.55888    0.03381 -16.532  < 2e-16 ***
## Age                              0.02570    0.02114   1.215 0.224653    
## Gender_Female                    0.05081    0.05853   0.868 0.385623    
## Mental_Health_Score              0.10242    0.04910   2.086 0.037361 *  
## Affects_Academic_PerformanceYes -0.30028    0.08995  -3.338 0.000888 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.672 on 699 degrees of freedom
## Multiple R-squared:  0.6469, Adjusted R-squared:  0.6444 
## F-statistic: 256.2 on 5 and 699 DF,  p-value: < 2.2e-16

Według modelu regresji liniowej możemy stwierdzić, że na ilość snu u studentów wpływa średnia dzienna liczba używania mediów społecznościowych, wynik zdrowia psychicznego i odpowiedź na pytanie, czy social media wpływają na ich wyniki akademickie. Pozostałe zmienne (wiek i płeć) nie wpływają na średnią dzienną liczbę godzin snu u studentów, co potwierdziły wcześniejsze testy. Model regresji liniowej wyjaśnia ponad 64% zmienności długości snu studentów, co jest wartością dosyć wysoką. Według modelu każda dodatkowa godzina spędzona w social mediach skraca sen o ok. 34 minuty. Studenci, którzy deklarują, że social media negatywnie wpływają na ich naukę, śpią średnio o 18 minut krócej niż pozostali.Wzrost kondycji psychicznej o 1 punkt w Twojej skali przekłada się na około 6 minut dłuższego snu.

Następnie zbudowaliśmy model logitowy, który szacuje wpływ średniego dziennego czasu spędzanego na platformach społecznościowych, wieku płci, liczby godzin snu na wynik akademicki. Zmienna objaśniana jest binarna, dlatego zdecydowaliśmy się tu na użycie modelu logitowego. Wykluczyliśmy jednak z niego zmienne, które były współliniowe, czyli wynik zdrowia psychicznego i konflikt z mediami społecznościowymi.

## 
## Call:
## glm(formula = Academic_Impact ~ Avg_Daily_Usage_Hours + Age + 
##     Gender_Female + Sleep_Hours_Per_Night, family = binomial, 
##     data = df_clean)
## 
## Coefficients:
##                       Estimate Std. Error z value Pr(>|z|)    
## (Intercept)             4.4456     2.9263   1.519 0.128721    
## Avg_Daily_Usage_Hours   1.9188     0.2392   8.021 1.04e-15 ***
## Age                    -0.3443     0.1075  -3.204 0.001356 ** 
## Gender_Female          -0.4245     0.2766  -1.535 0.124798    
## Sleep_Hours_Per_Night  -0.7389     0.1928  -3.832 0.000127 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 919.23  on 704  degrees of freedom
## Residual deviance: 455.35  on 700  degrees of freedom
## AIC: 465.35
## 
## Number of Fisher Scoring iterations: 6
##           (Intercept) Avg_Daily_Usage_Hours                   Age 
##            85.2497064             6.8127769             0.7087451 
##         Gender_Female Sleep_Hours_Per_Night 
##             0.6540878             0.4776417

Na podstawie modelu logitowego, możemy stwierdzić, że wpływ na wyniki akademickie mają zmienne: średnia dzienna liczba godzin spędzonych na platformach social media, wiek i liczba godzin snu, ponieważ zmienne te są istotne statystycznie. Na wyniki akademickie nie ma natomiast wpływu płeć. Według oszacowanych ilorazów szans możemy stwierdzić, że każda dodatkowa godzina dziennie w social mediach zwiększa szansę na negatywny wpływ na naukę aż 6,8-krotnie.Każda dodatkowa godzina snu zmniejsza szansę na problemy z nauką o około 52% a każdy rok życia więcej zmniejsza szansę na negatywny wpływ social mediów na naukę o ok. 29%

7. Podsumowanie

Projekt miał na celu zbadanie zjawiska uzależnienia od mediów społecznościowych wśród studentów. Analiza opierała się na zbiorze danych “Students_Social_Media_Addiction.csv”, obejmującym zmienne demograficzne, zdrowotne oraz behawioralne. Głównym celem badawczym było określenie wpływu korzystania z platform społecznościowych na jakość snu, zdrowie psychiczne oraz wyniki w nauce.

W pierwszej fazie projektu przeprowadzono czyszczenie danych, weryfikując logiczność zmiennych, takich jak wiek (zakres 16-100 lat) czy dobowy czas aktywności (0-24 godziny). Wstępna eksploracja wykazała, że najpopularniejszą platformą wśród badanych jest Instagram (35%), wyprzedzający Facebooka i TikToka.Kluczowym wnioskiem z analizy jest silna, ujemna korelacja między czasem spędzanym w social mediach a długością snu, co potwierdzono testami statystycznymi. Oznacza to, że każda dodatkowa godzina aktywności online wiąże się z mierzalnym skróceniem czasu wypoczynku nocnego. Badanie wykazało również niepokojący związek między intensywnością użytkowania a zdrowiem psychicznym; najlepszy dobrostan odnotowano w grupie korzystającej z mediów do 2 godzin dziennie, podczas gdy dłuższy czas wiązał się z pogorszeniem kondycji psychicznej.Analiza struktury demograficznej ujawniła, że poziom wykształcenia istotnie różnicuje czas spędzany w sieci – studenci studiów licencjackich (Undergraduate) są grupą najaktywniejszą.

W kwestii płci zauważono, że kobiety korzystają z mediów średnio o 11 minut dłużej niż mężczyźni, jednak różnica ta znajduje się na granicy istotności statystycznej. Ciekawym odkryciem jest wpływ statusu związku na higienę życia; osoby w relacjach określonych jako “to skomplikowane” śpią najkrócej (średnio 5,9 h), co sugeruje wpływ stresu emocjonalnego na regenerację. Zastosowane testy statystyczne, w tym ANOVA, pozwoliły ustalić, że rodzaj platformy ma znaczenie dla poziomu uzależnienia – użytkownicy aplikacji wideo (TikTok, Snapchat) wykazują silniejsze objawy nałogowe. Potwierdzono również, że wysoki poziom uzależnienia jest ściśle powiązany z częstszą liczbą konfliktów interpersonalnych wywoływanych przez media społecznościowe. Mimo to, status związku nie wpływa istotnie na samą ilość czasu spędzanego w aplikacjach. Estymacja modelu OLS wykazała, że każda dodatkowa godzina dziennej aktywności w mediach społecznościowych skutkuje statystycznie istotnym skróceniem snu o średnio 34 minuty. Równolegle, zastosowany model logitowy potwierdził, że wzrost czasu ekspozycji na treści cyfrowe drastycznie podnosi prawdopodobieństwo pogorszenia wyników w nauce, przy czym każda dodatkowa godzina snu redukuje to ryzyko o ponad połowę.Podsumowując, wyniki projektu jednoznacznie wskazują, że nadmierna ekspozycja na media społecznościowe negatywnie oddziałuje na ważne aspekty życia studentów, takie jak sen i zdrowie psychiczne, niezależnie od ich wieku czy narodowości.

Przeprowadzone badanie rzuca nowe światło na mechanizmy cyfrowych nawyków, wskazując na pilną potrzebę promowania higieny cyfrowej w środowisku akademickim. Szczególnie alarmujący jest wniosek dotyczący platform opartych na krótkich treściach wideo (jak TikTok), które wykazują najwyższy potencjał uzależniający ze względu na specyfikę swoich algorytmów. Ponieważ grupa studentów licencjackich (Undergraduate) korzysta z mediów najintensywniej, to właśnie na tym etapie edukacji uczelnie powinny wdrażać programy profilaktyczne. Wykazany w analizie deficyt snu, skorelowany z czasem przed ekranem, może długofalowo obniżać zdolności kognitywne, co bezpośrednio zagraża wynikom w nauce. Interesująca obserwacja dotycząca osób w “skomplikowanych” relacjach sugeruje również, że media społecznościowe mogą być używane jako mechanizm ucieczki od problemów emocjonalnych. Z perspektywy technicznej, wykorzystanie środowiska R pozwoliło na precyzyjne odróżnienie potocznych opinii od faktów potwierdzonych statystycznie. Warto podkreślić, że zidentyfikowane problemy mają charakter uniwersalny, gdyż analiza nie wykazała istotnych różnic w poziomie uzależnienia w zależności od narodowości. Należy jednak pamiętać, że badanie ma charakter korelacyjny, co otwiera pole do dalszych analiz przyczynowo-skutkowych w przyszłości. Finalnie, projekt ten dostarcza twardych dowodów na to, że cyfrowy dobrostan jest nierozerwalnie związany ze zdrowiem fizycznym i psychicznym studentów. Stanowi to solidną podstawę do dyskusji o konieczności zachowania równowagi między życiem online a offline.