1 Analiza czynników wpływających na wyniki z egzaminów studentów

1.1 Wstęp

1.1.1 Cel projektu

Celem projektu jest analiza czynników wpływających na wyniki uczniów w egzaminach. Badanie ma na celu zidentyfikowanie, które zmienne, takie jak liczba godzin nauki, frekwencja czy wsparcie rodziny, mają największy wpływ na sukces akademicki. Wyniki analizy mogą pomóc w optymalizacji strategii edukacyjnych oraz wdrożeniu skutecznych metod wsparcia dla uczniów o niższych wynikach.

1.1.2 Opis problemu

Osiągnięcia akademickie uczniów są determinowane przez wiele czynników – zarówno indywidualnych, jak i środowiskowych. Trudności w nauce, poziom zaangażowania rodziców, dostęp do zasobów edukacyjnych czy aktywności pozalekcyjne mogą znacząco wpływać na ostateczne wyniki. Analiza tych czynników pozwoli na lepsze zrozumienie zależności i wsparcie uczniów w poprawie wyników.

1.1.3 Znaczenie analizy wyników uczniów

Zrozumienie czynników wpływających na wyniki egzaminacyjne jest istotne z kilku powodów:

Optymalizacja strategii nauczania – analiza wyników może pomóc nauczycielom i decydentom edukacyjnym w dostosowaniu metod nauczania do potrzeb uczniów.

Wsparcie dla uczniów w trudnej sytuacji – identyfikacja kluczowych czynników umożliwia wdrożenie skutecznych programów pomocy.

Poprawa efektywności edukacji – lepsze zrozumienie procesów nauczania pozwala na skuteczniejsze zarządzanie systemem edukacyjnym.

1.2 Opis danych

1.2.1 Źródło danych

Dane wykorzystane w analizie pochodzą z anonimowego zbioru danych dotyczącego uczniów szkół średnich. Zawierają one informacje na temat wyników egzaminacyjnych oraz czynników potencjalnie wpływających na sukces akademicki.

1.2.2 Struktura zbioru danych

Zbiór danych zawiera następujące kolumny:

Zmienne numeryczne: Liczba godzin nauki, frekwencja, liczba sesji korepetycji, wynik egzaminu itp.

Zmienne kategoryczne: Poziom zaangażowania rodziców, dostęp do zasobów edukacyjnych, typ szkoły, aktywności pozalekcyjne itp.

1.2.3 Opis zmiennych

Każda z analizowanych zmiennych pełni określoną funkcję w kontekście analizy wyników uczniów. Główne zmienne to:

  • Hours Studied – liczba godzin nauki tygodniowo.

  • Attendance – procentowa frekwencja na zajęciach.

  • Tutoring Sessions – liczba godzin spędzonych na korepetycjach.

  • Parental Involvement – poziom zaangażowania rodziców (Low, Medium, High).

  • Access to Resources – dostęp do zasobów edukacyjnych (Low, Medium, High).

  • Motivation Level – poziom motywacji ucznia.

  • Previous Scores – wyniki ucznia z poprzednich egzaminów.

  • Exam Score – wynik końcowy z egzaminu.

Dane te zostaną poddane dalszej analizie w celu określenia ich wpływu na końcowe wyniki uczniów.

1.3 Data Wrangling

1.3.1 Wizualizacja brakujących danych

Aby lepiej zrozumieć rozkład brakujących danych w naszym zbiorze, wykonujemy kilka analiz:

  • Wykres missing_plot() przedstawia ogólny wzór brakujących wartości dla kluczowych zmiennych.

Po zwizualizowaniu brakujących wartości za pomocą wykresu missing_plot() można zauważyć, że w zbiorze danych występują braki w pięciu zmiennych.

Po przealizowaniu przedstawionych wykresów można dość do wniosku, iż brakujące dane nie są w żaden sposób skorelowane z innymi zmiennymi. Można stwierdzić, że braki w danych są losowe.

1.3.2 Czyszczenie danych i imputacja brakujących wartości

Pierwszą rzeczą jest ustalenie reguł dla wszystkich danych istniejących oraz imputowanych. Pozwala to na usunięcie wartości skrajnie odstających, które mogły być błędem przy wprowadzaniu danych.

Zastosowane reguły wyglądają następująco:

  • Godziny nauki (Hours_Studied): wartość musi mieścić się w przedziale od 0 do 30.
  • Frekwencja (Attendance): wartość musi mieścić się w przedziale od 0% do 100%.
  • Zaangażowanie rodziców (Parental_Involvement): wartość musi należeć do jednego z trzech poziomów: Low (niskie), Medium (średnie) lub High (wysokie).
  • Dostęp do zasobów edukacyjnych (Access_to_Resources): wartość musi być jedną z trzech kategorii: Low (niski), Medium (średni) lub High (wysoki).
  • Udział w zajęciach pozalekcyjnych (Extracurricular_Activities): wartość musi wynosić Yes (tak) lub No (nie).
  • Liczba godzin snu (Sleep_Hours): wartość nie może być ujemna.
  • Poprzednie wyniki (Previous_Scores): wartość musi mieścić się w zakresie od 0 do 100.
  • Poziom motywacji (Motivation_Level): wartość musi należeć do jednej z trzech kategorii: Low (niski), Medium (średni) lub High (wysoki).
  • Dostęp do Internetu (Internet_Access): wartość musi wynosić Yes (tak) lub No (nie).
  • Liczba korepetycji (Tutoring_Sessions): wartość nie może być ujemna.
  • Dochód rodziny (Family_Income): wartość musi należeć do jednej z trzech kategorii: Low (niski), Medium (średni) lub High (wysoki).
  • Jakość nauczania (Teacher_Quality): wartość musi należeć do jednej z trzech kategorii: Low (niska), Medium (średnia) lub High (wysoka).
  • Typ szkoły (School_Type): wartość musi wynosić Public (publiczna) lub Private (prywatna).
  • Wpływ rówieśników (Peer_Influence): wartość musi należeć do jednej z trzech kategorii: Negative (negatywny), Neutral (neutralny) lub Positive (pozytywny).
  • Aktywność fizyczna (Physical_Activity): wartość musi mieścić się w przedziale od 0 do 25.
  • Trudności w nauce (Learning_Disabilities): wartość musi wynosić Yes (tak) lub No (nie).
  • Poziom wykształcenia rodziców (Parental_Education_Level): wartość musi należeć do jednej z trzech kategorii: High School (szkoła średnia), College (studia licencjackie) lub Postgraduate (studia podyplomowe).
  • Odległość szkoły od domu (Distance_from_Home): wartość musi należeć do jednej z trzech kategorii: Near (blisko), Moderate (średnia) lub Far (daleko).
  • Płeć (Gender): wartość musi wynosić Male (mężczyzna) lub Female (kobieta).
  • Wynik egzaminu (Exam_Score): wartość musi mieścić się w zakresie od 0 do 100.
#sprawdzenie ilości danych które nie odpowiadaja powyższym regułom
out   <- confront(data, RULE)

#zamiana danych typu character na factor
data <- data %>%
  mutate_if(is.character, as.factor)

#zastąpienie błędów na NA
data_no_error <- replace_errors(data,RULE)

#imputacja danych przez hotdeck
czyste_dane <- hotdeck(data_no_error)

Po zastosowaniu zasad w jakich dane mają być skondensowane mogły wystąpić wartości puste (NA). Wartości te powstały w miejscach wartości, które nie spełniały powyższych zasad.

Po uprzednim przygotowaniu danych oraz ich zidentyfikowaniu należy przejść do imputacji danych. Do imputacji wybrano metodę hotdeck, która polega na zastępowaniu brakujących wartości rzeczywistych danymi z tego samego zbioru.

Przed przystąpieniem do analizy konieczne było usunięcie brakujących wartości oraz poprawienie błędów w danych.

Po zwizualizowaniu danych można zauważyć, że nie ma już pustych wartości w danych. Zostały one skutecznie zastąpione za pomoca zastosowanej metody.

1.3.3 Analiza zależności między zmiennymi

Analiza korelacji i zależności między zmiennymi pozwala określić, które czynniki mają największy wpływ na wyniki egzaminacyjne. Przeprowadzona analiza obejmuje obliczenie współczynników korelacji Spearmana dla kluczowych zmiennych oraz ich wpływu na wynik końcowy.

Wartości współczynnika korelacji Spearmana względem wyniku egzaminu
Variable Spearman_Rho
Attendance 0.6358
Hours_Studied 0.4046
Previous_Scores 0.1849
Tutoring_Sessions 0.1523
Peer_Influence 0.1050
Learning_Disabilities 0.0962
Access_to_Resources 0.0944
Distance_from_Home 0.0904
Parental_Involvement 0.0715
Extracurricular_Activities 0.0632
Internet_Access 0.0631
Teacher_Quality 0.0582
Parental_Education_Level 0.0473
Physical_Activity 0.0311
Family_Income 0.0119
Motivation_Level 0.0076
Sleep_Hours 0.0067
Gender 0.0058
School_Type 0.0021

Przeprowadzona analiza wykazała, że frekwencja (Attendance) oraz liczba godzin nauki (Hours_Studied) mają najsilniejszy pozytywny wpływ na wynik egzaminu. Istotna, choć słabsza korelacja występuje również dla wcześniejszych wyników (Previous_Scores) oraz liczby korepetycji (Tutoring_Sessions).

Zaskakująco, zaangażowanie rodziców (Parental_Involvement) oraz dostęp do zasobów edukacyjnych (Access_to_Resources) wykazują negatywną korelację, co może sugerować, że większa pomoc rodziców jest wynikiem trudności ucznia, a samo posiadanie zasobów nie przekłada się bezpośrednio na sukces.

Wyniki wskazują, że samodzielna praca i regularna obecność na zajęciach są kluczowe dla osiągnięcia wysokich wyników egzaminacyjnych.

1.3.4 Grupowanie danych i transformacja zmiennych

Dane zostały podzielone na grupy w celu ułatwienia analizy i interpretacji wyników.

Dla celów analizy dane zostały podzielone na grupy zmianna pokazująca liczbę godzin nauki została podziolona na trzy grupy: poniżej 16, 16-23 oraz powyżej 23. Wyniki egzaminów zostały podzielone na 6 grup według według progów akademickich, które dają zaliczenie egzaminu uczniom którzy uzyskają wynik powyżej 60%. Wyniki z poprzednich egzaminów również zostały podzielone na 6 grup tak samo jak w przypadku wyników z egzaminu końcowego.

1.4 Analiza Opisowa i Wizualizacja danych

1.4.1 Rozkład wyników egzaminacyjnych

Analiza rozkładu wyników egzaminacyjnych pozwala ocenić, jak zróżnicowane są osiągnięcia uczniów oraz czy dane zawierają ewentualne wartości odstające.

Statystyki opisowe dla wyników egzaminacyjnych
Statystyka Wartość
Min 56.0
1st Quartile 65.0
Median 67.0
Mean 67.2
3rd Quartile 69.0
Max 100.0
Standard Deviation 3.8
Skewness 1.5
Kurtosis 12.8

Interpretacja:

  • Rozstęp wyników: Najniższy wynik egzaminacyjny wyniósł 56, a najwyższy 100.

  • 1st Quartile (Q1, 25%): 65 → 25% uczniów uzyskało wynik niższy niż

  • Mediana (Q2, 50%): 67 → Środkowy wynik w zbiorze danych, połowa uczniów ma wynik poniżej, a połowa powyżej 67.

  • 3rd Quartile (Q3, 75%): 69 → 75% uczniów miało wynik niższy niż 69.

  • Średnia (Mean): 67,2 → Średnia arytmetyczna wyników jest zbliżona do mediany, co sugeruje względnie symetryczny rozkład danych.

  • Odchylenie standardowe: 3,9 Średnie odchylenie wyników od średniej wynosi 3,9 punktu. To dość niska wartość, co wskazuje na niewielkie zróżnicowanie wyników między uczniami.

  • Skośność (Skewness): 1,6 Wartość dodatnia sugeruje, że rozkład wyników jest prawostronnie skośny – oznacza to, że więcej uczniów uzyskało wyniki niższe od średniej, a kilka wyników bardzo wysokich „ciągnie” średnią w górę.

  • Kurtoza (Kurtosis): 13,4 Wartość znacznie większa od 3 sugeruje, że rozkład jest leptokurtyczny, czyli mocno skupiony wokół średniej, ale z długimi ogonami (możliwe występowanie wartości skrajnych).

1.4.2 Analiza korelacji między zmiennymi

W celu oceny, które zmienne są najsilniej powiązane z wynikami egzaminacyjnymi, oszcowano model regresji liniowej.

10 najważniejszych zmiennych w modelu regresji
Estimate Std. Error t value Pr(>&#124;t&#124;) Variable
(Intercept) 43.4293702 0.3764029 115.38001 0 (Intercept)
Attendance 0.1863380 0.0024979 74.59810 0 Attendance
Hours_Studied 0.2636240 0.0052455 50.25696 0 Hours_Studied
Previous_Scores 0.0472243 0.0020037 23.56839 0 Previous_Scores
Access_to_ResourcesLow -1.9230938 0.0834328 -23.04961 0 Access_to_ResourcesLow
Parental_InvolvementLow -1.9013559 0.0836556 -22.72837 0 Parental_InvolvementLow
Tutoring_Sessions 0.4314827 0.0234038 18.43647 0 Tutoring_Sessions
Access_to_ResourcesMedium -0.9657090 0.0666031 -14.49947 0 Access_to_ResourcesMedium
Parental_InvolvementMedium -0.9363593 0.0671280 -13.94887 0 Parental_InvolvementMedium
Peer_InfluencePositive 0.9829567 0.0778412 12.62771 0 Peer_InfluencePositive

Model regresji liniowej przeprowadzony na dostępnych danych wykazał istotne zależności między wieloma czynnikami a wynikami egzaminacyjnymi uczniów. Model osiągnął R² = 0.6228, co oznacza, że około 62,3% wariancji wyników egzaminacyjnych można wyjaśnić uwzględnionymi zmiennymi.

1.4.2.1 Kluczowe wnioski:

Najistotniejsze czynniki wpływające na wynik egzaminu

  1. Największy pozytywny wpływ na wyniki egzaminu mają:

    • Frekwencja (Attendance).

    • Liczba godzin nauki (Hours_Studied).

    • Sesje korepetycji (Tutoring_Sessions).

  2. Negatywny wpływ na wyniki egzaminu mają:

    • Brak dostępu do zasobów edukacyjnych (Access_to_Resources).

    • Niskie zaangażowanie rodziców (Parental_Involvement).

    • Niski poziom dochodów rodzinnych (Family_Income).

  3. Istotność zmiennych: Wszystkie wymienione zmienne mają bardzo niski poziom wartości p (p-value < 0.001), co świadczy o ich wysokiej istotności statystycznej.

1.4.3 Wpływ poszczególnych czynników na wyniki uczniów

Przeanalizowano wpływ kluczowych czynników, takich jak liczba godzin nauki, frekwencja, dostęp do zasobów edukacyjnych oraz wsparcie rodziców na wyniki egzaminacyjne.

Analiza wpływu godzin nauki na wynik egzaminu

Po przeanalizowaniu wykresów można zauważyć, że uczniowie którzy spędzają więcej czasu na nauce osiągają lepsze wyniki egzaminacyjne.

Tabela statystyk opisowych dla grup godzin nauki
Godziny nauki Średnia Q1 Mediana Q3 Odchylenie_std Min Max N
poniżej 16 65.25 63 65 67 3.89 56 99 1558
16-23 67.26 65 67 69 3.42 58 100 3413
powyżej 23 69.03 67 69 71 3.60 60 98 1636

Średni wynik egzaminu rośnie wraz z liczbą godzin nauki (65,25 → 68,99), podobnie jak mediana (65 → 69), co wskazuje, że więcej nauki wiąże się z lepszymi wynikami, choć różnice nie są duże.

Rozproszenie wyników jest stabilne we wszystkich grupach (odchylenie standardowe ~3,50–3,81). Zakres wyników (Min-Max) pokazuje, że nawet przy większej liczbie godzin nauki niektórzy uczniowie osiągają bardzo niskie wyniki (np. 59 przy ponad 23 godzinach), co może wynikać z innych czynników, takich jak jakość nauki czy motywacja.

Najliczniejsza grupa to uczniowie uczący się 16–23 godziny (N = 3400), podczas gdy mniej uczniów uczy się poniżej 16 godzin (N = 1567) lub powyżej 23 godzin (N = 1640).

Tabela ANOVA: Wpływ godzin nauki na wynik egzaminu
Źródło Sumy kw. Stopnie sw. F p-wartość
Godziny nauki 2 11375.78 5687.89072 443.6502 0
Residuals 6604 84667.67 12.82066 NA NA

(F = 432.73, p < 0.001). Oznacza to, że średnie wyniki egzaminu znacznie różnią się między grupami uczniów o różnych poziomach nauki.

Wpływ frekwencji na wynik egzaminu

Tabela statystyk opisowych dla Frekwencji
Ocena egzaminu Średnia Q1 Mediana Q3 Odchylenie_std Min Max N
2.0 64.43 61.00 64.0 66.00 4.76 60 82 69
3.0 71.26 64.00 69.0 77.00 8.48 60 100 2032
3.5 82.24 74.00 82.0 91.00 10.24 60 100 3435
4.0 90.67 87.00 92.0 97.00 7.73 61 100 1033
4.5 72.83 69.25 71.0 76.75 8.91 61 98 18
5.0 84.60 75.25 88.5 90.75 10.49 67 99 20

Analiza wyników wskazuje, że średnia frekwencja rośnie wraz z oceną, od 64,46% dla oceny 2.0 do 90,63% dla 4.0. Jednak w przypadku ocen 4.5 i 5.0 jest niższa (73,37% i 84,60%), co może wynikać z małej liczby uczniów w tych grupach.

Rozproszenie wyników jest największe dla ocen 3.5, 4.5 i 5.0 (odchylenie standardowe 8,97%–10,49%), a najmniejsze dla oceny 2.0 (4,92%), co oznacza bardziej jednolitą frekwencję wśród uczniów osiągających słabsze wyniki. Najniższa frekwencja wynosi 60% dla ocen 2.0–3.5 i wzrasta do 67% dla 5.0, natomiast maksymalna osiąga 100% dla większości ocen, z wyjątkiem 4.5 (98%) i 5.0 (99%).

Najwięcej uczniów uzyskało ocenę 3.5 (N = 3413) i 3.0 (N = 2051), co sugeruje, że większość osiąga średnie wyniki, podczas gdy oceny 4.5 i 5.0 są rzadkie (N = 19 i N = 20), co może ograniczać ich reprezentatywność.

Tabela ANOVA: Wpływ Frekwencji na Wyniki Egzaminu
Źródło Sumy kw. Stopnie sw. F p-wartość
Ocena egzaminu 5 308206.4 61641.27617 710.5269 0
Residuals 6601 572665.3 86.75432 NA NA

Analiza wariancji (ANOVA) wykazała, że oceny egzaminu mają istotny wpływ na frekwencję (F = 697.81, p < 0.001).

Wpływ dostępu do zasobów edukacyjnych

Uczniowie z niskim dostępem do zasobów mają znacznie niższe wyniki egzaminów w porównaniu do tych z wysokim dostępem. To jedna z kluczowych zmiennych negatywnych.

Tabela statystyk opisowych dla dostępu do zasobów edukacyjnych
Dostęp do zasobów Średnia Q1 Mediana Q3 Odchylenie_std Min Max N
Low 66.29 64 66 91 3.58 57 98 1313
Medium 67.11 65 67 90 3.75 58 100 3319
High 68.04 66 68 90 3.90 56 99 1975

Średni wynik egzaminu rośnie wraz z dostępem do zasobów edukacyjnych, od 66,26 przy niskim dostępie do 68,04 przy wysokim, co sugeruje pozytywny wpływ, choć różnice są niewielkie. Mediana wyników wykazuje podobny trend wzrostowy (66 → 68).

Rozproszenie wyników jest podobne we wszystkich grupach (odchylenie standardowe 3,57–3,91), co oznacza, że dostęp do zasobów nie prowadzi do znaczących różnic wewnątrz grup.

Minimalne wyniki egzaminu pozostają zbliżone (56–58), natomiast najwyższe wyniki są wyższe dla uczniów z lepszym dostępem do zasobów (98 → 100), co może wskazywać na większe szanse osiągnięcia maksymalnych wyników. Najliczniejsza jest grupa uczniów ze średnim dostępem do zasobów (N = 3319), a najmniej liczna – z niskim dostępem (N = 1313), choć nadal stanowi ona istotną grupę porównawczą.

Tabela ANOVA: Wpływ dostępu do zasobów edukacyjnych na wynik egzaminu
Źródło Sumy kw. Stopnie sw. F p-wartość
Dostęp do zasobów 2 2509.942 1254.97105 88.60812 0
Residuals 6604 93533.510 14.16316 NA NA

Analiza wariancji (ANOVA) wykazała, że dostęp do zasobów edukacyjnych istotnie wpływa na wynik egzaminu (F = 90.53, p < 0.001).

Wpływ zaangażowania rodziców

Podobny wzorzec jak w przypadku zasobów — niskie zaangażowanie rodziców wiąże się z niższymi wynikami.

Tabela statystyk opisowych dla zaangażowania rodziców
Zaangażowanie rodziców Średnia Q1 Mediana Q3 Odchylenie_std Min Max N
Low 66.37 64 66 69 3.80 56 98 1337
Medium 67.13 65 67 69 3.72 57 97 3362
High 68.00 66 68 70 3.83 57 100 1908

Średni wynik egzaminu wzrasta wraz z zaangażowaniem rodziców, od 66,39 przy niskim zaangażowaniu do 67,98 przy wysokim, co sugeruje pozytywny wpływ, choć różnice są niewielkie. Mediana wyników wykazuje podobny trend (66 → 68), wskazując, że uczniowie z bardziej zaangażowanymi rodzicami częściej osiągają lepsze wyniki.

Rozproszenie wyników pozostaje na zbliżonym poziomie we wszystkich grupach (odchylenie standardowe 3,74–3,85), co oznacza, że wpływ zaangażowania rodziców jest jednolity w różnych grupach uczniów.

Minimalne wyniki egzaminu są podobne (56–57), natomiast maksymalne wyniki są nieco wyższe w grupie o wysokim zaangażowaniu rodziców (100 vs. 98 w grupie o niskim zaangażowaniu). Może to sugerować, że większe wsparcie zwiększa szanse na osiągnięcie najlepszych rezultatów. Najwięcej uczniów należy do grupy średniego zaangażowania rodziców (N = 3362), a najmniej do grupy niskiego zaangażowania (N = 1337), co wskazuje, że umiarkowane wsparcie jest najczęstsze.

Tabela ANOVA: Wpływ zaangażowania rodziców na wynik egzaminu
Źródło Sumy kw. Stopnie sw. F p-wartość
Zaangażowanie rodziców 2 2160.722 1080.36114 75.99593 0
Residuals 6604 93882.730 14.21604 NA NA

Analiza wariancji (ANOVA) wykazała, że zaangażowanie rodziców istotnie wpływa na wynik egzaminu (F = 71.62, p < 0.001).

Wpływ dochodu rodziny na wynik egzaminu

Uczniowie z rodzin o niskim dochodzie osiągają niższe wyniki egzaminacyjne w porównaniu do tych z rodzin o wyższym dochodzie.

Tabela statystyk opisowych dla dochodu rodziny
Dochód rodziny Średnia Q1 Mediana Q3 Odchylenie_std Min Max N
Low 66.84 65 67 69 3.70 56 97 2683
Medium 67.36 65 67 70 3.80 57 99 2663
High 67.76 65 68 70 3.99 58 100 1261

Średni wynik egzaminu rośnie wraz z dochodem (66,85 → 67,75), ale różnice są niewielkie (~1 punkt). Mediana wyników (67–68) pozostaje niemal identyczna, co sugeruje podobne osiągnięcia uczniów niezależnie od dochodu.

Rozproszenie wyników jest zbliżone we wszystkich grupach (odchylenie standardowe ~3,7–4,0), co wskazuje na brak istotnych różnic w wpływie dochodu na indywidualne wyniki. Minimalne wyniki (56–58) są podobne, natomiast maksymalne rosną wraz z dochodem (97 → 100), co może sugerować większe szanse na najwyższe wyniki wśród uczniów z bogatszych rodzin.

Większość uczniów pochodzi z rodzin o niskim lub średnim dochodzie (2676 i 2660 uczniów), a najmniej z rodzin o wysokim dochodzie (1271 uczniów), co odzwierciedla ogólną strukturę społeczną.

Tabela ANOVA: Wpływ dochodu rodziny na wynik egzaminu
Źródło Sumy kw. Stopnie sw. F p-wartość
Dochód rodziny 2 814.3836 407.19182 28.23817 0
Residuals 6604 95229.0685 14.41991 NA NA

Analiza wariancji (ANOVA) wykazała, że poziom dochodu rodziny ma istotny wpływ na wynik egzaminu (F = 25.96, p < 0.001).

Wpływ korepetycji na wynik egzaminu

Większa liczba sesji korepetycji wpływa pozytywnie na wyniki egzaminacyjne, choć efekt jest nieco słabszy.

Tabela statystyk opisowych dla liczby sesji korepetycji
Sesje korepetycji Średnia Q1 Mediana Q3 Odchylenie_std Min Max N
0 66.56 64.00 66 69 3.88 56 98 1513
1 67.01 65.00 67 69 3.78 57 99 2179
2 67.51 65.00 67 70 3.76 58 98 1649
3 67.89 66.00 68 70 3.63 58 100 836
4 67.95 66.00 68 70 3.67 59 99 301
5 68.79 66.00 69 71 3.74 60 78 103
6 71.28 67.25 72 74 4.20 64 78 18
7 69.86 68.00 71 72 4.10 63 75 7
8 69.00 69.00 69 69 NA 69 69 1

Analiza wyników pokazuje, że średni wynik egzaminu rośnie wraz z liczbą sesji korepetycji, od 66,55 przy braku korepetycji do 71,44 przy 6 sesjach, choć efekt nie jest bardzo silny (1–3 punkty różnicy). Najwyższa średnia występuje przy 6 sesjach, ale grupa ta jest bardzo mała (N=18), co może zaburzać reprezentatywność wyników. Mediana wyników wykazuje podobny trend wzrostowy, co potwierdza pozytywny wpływ korepetycji na wyniki egzaminu.

Rozproszenie wyników pozostaje stabilne (odchylenie standardowe ~3,6–4,1), przy czym najmniejsza zmienność występuje przy 5 sesjach (3,62), a największa przy 6 sesjach (4,12), co sugeruje, że wpływ korepetycji może być różny dla poszczególnych uczniów. Minimalne wyniki (56–59) są podobne we wszystkich grupach, co oznacza, że nawet liczne korepetycje nie gwarantują wysokich ocen. Najwyższe wyniki (100 punktów) pojawiają się przy 3 sesjach, natomiast przy 6 sesjach maksymalny wynik to 78 punktów, co może sugerować, że korepetycje pomagają uzyskać stabilne, ale niekoniecznie najwyższe wyniki.

Najwięcej uczniów korzystało z 1–2 sesji korepetycji (N = 2179 i 1649), co wskazuje, że umiarkowana liczba korepetycji jest najczęściej wybierana. Grupy z większą liczbą sesji (6–8) są znacznie mniejsze (poniżej 20 uczniów), co sprawia, że ich wyniki mogą nie być w pełni miarodajne.

Tabela ANOVA: Wpływ liczby sesji korepetycji na wynik egzaminu
Źródło Sumy kw. Stopnie sw. F p-wartość
Sesje korepetycji 1 1897.179 1897.17912 133.1 0
Residuals 6605 94146.273 14.25379 NA NA

1.5 Wnioskowanie statystyczne

1.5.1 Analiza rozkładu wyników egzaminu

Histogram przedstawia rozkład wyników egzaminacyjnych i ukazuje sposób, w jaki rozkładają się wyniki wśród 6 607 obserwacji. Już na pierwszy rzut oka widać, że rozkład ten jest zbliżony do rozkładu normalnego, jednak można zauważyć pewne odchylenia. Średnia wartość wyniku egzaminacyjnego wynosi 67,21, co oznacza, że większość uczniów uzyskała wynik w okolicach tej wartości. Dodatkowo na wykresie zaznaczono przerywaną linią średnią arytmetyczną, co pozwala łatwo zidentyfikować, wokół jakiej wartości koncentrują się wyniki.

Chociaż rozkład na pierwszy rzut oka przypomina rozkład normalny, występuje pewna prawostronna skośność, co sugeruje, że większa liczba uczniów uzyskała wyniki poniżej średniej, a w kierunku wyższych wartości pojawia się wydłużony „ogon”. Oznacza to, że istnieje grupa uczniów osiągających znacznie lepsze wyniki, co może świadczyć o istnieniu elitarnych jednostek lub wpływie dodatkowych czynników, takich jak dostęp do korepetycji, zasoby edukacyjne czy indywidualne predyspozycje.

Test t-Studenta (t(6606)=1410.70,p=0.00t(6606)=1410.70,p=0.00) wskazuje, że średni wynik egzaminacyjny jest statystycznie istotnie różny od zera. Wartość p = 0.00 sugeruje, że prawdopodobieństwo przypadkowego uzyskania takiego wyniku jest bliskie zeru, co oznacza, że istnieją rzeczywiste czynniki wpływające na rozkład wyników. Co więcej, przedział ufności 95% dla oszacowanej wartości średniej wynosi [17,06; 17,65], co oznacza, że średni wynik egzaminacyjny w populacji można oszacować z dużą precyzją i nie jest on efektem losowych fluktuacji.

1.5.2 Analiza wyników egzaminacyjnych według godzin nauki

Wyniki analizy wykazały istotną statystycznie różnicę pomiędzy grupami (F(2, 3249.47) = 377.39, p < 0.001), co oznacza, że liczba godzin nauki wpływa na osiągane wyniki egzaminacyjne.

Dodatkowe testy post-hoc (Games-Howell) wykazały, że różnice między wszystkimi grupami są statystycznie istotne (p < 0.05). Oznacza to, że każda z grup różni się od pozostałych pod względem wyników egzaminacyjnych.

Analiza wykazała, że liczba godzin nauki ma istotny wpływ na wyniki egzaminacyjne, ale nie jest jedynym czynnikiem determinującym sukces.

1.5.3 Zależność wyniku egzaminu od frekwencji

Przeprowadzona analiza wykazała istotną statystycznie, umiarkowaną dodatnią korelację między frekwencją a wynikiem egzaminu (r = 0.54, p < 0.001). Oznacza to, że studenci, którzy częściej uczęszczali na zajęcia, uzyskiwali wyższe wyniki egzaminacyjne.

Dodatkowo, przedział ufności dla współczynnika korelacji wynosi 95% CI [0.53, 0.56], co potwierdza stabilność oszacowanego efektu. Test t Studenta przeprowadzony w celu weryfikacji istotności związku dał wynik t(6605) = 52.75, p < 0.001, co wskazuje na silne dowody przeciwko hipotezie zerowej (braku zależności).

Wykres rozrzutu przedstawia indywidualne obserwacje, gdzie każda kropka reprezentuje wynik pojedynczego studenta. Niebieska linia regresji pokazuje ogólną tendencję – wraz ze wzrostem frekwencji rosną również wyniki egzaminacyjne.

Dodatkowo histogramy umieszczone na osiach wykresu prezentują rozkład zmiennych:

  • Histogram powyżej wykresu pokazuje, że większość studentów miała wysoką frekwencję (80–100%).
  • Histogram po prawej stronie wskazuje, że większość wyników egzaminacyjnych mieści się w przedziale 60–80 punktów.

1.6 Podsumowanie projektu

Przeprowadzona analiza wyników egzaminacyjnych dostarczyła cennych informacji na temat czynników wpływających na sukces edukacyjny uczniów. Skoncentrowano się na sześciu kluczowych zmiennych, które w sposób istotny wpływają na wyniki: frekwencji, liczbie godzin nauki, liczbie sesji korepetycji, dostępie do zasobów edukacyjnych, zaangażowaniu rodziców oraz dochodzie rodziny.

Najważniejszymi czynnikami pozytywnie wpływającymi na wyniki egzaminów okazały się frekwencja i liczba godzin nauki. Regularne uczęszczanie na zajęcia oraz poświęcanie czasu na naukę stanowiły fundamenty wysokich osiągnięć. Również sesje korepetycji w znacznym stopniu wspierały wyniki uczniów, co sugeruje, że dodatkowe wsparcie edukacyjne może odgrywać kluczową rolę w wyrównywaniu braków w wiedzy.

Zidentyfikowano również istotne bariery w edukacji. Ograniczony dostęp do zasobów edukacyjnych, niski dochód rodziny oraz niskie zaangażowanie rodziców wiązały się z gorszymi wynikami egzaminacyjnymi. Czynniki te są szczególnie ważne w kontekście planowania polityk edukacyjnych i programów wsparcia.

Dodatkowo analiza Post-Hoc wykazała, że różnice między grupami są istotne statystycznie, co sugeruje, że każdy z czynników ma wpływ na wyniki egzaminacyjne. Warto zauważyć, że wpływ poszczególnych czynników może być różny w zależności od kontekstu i indywidualnych predyspozycji uczniów. Na postawi eannalizy można stwierdzić, że próba jest reprezentatywna dla populacji uczniów, co pozwala na generalizację wyników na szerszą skalę.

1.6.1 Znaczenie analizy wyników egzaminacyjnych

Zrozumienie czynników wpływających na wyniki egzaminacyjne jest kluczowe z kilku powodów:

  1. Optymalizacja strategii nauczania Wyniki analizy mogą być wykorzystane przez nauczycieli i decydentów edukacyjnych do dostosowania metod nauczania do indywidualnych potrzeb uczniów. Na przykład wsparcie uczniów z ograniczonym dostępem do zasobów edukacyjnych może obejmować udostępnienie technologii i materiałów dydaktycznych.

  2. Wsparcie dla uczniów w trudnej sytuacji Identyfikacja kluczowych czynników, takich jak niski dochód rodziny czy brak zaangażowania rodziców, pozwala na wdrożenie programów wsparcia skierowanych do najbardziej potrzebujących uczniów. Działania takie mogą obejmować dodatkowe korepetycje, stypendia edukacyjne czy szkolenia dla rodziców.

  3. Poprawa efektywności edukacji Lepsze zrozumienie procesów nauczania i czynników wpływających na wyniki pozwala na skuteczniejsze zarządzanie systemem edukacyjnym. Analiza wyników może służyć jako podstawa do projektowania polityk edukacyjnych, które koncentrują się na najważniejszych obszarach wymagających poprawy.

Rekomendujemy dalsze inwestycje w programy wspierające uczniów z trudnymi warunkami socjoekonomicznymi oraz promowanie aktywnego zaangażowania rodziców w proces edukacji. Wyniki naszej analizy podkreślają potrzebę holistycznego podejścia do edukacji, które uwzględnia różnorodne czynniki wpływające na sukces uczniów. Tylko poprzez odpowiednie wsparcie możemy zapewnić równe szanse wszystkim uczniom i poprawić jakość edukacji jako całości.