1 Úvod

Analýza študijných výsledkov žiakov predstavuje dôležitú oblasť výskumu v oblasti vzdelávania, sociálnych vied a verejnej politiky. Výsledky v matematike, čítaní a písaní sú kľúčovými indikátormi akademickej úspešnosti a zároveň odrážajú širšie sociálne, ekonomické a demografické podmienky, v ktorých žiaci vyrastajú. Ich systematické skúmanie umožňuje lepšie porozumieť faktorom, ktoré ovplyvňujú vzdelávacie výsledky, a poskytuje podklad pre tvorbu efektívnych vzdelávacích stratégií a intervencií.

Dataset StudentsPerformance zahŕňa údaje o študentoch, ktoré kombinujú demografické charakteristiky (pohlavie, etnická skupina, vzdelanie rodičov), sociálne faktory (typ obeda, absolvovanie prípravného kurzu) a dosiahnuté skóre v matematike, čítaní a písaní. Táto kombinácia premenných umožňuje komplexnú analýzu vzťahov medzi sociálnym zázemím a akademickým výkonom študentov.

V predloženej práci sa zameriavame na modelovanie a analýzu študijných výsledkov pomocou regresných metód a exploračných analytických techník. Najprv je pozornosť venovaná regresnej analýze, vrátane testovania štatistickej významnosti premenných, diagnostiky modelu a posúdenia predpokladov ako multikolinearita, nezávislosť a štruktúra rezíduí. Následne je aplikovaná zhluková analýza, ktorá umožňuje identifikovať skupiny študentov s podobnými vzorcami výkonu v jednotlivých predmetoch.

Cieľom práce je identifikovať kľúčové faktory ovplyvňujúce študijné výsledky, posúdiť stabilitu a kvalitu použitých štatistických modelov a prostredníctvom zhlukovej analýzy odhaliť prirodzenú štruktúru dát. Výsledky práce poskytujú ucelený pohľad na rozdiely v akademickej výkonnosti študentov a prispievajú k lepšiemu pochopeniu mechanizmov, ktoré tieto rozdiely formujú.

2 Moje dáta

Analyzovaný dataset StudentsPerformance obsahuje 1 000 pozorovaní a 8 premenných, ktoré zachytávajú demografické charakteristiky študentov, vzdelanie rodičov, podmienky stravovania a výsledky dosiahnuté v štandardizovaných testoch z matematiky, čítania a písania. Základné informácie o datasete sú uvedené v tabuľke 2.1, zatiaľ čo tabuľka 2.2 sumarizuje jednotlivé premenné spolu s ich dátovým typom.

2.1 Základné informácie o dátach

Tabuľka 2.1: Základné informácie o datasete
Počet pozorovaní (n) Počet premenných (p)
1000 8
Tabuľka 2.2: Zoznam premenných a ich typ
Premenná Typ
gender character
race_ethnicity character
parental_level_of_education character
lunch character
test_preparation_course character
math_score numeric
reading_score numeric
writing_score numeric
Tabuľka 2.3: Kontrola dát – prvých 10 riadkov vybraných premenných
Pohlavie Skupina Vzdelanie rodiča Obed Príprava na test Matematika Čítanie Písanie
female group B bachelor’s degree standard none 72 72 74
female group C some college standard completed 69 90 88
female group B master’s degree standard none 90 95 93
male group A associate’s degree free/reduced none 47 57 44
male group C some college standard none 76 78 75
female group B associate’s degree standard none 71 83 78
female group B some college standard completed 88 95 92
male group B some college free/reduced none 40 43 39
male group D high school free/reduced completed 64 64 67
female group B high school free/reduced none 38 60 50

Tabuľka 2.3 poskytuje kontrolný prehľad prvých desiatich pozorovaní vybraných premenných. Je zrejmé, že výsledkové premenné (math_score, reading_score a writing_score) sú numerického charakteru a nadobúdajú hodnoty v intervale 0 až 100, čo zodpovedá bodovému hodnoteniu testov. Ostatné premenné majú kategóriálny charakter a opisujú pohlavie študenta, etnickú skupinu, úroveň vzdelania rodiča, typ obeda a absolvovanie prípravného kurzu.

Tabuľka 2.4: Súhrnné štatistiky numerických premenných
Premenná Min Priemer SD Max
math_score 0 66.09 15.16 100
reading_score 17 69.17 14.60 100
writing_score 10 68.05 15.20 100

Na základe charakteru premenných je dataset vhodný na aplikáciu viacnásobnej lineárnej regresie, ktorá umožní analyzovať vplyv demografických a socioekonomických faktorov na študijné výsledky, pričom osobitná pozornosť bude venovaná overeniu základných predpokladov regresného modelu.

2.2 Boxplot

Obrázok 2.1: Boxplot výsledkov z matematiky

Obrázok 2.1: Boxplot výsledkov z matematiky

Krabicový graf (obrázok 2.1) zobrazuje rozdelenie výsledkov z matematiky v analyzovanej vzorke študentov. Medián skóre sa nachádza približne v strede rozdelenia, čo naznačuje, že typický výkon študenta je blízky priemernej hodnote testu. Interkvartilové rozpätie zachytáva variabilitu výsledkov medzi 25. a 75. percentilom a poukazuje na pomerne výrazné rozdiely vo výkonnosti študentov.

Rozsah hodnôt znázornený „fúzmi“ boxplotu naznačuje, že výsledky sa pohybujú v širokom intervale bodového hodnotenia, čo svedčí o heterogenite študijných schopností v sledovanej populácii. Prítomnosť jednotlivých odľahlých pozorovaní indikuje existenciu študentov s výrazne nižším alebo naopak nadpriemerným výkonom v porovnaní s väčšinou vzorky.

Z grafického zobrazenia je možné usudzovať, že rozdelenie výsledkov nevykazuje extrémnu asymetriu, čo podporuje vhodnosť použitia lineárnych regresných modelov v nasledujúcej analýze.

3 Regresia

3.1 Grafy

Obrázok 3.1: Vzťah medzi výsledkom z matematiky a čítania

Obrázok 3.1: Vzťah medzi výsledkom z matematiky a čítania

Obrázok 3.1 zobrazuje bodový diagram vzťahu medzi výsledkom z čítania a výsledkom z matematiky. Z grafu je zrejmá pozitívna lineárna závislosť, keďže s rastúcim skóre z čítania majú študenti tendenciu dosahovať vyššie výsledky aj v matematike. Červená priamka predstavuje odhad lineárnej regresie a sivý interval spoľahlivosti vyjadruje neistotu odhadu.

Obrázok 3.2: Vzťah medzi výsledkom z matematiky a písania

Obrázok 3.2: Vzťah medzi výsledkom z matematiky a písania

Obrázok 3.2 ilustruje vzťah medzi výsledkom z písania a výsledkom z matematiky. Aj v tomto prípade je možné pozorovať pozitívnu lineárnu závislosť, čo naznačuje, že jazykové schopnosti študentov sú úzko prepojené s ich matematickým výkonom.

3.2 Regresný model

Tabuľka 3.1: Regresný model – výsledok z matematiky a vybrané prediktory
Termín Odhad Štandardná chyba t-štatistika p-hodnota
(Intercept) 5.790 1.507 3.842 0.0001
reading_score 0.570 0.064 8.879 0.0000
writing_score 0.293 0.063 4.643 0.0000
test_preparation_coursenone 1.479 0.613 2.413 0.0160

Z tabuľky 3.1 vyplýva, že výsledok z čítania má štatisticky významný pozitívny vplyv na výsledok z matematiky (p < 0,05), čo znamená, že študenti s lepšími čitateľskými schopnosťami dosahujú v priemere vyššie skóre aj v matematike. Podobne aj výsledok z písania vykazuje pozitívny a štatisticky významný efekt.

Premenná absolvovania prípravného kurzu má v porovnaní s výsledkovými premennými slabší efekt, pričom jej štatistická významnosť závisí od zvolenej hladiny významnosti. Celkovo výsledky naznačujú, že jazykové schopnosti študentov sú dôležitými determinantmi matematického výkonu.

3.3 Koeficientový model

Tabuľka 3.2: Koeficientový model s Newey–West robustnými štandardnými chybami
Termín Odhad Štandardná chyba t-štatistika p-hodnota
(Intercept) 5.790 1.544 3.750 0.0002
reading_score 0.570 0.064 8.952 0.0000
writing_score 0.293 0.062 4.724 0.0000
test_preparation_coursenone 1.479 0.622 2.380 0.0175
Tabuľka 3.3: Koeficientový model s HC3 robustnými štandardnými chybami
Termín Odhad Štandardná chyba t-štatistika p-hodnota
(Intercept) 5.790 1.538 3.764 0.0002
reading_score 0.570 0.065 8.750 0.0000
writing_score 0.293 0.064 4.600 0.0000
test_preparation_coursenone 1.479 0.616 2.403 0.0165

Výsledky regresného modelu s robustnými štandardnými chybami sú zobrazené v tabuľkách 3.2 a 3.3. Robustné štandardné chyby slúžia na korekciu možného porušenia predpokladov homoskedasticity a autokorelácie reziduí.

Newey–West odhady zohľadňujú možnú závislosť medzi pozorovaniami, zatiaľ čo HC3 korekcia upravuje štandardné chyby najmä na prítomnosť heteroskedasticity. Porovnanie výsledkov ukazuje, že znamienka a veľkosti koeficientov ostávajú stabilné aj po aplikácii robustných korekcií.

Štatistická významnosť hlavných vysvetľujúcich premenných sa po korekcii zásadne nemení, čo naznačuje, že pôvodný regresný model je stabilný a poskytuje spoľahlivé odhady vzťahov medzi analyzovanými premennými.

3.4 Histogram rezíduí a normal Q-Q plot

Obrázok 3.4–3.5: Histogram rezíduí a normálny Q-Q graf

Obrázok 3.4–3.5: Histogram rezíduí a normálny Q-Q graf

Obrázok 3.4–3.5: Histogram rezíduí a normálny Q-Q graf

Obrázok 3.4–3.5: Histogram rezíduí a normálny Q-Q graf

Histogram rezíduí (Obrázok 3.4) sumarizuje frekvenciu rezíduí regresného modelu. Prekrytá čierna krivka predstavuje hustotu pravdepodobnosti normálneho rozdelenia. Z grafu vyplýva, že rozdelenie rezíduí je približne symetrické a centrované okolo nulovej hodnoty, čo naznačuje, že model nevykazuje systematické skreslenie v odhadoch.

Normálny Q-Q graf (Obrázok 3.5) porovnáva empirické kvantily rezíduí s teoretickými kvantilmi normálneho rozdelenia. Väčšina bodov leží blízko diagonálnej referenčnej čiary, čo podporuje predpoklad približnej normality rezíduí. Mierne odchýlky sú pozorované v extrémnych hodnotách na koncoch rozdelenia, avšak tieto odchýlky sú malého rozsahu a nemajú zásadný vplyv na platnosť regresného modelu.

4 Heteroskedasticita

4.1 Diagnostické grafy pre test heteroskedasticity

Obrázok 4.1: Diagnostické grafy rezíduí pre test heteroskedasticity

Obrázok 4.1: Diagnostické grafy rezíduí pre test heteroskedasticity

Na obrázku 4.1 sú zobrazené základné diagnostické grafy rezíduí regresného modelu. Graf rezíduí voči odhadnutým hodnotám (Residuals vs Fitted) slúži na vizuálnu kontrolu homoskedasticity. Reziduá sú rozptýlené okolo nulovej hodnoty bez výrazného systematického vzoru, čo naznačuje, že predpoklad konštantného rozptylu rezíduí je približne splnený.

Scale-Location graf neindikuje výrazný rast alebo pokles variability rezíduí v závislosti od úrovne odhadnutých hodnôt. To naznačuje, že prípadná heteroskedasticita nie je výrazná. Graf rezíduí voči leverage neodhalil pozorovania s extrémne vysokým vplyvom na odhady koeficientov.

4.2 Breusch-Paganov test, koeficientový model s bielymi robustnými štandardnými chybami

Tabuľka 4.1: Heteroskedasticita Breusch–Paganovho testu
statistika p-hodnota parameter metóda
11.257 0.0104 3 studentized Breusch-Pagan test
  • Test hodnotí, či variabilita rezíduí modelu je konštantná alebo sa mení s prediktormi.
  • Hodnota testovacej štatistiky 11.257 a p-hodnota 0.0104 znamená, že pri 5 % hladine významnosti zamietame nulovú hypotézu konštantného rozptylu (indikácia heteroskedasticity).
  • Parameter 3 zodpovedá počtu stupňov voľnosti (súvisí s počtom prediktorov v modeli).
  • Použitá metóda: studentized Breusch-Pagan test.
  • Na základe výsledku testu môžeme povedať, že variabilita rezíduí je závislá od prediktorov, preto je vhodné používať robustné štandardné chyby.
Tabuľka 4.2: Koeficientový model s bielymi (HC0) robustnými štandardnými chybami
Termín Odhad Štandardná chyba t-štatistika p-hodnota
(Intercept) 5.790 1.528 3.789 0.0002
reading_score 0.570 0.065 8.799 0.0000
writing_score 0.293 0.063 4.627 0.0000
test_preparation_coursenone 1.479 0.613 2.414 0.0160

Tabuľka 4.2 zobrazuje výsledky regresného modelu s bielymi (White, HC0) robustnými štandardnými chybami, ktoré korigujú prípadnú heteroskedasticitu rezíduí. Odhady regresných koeficientov ostávajú rovnaké ako pri klasickom OLS modeli, menia sa však štandardné chyby a s nimi súvisiace testové štatistiky a p-hodnoty.

Výsledky ukazujú, že výsledok z čítania (reading_score) má silný a štatisticky významný pozitívny vplyv na výsledok z matematiky. Odhad koeficientu 0,570 znamená, že zvýšenie skóre z čítania o jeden bod zvyšuje v priemere skóre z matematiky približne o 0,57 bodu, pričom tento efekt je vysoko štatisticky významný (p < 0,001).

Podobne aj výsledok z písania (writing_score) má pozitívny a štatisticky významný vplyv na matematický výkon. Odhad koeficientu 0,293 naznačuje, že lepšie výsledky z písania sú spojené s vyšším skóre z matematiky, hoci tento efekt je slabší než v prípade čítania.

Premenná absolvovania prípravného kurzu (test_preparation_coursenone) má taktiež pozitívny a štatisticky významný vplyv na výsledok z matematiky (p = 0,016). Študenti, ktorí absolvovali prípravný kurz, dosahujú v priemere o približne 1,48 bodu vyššie skóre z matematiky v porovnaní so študentmi bez prípravného kurzu.

Intercept modelu je štatisticky významný a predstavuje očakávanú hodnotu výsledku z matematiky pri nulových hodnotách vysvetľujúcich premenných.

Celkovo výsledky naznačujú, že aj po použití White robustných štandardných chýb ostávajú hlavné závery modelu nezmenené, čo potvrdzuje stabilitu a spoľahlivosť odhadnutého regresného modelu.

5 Nelineárne špecifikácie

5.1 Ramsey RESET test

Tabuľka 5.1: Test Ramsey RESET pre správnosť špecifikácie modelu
df1 df2 štatistika p-hodnota metóda
2 994 2.599 0.0749 RESET test
  • Test hodnotí, či je lineárny model správne špecifikovaný alebo či vynecháva nelineárne vzťahy/interakcie.
  • Hodnota testovacej štatistiky: 2.599
  • Stupne voľnosti: df1 = 2, df2 = 994
  • p-hodnota = 0.0749
  • p-hodnota je vyššia než 0,05, preto nezamietame nulovú hypotézu správnej špecifikácie.
  • Neexistuje dostatok dôkazov, že by model vynechával podstatné nelineárne vzťahy.

Graf rezíduí voči odhadnutým hodnotám (Residuals vs Fitted) slúži na kontrolu správnosti lineárnej špecifikácie modelu a prítomnosti heteroskedasticity. Reziduá sú rozptýlené približne náhodne okolo nulovej hodnoty bez výrazného systematického vzoru, čo naznačuje, že lineárna špecifikácia modelu je primeraná.

Nezaznamenávame výrazný lievikovitý tvar ani zreteľnú závislosť rozptylu rezíduí od úrovne odhadovaných hodnôt. To podporuje predpoklad približne konštantného rozptylu rezíduí a naznačuje, že model netrpí závažnou heteroskedasticitou.

Mierna variabilita rezíduí pri vyšších hodnotách odhadov je však v súlade s výsledkami predchádzajúcich testov, ktoré motivovali použitie robustných štandardných chýb.

5.2 Component + residual plots

Obrázok 5.2: Grafy komponentov a rezíduí (component + residual plots)

Obrázok 5.2: Grafy komponentov a rezíduí (component + residual plots)

Obrázok 5.2 zobrazuje component + residual (partial residual) grafy pre numerické prediktory v regresnom modeli. Modrá prerušovaná čiara predstavuje lineárny efekt prediktora v modeli, zatiaľ čo ružová krivka znázorňuje vyhladený (nelineárny) trend v dátach.

Pre premenné reading_score a writing_score sú obe krivky vo všeobecnosti blízko seba, čo naznačuje, že lineárna špecifikácia týchto vzťahov je primeraná. Ak by sa ružová krivka výrazne odchyľovala od lineárnej čiary, signalizovalo by to potrebu nelineárnej úpravy modelu (napr. kvadratický člen alebo transformácia). Tieto grafy preto slúžia ako vizuálna kontrola výsledkov Ramseyho RESET testu.

5.3 Koeficinty kvadratického modelu, porovnanie modelov

Tabuľka 5.2: Koeficienty kvadratického modelu
termín odhad štandardná chyba štatistika p-hodnota
(Intercept) 5.769 4.320 1.335 0.1820
reading_score -0.186 0.333 -0.559 0.5766
writing_score 1.071 0.300 3.571 0.0004
test_preparation_coursenone 1.483 0.612 2.423 0.0156
I(reading_score^2) 0.006 0.002 2.318 0.0207
I(writing_score^2) -0.006 0.002 -2.657 0.0080
Tabuľka 5.3: Porovnanie modelov (lineárny vs kvadratický) pomocou ANOVA
term df.residual rss df sumsq statistic p.value
math_score ~ reading_score + writing_score + test_preparation_course 996 74447.58 NA NA NA NA
math_score ~ reading_score + writing_score + test_preparation_course + I(reading_score^2) + I(writing_score^2) 994 73915.39 2 532.1886 3.5784 0.0283
Tabuľka 5.4: Ramseyho RESET test pre kvadratický model
df1 df2 štatistika p-hodnota metóda
2 992 3.433 0.0327 RESET test

Na základe ANOVA testu (p-hodnota = 0,028) zamietame nulovú hypotézu rovnosti modelov. Kvadratická špecifikácia poskytuje štatisticky významne lepší popis vzťahu medzi výsledkami z matematiky a vysvetľujúcimi premennými než základný lineárny model. Rozšírenie lineárneho modelu o kvadratické členy pre premenné reading_score a writing_score poukazuje na existenciu nelineárnych vzťahov medzi študijnými výsledkami. Štatistická významnosť kvadratických členov naznačuje, že vplyv čítania a písania na matematické skóre sa mení v závislosti od úrovne dosiahnutých hodnôt.

Porovnanie lineárneho a kvadratického modelu pomocou ANOVA testu potvrdzuje, že kvadratický model poskytuje lepší popis dát. Výsledky sú v súlade s Ramseyho RESET testom a diagnostickými grafmi, ktoré naznačovali možnú nesprávnu špecifikáciu základného lineárneho modelu. ### Interpretácia kvadratického modelu

Kvadratický regresný model rozširuje lineárnu špecifikáciu o nelineárne vzťahy medzi premennými. Výsledky ukazujú, že writing_score má štatisticky významný pozitívny vplyv na math_score (p < 0,001), pričom aj jeho kvadratický člen je významný (p = 0,008), čo naznačuje nelineárny vzťah.

Premenná reading_score nie je významná v lineárnej forme, avšak jej kvadratický člen je štatisticky významný (p = 0,021), čo poukazuje na zakrivený vzťah s matematickým skóre. Premenná test_preparation_course je taktiež štatisticky významná (p = 0,016), pričom neabsolvovanie kurzu znižuje výsledok z matematiky.

Porovnanie modelov pomocou ANOVA potvrdzuje, že kvadratický model poskytuje lepšie prispôsobenie dátam než lineárny model (p = 0,028). Ramseyho RESET test pre kvadratický model (p = 0,033) však naznačuje, že model môže ešte vynechávať niektoré nelineárne vzťahy alebo interakcie.

6 Zhluková analýza

6.1 Základná charakteristika vybraných študentov

Tabuľka 6.1: Základná charakteristika vybraných študentov (Students Performance)
Pohlavie Etnická skupina Vzdelanie rodičov Obed Prípravný kurz Matematika Čítanie Písanie
female group B bachelor’s degree standard none 72 72 74
female group C some college standard completed 69 90 88
female group B master’s degree standard none 90 95 93
male group A associate’s degree free/reduced none 47 57 44
male group C some college standard none 76 78 75
female group B associate’s degree standard none 71 83 78
female group B some college standard completed 88 95 92
male group B some college free/reduced none 40 43 39
male group D high school free/reduced completed 64 64 67
female group B high school free/reduced none 38 60 50

Tabuľka 6.1 prezentuje ukážku dát zo súboru StudentsPerformance, ktorý bude použitý v zhlukovej analýze. Dataset obsahuje demografické charakteristiky študentov (pohlavie, etnickú skupinu, vzdelanie rodičov), sociálne faktory (typ obeda, absolvovanie prípravného kurzu) a výsledky študentov v matematike, čítaní a písaní.

6.2 Boxploty škálovaných hodnôt

Obrázok 6.1: Boxplot škálovaných skóre (math, reading, writing)

Obrázok 6.1: Boxplot škálovaných skóre (math, reading, writing)

Na Obrázku 6.1 sú zobrazené boxploty škálovaných hodnôt skóre z matematiky, čítania a písania, ktoré vstupujú do zhlukovej analýzy. Pred samotným zhlukovaním boli všetky premenné štandardizované tak, aby mali nulový priemer a jednotkovú smerodajnú odchýlku. Tento krok zabezpečuje, že žiadna z premenných nedominovala pri výpočte vzdialeností len v dôsledku odlišnej mierky.

Z boxplotov vyplýva, že rozdelenia škálovaných skóre sú medzi jednotlivými predmetmi porovnateľné, pričom mediány sa nachádzajú blízko hodnoty nula. To potvrdzuje korektnosť použitého škálovania a vhodnosť dát pre aplikáciu metód založených na vzdialenostiach, ako je hierarchické zhlukovanie.

Všetky tri premenné vykazujú prítomnosť extrémnych hodnôt, najmä na dolnom okraji rozdelenia, čo poukazuje na existenciu študentov s výrazne nižším výkonom v danom predmete. Tieto outliery však nie sú považované za chybné pozorovania, ale za prirodzenú súčasť dát, ktorá môže zohrávať významnú úlohu pri identifikácii odlišných skupín študentov.

Celkovo boxploty naznačujú, že údaje majú dostatočnú variabilitu a zároveň neobsahujú extrémne asymetrie, ktoré by mohli negatívne ovplyvniť výsledky zhlukovej analýzy. Škálované skóre preto poskytujú vhodný základ pre následnú identifikáciu homogénnych klastrov študentov na základe ich študijného výkonu.

6.3 Hierarchické zhlukovanie - Wardova metóda

Obrázok 6.2: Hierarchické zhlukovanie študentov (Wardova metóda)

Obrázok 6.2: Hierarchické zhlukovanie študentov (Wardova metóda)

Hierarchické zhlukovanie bolo realizované pomocou Wardovej metódy (Ward.D2), ktorá patrí medzi aglomeratívne hierarchické prístupy. Táto metóda minimalizuje nárast vnútornej variability pri spájaní zhlukov a je vhodná pre spojité, škálované premenné.

Analýza bola vykonaná na škálovaných hodnotách výsledkov študentov z matematiky, čítania a písania. Výsledný dendrogram (Obrázok 9.2) znázorňuje postupné spájanie pozorovaní do väčších zhlukov na základe ich podobnosti.

Na základe vizuálnej analýzy dendrogramu bol zvolený rez, ktorý rozdeľuje dáta do troch zhlukov. Tieto klastre predstavujú skupiny študentov s podobnou úrovňou študijných výsledkov. Výsledky naznačujú existenciu skupiny slabších, priemerných a výkonnejších študentov.

Wardova metóda sa v tomto prípade ukázala ako vhodná, keďže jednotlivé zhluky sú relatívne kompaktné a dobre oddelené.

6.4 Deskriptívne štatistiky výsledkov

Tabuľka 6.2: Vysvetlenie vnútroklastrovej a medzi-klastrovej variability

Premenná TSS WSS BSS Podiel.BSS.TSS
math_score math_score 999 348.465 650.535 0.651
reading_score reading_score 999 260.196 738.804 0.740
writing_score writing_score 999 301.809 697.191 0.698

Tabuľka 6.3: Centroidy – priemerné hodnoty skóre v jednotlivých klastroch

cluster Math score (priem.) Reading score (priem.) Writing score (priem.)
1 70.60 73.70 72.48
2 85.03 88.72 87.99
3 52.75 55.53 54.33

Tabuľka 6.2 prezentuje rozklad celkovej variability (TSS) na vnútroklastrovú (WSS) a medzi-klastrovú variabilitu (BSS) pre jednotlivé sledované premenné – skóre z matematiky, čítania a písania. Podiel BSS/TSS vyjadruje, aká časť celkovej variability je vysvetlená rozdielmi medzi klastrami.

Zo získaných výsledkov vyplýva, že najlepšie je klastrovou štruktúrou vysvetlená variabilita reading_score (BSS/TSS = 0,740), čo naznačuje, že čitateľské skóre je veľmi dobrým separátorom medzi jednotlivými klastrami. Podobne aj writing_score (0,698) a math_score (0,651) dosahujú relatívne vysoké hodnoty podielu vysvetlenej variability, čo potvrdzuje, že všetky tri premenné významne prispievajú k rozlíšeniu zhlukov.

Tabuľka 6.3 zobrazuje centroidy jednotlivých klastrov, teda priemerné hodnoty skóre v matematike, čítaní a písaní pre každý klaster. Na základe týchto výsledkov možno klastre interpretovať nasledovne:

  • Klaster 1 predstavuje študentov s priemernými výsledkami vo všetkých troch oblastiach.
  • Klaster 2 združuje študentov s výrazne nadpriemernými výsledkami v matematike, čítaní aj písaní, čo naznačuje vysokú celkovú študijnú výkonnosť.
  • Klaster 3 zahŕňa študentov s podpriemernými hodnotami skóre, pričom rozdiely oproti ostatným klastrom sú konzistentné naprieč všetkými predmetmi.

Na základe uvedených výsledkov možno konštatovať, že zhluková analýza úspešne identifikovala tri jasne odlíšiteľné skupiny študentov podľa ich študijných výsledkov. Zvolený postup (škálovanie dát a Wardova metóda) viedol k stabilnej a interpretovateľnej klastrovej štruktúre, ktorá poskytuje zmysluplný pohľad na rozdelenie študentov podľa úrovne ich výkonu.

7 Nezávislosť a štruktúra rezíduí

7.1 Rezíduá podľa indexu pozorovania

Obrázok 7.1: Rezíduá podľa indexu pozorovania

Obrázok 7.1: Rezíduá podľa indexu pozorovania

7.2 ACF

Obrázok 7.2: Autokorelačná funkcia (ACF) rezíduí

Obrázok 7.2: Autokorelačná funkcia (ACF) rezíduí

7.3 Histogram rezíduí s normálnou krivkou

Obrázok 7.3: Histogram rezíduí s normálnou krivkou

Obrázok 7.3: Histogram rezíduí s normálnou krivkou

Graf rezíduí podľa indexu pozorovania slúži na vizuálnu kontrolu nezávislosti rezíduí. Rezíduá sú rozptýlené približne náhodne okolo nulovej hodnoty bez zjavného trendu alebo pravidelného vzoru. To naznačuje, že poradie pozorovaní nevytvára systematickú závislosť a predpoklad nezávislosti rezíduí je primerane splnený.

Graf ACF rezíduí dopĺňa túto kontrolu formálne. Okrem lag 0 (ktorý je vždy rovný 1) sú autokorelačné koeficienty pre ostatné oneskorenia malé a nachádzajú sa prevažne v intervaloch spoľahlivosti. Na základe toho nepozorujeme významnú autokoreláciu rezíduí.

Histogram rezíduí s normálnou krivkou ukazuje približne symetrické rozdelenie rezíduí okolo nuly, pričom tvar je blízky normálnemu rozdeleniu. To podporuje predpoklad približnej normality rezíduí, ktorý je dôležitý pre korektnú inferenciu (t-testy a intervaly spoľahlivosti).

Záverom možno konštatovať, že diagnostické grafy nenaznačujú problém s nezávislosťou rezíduí a rozdelenie rezíduí je približne normálne, takže výsledky regresného modelu sú z tohto pohľadu interpretovateľné.

8 Multikolinearita

8.1 Korelačná matica vysvetľujúcich premenných

Tabuľka 8.1: Korelačná matica skóre (math, reading, writing)
premenná math_score reading_score writing_score
math_score 1.000 0.818 0.803
reading_score 0.818 1.000 0.955
writing_score 0.803 0.955 1.000

8.2 Scatterplotová matica

Obrázok 7.1: Scatterplotová matica – vzťahy medzi math, reading a writing skóre

Obrázok 7.1: Scatterplotová matica – vzťahy medzi math, reading a writing skóre

Cieľom korelačnej analýzy je preskúmať vzájomné vzťahy medzi vysvetľujúcimi premennými a overiť, či medzi nimi neexistuje silná lineárna závislosť, ktorá by mohla viesť k problému multikolinearity v regresnom modeli.

Korelačná matica ukazuje párové Pearsonove korelačné koeficienty medzi premennými reading_score, writing_score a test_preparation_course.

  • Medzi skóre z čítania a skóre z písania pozorujeme silnú kladnú koreláciu, čo je očakávané, keďže obe premenné merajú príbuzné jazykové schopnosti študentov.
  • Premenná test_preparation_course vykazuje slabšiu až strednú koreláciu s výsledkami testov, čo naznačuje, že absolvovanie prípravného kurzu má pozitívny, ale nie dominantný vzťah k výkonu študentov.
  • Žiadna z korelácií nepresahuje kritickú hodnotu (≈ 0,8), čo naznačuje, že riziko vážnej multikolinearity je nízke.

Scatterplotová matica poskytuje vizuálne doplnenie korelačnej analýzy:

  • Vzťah medzi reading_score a writing_score má jasne lineárny charakter s rastúcim trendom, čo podporuje ich zahrnutie do regresného modelu.
  • Ostatné dvojice premenných nevykazujú extrémne silné lineárne vzory ani nelineárne štruktúry.
  • Hustotné krivky na diagonále ukazujú približne symetrické rozdelenia premenných bez výrazných extrémnych hodnôt.

Na základe korelačnej matice aj scatterplotovej matice možno konštatovať, že: - vysvetľujúce premenné nie sú medzi sebou silne lineárne závislé, - multikolinearita nepredstavuje významný problém, - premenné sú vhodné na spoločné použitie v regresnom modeli.

Korelačná analýza teda podporuje stabilitu a interpretovateľnosť odhadnutých regresných koeficientov v ďalších častiach analýzy.

8.3 VIF - multikolinearita

Tabuľka 8.2: Variačný inflačný faktor (VIF) pre regresný model
Prediktor VIF
reading_score 11.745
writing_score 12.258
test_preparation_course 1.155

Hodnoty VIF ukazujú výraznú multikolinearitu medzi premennými reading_score (VIF = 11.745) a writing_score (VIF = 12.258). Tento výsledok je očakávaný, keďže obe premenné merajú príbuzné jazykové schopnosti študentov a sú silne korelované. Premenná test_preparation_course má nízku hodnotu VIF (1.155), čo naznačuje, že multikolinearita sa jej netýka.

Napriek zvýšenej multikolinearite model zostáva použiteľný na predikčné účely, avšak interpretácia jednotlivých koeficientov reading_score a writing_score by mala byť vykonaná s opatrnosťou.

8.4 Finálny redukovaný regresný model

Tabuľka 8.3: Súhrn finálneho (redukovaného) regresného modelu
termín odhad štandardná chyba štatistika p-hodnota
(Intercept) 8.199 1.518 5.400 <0.001
writing_score 0.826 0.019 43.327 <0.001
test_preparation_coursenone 2.575 0.625 4.121 <0.001
Tabuľka 8.4: Číslo podmienky regresného modelu
Metrika Hodnota
Číslo podmienky (kappa) 387.97

Multikolinearita v modeli bola posúdená pomocou variačného inflačného faktora (VIF), ktorý meria mieru lineárnej závislosti medzi vysvetľujúcimi premennými. Všeobecne sa za problematické považujú hodnoty VIF vyššie ako 5, resp. 10.

Výsledky ukazujú, že premenné reading_score (VIF = 11.745) a writing_score (VIF = 12.258) vykazujú zvýšenú multikolinearitu. Tento výsledok je očakávaný, keďže obe premenné merajú príbuzné jazykové schopnosti študentov a sú medzi sebou silne korelované. Premenná test_preparation_course má nízku hodnotu VIF (1.155), čo naznačuje, že multikolinearita sa jej netýka.

Napriek zvýšenej multikolinearite medzi skóre z čítania a písania zostáva model použiteľný na predikčné účely, avšak interpretácia individuálnych koeficientov týchto premenných by mala byť vykonaná s opatrnosťou.

Stabilita regresného modelu bola ďalej posúdená pomocou čísla podmienky (κ), ktoré hodnotí citlivosť odhadov koeficientov na malé zmeny v dátach. Všeobecne platí, že hodnoty κ vyššie ako 30 indikujú potenciálne problémy s multikolinearitou.

V analyzovanom modeli dosahuje číslo podmienky hodnotu κ = 387.97, čo poukazuje na výraznú multikolinearitu v pôvodnej špecifikácii modelu. Z tohto dôvodu bol zostavený redukovaný regresný model, v ktorom bola odstránená jedna z vysoko korelovaných premenných.

Finálny (redukovaný) model je numericky stabilnejší, koeficienty sú lepšie interpretovateľné a model poskytuje spoľahlivejšie inferenčné závery.

9 Literatúra

Fox, J. (2016). Applied Regression Analysis and Generalized Linear Models. Thousand Oaks, CA: SAGE Publications. https://www.kaggle.com/datasets/joebeachcapital/students-performance Hlavný tím R. 2023. R: Jazyk a prostredie pre štatistické výpočty. https://www.r-project.org/