Analýza študijných výsledkov žiakov predstavuje dôležitú oblasť výskumu v oblasti vzdelávania, sociálnych vied a verejnej politiky. Výsledky v matematike, čítaní a písaní sú kľúčovými indikátormi akademickej úspešnosti a zároveň odrážajú širšie sociálne, ekonomické a demografické podmienky, v ktorých žiaci vyrastajú. Ich systematické skúmanie umožňuje lepšie porozumieť faktorom, ktoré ovplyvňujú vzdelávacie výsledky, a poskytuje podklad pre tvorbu efektívnych vzdelávacích stratégií a intervencií.
Dataset StudentsPerformance zahŕňa údaje o študentoch, ktoré kombinujú demografické charakteristiky (pohlavie, etnická skupina, vzdelanie rodičov), sociálne faktory (typ obeda, absolvovanie prípravného kurzu) a dosiahnuté skóre v matematike, čítaní a písaní. Táto kombinácia premenných umožňuje komplexnú analýzu vzťahov medzi sociálnym zázemím a akademickým výkonom študentov.
V predloženej práci sa zameriavame na modelovanie a analýzu študijných výsledkov pomocou regresných metód a exploračných analytických techník. Najprv je pozornosť venovaná regresnej analýze, vrátane testovania štatistickej významnosti premenných, diagnostiky modelu a posúdenia predpokladov ako multikolinearita, nezávislosť a štruktúra rezíduí. Následne je aplikovaná zhluková analýza, ktorá umožňuje identifikovať skupiny študentov s podobnými vzorcami výkonu v jednotlivých predmetoch.
Cieľom práce je identifikovať kľúčové faktory ovplyvňujúce študijné výsledky, posúdiť stabilitu a kvalitu použitých štatistických modelov a prostredníctvom zhlukovej analýzy odhaliť prirodzenú štruktúru dát. Výsledky práce poskytujú ucelený pohľad na rozdiely v akademickej výkonnosti študentov a prispievajú k lepšiemu pochopeniu mechanizmov, ktoré tieto rozdiely formujú.
Analyzovaný dataset StudentsPerformance obsahuje 1 000 pozorovaní a 8 premenných, ktoré zachytávajú demografické charakteristiky študentov, vzdelanie rodičov, podmienky stravovania a výsledky dosiahnuté v štandardizovaných testoch z matematiky, čítania a písania. Základné informácie o datasete sú uvedené v tabuľke 2.1, zatiaľ čo tabuľka 2.2 sumarizuje jednotlivé premenné spolu s ich dátovým typom.
| Počet pozorovaní (n) | Počet premenných (p) |
|---|---|
| 1000 | 8 |
| Premenná | Typ |
|---|---|
| gender | character |
| race_ethnicity | character |
| parental_level_of_education | character |
| lunch | character |
| test_preparation_course | character |
| math_score | numeric |
| reading_score | numeric |
| writing_score | numeric |
| Pohlavie | Skupina | Vzdelanie rodiča | Obed | Príprava na test | Matematika | Čítanie | Písanie |
|---|---|---|---|---|---|---|---|
| female | group B | bachelor’s degree | standard | none | 72 | 72 | 74 |
| female | group C | some college | standard | completed | 69 | 90 | 88 |
| female | group B | master’s degree | standard | none | 90 | 95 | 93 |
| male | group A | associate’s degree | free/reduced | none | 47 | 57 | 44 |
| male | group C | some college | standard | none | 76 | 78 | 75 |
| female | group B | associate’s degree | standard | none | 71 | 83 | 78 |
| female | group B | some college | standard | completed | 88 | 95 | 92 |
| male | group B | some college | free/reduced | none | 40 | 43 | 39 |
| male | group D | high school | free/reduced | completed | 64 | 64 | 67 |
| female | group B | high school | free/reduced | none | 38 | 60 | 50 |
Tabuľka 2.3 poskytuje kontrolný prehľad prvých desiatich pozorovaní vybraných premenných. Je zrejmé, že výsledkové premenné (math_score, reading_score a writing_score) sú numerického charakteru a nadobúdajú hodnoty v intervale 0 až 100, čo zodpovedá bodovému hodnoteniu testov. Ostatné premenné majú kategóriálny charakter a opisujú pohlavie študenta, etnickú skupinu, úroveň vzdelania rodiča, typ obeda a absolvovanie prípravného kurzu.
| Premenná | Min | Priemer | SD | Max |
|---|---|---|---|---|
| math_score | 0 | 66.09 | 15.16 | 100 |
| reading_score | 17 | 69.17 | 14.60 | 100 |
| writing_score | 10 | 68.05 | 15.20 | 100 |
Na základe charakteru premenných je dataset vhodný na aplikáciu viacnásobnej lineárnej regresie, ktorá umožní analyzovať vplyv demografických a socioekonomických faktorov na študijné výsledky, pričom osobitná pozornosť bude venovaná overeniu základných predpokladov regresného modelu.
Obrázok 2.1: Boxplot výsledkov z matematiky
Krabicový graf (obrázok 2.1) zobrazuje rozdelenie výsledkov z matematiky v analyzovanej vzorke študentov. Medián skóre sa nachádza približne v strede rozdelenia, čo naznačuje, že typický výkon študenta je blízky priemernej hodnote testu. Interkvartilové rozpätie zachytáva variabilitu výsledkov medzi 25. a 75. percentilom a poukazuje na pomerne výrazné rozdiely vo výkonnosti študentov.
Rozsah hodnôt znázornený „fúzmi“ boxplotu naznačuje, že výsledky sa pohybujú v širokom intervale bodového hodnotenia, čo svedčí o heterogenite študijných schopností v sledovanej populácii. Prítomnosť jednotlivých odľahlých pozorovaní indikuje existenciu študentov s výrazne nižším alebo naopak nadpriemerným výkonom v porovnaní s väčšinou vzorky.
Z grafického zobrazenia je možné usudzovať, že rozdelenie výsledkov nevykazuje extrémnu asymetriu, čo podporuje vhodnosť použitia lineárnych regresných modelov v nasledujúcej analýze.
Obrázok 3.1: Vzťah medzi výsledkom z matematiky a čítania
Obrázok 3.1 zobrazuje bodový diagram vzťahu medzi výsledkom z čítania a výsledkom z matematiky. Z grafu je zrejmá pozitívna lineárna závislosť, keďže s rastúcim skóre z čítania majú študenti tendenciu dosahovať vyššie výsledky aj v matematike. Červená priamka predstavuje odhad lineárnej regresie a sivý interval spoľahlivosti vyjadruje neistotu odhadu.
Obrázok 3.2: Vzťah medzi výsledkom z matematiky a písania
Obrázok 3.2 ilustruje vzťah medzi výsledkom z písania a výsledkom z matematiky. Aj v tomto prípade je možné pozorovať pozitívnu lineárnu závislosť, čo naznačuje, že jazykové schopnosti študentov sú úzko prepojené s ich matematickým výkonom.
| Termín | Odhad | Štandardná chyba | t-štatistika | p-hodnota |
|---|---|---|---|---|
| (Intercept) | 5.790 | 1.507 | 3.842 | 0.0001 |
| reading_score | 0.570 | 0.064 | 8.879 | 0.0000 |
| writing_score | 0.293 | 0.063 | 4.643 | 0.0000 |
| test_preparation_coursenone | 1.479 | 0.613 | 2.413 | 0.0160 |
Z tabuľky 3.1 vyplýva, že výsledok z čítania má štatisticky významný pozitívny vplyv na výsledok z matematiky (p < 0,05), čo znamená, že študenti s lepšími čitateľskými schopnosťami dosahujú v priemere vyššie skóre aj v matematike. Podobne aj výsledok z písania vykazuje pozitívny a štatisticky významný efekt.
Premenná absolvovania prípravného kurzu má v porovnaní s výsledkovými premennými slabší efekt, pričom jej štatistická významnosť závisí od zvolenej hladiny významnosti. Celkovo výsledky naznačujú, že jazykové schopnosti študentov sú dôležitými determinantmi matematického výkonu.
| Termín | Odhad | Štandardná chyba | t-štatistika | p-hodnota |
|---|---|---|---|---|
| (Intercept) | 5.790 | 1.544 | 3.750 | 0.0002 |
| reading_score | 0.570 | 0.064 | 8.952 | 0.0000 |
| writing_score | 0.293 | 0.062 | 4.724 | 0.0000 |
| test_preparation_coursenone | 1.479 | 0.622 | 2.380 | 0.0175 |
| Termín | Odhad | Štandardná chyba | t-štatistika | p-hodnota |
|---|---|---|---|---|
| (Intercept) | 5.790 | 1.538 | 3.764 | 0.0002 |
| reading_score | 0.570 | 0.065 | 8.750 | 0.0000 |
| writing_score | 0.293 | 0.064 | 4.600 | 0.0000 |
| test_preparation_coursenone | 1.479 | 0.616 | 2.403 | 0.0165 |
Výsledky regresného modelu s robustnými štandardnými chybami sú zobrazené v tabuľkách 3.2 a 3.3. Robustné štandardné chyby slúžia na korekciu možného porušenia predpokladov homoskedasticity a autokorelácie reziduí.
Newey–West odhady zohľadňujú možnú závislosť medzi pozorovaniami, zatiaľ čo HC3 korekcia upravuje štandardné chyby najmä na prítomnosť heteroskedasticity. Porovnanie výsledkov ukazuje, že znamienka a veľkosti koeficientov ostávajú stabilné aj po aplikácii robustných korekcií.
Štatistická významnosť hlavných vysvetľujúcich premenných sa po korekcii zásadne nemení, čo naznačuje, že pôvodný regresný model je stabilný a poskytuje spoľahlivé odhady vzťahov medzi analyzovanými premennými.
Obrázok 3.4–3.5: Histogram rezíduí a normálny Q-Q graf
Obrázok 3.4–3.5: Histogram rezíduí a normálny Q-Q graf
Histogram rezíduí (Obrázok 3.4) sumarizuje frekvenciu rezíduí regresného modelu. Prekrytá čierna krivka predstavuje hustotu pravdepodobnosti normálneho rozdelenia. Z grafu vyplýva, že rozdelenie rezíduí je približne symetrické a centrované okolo nulovej hodnoty, čo naznačuje, že model nevykazuje systematické skreslenie v odhadoch.
Normálny Q-Q graf (Obrázok 3.5) porovnáva empirické kvantily rezíduí s teoretickými kvantilmi normálneho rozdelenia. Väčšina bodov leží blízko diagonálnej referenčnej čiary, čo podporuje predpoklad približnej normality rezíduí. Mierne odchýlky sú pozorované v extrémnych hodnotách na koncoch rozdelenia, avšak tieto odchýlky sú malého rozsahu a nemajú zásadný vplyv na platnosť regresného modelu.
Obrázok 4.1: Diagnostické grafy rezíduí pre test heteroskedasticity
Na obrázku 4.1 sú zobrazené základné diagnostické grafy rezíduí regresného modelu. Graf rezíduí voči odhadnutým hodnotám (Residuals vs Fitted) slúži na vizuálnu kontrolu homoskedasticity. Reziduá sú rozptýlené okolo nulovej hodnoty bez výrazného systematického vzoru, čo naznačuje, že predpoklad konštantného rozptylu rezíduí je približne splnený.
Scale-Location graf neindikuje výrazný rast alebo pokles variability rezíduí v závislosti od úrovne odhadnutých hodnôt. To naznačuje, že prípadná heteroskedasticita nie je výrazná. Graf rezíduí voči leverage neodhalil pozorovania s extrémne vysokým vplyvom na odhady koeficientov.
| statistika | p-hodnota | parameter | metóda |
|---|---|---|---|
| 11.257 | 0.0104 | 3 | studentized Breusch-Pagan test |
| Termín | Odhad | Štandardná chyba | t-štatistika | p-hodnota |
|---|---|---|---|---|
| (Intercept) | 5.790 | 1.528 | 3.789 | 0.0002 |
| reading_score | 0.570 | 0.065 | 8.799 | 0.0000 |
| writing_score | 0.293 | 0.063 | 4.627 | 0.0000 |
| test_preparation_coursenone | 1.479 | 0.613 | 2.414 | 0.0160 |
Tabuľka 4.2 zobrazuje výsledky regresného modelu s bielymi (White, HC0) robustnými štandardnými chybami, ktoré korigujú prípadnú heteroskedasticitu rezíduí. Odhady regresných koeficientov ostávajú rovnaké ako pri klasickom OLS modeli, menia sa však štandardné chyby a s nimi súvisiace testové štatistiky a p-hodnoty.
Výsledky ukazujú, že výsledok z čítania (reading_score) má silný a štatisticky významný pozitívny vplyv na výsledok z matematiky. Odhad koeficientu 0,570 znamená, že zvýšenie skóre z čítania o jeden bod zvyšuje v priemere skóre z matematiky približne o 0,57 bodu, pričom tento efekt je vysoko štatisticky významný (p < 0,001).
Podobne aj výsledok z písania (writing_score) má pozitívny a štatisticky významný vplyv na matematický výkon. Odhad koeficientu 0,293 naznačuje, že lepšie výsledky z písania sú spojené s vyšším skóre z matematiky, hoci tento efekt je slabší než v prípade čítania.
Premenná absolvovania prípravného kurzu (test_preparation_coursenone) má taktiež pozitívny a štatisticky významný vplyv na výsledok z matematiky (p = 0,016). Študenti, ktorí absolvovali prípravný kurz, dosahujú v priemere o približne 1,48 bodu vyššie skóre z matematiky v porovnaní so študentmi bez prípravného kurzu.
Intercept modelu je štatisticky významný a predstavuje očakávanú hodnotu výsledku z matematiky pri nulových hodnotách vysvetľujúcich premenných.
Celkovo výsledky naznačujú, že aj po použití White robustných štandardných chýb ostávajú hlavné závery modelu nezmenené, čo potvrdzuje stabilitu a spoľahlivosť odhadnutého regresného modelu.
| df1 | df2 | štatistika | p-hodnota | metóda |
|---|---|---|---|---|
| 2 | 994 | 2.599 | 0.0749 | RESET test |
Graf rezíduí voči odhadnutým hodnotám (Residuals vs Fitted) slúži na kontrolu správnosti lineárnej špecifikácie modelu a prítomnosti heteroskedasticity. Reziduá sú rozptýlené približne náhodne okolo nulovej hodnoty bez výrazného systematického vzoru, čo naznačuje, že lineárna špecifikácia modelu je primeraná.
Nezaznamenávame výrazný lievikovitý tvar ani zreteľnú závislosť rozptylu rezíduí od úrovne odhadovaných hodnôt. To podporuje predpoklad približne konštantného rozptylu rezíduí a naznačuje, že model netrpí závažnou heteroskedasticitou.
Mierna variabilita rezíduí pri vyšších hodnotách odhadov je však v súlade s výsledkami predchádzajúcich testov, ktoré motivovali použitie robustných štandardných chýb.
Obrázok 5.2: Grafy komponentov a rezíduí (component + residual plots)
Obrázok 5.2 zobrazuje component + residual (partial residual) grafy pre numerické prediktory v regresnom modeli. Modrá prerušovaná čiara predstavuje lineárny efekt prediktora v modeli, zatiaľ čo ružová krivka znázorňuje vyhladený (nelineárny) trend v dátach.
Pre premenné reading_score a writing_score sú obe krivky vo všeobecnosti blízko seba, čo naznačuje, že lineárna špecifikácia týchto vzťahov je primeraná. Ak by sa ružová krivka výrazne odchyľovala od lineárnej čiary, signalizovalo by to potrebu nelineárnej úpravy modelu (napr. kvadratický člen alebo transformácia). Tieto grafy preto slúžia ako vizuálna kontrola výsledkov Ramseyho RESET testu.
| termín | odhad | štandardná chyba | štatistika | p-hodnota |
|---|---|---|---|---|
| (Intercept) | 5.769 | 4.320 | 1.335 | 0.1820 |
| reading_score | -0.186 | 0.333 | -0.559 | 0.5766 |
| writing_score | 1.071 | 0.300 | 3.571 | 0.0004 |
| test_preparation_coursenone | 1.483 | 0.612 | 2.423 | 0.0156 |
| I(reading_score^2) | 0.006 | 0.002 | 2.318 | 0.0207 |
| I(writing_score^2) | -0.006 | 0.002 | -2.657 | 0.0080 |
| term | df.residual | rss | df | sumsq | statistic | p.value |
|---|---|---|---|---|---|---|
| math_score ~ reading_score + writing_score + test_preparation_course | 996 | 74447.58 | NA | NA | NA | NA |
| math_score ~ reading_score + writing_score + test_preparation_course + I(reading_score^2) + I(writing_score^2) | 994 | 73915.39 | 2 | 532.1886 | 3.5784 | 0.0283 |
| df1 | df2 | štatistika | p-hodnota | metóda |
|---|---|---|---|---|
| 2 | 992 | 3.433 | 0.0327 | RESET test |
Na základe ANOVA testu (p-hodnota = 0,028) zamietame nulovú hypotézu rovnosti modelov. Kvadratická špecifikácia poskytuje štatisticky významne lepší popis vzťahu medzi výsledkami z matematiky a vysvetľujúcimi premennými než základný lineárny model. Rozšírenie lineárneho modelu o kvadratické členy pre premenné reading_score a writing_score poukazuje na existenciu nelineárnych vzťahov medzi študijnými výsledkami. Štatistická významnosť kvadratických členov naznačuje, že vplyv čítania a písania na matematické skóre sa mení v závislosti od úrovne dosiahnutých hodnôt.
Porovnanie lineárneho a kvadratického modelu pomocou ANOVA testu potvrdzuje, že kvadratický model poskytuje lepší popis dát. Výsledky sú v súlade s Ramseyho RESET testom a diagnostickými grafmi, ktoré naznačovali možnú nesprávnu špecifikáciu základného lineárneho modelu. ### Interpretácia kvadratického modelu
Kvadratický regresný model rozširuje lineárnu špecifikáciu o nelineárne vzťahy medzi premennými. Výsledky ukazujú, že writing_score má štatisticky významný pozitívny vplyv na math_score (p < 0,001), pričom aj jeho kvadratický člen je významný (p = 0,008), čo naznačuje nelineárny vzťah.
Premenná reading_score nie je významná v lineárnej forme, avšak jej kvadratický člen je štatisticky významný (p = 0,021), čo poukazuje na zakrivený vzťah s matematickým skóre. Premenná test_preparation_course je taktiež štatisticky významná (p = 0,016), pričom neabsolvovanie kurzu znižuje výsledok z matematiky.
Porovnanie modelov pomocou ANOVA potvrdzuje, že kvadratický model poskytuje lepšie prispôsobenie dátam než lineárny model (p = 0,028). Ramseyho RESET test pre kvadratický model (p = 0,033) však naznačuje, že model môže ešte vynechávať niektoré nelineárne vzťahy alebo interakcie.
| Pohlavie | Etnická skupina | Vzdelanie rodičov | Obed | Prípravný kurz | Matematika | Čítanie | Písanie |
|---|---|---|---|---|---|---|---|
| female | group B | bachelor’s degree | standard | none | 72 | 72 | 74 |
| female | group C | some college | standard | completed | 69 | 90 | 88 |
| female | group B | master’s degree | standard | none | 90 | 95 | 93 |
| male | group A | associate’s degree | free/reduced | none | 47 | 57 | 44 |
| male | group C | some college | standard | none | 76 | 78 | 75 |
| female | group B | associate’s degree | standard | none | 71 | 83 | 78 |
| female | group B | some college | standard | completed | 88 | 95 | 92 |
| male | group B | some college | free/reduced | none | 40 | 43 | 39 |
| male | group D | high school | free/reduced | completed | 64 | 64 | 67 |
| female | group B | high school | free/reduced | none | 38 | 60 | 50 |
Tabuľka 6.1 prezentuje ukážku dát zo súboru StudentsPerformance, ktorý bude použitý v zhlukovej analýze. Dataset obsahuje demografické charakteristiky študentov (pohlavie, etnickú skupinu, vzdelanie rodičov), sociálne faktory (typ obeda, absolvovanie prípravného kurzu) a výsledky študentov v matematike, čítaní a písaní.
Obrázok 6.1: Boxplot škálovaných skóre (math, reading, writing)
Na Obrázku 6.1 sú zobrazené boxploty škálovaných hodnôt skóre z matematiky, čítania a písania, ktoré vstupujú do zhlukovej analýzy. Pred samotným zhlukovaním boli všetky premenné štandardizované tak, aby mali nulový priemer a jednotkovú smerodajnú odchýlku. Tento krok zabezpečuje, že žiadna z premenných nedominovala pri výpočte vzdialeností len v dôsledku odlišnej mierky.
Z boxplotov vyplýva, že rozdelenia škálovaných skóre sú medzi jednotlivými predmetmi porovnateľné, pričom mediány sa nachádzajú blízko hodnoty nula. To potvrdzuje korektnosť použitého škálovania a vhodnosť dát pre aplikáciu metód založených na vzdialenostiach, ako je hierarchické zhlukovanie.
Všetky tri premenné vykazujú prítomnosť extrémnych hodnôt, najmä na dolnom okraji rozdelenia, čo poukazuje na existenciu študentov s výrazne nižším výkonom v danom predmete. Tieto outliery však nie sú považované za chybné pozorovania, ale za prirodzenú súčasť dát, ktorá môže zohrávať významnú úlohu pri identifikácii odlišných skupín študentov.
Celkovo boxploty naznačujú, že údaje majú dostatočnú variabilitu a zároveň neobsahujú extrémne asymetrie, ktoré by mohli negatívne ovplyvniť výsledky zhlukovej analýzy. Škálované skóre preto poskytujú vhodný základ pre následnú identifikáciu homogénnych klastrov študentov na základe ich študijného výkonu.
Obrázok 6.2: Hierarchické zhlukovanie študentov (Wardova metóda)
Hierarchické zhlukovanie bolo realizované pomocou Wardovej metódy (Ward.D2), ktorá patrí medzi aglomeratívne hierarchické prístupy. Táto metóda minimalizuje nárast vnútornej variability pri spájaní zhlukov a je vhodná pre spojité, škálované premenné.
Analýza bola vykonaná na škálovaných hodnotách výsledkov študentov z matematiky, čítania a písania. Výsledný dendrogram (Obrázok 9.2) znázorňuje postupné spájanie pozorovaní do väčších zhlukov na základe ich podobnosti.
Na základe vizuálnej analýzy dendrogramu bol zvolený rez, ktorý rozdeľuje dáta do troch zhlukov. Tieto klastre predstavujú skupiny študentov s podobnou úrovňou študijných výsledkov. Výsledky naznačujú existenciu skupiny slabších, priemerných a výkonnejších študentov.
Wardova metóda sa v tomto prípade ukázala ako vhodná, keďže jednotlivé zhluky sú relatívne kompaktné a dobre oddelené.
| Premenná | TSS | WSS | BSS | Podiel.BSS.TSS | |
|---|---|---|---|---|---|
| math_score | math_score | 999 | 348.465 | 650.535 | 0.651 |
| reading_score | reading_score | 999 | 260.196 | 738.804 | 0.740 |
| writing_score | writing_score | 999 | 301.809 | 697.191 | 0.698 |
| cluster | Math score (priem.) | Reading score (priem.) | Writing score (priem.) |
|---|---|---|---|
| 1 | 70.60 | 73.70 | 72.48 |
| 2 | 85.03 | 88.72 | 87.99 |
| 3 | 52.75 | 55.53 | 54.33 |
Tabuľka 6.2 prezentuje rozklad celkovej variability (TSS) na vnútroklastrovú (WSS) a medzi-klastrovú variabilitu (BSS) pre jednotlivé sledované premenné – skóre z matematiky, čítania a písania. Podiel BSS/TSS vyjadruje, aká časť celkovej variability je vysvetlená rozdielmi medzi klastrami.
Zo získaných výsledkov vyplýva, že najlepšie je klastrovou štruktúrou vysvetlená variabilita reading_score (BSS/TSS = 0,740), čo naznačuje, že čitateľské skóre je veľmi dobrým separátorom medzi jednotlivými klastrami. Podobne aj writing_score (0,698) a math_score (0,651) dosahujú relatívne vysoké hodnoty podielu vysvetlenej variability, čo potvrdzuje, že všetky tri premenné významne prispievajú k rozlíšeniu zhlukov.
Tabuľka 6.3 zobrazuje centroidy jednotlivých klastrov, teda priemerné hodnoty skóre v matematike, čítaní a písaní pre každý klaster. Na základe týchto výsledkov možno klastre interpretovať nasledovne:
Na základe uvedených výsledkov možno konštatovať, že zhluková analýza úspešne identifikovala tri jasne odlíšiteľné skupiny študentov podľa ich študijných výsledkov. Zvolený postup (škálovanie dát a Wardova metóda) viedol k stabilnej a interpretovateľnej klastrovej štruktúre, ktorá poskytuje zmysluplný pohľad na rozdelenie študentov podľa úrovne ich výkonu.
Obrázok 7.1: Rezíduá podľa indexu pozorovania
Obrázok 7.2: Autokorelačná funkcia (ACF) rezíduí
Obrázok 7.3: Histogram rezíduí s normálnou krivkou
Graf rezíduí podľa indexu pozorovania slúži na vizuálnu kontrolu nezávislosti rezíduí. Rezíduá sú rozptýlené približne náhodne okolo nulovej hodnoty bez zjavného trendu alebo pravidelného vzoru. To naznačuje, že poradie pozorovaní nevytvára systematickú závislosť a predpoklad nezávislosti rezíduí je primerane splnený.
Graf ACF rezíduí dopĺňa túto kontrolu formálne. Okrem lag 0 (ktorý je vždy rovný 1) sú autokorelačné koeficienty pre ostatné oneskorenia malé a nachádzajú sa prevažne v intervaloch spoľahlivosti. Na základe toho nepozorujeme významnú autokoreláciu rezíduí.
Histogram rezíduí s normálnou krivkou ukazuje približne symetrické rozdelenie rezíduí okolo nuly, pričom tvar je blízky normálnemu rozdeleniu. To podporuje predpoklad približnej normality rezíduí, ktorý je dôležitý pre korektnú inferenciu (t-testy a intervaly spoľahlivosti).
Záverom možno konštatovať, že diagnostické grafy nenaznačujú problém s nezávislosťou rezíduí a rozdelenie rezíduí je približne normálne, takže výsledky regresného modelu sú z tohto pohľadu interpretovateľné.
| premenná | math_score | reading_score | writing_score |
|---|---|---|---|
| math_score | 1.000 | 0.818 | 0.803 |
| reading_score | 0.818 | 1.000 | 0.955 |
| writing_score | 0.803 | 0.955 | 1.000 |
Obrázok 7.1: Scatterplotová matica – vzťahy medzi math, reading a writing skóre
Cieľom korelačnej analýzy je preskúmať vzájomné vzťahy medzi vysvetľujúcimi premennými a overiť, či medzi nimi neexistuje silná lineárna závislosť, ktorá by mohla viesť k problému multikolinearity v regresnom modeli.
Korelačná matica ukazuje párové Pearsonove korelačné koeficienty medzi premennými reading_score, writing_score a test_preparation_course.
Scatterplotová matica poskytuje vizuálne doplnenie korelačnej analýzy:
Na základe korelačnej matice aj scatterplotovej matice možno konštatovať, že: - vysvetľujúce premenné nie sú medzi sebou silne lineárne závislé, - multikolinearita nepredstavuje významný problém, - premenné sú vhodné na spoločné použitie v regresnom modeli.
Korelačná analýza teda podporuje stabilitu a interpretovateľnosť odhadnutých regresných koeficientov v ďalších častiach analýzy.
| Prediktor | VIF |
|---|---|
| reading_score | 11.745 |
| writing_score | 12.258 |
| test_preparation_course | 1.155 |
Hodnoty VIF ukazujú výraznú multikolinearitu medzi premennými reading_score (VIF = 11.745) a writing_score (VIF = 12.258). Tento výsledok je očakávaný, keďže obe premenné merajú príbuzné jazykové schopnosti študentov a sú silne korelované. Premenná test_preparation_course má nízku hodnotu VIF (1.155), čo naznačuje, že multikolinearita sa jej netýka.
Napriek zvýšenej multikolinearite model zostáva použiteľný na predikčné účely, avšak interpretácia jednotlivých koeficientov reading_score a writing_score by mala byť vykonaná s opatrnosťou.
| termín | odhad | štandardná chyba | štatistika | p-hodnota |
|---|---|---|---|---|
| (Intercept) | 8.199 | 1.518 | 5.400 | <0.001 |
| writing_score | 0.826 | 0.019 | 43.327 | <0.001 |
| test_preparation_coursenone | 2.575 | 0.625 | 4.121 | <0.001 |
| Metrika | Hodnota |
|---|---|
| Číslo podmienky (kappa) | 387.97 |
Multikolinearita v modeli bola posúdená pomocou variačného inflačného faktora (VIF), ktorý meria mieru lineárnej závislosti medzi vysvetľujúcimi premennými. Všeobecne sa za problematické považujú hodnoty VIF vyššie ako 5, resp. 10.
Výsledky ukazujú, že premenné reading_score (VIF = 11.745) a writing_score (VIF = 12.258) vykazujú zvýšenú multikolinearitu. Tento výsledok je očakávaný, keďže obe premenné merajú príbuzné jazykové schopnosti študentov a sú medzi sebou silne korelované. Premenná test_preparation_course má nízku hodnotu VIF (1.155), čo naznačuje, že multikolinearita sa jej netýka.
Napriek zvýšenej multikolinearite medzi skóre z čítania a písania zostáva model použiteľný na predikčné účely, avšak interpretácia individuálnych koeficientov týchto premenných by mala byť vykonaná s opatrnosťou.
Stabilita regresného modelu bola ďalej posúdená pomocou čísla podmienky (κ), ktoré hodnotí citlivosť odhadov koeficientov na malé zmeny v dátach. Všeobecne platí, že hodnoty κ vyššie ako 30 indikujú potenciálne problémy s multikolinearitou.
V analyzovanom modeli dosahuje číslo podmienky hodnotu κ = 387.97, čo poukazuje na výraznú multikolinearitu v pôvodnej špecifikácii modelu. Z tohto dôvodu bol zostavený redukovaný regresný model, v ktorom bola odstránená jedna z vysoko korelovaných premenných.
Finálny (redukovaný) model je numericky stabilnejší, koeficienty sú lepšie interpretovateľné a model poskytuje spoľahlivejšie inferenčné závery.
Fox, J. (2016). Applied Regression Analysis and Generalized Linear Models. Thousand Oaks, CA: SAGE Publications. https://www.kaggle.com/datasets/joebeachcapital/students-performance Hlavný tím R. 2023. R: Jazyk a prostredie pre štatistické výpočty. https://www.r-project.org/