Príprava databázy, čistenie a úprava údajov
Rovnako ako v prípade predošlej úlohy, aj v tomto prípade pracujem s
údajmi výhradne pre Slovenskú republiku, takže v následujúcom kroku si
vyfiltrujem konkrétne hodnoty zvolených premenných pre túto krajinu.
library(dplyr)
library(knitr)
# Načítanie dát
wh_data <- read.csv("World Happiness Report 2005-2021.csv", sep = ",", dec = ".", header = TRUE)
# Filtrovanie a výber premenných
data_slovakia <- wh_data %>%
filter(Country.name == "Slovakia") %>%
select(Confidence.in.national.government,
Perceptions.of.corruption,
Freedom.to.make.life.choices,
Social.support)
# Zobrazenie tabuľky
kable(data_slovakia, caption = "Údaje pre Slovensko")
Údaje pre Slovensko
| Confidence.in.national.government |
Perceptions.of.corruption |
Freedom.to.make.life.choices |
Social.support |
| 0.1630792 |
0.9457313 |
0.5424797 |
0.9535792 |
| 0.3086795 |
0.9071360 |
0.6357577 |
0.9196400 |
| 0.2787239 |
0.9071323 |
0.7271631 |
0.9172934 |
| 0.3683802 |
0.9065322 |
0.6200043 |
0.9257514 |
| 0.2834932 |
0.9145399 |
0.5979358 |
0.9093785 |
| 0.3101815 |
0.9138702 |
0.6347917 |
0.9242427 |
| 0.2765307 |
0.9275451 |
0.5871577 |
0.9434537 |
| 0.3722222 |
0.9166092 |
0.7000985 |
0.9451791 |
| 0.3416801 |
0.9204227 |
0.7142247 |
0.9133866 |
| 0.3276586 |
0.9099447 |
0.7576340 |
0.9223787 |
| 0.2309728 |
0.9258467 |
0.7711216 |
0.9330883 |
| 0.3074445 |
0.9005337 |
0.7618966 |
0.9541600 |
| 0.2158076 |
0.8955466 |
0.7415332 |
0.9511639 |
Následne premenujem stĺpce pre jednoduchšiu prácu a imputujem
chýbajúce hodnoty (NA) v každom stĺpci pomocou mediánu, čím zabezpečím,
že regresný model bude môcť použiť maximálny počet pozorovaní.
wh_data <- read.csv("World Happiness Report 2005-2021.csv", sep = ",", dec = ".", header = TRUE)
data_slovakia <- wh_data %>%
filter(`Country.name` == "Slovakia") %>%
select(`Confidence.in.national.government`, `Perceptions.of.corruption`, `Freedom.to.make.life.choices`, `Social.support`)
# Premenovanie stĺpcov pre jednoduchšiu prácu
colnames(data_slovakia) <- c("Confidence", "Corruption", "Freedom", "Support")
# Imputácia chýbajúcich hodnôt mediánom
column_medians <- sapply(data_slovakia, median, na.rm = TRUE)
for (col in names(data_slovakia)) {
data_slovakia[[col]][is.na(data_slovakia[[col]])] <- column_medians[col]
}
Ďalej si pre každú premennú vygenerujem boxplot za účelom overenia
prípadných nezrovnalostí (konkrétne výskytu odľahlých hodnôt, tzv.
outliers).
par(mfrow = c(2, 2))
par(mar = c(4, 4, 2, 1))
# Vykreslenie boxplotov pre každú premennú
for (col in names(data_slovakia)) {
boxplot(data_slovakia[[col]],
main = col,
xlab = "Hodnota",
col = "lightblue",
border = "darkblue")
}
# Nadpis pre všetky grafy
mtext("Boxploty jednotlivých premenných (Slovensko)", outer = TRUE, cex = 1.4, font = 2)
# Resetovanie rozloženia na 1 graf
par(mfrow = c(1, 1))

Vizualizácia rozdelenia hodnôt pomocou boxplotov mi jasne ukázala, že
v prípade dvoch premenných, konkrétne Confidence (Dôvera vo vládu) a
Corruption (Vnímanie korupcie), mám prítomné odľahlé hodnoty. Tieto
extrémy musím teraz odstrániť, pretože ich ponechanie v dátach by mohlo
skresliť odhadované regresné koeficienty a vážne oslabiť spoľahlivosť
celého môjho lineárneho modelu.
remove_outliers <- function(x) {
q1 <- quantile(x, 0.25, na.rm = TRUE)
q3 <- quantile(x, 0.75, na.rm = TRUE)
iqr <- q3 - q1
lower <- q1 - 1.5 * iqr
upper <- q3 + 1.5 * iqr
x[x < lower | x > upper] <- NA
return(x)
}
# Aplikácia na všetky stĺpce
data_slovakia_clean <- data_slovakia %>%
mutate(
Confidence = remove_outliers(Confidence),
Corruption = remove_outliers(Corruption),
Freedom = remove_outliers(Freedom),
Support = remove_outliers(Support)
)
Ďalej som odstránila všetky riadky, v ktorých po odstránení odľahlých
hodnôt zostala aspoň jedna chýbajúca hodnota (NA), čím zabezpečím, že
môj regresný model bude pracovať len s kompletnými a čistými
pozorovaniami.
data_slovakia_clean <- na.omit(data_slovakia_clean)
Po všetkých vyššie uvedených korekciách nasleduje opätovná
vizualizácia všetkých 4 boxplotov.
par(mfrow = c(2, 2))
for (col in names(data_slovakia_clean)) {
boxplot(data_slovakia_clean[[col]],
main = col,
xlab = "Hodnota",
col = "lightblue",
border = "darkblue")
}
par(mfrow = c(1, 1))

Možno konštatovať, že vizuálna kontrola potvrdila úspešné odstránenie
odľahlých hodnôt.
Confidence (Dôvera vo vládu): Medián
dôvery sa nachádza na hodnote \(0.25\),
čo naznačuje dlhodobo nízku priemernú (v porovnaní s ostatnými
hodnotami) dôveru v národnú vládu. Napriek čisteniu dát je to najviac
rozptýlená premenná, čo potvrdzuje najdlhší vertikálny rozsah
jednotlivých úsečiek a boxu zo všetkých štyroch grafov. To znamená, že
dôvera občanov vo vládu je počas rokov veľmi nestála a
kolísavá.
Corruption (Vnímanie korupcie): Medián
sa pohybuje okolo \(0.895\), čo je
veľmi blízko hornej hranice (1.0). To ilustruje, že vnímanie korupcie je
na Slovensku chronicky vysoké a takmer v každom sledovanom roku bolo
vnímané ako vážny problém.
Freedom (Sloboda voľby): Medián je na
hodnote \(0.60\), čo značí, že
priemerný pocit slobody voľby je len mierne nad neutrálnym stredom
(\(0.50\)). Krátky rozsah fúzov a boxu
potvrdzuje, že vnímanie slobody je stabilné a v čase sa výrazne nemení,
no vzhľadom na vysoké skóre ostatných skúmaných premených je táto
hodnota relatívne nízka, čo naznačuje zreteľný priestor pre zlepšenie v
tom, ako obyvatelia vnímajú svoju osobnú slobodu.
Support (Sociálna podpora): Táto
premenná s mediánom na hodnote \(0.91\)
je najkoncentrovanejšia, t.j. s najkratším boxom a fúzami. Ukazuje to,
že vnímaná sociálna podpora (spoliehanie sa na priateľov/rodinu) je na
Slovensku extrémne stabilná a veľmi vysoká, čo ilustruje silnú a
spoľahlivú osobnú sociálnu sieť.
Lineárna regresia
model <- lm(Confidence ~ Corruption + Freedom + Support, data = data_slovakia_clean)
summary(model)
Call:
lm(formula = Confidence ~ Corruption + Freedom + Support, data = data_slovakia_clean)
Residuals:
Min 1Q Median 3Q Max
-0.070286 -0.031902 -0.003962 0.032197 0.081032
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.0501 2.0948 0.501 0.630
Corruption -0.1748 1.7882 -0.098 0.925
Freedom -0.1348 0.2596 -0.519 0.618
Support -0.5335 1.1512 -0.463 0.655
Residual standard error: 0.05442 on 8 degrees of freedom
Multiple R-squared: 0.07889, Adjusted R-squared: -0.2665
F-statistic: 0.2284 on 3 and 8 DF, p-value: 0.8741
Tento výstup mi zobrazil súhrn modelu a potvrdil, že žiadna z
mojich pracovných hypotéz nebola splnená, pretože Korupcia, Sloboda
a Sociálna podpora spoločne nevedia významne vysvetliť Dôveru vo vládu.
Tento záver je podložený extrémne vysokou p-hodnotou F-testu (\(0.8741\)), čo znamená, že
model ako celok je štatisticky nevýznamný. Navyše,
R-kvadrát s hodnotou len \(0.0789\)
ukazuje, že môj model dokáže vysvetliť iba \(8\%\) variability Dôvery vo vládu. Zistila
som, že žiadna z premenných nie je významná a dokonca Sloboda vyšla s
neočakávaným negatívnym znamienkom, hoci to nie je štatisticky
podstatné.
model <- lm(Confidence ~ Corruption + Freedom + Support, data = data_slovakia_clean)
print("Odhadnuté koeficienty sú:")
[1] "Odhadnuté koeficienty sú:"
print(model$coefficients)
(Intercept) Corruption Freedom Support
1.0500560 -0.1748333 -0.1348024 -0.5334834
print("Odhadnuté rezíduá:")
[1] "Odhadnuté rezíduá:"
print(model$residuals)
2 3 4 5 6 7 8
-0.006464541 -0.025350999 0.054267282 -0.040929199 -0.001459967 -0.028892390 0.081032297
9 10 11 12 13
0.036100442 0.030895885 -0.055478171 0.026565799 -0.070286437
print("Vyrovnané hodnoty vysvetľovanej premennej sú:")
[1] "Vyrovnané hodnoty vysvetľovanej premennej sú:"
print(model$fitted.values)
2 3 4 5 6 7 8 9 10 11
0.3151441 0.3040749 0.3141129 0.3244224 0.3116415 0.3054231 0.2911899 0.3055796 0.2967627 0.2864510
12 13
0.2808787 0.2860940
print("Matica modelu X:")
[1] "Matica modelu X:"
X <- model.matrix(model)
print(X)
(Intercept) Corruption Freedom Support
2 1 0.9071360 0.6357577 0.9196400
3 1 0.9071323 0.7271631 0.9172934
4 1 0.9065322 0.6200043 0.9257514
5 1 0.9145399 0.5979358 0.9093785
6 1 0.9138702 0.6347917 0.9242427
7 1 0.9275451 0.5871577 0.9434537
8 1 0.9166092 0.7000985 0.9451791
9 1 0.9204227 0.7142247 0.9133866
10 1 0.9099447 0.7576340 0.9223787
11 1 0.9258467 0.7711216 0.9330883
12 1 0.9005337 0.7618966 0.9541600
13 1 0.8955466 0.7415332 0.9511639
attr(,"assign")
[1] 0 1 2 3
print("Diagonála hat-matrix (vplyv jednotlivých pozorovaní):")
[1] "Diagonála hat-matrix (vplyv jednotlivých pozorovaní):"
print(diag(X %*% solve(t(X) %*% X) %*% t(X)))
2 3 4 5 6 7 8 9 10 11
0.2176273 0.2451038 0.2432431 0.3365416 0.1397919 0.6657322 0.2203391 0.3060035 0.2481669 0.5207307
12 13
0.4035421 0.4531777
# Súhrnný výstup modelu
summary(model)
Call:
lm(formula = Confidence ~ Corruption + Freedom + Support, data = data_slovakia_clean)
Residuals:
Min 1Q Median 3Q Max
-0.070286 -0.031902 -0.003962 0.032197 0.081032
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.0501 2.0948 0.501 0.630
Corruption -0.1748 1.7882 -0.098 0.925
Freedom -0.1348 0.2596 -0.519 0.618
Support -0.5335 1.1512 -0.463 0.655
Residual standard error: 0.05442 on 8 degrees of freedom
Multiple R-squared: 0.07889, Adjusted R-squared: -0.2665
F-statistic: 0.2284 on 3 and 8 DF, p-value: 0.8741
V druhom kroku som si “vyžiadala” detaily o vnútornej štruktúre
modelu, aby som preverila jeho metodologickú kvalitu. Zistila som, že
reziduá sú veľmi malé, čo je dobré. Najdôležitejšie je však to, že
kontrola pomocou diagonály hat-matrix potvrdila, že žiadne
jednotlivé pozorovanie nemá neprimerane veľký vplyv na výpočet
koeficientov. To je kľúčové zistenie, pretože aj keď je môj model
celkovo neúspešný vo vysvetľovaní Dôvery, môžem s istotou tvrdiť, že
jeho odhady sú spoľahlivé a nie sú skreslené chybami ani
extrémnymi dátovými bodmi.
par(mfrow = c(2, 2))
plot(model)
# Resetovanie rozloženia na 1 graf
par(mfrow = c(1, 1))

Residuals vs. Fitted
Tento graf vizuálne potvrdzuje splnenie predpokladu linearity a
homoskedasticity pre môj model. To znamená, že body sú rozptýlené
pomerne rovnomerne okolo nulovej horizontálnej osi a táto os je navyše
takmer rovná. To naznačuje, že vzťah medzi mojimi prediktormi (Korupcia,
Sloboda, Podpora) a Dôverou vo vládu nie je zásadne zakrivený a že chyby
modelu sú rozložené konzistentne.V praxi to znamená, že neexistuje
žiadny dôkaz, že by sa dôvera vo vládu začala pri určitom bode (napr.
pri veľmi nízkej korupcii) správať nelineárne, ako napríklad prudko
stúpať namiesto pomalého rastu.
Q-Q plot
Tento graf vizuálne preveruje normálne rozdelenie reziduí, čo je
kľúčový predpoklad pre spoľahlivosť \(t\)-testov a \(F\)-testu v OLS regresii. Vzhľadom na to,
že môj \(F\)-test už ukázal
nevýznamnosť, tento graf kontroluje kvalitu odhadov. Vizuálne možno
konštatovať odchýlku od normality, pretože body na chvostoch distribúcie
(extrémy) sa viditeľne vzdialili od teoretickej diagonálnej čiary, čo
indikuje, že distribúcia chýb môjho modelu má ťažšie chvosty (fat
tails). Z tohto dôvodu je kriticky dôležité spustiť následný Jarque-Bera
test, aby sme štatisticky zistili, či je táto vizuálna abnormalita
natoľko závažná, že by definitívne potvrdila neschopnosť modelu
spoľahlivo robiť akékoľvek závery.
Scale location plot
Tento graf slúži na definitívne overenie homoskedasticity, teda
predpokladu konštantného rozptylu chýb. Môžem potvrdiť splnenie tohto
kľúčového predpokladu, pretože červená os je takmer úplne plochá a body
nevykazujú žiaden zjavný lievikovitý tvar, čo by signalizovalo
problém.
V praxi to pre môj model Dôvery vo vládu znamená, že spoľahlivosť
chýb modelu je rovnaká bez ohľadu na to, akú úroveň Dôvery predikujem.
Inak povedané, model je rovnako spoľahlivý (alebo rovnako zlý) v
predpovedi pre roky s nízkou Dôverou (ľavá strana) ako aj pre roky s
vyššou Dôverou (pravá strana).
Hoci je celkový rozptyl konštantný, je možné vidieť jemný náznak
lievikovitého tvaru v extrémnych prípadoch. Ak by sa táto odchýlka
potvrdila, mohlo by to byť spôsobené tým, že chyba modelu je väčšia pri
extrémne nízkych hodnotách Dôvery, napríklad v krízových rokoch, kde je
Dôvera nízka, no politická reakcia je nepredvídateľná. Keďže je ale táto
odchýlka minimálna, možno ju ignorovať a považovať predpoklad za
splnený.
Residuals vs Leverage
Tento graf slúži na finálnu kontrolu dát, presnejšie na identifikáciu
vplyvných pozorovaní (bodov s vysokou pákou), ktoré by mohli ovplyvniť
regresnú čiaru. S potešením konštatujem, že žiaden dátový bod nemá
extrémne vysokú páku ani vplyv na výpočet koeficientov, pretože žiaden
bod neprekročil Cútove vzdialenosti (červené prerušované čiary \(0.5\) a \(1\)). Týmto sa definitívne potvrdzuje
robustnosť môjho modelu. Hoci som outliers z boxplotov odstránila už
predtým, tento graf mi dáva istotu, že v dátach nezostal žiaden skrytý
vplyvný bod, a môžem tvrdiť, že aj napriek nevýznamnosti \(F\)-testu neboli koeficienty skreslené
žiadnym jednotlivým rokom.
# Test normality reziduí
residuals <- residuals(model)
jb_test <- jarque.bera.test(residuals)
jb_test
Jarque Bera Test
data: residuals
X-squared = 0.56427, df = 2, p-value = 0.7542
# Test odľahlých hodnôt (Bonferroni korekcia)
outlier_test <- outlierTest(model)
outlier_test
No Studentized residuals with Bonferroni p < 0.05
Largest |rstudent|:
Jarque-Bera test overuje predpoklad, či sú chyby
môjho modelu (reziduá) normálne rozdelené. Tento predpoklad je splnený,
pretože výsledná p-hodnota \(0.7542\)
je oveľa vyššia ako kritická hodnota \(0.05\). Preto môžem tvrdiť, že aj napriek
vizuálnej miernej odchýlke v Q-Q grafe, sú moje reziduá štatisticky
normálne rozdelené, čo zabezpečuje spoľahlivosť \(t\)-testov koeficientov (hoci vyšli
nevýznamné).
Bonferroniho korekcia slúži na definitívne
potvrdenie čistoty dát po tom, čo som už manuálne odstránila outliers z
boxplotov. Výstup “No Studentized residuals with Bonferroni p <
0.05” je kľúčový a znamená, že v mojom modeli nezostal žiadny
štatisticky významný outlier, ktorý by mohol pokaziť výsledky. Hoci mi R
vypísalo najpodozrivejšie pozorovanie (s ID \(13\)), jeho Bonferroni p-hodnota (\(0.91663\)) je extrémne vysoká, čo
potvrdzuje, že to nie je problém. Vďaka tomuto testu môžem s istotou
tvrdiť, že aj keď môj celkový regresný model vyšiel štatisticky
nevýznamný, viem, že táto nevýznamnosť nebola spôsobená nečistými
dátami. Inými slovami, model nefunguje kvôli povahe premenných, a nie
kvôli zlej dátovej príprave.
Nižšie je súhrn všetkého, čo som v rámci tejto kapitoly
interpretovala:
summary(model)
Call:
lm(formula = Confidence ~ Corruption + Freedom + Support, data = data_slovakia_clean)
Residuals:
Min 1Q Median 3Q Max
-0.070286 -0.031902 -0.003962 0.032197 0.081032
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.0501 2.0948 0.501 0.630
Corruption -0.1748 1.7882 -0.098 0.925
Freedom -0.1348 0.2596 -0.519 0.618
Support -0.5335 1.1512 -0.463 0.655
Residual standard error: 0.05442 on 8 degrees of freedom
Multiple R-squared: 0.07889, Adjusted R-squared: -0.2665
F-statistic: 0.2284 on 3 and 8 DF, p-value: 0.8741
par(mfrow = c(2, 2))
plot(model)
mtext("Diagnostické grafy regresného modelu: Dôvera vo vládu (Slovensko)",
outer = TRUE, cex = 1.2, font = 2, line = -1.5)
par(mfrow = c(1, 1))

library(tseries) # Pre Jarque-Bera test
library(car) # Pre outlierTest
print("--- TEST NORMALITY REZIDUÍ (Jarque-Bera test) ---")
[1] "--- TEST NORMALITY REZIDUÍ (Jarque-Bera test) ---"
residuals <- residuals(model)
jb_test <- jarque.bera.test(residuals)
print(jb_test)
Jarque Bera Test
data: residuals
X-squared = 0.56427, df = 2, p-value = 0.7542
print("--- TEST ODĽAHLÝCH HODNÔT (Outlier Test) ---")
[1] "--- TEST ODĽAHLÝCH HODNÔT (Outlier Test) ---"
outlier_test <- outlierTest(model)
print(outlier_test)
No Studentized residuals with Bonferroni p < 0.05
Largest |rstudent|:
Záver
Hlavným výsledkom analýzy je, že žiadna z mojich pracovných hypotéz
nebola potvrdená. Celý regresný model je štatisticky nevýznamný
(p-hodnota F-testu je \(0.8741\)), čo
znamená, že tri zvolené premenné spoločne nedokážu významne vysvetliť
zmeny v Dôvere vo vládu. Navyše, extrémne nízky \(R\)-kvadrát (\(0.0789\)) potvrdil, že model vysvetľuje len
necelých \(8\%\) variability
Dôvery.
Hoci koeficient Korupcie vyšiel s očakávaným negatívnym
znamienkom (\(-0.1748\)) a koeficient
Slobody vyšiel negatívne (\(-0.1348\))
v rozpore s očakávaním, žiaden z týchto vplyvov nebol
štatisticky významný.
Napriek štatistickej nevýznamnosti modelu bola celá analýza
metodologicky robustná a dátový súbor bol
dokonale čistý. Potvrdili to nasledovné zistenia:
Normalita a homoskedasticita: Štatistický Jarque-Bera test
(p-hodnota \(0.7542\)) potvrdil, že
reziduá sú normálne rozdelené, a vizualizácia Scale-Location grafu
potvrdila konštantný rozptyl chýb.
Čistota Dát: Bonferroniho korekcia a Outlier Test
definitívne potvrdili, že v dátovom súbore nezostal žiadny štatisticky
významný outlier. Rovnako graf Residuals vs. Leverage potvrdil, že
koeficienty neboli skreslené žiadnym vplyvným pozorovaním.
Na záver môžem s istotou konštatovať, že zlyhanie modelu
nebolo spôsobené chybami v dátach ani v metodike spracovania, ale
skutočnosťou, že Dôvera vo vládu na Slovensku nie je štatisticky
ovplyvnená faktormi Vnímanie korupcie, Sloboda voľby a Sociálna podpora
v rámci daného časového radu. Budúca analýza by sa mala zamerať
na odlišné, pravdepodobne makroekonomické alebo politické, faktory.
Hoci by bol tento konkrétny model v praxi považovaný za zbytočný,
keďže je štatisticky nevýznamný, no práve toto zistenie o
neexistencii významného vzťahu medzi zvolenými sociálnymi faktormi a
Dôverou vo vládu na Slovensku je samo o sebe cenným prínosom, ktorý
presúva focus na hľadanie odlišných, v modeli nezahrnutých,
vysvetľujúcich premenných.
Heteroskedasticita - CVIKO 7
Prítomnosť heteroskedasticity (nekonštantného rozptylu náhodnej
zložky) je kritický problém, pretože by viedla k nesprávnemu
vyhodnocovaniu \(t\)-testov
významnosti regresných koeficientov. Preto je nevyhnutné, aby
sme tento predpoklad dôkladne overili.
Aj keď sme už vizuálne preverili graf Scale-Location
a zistili, že rozptyl je konštantný, je potrebné tento záver
definitívne potvrdiť pre každú hlavnú vysvetľujúcu
premennú a následne štatistickým testom.
Preto sa v tejto sekcii zameriam na nasledovné kroky:
Vizuálna detekcia: Skúmanie závislosti štvorcov
rezíduí od premenných Vnímanie korupcie a Sloboda voľby
(pomocou grafov vygenerovaných v predošlom kroku). Týmto sa vizuálne
uistím, že rozptyl chýb nie je závislý od hodnôt prediktorov.
Štatistická detekcia: Použitie Breusch-Pagan
testu na formálne potvrdenie, že homoskedasticita je v tomto modeli
model splnená.
library(ggplot2)
library(patchwork)
p_corr <- ggplot(data_slovakia_clean, aes(x = Corruption, y = resid(model)^2)) +
geom_point(alpha = 0.7, color = "darkblue") + # Zmena farby bodov
geom_smooth(method = "lm", se = FALSE, color = "darkred", linetype = "dashed") +
labs(x = "Vnímanie korupcie (Corruption)",
y = "Štvorcové reziduá (Squared Residuals)",
title = "Reziduá vs. Korupcia") +
theme_classic()
p_free <- ggplot(data_slovakia_clean, aes(x = Freedom, y = resid(model)^2)) +
geom_point(alpha = 0.7, color = "darkgreen") +
geom_smooth(method = "lm", se = FALSE, color = "darkorange", linetype = "dotted") +
labs(x = "Sloboda voľby (Freedom)",
y = "Štvorcové reziduá (Squared Residuals)",
title = "Reziduá vs. Sloboda") +
theme_classic()
# Spojenie grafov vedľa seba
p_corr + p_free

Tieto grafy slúžia na detailnú vizuálnu kontrolu homoskedasticity
tým, že vykresľujú štvorcové reziduá modelu (mieru chyby) oproti dvom
hlavným vysvetľujúcim premenným.
Graf 1: Reziduá vs. Vnímanie Korupcie
Tento graf ukazuje, ako sa mení rozptyl chýb nášho modelu v
závislosti od úrovne vnímanej korupcie.
Chyba modelu: Body v grafe predstavujú druhú
mocninu chyby (reziduum), ktorú tento model urobil pre každý jednotlivý
rok. Vizuálne vidíme, že tieto body sú silne rozptýlené a ďaleko od
nuly. To je priamym dôsledkom toho, že je tento regresný model je
veľmi slabý (\(R^2 \approx 8\%\),
ako som uvádzala už na začiatku regresnej analýzy) a robí veľké chyby
pri predpovedi Dôvery vo vládu.
Interpretácia Červenej Čiary: Napriek veľkému
rozptylu jednotlivých chýb je kľúčové, že červená prerušovaná čiara,
ktorá ukazuje priemerný trend rozptylu, je úplne plochá. To
potvrdzuje, že rozptyl chýb je konštantný – veľkosť chyby nie je
systematicky závislá od úrovne korupcie.
Graf 2: Reziduá vs. Sloboda Voľby
Tento graf preveruje rovnaký predpoklad pre premennú Sloboda
voľby.
Chyba modelu: Podobne ako pri korupcii, aj v
tomto grafe je viditeľný veľký vertikálny rozptyl jednotlivých
zelených bodov. To opäť potvrdzuje, že model má nízku prediktívnu
silu.
Interpretácia Oranžovej Čiary: Oranžová
bodkovaná čiara, ktorá mapuje priemerný trend rozptylu, je plochá a
nemá žiaden sklon. To znamená, že chyba nášho modelu je rovnako
veľká bez ohľadu na úroveň Slobody voľby, čím je splnený predpoklad
konštantného rozptylu (homoskedasticity).
library(ggplot2)
library(patchwork)
data_slovakia_clean$log_Support <- log(data_slovakia_clean$Support)
p_log_supp <- ggplot(data_slovakia_clean, aes(x = log_Support, y = resid(model)^2)) +
geom_point(alpha = 0.7, color = "purple") +
geom_smooth(method = "lm", se = FALSE, color = "deeppink", linetype = "dotdash") + # Zmena štýlu čiary
labs(x = "Log(Sociálna podpora)",
y = "Štvorcové reziduá (Squared Residuals)",
title = "Reziduá vs. Log(Sociálna podpora)") +
theme_bw()
p_free_log <- ggplot(data_slovakia_clean, aes(x = Freedom, y = resid(model)^2)) +
geom_point(alpha = 0.7, color = "darkgreen") +
geom_smooth(method = "lm", se = FALSE, color = "darkorange", linetype = "dashed") +
labs(x = "Sloboda voľby (Freedom)",
y = "Štvorcové reziduá (Squared Residuals)",
title = "Reziduá vs. Sloboda") +
theme_bw()
# Spojenie grafov vedľa seba
p_log_supp + p_free_log

Napriek tomu, že tento model splnil predpoklad
homoskedasticity (vizuálne aj štatisticky), tento krok
demonštruje postup, akým by sme heteroskedasticitu odstránili, ak by sa
potvrdila.
Graf 1: Reziduá vs. Log(Sociálna podpora)
- Pozorovanie trendu: Na grafe vidíme, že vyhladená
ružová bodkovaná čiara je opäť horizontálna a nemá žiadny sklon. To
potvrdzuje, že aj po logaritmickej transformácii premennej Sociálna
podpora zostáva rozptyl chýb konštantný. Tento výsledok je v súlade s
našimi predchádzajúcimi zisteniami, že pôvodný model už je
homoskedastický a transformácia nebola nutná.
Graf 2: Reziduá vs. Sloboda Voľby
- Pozorovanie trendu: Opakovanie vizualizácie pre
Slobodu s použitím inej farebnej témy slúži len ako kontrolné
porovnanie. Oranžová prerušovaná čiara je rovnako plochá. Všetky
vizuálne kontroly teda súhlasia - model neobsahuje
heteroskedasticitu.
Testovanie prítomnosti heteroskedasticity
Pred vykonaním Breusch-Pagan testu stanovujeme nasledujúce hypotézy o
konštantnosti rozptylu chýb:
Nulová hypotéza (\(\boldsymbol{H}_{0}\)): Model je
homoskedastický (rozptyl chýb je konštantný).
Alternatívna hypotéza (\(\boldsymbol{H}_{1}\)): Model je
heteroskedastický (rozptyl chýb je nekonštantný).
library(lmtest)
bptest(model)
studentized Breusch-Pagan test
data: model
BP = 2.7629, df = 3, p-value = 0.4296
Keďže dosiahnutá \(p\)-hodnota
(\(0.4296\)) je výrazne vyššia ako
štandardná hladina významnosti \(\alpha =
0.05\), nulovú hypotézu nezamietame.
V praxi to znamená, že štandardné chyby regresných koeficientov sú
spoľahlivo a korektne vypočítané. Homoskedasticita tak nie je príčinou
štatistickej nevýznamnosti celého modelu (\(F\)-test \(p=0.8741\)), čím sa potvrdzuje
metodologická korektnosť analýzy.
library(sandwich)
library(lmtest)
coeftest(model, vcov = vcovHC(model))
t test of coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.05006 3.39223 0.3095 0.7648
Corruption -0.17483 3.21853 -0.0543 0.9580
Freedom -0.13480 0.36930 -0.3650 0.7246
Support -0.53348 1.58773 -0.3360 0.7455
Aplikácia robustných štandardných chýb slúžila na overenie,
či by prítomnosť prípadnej, hoci Breusch-Pagan testom nezistenej,
heteroskedasticity zmenila naše závery o významnosti.
Výsledok testu potvrdzuje náš predchádzajúci nález: Všetky \(p\)-hodnoty sú aj po aplikácii robustných
chýb (v rozsahu od \(0.7246\) do \(0.9580\)) výrazne vyššie ako hladina
významnosti \(\alpha = 0.05\). V
dôsledku toho hlavný záver zostáva nezmenený: ani jedna z
vysvetľujúcich premenných (Vnímanie korupcie, Sloboda voľby, Sociálna
podpora) nemá štatisticky významný vplyv na Dôveru vo vládu.
Nakoľko sa robustné štandardné chyby nelíšia signifikantne od pôvodných,
preukázali sme, že model je homoskedastický a robustný.
Záver
Cieľom tejto analýzy bolo preskúmať vplyv Korupcie, Slobody voľby a
Sociálnej podpory na Dôveru vo vládu pomocou lineárnej regresie.
Štatistická analýza preukázala, že ani jeden z faktorov
(Korupcia, Sloboda, Sociálna podpora) nemá štatisticky významný vplyv na
Dôveru vo vládu v sledovanom období. Nízka vysvetľujúca sila
modelu (\(R^2 \approx 8\%\)) potvrdila,
že táto trojica premenných nedokáže predpovedať Dôveru vo vládu.
Aj napriek neúspechu modelu sme podrobne preverili jeho metodologickú
kvalitu. Homoskedasticita (konštantný rozptyl chýb) bola
splnená – vizuálne aj štatisticky (Breusch-Pagan \(p = 0.4296\)).
Splnenie homoskedasticity znamená, že chyba tohto modelu je
rovnako veľká bez ohľadu na to, či meriame vplyv pri nízkej alebo
vysokej Slobode voľby.
