S využitím databázy World Happiness Report 2005-2021 database.

Úvod do problému

Predmetom tejto empirickej analýzy je štúdium Dôvery v národnú vládu (Confidence in national government) na Slovensku počas sledovaného obdobia, s využitím dát z databázy World Happiness Report. Dôvera v inštitúcie je kľúčovým indikátorom sociálnej súdržnosti a kvality správy vecí verejných. Mojím cieľom je identifikovať, ktoré faktory z ponuky dostupných dát majú štatisticky významný vplyv na kolísanie dôvery občanov v národnú vládu.

Rozhodla sme sa modelovať Dôveru v národnú vládu (Confidence) v závislosti od troch kľúčových vysvetľujúcich premenných: Vnímanie korupcie (Perceptions of corruption), Sloboda voľby (Freedom to make life choices) a Sociálna podpora (Social support).

Stanovenie hypotéz

Jednotlivé hypotézy o smere vplyvu sú nasledovné:

  1. Korupcia:
  1. Sloboda:
  1. Sociálna podpora:

Príprava databázy, čistenie a úprava údajov

Rovnako ako v prípade predošlej úlohy, aj v tomto prípade pracujem s údajmi výhradne pre Slovenskú republiku, takže v následujúcom kroku si vyfiltrujem konkrétne hodnoty zvolených premenných pre túto krajinu.

library(dplyr)
library(knitr)

# Načítanie dát
wh_data <- read.csv("World Happiness Report 2005-2021.csv", sep = ",", dec = ".", header = TRUE)

# Filtrovanie a výber premenných
data_slovakia <- wh_data %>%
  filter(Country.name == "Slovakia") %>%
  select(Confidence.in.national.government,
         Perceptions.of.corruption,
         Freedom.to.make.life.choices,
         Social.support)

# Zobrazenie tabuľky
kable(data_slovakia, caption = "Údaje pre Slovensko")
Údaje pre Slovensko
Confidence.in.national.government Perceptions.of.corruption Freedom.to.make.life.choices Social.support
0.1630792 0.9457313 0.5424797 0.9535792
0.3086795 0.9071360 0.6357577 0.9196400
0.2787239 0.9071323 0.7271631 0.9172934
0.3683802 0.9065322 0.6200043 0.9257514
0.2834932 0.9145399 0.5979358 0.9093785
0.3101815 0.9138702 0.6347917 0.9242427
0.2765307 0.9275451 0.5871577 0.9434537
0.3722222 0.9166092 0.7000985 0.9451791
0.3416801 0.9204227 0.7142247 0.9133866
0.3276586 0.9099447 0.7576340 0.9223787
0.2309728 0.9258467 0.7711216 0.9330883
0.3074445 0.9005337 0.7618966 0.9541600
0.2158076 0.8955466 0.7415332 0.9511639

Následne premenujem stĺpce pre jednoduchšiu prácu a imputujem chýbajúce hodnoty (NA) v každom stĺpci pomocou mediánu, čím zabezpečím, že regresný model bude môcť použiť maximálny počet pozorovaní.

wh_data <- read.csv("World Happiness Report 2005-2021.csv", sep = ",", dec = ".", header = TRUE)

data_slovakia <- wh_data %>%
  filter(`Country.name` == "Slovakia") %>%
  select(`Confidence.in.national.government`, `Perceptions.of.corruption`, `Freedom.to.make.life.choices`, `Social.support`)

# Premenovanie stĺpcov pre jednoduchšiu prácu
colnames(data_slovakia) <- c("Confidence", "Corruption", "Freedom", "Support")

# Imputácia chýbajúcich hodnôt mediánom
column_medians <- sapply(data_slovakia, median, na.rm = TRUE)
for (col in names(data_slovakia)) {
  data_slovakia[[col]][is.na(data_slovakia[[col]])] <- column_medians[col]
}

Ďalej si pre každú premennú vygenerujem boxplot za účelom overenia prípadných nezrovnalostí (konkrétne výskytu odľahlých hodnôt, tzv. outliers).

par(mfrow = c(2, 2))
par(mar = c(4, 4, 2, 1))  

# Vykreslenie boxplotov pre každú premennú
for (col in names(data_slovakia)) {
  boxplot(data_slovakia[[col]],
          main = col,
          xlab = "Hodnota",
          col = "lightblue",
          border = "darkblue")
}

# Nadpis pre všetky grafy
mtext("Boxploty jednotlivých premenných (Slovensko)", outer = TRUE, cex = 1.4, font = 2)

# Resetovanie rozloženia na 1 graf
par(mfrow = c(1, 1))

Vizualizácia rozdelenia hodnôt pomocou boxplotov mi jasne ukázala, že v prípade dvoch premenných, konkrétne Confidence (Dôvera vo vládu) a Corruption (Vnímanie korupcie), mám prítomné odľahlé hodnoty. Tieto extrémy musím teraz odstrániť, pretože ich ponechanie v dátach by mohlo skresliť odhadované regresné koeficienty a vážne oslabiť spoľahlivosť celého môjho lineárneho modelu.

remove_outliers <- function(x) {
  q1 <- quantile(x, 0.25, na.rm = TRUE)
  q3 <- quantile(x, 0.75, na.rm = TRUE)
  iqr <- q3 - q1
  lower <- q1 - 1.5 * iqr
  upper <- q3 + 1.5 * iqr
  x[x < lower | x > upper] <- NA
  return(x)
}
# Aplikácia na všetky stĺpce
data_slovakia_clean <- data_slovakia %>%
  mutate(
    Confidence = remove_outliers(Confidence),
    Corruption = remove_outliers(Corruption),
    Freedom    = remove_outliers(Freedom),
    Support    = remove_outliers(Support)
  )

Ďalej som odstránila všetky riadky, v ktorých po odstránení odľahlých hodnôt zostala aspoň jedna chýbajúca hodnota (NA), čím zabezpečím, že môj regresný model bude pracovať len s kompletnými a čistými pozorovaniami.

data_slovakia_clean <- na.omit(data_slovakia_clean)

Po všetkých vyššie uvedených korekciách nasleduje opätovná vizualizácia všetkých 4 boxplotov.

par(mfrow = c(2, 2))
for (col in names(data_slovakia_clean)) {
  boxplot(data_slovakia_clean[[col]],
          main = col,
          xlab = "Hodnota",
          col = "lightblue",
          border = "darkblue")
}
par(mfrow = c(1, 1))

Možno konštatovať, že vizuálna kontrola potvrdila úspešné odstránenie odľahlých hodnôt.

Lineárna regresia

model <- lm(Confidence ~ Corruption + Freedom + Support, data = data_slovakia_clean)

summary(model)

Call:
lm(formula = Confidence ~ Corruption + Freedom + Support, data = data_slovakia_clean)

Residuals:
      Min        1Q    Median        3Q       Max 
-0.070286 -0.031902 -0.003962  0.032197  0.081032 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)
(Intercept)   1.0501     2.0948   0.501    0.630
Corruption   -0.1748     1.7882  -0.098    0.925
Freedom      -0.1348     0.2596  -0.519    0.618
Support      -0.5335     1.1512  -0.463    0.655

Residual standard error: 0.05442 on 8 degrees of freedom
Multiple R-squared:  0.07889,   Adjusted R-squared:  -0.2665 
F-statistic: 0.2284 on 3 and 8 DF,  p-value: 0.8741

Tento výstup mi zobrazil súhrn modelu a potvrdil, že žiadna z mojich pracovných hypotéz nebola splnená, pretože Korupcia, Sloboda a Sociálna podpora spoločne nevedia významne vysvetliť Dôveru vo vládu. Tento záver je podložený extrémne vysokou p-hodnotou F-testu (\(0.8741\)), čo znamená, že model ako celok je štatisticky nevýznamný. Navyše, R-kvadrát s hodnotou len \(0.0789\) ukazuje, že môj model dokáže vysvetliť iba \(8\%\) variability Dôvery vo vládu. Zistila som, že žiadna z premenných nie je významná a dokonca Sloboda vyšla s neočakávaným negatívnym znamienkom, hoci to nie je štatisticky podstatné.

model <- lm(Confidence ~ Corruption + Freedom + Support, data = data_slovakia_clean)

print("Odhadnuté koeficienty sú:")
[1] "Odhadnuté koeficienty sú:"
print(model$coefficients)
(Intercept)  Corruption     Freedom     Support 
  1.0500560  -0.1748333  -0.1348024  -0.5334834 
print("Odhadnuté rezíduá:")
[1] "Odhadnuté rezíduá:"
print(model$residuals)
           2            3            4            5            6            7            8 
-0.006464541 -0.025350999  0.054267282 -0.040929199 -0.001459967 -0.028892390  0.081032297 
           9           10           11           12           13 
 0.036100442  0.030895885 -0.055478171  0.026565799 -0.070286437 
print("Vyrovnané hodnoty vysvetľovanej premennej sú:")
[1] "Vyrovnané hodnoty vysvetľovanej premennej sú:"
print(model$fitted.values)
        2         3         4         5         6         7         8         9        10        11 
0.3151441 0.3040749 0.3141129 0.3244224 0.3116415 0.3054231 0.2911899 0.3055796 0.2967627 0.2864510 
       12        13 
0.2808787 0.2860940 
print("Matica modelu X:")
[1] "Matica modelu X:"
X <- model.matrix(model)
print(X)
   (Intercept) Corruption   Freedom   Support
2            1  0.9071360 0.6357577 0.9196400
3            1  0.9071323 0.7271631 0.9172934
4            1  0.9065322 0.6200043 0.9257514
5            1  0.9145399 0.5979358 0.9093785
6            1  0.9138702 0.6347917 0.9242427
7            1  0.9275451 0.5871577 0.9434537
8            1  0.9166092 0.7000985 0.9451791
9            1  0.9204227 0.7142247 0.9133866
10           1  0.9099447 0.7576340 0.9223787
11           1  0.9258467 0.7711216 0.9330883
12           1  0.9005337 0.7618966 0.9541600
13           1  0.8955466 0.7415332 0.9511639
attr(,"assign")
[1] 0 1 2 3
print("Diagonála hat-matrix (vplyv jednotlivých pozorovaní):")
[1] "Diagonála hat-matrix (vplyv jednotlivých pozorovaní):"
print(diag(X %*% solve(t(X) %*% X) %*% t(X)))
        2         3         4         5         6         7         8         9        10        11 
0.2176273 0.2451038 0.2432431 0.3365416 0.1397919 0.6657322 0.2203391 0.3060035 0.2481669 0.5207307 
       12        13 
0.4035421 0.4531777 
# Súhrnný výstup modelu
summary(model)

Call:
lm(formula = Confidence ~ Corruption + Freedom + Support, data = data_slovakia_clean)

Residuals:
      Min        1Q    Median        3Q       Max 
-0.070286 -0.031902 -0.003962  0.032197  0.081032 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)
(Intercept)   1.0501     2.0948   0.501    0.630
Corruption   -0.1748     1.7882  -0.098    0.925
Freedom      -0.1348     0.2596  -0.519    0.618
Support      -0.5335     1.1512  -0.463    0.655

Residual standard error: 0.05442 on 8 degrees of freedom
Multiple R-squared:  0.07889,   Adjusted R-squared:  -0.2665 
F-statistic: 0.2284 on 3 and 8 DF,  p-value: 0.8741

V druhom kroku som si “vyžiadala” detaily o vnútornej štruktúre modelu, aby som preverila jeho metodologickú kvalitu. Zistila som, že reziduá sú veľmi malé, čo je dobré. Najdôležitejšie je však to, že kontrola pomocou diagonály hat-matrix potvrdila, že žiadne jednotlivé pozorovanie nemá neprimerane veľký vplyv na výpočet koeficientov. To je kľúčové zistenie, pretože aj keď je môj model celkovo neúspešný vo vysvetľovaní Dôvery, môžem s istotou tvrdiť, že jeho odhady sú spoľahlivé a nie sú skreslené chybami ani extrémnymi dátovými bodmi.

par(mfrow = c(2, 2))

plot(model)

# Resetovanie rozloženia na 1 graf
par(mfrow = c(1, 1))

Residuals vs. Fitted

Tento graf vizuálne potvrdzuje splnenie predpokladu linearity a homoskedasticity pre môj model. To znamená, že body sú rozptýlené pomerne rovnomerne okolo nulovej horizontálnej osi a táto os je navyše takmer rovná. To naznačuje, že vzťah medzi mojimi prediktormi (Korupcia, Sloboda, Podpora) a Dôverou vo vládu nie je zásadne zakrivený a že chyby modelu sú rozložené konzistentne.V praxi to znamená, že neexistuje žiadny dôkaz, že by sa dôvera vo vládu začala pri určitom bode (napr. pri veľmi nízkej korupcii) správať nelineárne, ako napríklad prudko stúpať namiesto pomalého rastu.

Q-Q plot

Tento graf vizuálne preveruje normálne rozdelenie reziduí, čo je kľúčový predpoklad pre spoľahlivosť \(t\)-testov a \(F\)-testu v OLS regresii. Vzhľadom na to, že môj \(F\)-test už ukázal nevýznamnosť, tento graf kontroluje kvalitu odhadov. Vizuálne možno konštatovať odchýlku od normality, pretože body na chvostoch distribúcie (extrémy) sa viditeľne vzdialili od teoretickej diagonálnej čiary, čo indikuje, že distribúcia chýb môjho modelu má ťažšie chvosty (fat tails). Z tohto dôvodu je kriticky dôležité spustiť následný Jarque-Bera test, aby sme štatisticky zistili, či je táto vizuálna abnormalita natoľko závažná, že by definitívne potvrdila neschopnosť modelu spoľahlivo robiť akékoľvek závery.

Scale location plot

Tento graf slúži na definitívne overenie homoskedasticity, teda predpokladu konštantného rozptylu chýb. Môžem potvrdiť splnenie tohto kľúčového predpokladu, pretože červená os je takmer úplne plochá a body nevykazujú žiaden zjavný lievikovitý tvar, čo by signalizovalo problém.

V praxi to pre môj model Dôvery vo vládu znamená, že spoľahlivosť chýb modelu je rovnaká bez ohľadu na to, akú úroveň Dôvery predikujem. Inak povedané, model je rovnako spoľahlivý (alebo rovnako zlý) v predpovedi pre roky s nízkou Dôverou (ľavá strana) ako aj pre roky s vyššou Dôverou (pravá strana).

Hoci je celkový rozptyl konštantný, je možné vidieť jemný náznak lievikovitého tvaru v extrémnych prípadoch. Ak by sa táto odchýlka potvrdila, mohlo by to byť spôsobené tým, že chyba modelu je väčšia pri extrémne nízkych hodnotách Dôvery, napríklad v krízových rokoch, kde je Dôvera nízka, no politická reakcia je nepredvídateľná. Keďže je ale táto odchýlka minimálna, možno ju ignorovať a považovať predpoklad za splnený.

Residuals vs Leverage

Tento graf slúži na finálnu kontrolu dát, presnejšie na identifikáciu vplyvných pozorovaní (bodov s vysokou pákou), ktoré by mohli ovplyvniť regresnú čiaru. S potešením konštatujem, že žiaden dátový bod nemá extrémne vysokú páku ani vplyv na výpočet koeficientov, pretože žiaden bod neprekročil Cútove vzdialenosti (červené prerušované čiary \(0.5\) a \(1\)). Týmto sa definitívne potvrdzuje robustnosť môjho modelu. Hoci som outliers z boxplotov odstránila už predtým, tento graf mi dáva istotu, že v dátach nezostal žiaden skrytý vplyvný bod, a môžem tvrdiť, že aj napriek nevýznamnosti \(F\)-testu neboli koeficienty skreslené žiadnym jednotlivým rokom.

# Test normality reziduí
residuals <- residuals(model)
jb_test <- jarque.bera.test(residuals)
jb_test

    Jarque Bera Test

data:  residuals
X-squared = 0.56427, df = 2, p-value = 0.7542
# Test odľahlých hodnôt (Bonferroni korekcia)
outlier_test <- outlierTest(model)
outlier_test
No Studentized residuals with Bonferroni p < 0.05
Largest |rstudent|:

Jarque-Bera test overuje predpoklad, či sú chyby môjho modelu (reziduá) normálne rozdelené. Tento predpoklad je splnený, pretože výsledná p-hodnota \(0.7542\) je oveľa vyššia ako kritická hodnota \(0.05\). Preto môžem tvrdiť, že aj napriek vizuálnej miernej odchýlke v Q-Q grafe, sú moje reziduá štatisticky normálne rozdelené, čo zabezpečuje spoľahlivosť \(t\)-testov koeficientov (hoci vyšli nevýznamné).

Bonferroniho korekcia slúži na definitívne potvrdenie čistoty dát po tom, čo som už manuálne odstránila outliers z boxplotov. Výstup “No Studentized residuals with Bonferroni p < 0.05” je kľúčový a znamená, že v mojom modeli nezostal žiadny štatisticky významný outlier, ktorý by mohol pokaziť výsledky. Hoci mi R vypísalo najpodozrivejšie pozorovanie (s ID \(13\)), jeho Bonferroni p-hodnota (\(0.91663\)) je extrémne vysoká, čo potvrdzuje, že to nie je problém. Vďaka tomuto testu môžem s istotou tvrdiť, že aj keď môj celkový regresný model vyšiel štatisticky nevýznamný, viem, že táto nevýznamnosť nebola spôsobená nečistými dátami. Inými slovami, model nefunguje kvôli povahe premenných, a nie kvôli zlej dátovej príprave.

Nižšie je súhrn všetkého, čo som v rámci tejto kapitoly interpretovala:

summary(model)

Call:
lm(formula = Confidence ~ Corruption + Freedom + Support, data = data_slovakia_clean)

Residuals:
      Min        1Q    Median        3Q       Max 
-0.070286 -0.031902 -0.003962  0.032197  0.081032 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)
(Intercept)   1.0501     2.0948   0.501    0.630
Corruption   -0.1748     1.7882  -0.098    0.925
Freedom      -0.1348     0.2596  -0.519    0.618
Support      -0.5335     1.1512  -0.463    0.655

Residual standard error: 0.05442 on 8 degrees of freedom
Multiple R-squared:  0.07889,   Adjusted R-squared:  -0.2665 
F-statistic: 0.2284 on 3 and 8 DF,  p-value: 0.8741
par(mfrow = c(2, 2))

plot(model)

mtext("Diagnostické grafy regresného modelu: Dôvera vo vládu (Slovensko)", 
      outer = TRUE, cex = 1.2, font = 2, line = -1.5) 

par(mfrow = c(1, 1))


library(tseries) # Pre Jarque-Bera test
library(car)     # Pre outlierTest

print("--- TEST NORMALITY REZIDUÍ (Jarque-Bera test) ---")
[1] "--- TEST NORMALITY REZIDUÍ (Jarque-Bera test) ---"
residuals <- residuals(model)
jb_test <- jarque.bera.test(residuals)
print(jb_test)

    Jarque Bera Test

data:  residuals
X-squared = 0.56427, df = 2, p-value = 0.7542
print("--- TEST ODĽAHLÝCH HODNÔT (Outlier Test) ---")
[1] "--- TEST ODĽAHLÝCH HODNÔT (Outlier Test) ---"
outlier_test <- outlierTest(model)
print(outlier_test)
No Studentized residuals with Bonferroni p < 0.05
Largest |rstudent|:

Záver

Hlavným výsledkom analýzy je, že žiadna z mojich pracovných hypotéz nebola potvrdená. Celý regresný model je štatisticky nevýznamný (p-hodnota F-testu je \(0.8741\)), čo znamená, že tri zvolené premenné spoločne nedokážu významne vysvetliť zmeny v Dôvere vo vládu. Navyše, extrémne nízky \(R\)-kvadrát (\(0.0789\)) potvrdil, že model vysvetľuje len necelých \(8\%\) variability Dôvery.

Hoci koeficient Korupcie vyšiel s očakávaným negatívnym znamienkom (\(-0.1748\)) a koeficient Slobody vyšiel negatívne (\(-0.1348\)) v rozpore s očakávaním, žiaden z týchto vplyvov nebol štatisticky významný.

Napriek štatistickej nevýznamnosti modelu bola celá analýza metodologicky robustná a dátový súbor bol dokonale čistý. Potvrdili to nasledovné zistenia:

  • Normalita a homoskedasticita: Štatistický Jarque-Bera test (p-hodnota \(0.7542\)) potvrdil, že reziduá sú normálne rozdelené, a vizualizácia Scale-Location grafu potvrdila konštantný rozptyl chýb.

  • Čistota Dát: Bonferroniho korekcia a Outlier Test definitívne potvrdili, že v dátovom súbore nezostal žiadny štatisticky významný outlier. Rovnako graf Residuals vs. Leverage potvrdil, že koeficienty neboli skreslené žiadnym vplyvným pozorovaním.

Na záver môžem s istotou konštatovať, že zlyhanie modelu nebolo spôsobené chybami v dátach ani v metodike spracovania, ale skutočnosťou, že Dôvera vo vládu na Slovensku nie je štatisticky ovplyvnená faktormi Vnímanie korupcie, Sloboda voľby a Sociálna podpora v rámci daného časového radu. Budúca analýza by sa mala zamerať na odlišné, pravdepodobne makroekonomické alebo politické, faktory.

Hoci by bol tento konkrétny model v praxi považovaný za zbytočný, keďže je štatisticky nevýznamný, no práve toto zistenie o neexistencii významného vzťahu medzi zvolenými sociálnymi faktormi a Dôverou vo vládu na Slovensku je samo o sebe cenným prínosom, ktorý presúva focus na hľadanie odlišných, v modeli nezahrnutých, vysvetľujúcich premenných.

Heteroskedasticita - CVIKO 7

Prítomnosť heteroskedasticity (nekonštantného rozptylu náhodnej zložky) je kritický problém, pretože by viedla k nesprávnemu vyhodnocovaniu \(t\)-testov významnosti regresných koeficientov. Preto je nevyhnutné, aby sme tento predpoklad dôkladne overili.

Aj keď sme už vizuálne preverili graf Scale-Location a zistili, že rozptyl je konštantný, je potrebné tento záver definitívne potvrdiť pre každú hlavnú vysvetľujúcu premennú a následne štatistickým testom.

Preto sa v tejto sekcii zameriam na nasledovné kroky:

  1. Vizuálna detekcia: Skúmanie závislosti štvorcov rezíduí od premenných Vnímanie korupcie a Sloboda voľby (pomocou grafov vygenerovaných v predošlom kroku). Týmto sa vizuálne uistím, že rozptyl chýb nie je závislý od hodnôt prediktorov.

  2. Štatistická detekcia: Použitie Breusch-Pagan testu na formálne potvrdenie, že homoskedasticita je v tomto modeli model splnená.

library(ggplot2)
library(patchwork)

p_corr <- ggplot(data_slovakia_clean, aes(x = Corruption, y = resid(model)^2)) +
  geom_point(alpha = 0.7, color = "darkblue") + # Zmena farby bodov
  geom_smooth(method = "lm", se = FALSE, color = "darkred", linetype = "dashed") + 
  labs(x = "Vnímanie korupcie (Corruption)",
       y = "Štvorcové reziduá (Squared Residuals)",
       title = "Reziduá vs. Korupcia") +
  theme_classic() 

p_free <- ggplot(data_slovakia_clean, aes(x = Freedom, y = resid(model)^2)) +
  geom_point(alpha = 0.7, color = "darkgreen") +
  geom_smooth(method = "lm", se = FALSE, color = "darkorange", linetype = "dotted") + 
  labs(x = "Sloboda voľby (Freedom)",
       y = "Štvorcové reziduá (Squared Residuals)",
       title = "Reziduá vs. Sloboda") +
  theme_classic()

# Spojenie grafov vedľa seba
p_corr + p_free

Tieto grafy slúžia na detailnú vizuálnu kontrolu homoskedasticity tým, že vykresľujú štvorcové reziduá modelu (mieru chyby) oproti dvom hlavným vysvetľujúcim premenným.

Graf 1: Reziduá vs. Vnímanie Korupcie

Tento graf ukazuje, ako sa mení rozptyl chýb nášho modelu v závislosti od úrovne vnímanej korupcie.

  • Chyba modelu: Body v grafe predstavujú druhú mocninu chyby (reziduum), ktorú tento model urobil pre každý jednotlivý rok. Vizuálne vidíme, že tieto body sú silne rozptýlené a ďaleko od nuly. To je priamym dôsledkom toho, že je tento regresný model je veľmi slabý (\(R^2 \approx 8\%\), ako som uvádzala už na začiatku regresnej analýzy) a robí veľké chyby pri predpovedi Dôvery vo vládu.

  • Interpretácia Červenej Čiary: Napriek veľkému rozptylu jednotlivých chýb je kľúčové, že červená prerušovaná čiara, ktorá ukazuje priemerný trend rozptylu, je úplne plochá. To potvrdzuje, že rozptyl chýb je konštantný – veľkosť chyby nie je systematicky závislá od úrovne korupcie.

Graf 2: Reziduá vs. Sloboda Voľby

Tento graf preveruje rovnaký predpoklad pre premennú Sloboda voľby.

  • Chyba modelu: Podobne ako pri korupcii, aj v tomto grafe je viditeľný veľký vertikálny rozptyl jednotlivých zelených bodov. To opäť potvrdzuje, že model má nízku prediktívnu silu.

  • Interpretácia Oranžovej Čiary: Oranžová bodkovaná čiara, ktorá mapuje priemerný trend rozptylu, je plochá a nemá žiaden sklon. To znamená, že chyba nášho modelu je rovnako veľká bez ohľadu na úroveň Slobody voľby, čím je splnený predpoklad konštantného rozptylu (homoskedasticity).

library(ggplot2)
library(patchwork)

data_slovakia_clean$log_Support <- log(data_slovakia_clean$Support)

p_log_supp <- ggplot(data_slovakia_clean, aes(x = log_Support, y = resid(model)^2)) +
  geom_point(alpha = 0.7, color = "purple") +
  geom_smooth(method = "lm", se = FALSE, color = "deeppink", linetype = "dotdash") + # Zmena štýlu čiary
  labs(x = "Log(Sociálna podpora)",
       y = "Štvorcové reziduá (Squared Residuals)",
       title = "Reziduá vs. Log(Sociálna podpora)") +
  theme_bw() 

p_free_log <- ggplot(data_slovakia_clean, aes(x = Freedom, y = resid(model)^2)) +
  geom_point(alpha = 0.7, color = "darkgreen") +
  geom_smooth(method = "lm", se = FALSE, color = "darkorange", linetype = "dashed") +
  labs(x = "Sloboda voľby (Freedom)",
       y = "Štvorcové reziduá (Squared Residuals)",
       title = "Reziduá vs. Sloboda") +
  theme_bw()

# Spojenie grafov vedľa seba
p_log_supp + p_free_log

Napriek tomu, že tento model splnil predpoklad homoskedasticity (vizuálne aj štatisticky), tento krok demonštruje postup, akým by sme heteroskedasticitu odstránili, ak by sa potvrdila.

Graf 1: Reziduá vs. Log(Sociálna podpora)

  • Pozorovanie trendu: Na grafe vidíme, že vyhladená ružová bodkovaná čiara je opäť horizontálna a nemá žiadny sklon. To potvrdzuje, že aj po logaritmickej transformácii premennej Sociálna podpora zostáva rozptyl chýb konštantný. Tento výsledok je v súlade s našimi predchádzajúcimi zisteniami, že pôvodný model už je homoskedastický a transformácia nebola nutná.

Graf 2: Reziduá vs. Sloboda Voľby

  • Pozorovanie trendu: Opakovanie vizualizácie pre Slobodu s použitím inej farebnej témy slúži len ako kontrolné porovnanie. Oranžová prerušovaná čiara je rovnako plochá. Všetky vizuálne kontroly teda súhlasia - model neobsahuje heteroskedasticitu.

Testovanie prítomnosti heteroskedasticity

Pred vykonaním Breusch-Pagan testu stanovujeme nasledujúce hypotézy o konštantnosti rozptylu chýb:

  • Nulová hypotéza (\(\boldsymbol{H}_{0}\)): Model je homoskedastický (rozptyl chýb je konštantný).

  • Alternatívna hypotéza (\(\boldsymbol{H}_{1}\)): Model je heteroskedastický (rozptyl chýb je nekonštantný).

library(lmtest)
bptest(model)

    studentized Breusch-Pagan test

data:  model
BP = 2.7629, df = 3, p-value = 0.4296

Keďže dosiahnutá \(p\)-hodnota (\(0.4296\)) je výrazne vyššia ako štandardná hladina významnosti \(\alpha = 0.05\), nulovú hypotézu nezamietame.

V praxi to znamená, že štandardné chyby regresných koeficientov sú spoľahlivo a korektne vypočítané. Homoskedasticita tak nie je príčinou štatistickej nevýznamnosti celého modelu (\(F\)-test \(p=0.8741\)), čím sa potvrdzuje metodologická korektnosť analýzy.

library(sandwich)
library(lmtest)
coeftest(model, vcov = vcovHC(model))

t test of coefficients:

            Estimate Std. Error t value Pr(>|t|)
(Intercept)  1.05006    3.39223  0.3095   0.7648
Corruption  -0.17483    3.21853 -0.0543   0.9580
Freedom     -0.13480    0.36930 -0.3650   0.7246
Support     -0.53348    1.58773 -0.3360   0.7455

Aplikácia robustných štandardných chýb slúžila na overenie, či by prítomnosť prípadnej, hoci Breusch-Pagan testom nezistenej, heteroskedasticity zmenila naše závery o významnosti.

Výsledok testu potvrdzuje náš predchádzajúci nález: Všetky \(p\)-hodnoty sú aj po aplikácii robustných chýb (v rozsahu od \(0.7246\) do \(0.9580\)) výrazne vyššie ako hladina významnosti \(\alpha = 0.05\). V dôsledku toho hlavný záver zostáva nezmenený: ani jedna z vysvetľujúcich premenných (Vnímanie korupcie, Sloboda voľby, Sociálna podpora) nemá štatisticky významný vplyv na Dôveru vo vládu. Nakoľko sa robustné štandardné chyby nelíšia signifikantne od pôvodných, preukázali sme, že model je homoskedastický a robustný.

Záver

Cieľom tejto analýzy bolo preskúmať vplyv Korupcie, Slobody voľby a Sociálnej podpory na Dôveru vo vládu pomocou lineárnej regresie.

Štatistická analýza preukázala, že ani jeden z faktorov (Korupcia, Sloboda, Sociálna podpora) nemá štatisticky významný vplyv na Dôveru vo vládu v sledovanom období. Nízka vysvetľujúca sila modelu (\(R^2 \approx 8\%\)) potvrdila, že táto trojica premenných nedokáže predpovedať Dôveru vo vládu.

Aj napriek neúspechu modelu sme podrobne preverili jeho metodologickú kvalitu. Homoskedasticita (konštantný rozptyl chýb) bola splnená – vizuálne aj štatisticky (Breusch-Pagan \(p = 0.4296\)).

Splnenie homoskedasticity znamená, že chyba tohto modelu je rovnako veľká bez ohľadu na to, či meriame vplyv pri nízkej alebo vysokej Slobode voľby.

