Príprava databázy, čistenie a úprava údajov
# Načítanie vlastného datasetu
data <- read.csv("population_data.csv", sep = ",", header = TRUE)
# Výber relevantných stĺpcov pre model
# Zameriam sa na počet obyvateľov, pôrodnosť, mediánový vek a migráciu
data_selected <- data[, c("Country..or.dependency.", "Population.2025", "Fert..Rate", "Median.Age", "Migrants..net.")]
# Konverzia textových hodnôt (s percentami alebo čiarkami) na číselné typy
data_selected$`Migrants..net.` <- as.numeric(gsub("[^0-9.-]", "", data_selected$`Migrants..net.`))
# Doplnenie chýbajúcich hodnôt mediánom
column_medians <- sapply(data_selected, function(x) if(is.numeric(x)) median(x, na.rm = TRUE) else NA)
for (col in names(data_selected)) {
if (is.numeric(data_selected[[col]])) {
data_selected[[col]][is.na(data_selected[[col]])] <- column_medians[col]
}
}
# Pre lepšiu čitateľnosť premenujeme dataset
population_data <- data_selected
# Náhľad na prvé riadky po úprave
head(population_data)
NA
Teraz chceme vidieť tvar údajov (či nie sú v nich nejaké
nezrovnalosti – napríklad hodnoty 0).
# Vizualizácia tvaru údajov – boxploty
# Nastavíme dataset
dataset <- data_selected # alebo population_data, podľa názvu, ktorý používaš
# Nastavenie rozloženia grafov (2 riadky × 2 stĺpce)
par(mfrow = c(2, 2))
par(mar = c(4, 4, 2, 1)) # okraje grafov
# Vytvorenie boxplotov pre všetky numerické premenné okrem názvu krajiny
for (col in names(dataset)[-1]) {
boxplot(dataset[[col]],
main = paste("Boxplot:", col),
xlab = "Hodnoty",
col = "lightblue",
border = "darkblue")
}
# Nadpis pre celú sadu grafov
mtext("Boxploty demografických premenných", outer = TRUE, cex = 1.4, font = 2)
# Obnovenie pôvodného zobrazenia grafov
par(mfrow = c(1, 1))

🔎 Interpretácia boxplotov
Z vyššie uvedených boxplotov je zrejmé, že údaje o
populácii a migrácii obsahujú niekoľko
odľahlých hodnôt, čo súvisí s rozdielnou veľkosťou krajín a ich
ekonomickým postavením. Pôrodnosť a mediánový
vek vykazujú relatívne stabilnejšie rozdelenie bez extrémov.
Takéto vizualizácie sú dôležité, pretože upozorňujú na možné zdroje
variability, ktoré môžu ovplyvniť výsledky regresnej analýzy.
Population 2025 Fert.
Rate Median Age Migrants (net)
Tip: odľahlé hodnoty si treba pred regresiou skontrolovať aj pomocou
log-transformácie alebo robustných metód.
Lineárna regresia
Model odhadujeme príkazom lm(), ktorý v R slúži na
vytváranie lineárnych modelov. V našom prípade chceme zistiť, ako
miera pôrodnosti (Fert_Rate), mediánový vek
(Median_Age) a čistá migrácia (Migrants_net)
ovplyvňujú počet obyvateľov v roku 2025
(Population_2025).
# Odhad lineárneho modelu
model <- lm(Population.2025 ~ Fert..Rate + Median.Age + Migrants..net., data = data_selected)
# Výpis výsledkov regresie
summary(model)
Call:
lm(formula = Population.2025 ~ Fert..Rate + Median.Age + Migrants..net.,
data = data_selected)
Residuals:
Min 1Q Median 3Q Max
-436177860 -23955134 -16362094 -2549708 1321181637
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.032e+08 8.541e+07 1.208 0.228
Fert..Rate -1.316e+07 1.471e+07 -0.895 0.372
Median.Age -1.655e+06 1.689e+06 -0.980 0.328
Migrants..net. 2.669e+02 4.935e+01 5.408 1.6e-07 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 131400000 on 229 degrees of freedom
Multiple R-squared: 0.1198, Adjusted R-squared: 0.1083
F-statistic: 10.39 on 3 and 229 DF, p-value: 1.95e-06
📊 Interpretácia výsledkov regresie
Výsledky lineárneho modelu ukazujú, že migrácia
(Migrants_net) má významný pozitívny vplyv na
veľkosť populácie v roku 2025. Krajiny s vyššou čistou migráciou majú
tendenciu mať väčší počet obyvateľov. Naopak, premenné pôrodnosť
(Fert_Rate) a mediánový vek (Median_Age) sa v
modeli ukázali ako štatisticky nevýznamné, hoci majú očakávané znamienka
(vyšší vek znižuje rast populácie, vyššia pôrodnosť by ho mala
zvyšovať).
Koeficient determinácie R² = 0.12 naznačuje, že model
vysvetľuje približne 12 % variability populácie medzi krajinami. Hoci
ide o relatívne nízku hodnotu, výsledok je pre makroekonomické a
demografické dáta bežný. F-test (p-hodnota 1.95e–06)
potvrdzuje, že model ako celok je štatisticky významný.
Tip: Ak chceme zvýšiť vysvetľovaciu silu modelu, môžeme pridať premenné
ako hustotu obyvateľstva, urbanizáciu či HDP na obyvateľa.
Výstupy z objektu lm()
Objekt triedy lm() nám poskytuje niekoľko dôležitých
výstupov:
- Vektor odhadnutých koeficientov –
model$coefficients
- Vektor rezíduí (chýb odhadu) –
model$residuals
- Vektor vyrovnaných hodnôt vysvetľovanej veličiny –
model$fitted.values
- Maticu vysvetľujúcich premenných –
model$model alebo model.matrix(model)
# Výpis základných komponentov objektu "model"
cat("1️⃣ Odhadnuté koeficienty:\n")
1️⃣ Odhadnuté koeficienty:
print(model$coefficients)
(Intercept) Fert..Rate Median.Age Migrants..net.
1.031595e+08 -1.316478e+07 -1.655349e+06 2.668986e+02
cat("\n2️⃣ Prvých 10 hodnôt rezíduí:\n")
2️⃣ Prvých 10 hodnôt rezíduí:
print(head(model$residuals, 10))
1 2 3 4 5 6
1301603888 1321181637 711840 249985427 -97472584 216866260
7 8 9 10
130330100 36024158 59689672 107667495
cat("\n3️⃣ Prvých 10 vyrovnaných hodnôt vysvetľovanej premennej:\n")
3️⃣ Prvých 10 vyrovnaných hodnôt vysvetľovanej premennej:
print(head(model$fitted.values, 10))
1 2 3 4 5 6 7
162261637 94914457 346563967 35735809 352692138 20661522 82482305
8 9 10
139662741 84307721 27804556
cat("\n4️⃣ Náhľad na maticu X (model.matrix):\n")
4️⃣ Náhľad na maticu X (model.matrix):
print(head(model.matrix(model)))
(Intercept) Fert..Rate Median.Age Migrants..net.
1 1 1.94 28.8 495753
2 1 1.02 40.1 268126
3 1 1.62 38.5 1230663
4 1 2.10 30.4 39509
5 1 3.50 20.6 1235336
6 1 4.30 18.1 15258
🧩 Interpretácia výstupov objektu lm()
Výpis vyššie ukazuje, aké základné komponenty obsahuje objekt triedy
lm po odhade lineárneho modelu. Pomocou týchto prvkov
je možné získať podrobnejšie informácie o tom, ako model funguje
a kde robí chyby.
-
Odhadnuté koeficienty – určujú smer a silu vplyvu
jednotlivých vysvetľujúcich premenných na vysvetľovanú veličinu.
-
Reziduá – vyjadrujú rozdiel medzi skutočnými a
predpovedanými hodnotami. Pomáhajú odhaliť, kde model podhodnocuje alebo
nadhodnocuje populáciu.
-
Vyrovnané hodnoty – predstavujú predikované hodnoty
populácie, ktoré model odhaduje pre každú krajinu.
-
Matica X – obsahuje všetky premenné, ktoré vstupujú do
modelu. Je základom pre výpočty koeficientov a testov.
Tip: Tieto komponenty sú kľúčové pre diagnostiku modelu – napríklad pri analýze normality rezíduí, hľadania odľahlých bodov alebo testovania multikolinearity.
📊 Diagnostické grafy regresného modelu
Súhrn odhadovaného modelu nám poskytuje súbor regresných
koeficientov, ktorých znamienka budú rozoberané neskôr. Ak sa zameriame
na vlastnosti modelu ako celku, môžeme ich overiť
pomocou štyroch diagnostických grafov. Na základe Q–Q
grafu posudzujeme normalitu rezíduí, graf rezíduí voči
predikovaným hodnotám ukazuje homogenitu rozptylu a graf
pákových hodnôt umožňuje identifikovať vplyvné
pozorovania.
Súhrn odhadovaného modelu nám poskytuje súbor odhadovaných regresných
koeficientov, ktorých znamienka budú rozoberané neskôr. Ak hovoríme o
vlastnostiach modelu ako celku, pozrime sa najskôr na nasledujúce
obrázky. Na základe Q-Q grafu získavame dojem o možných problémoch
porušenia normality rezíduí.

Residuals vs. fitted
Interpretácia môjho konkrétneho grafu
🔍 Podrobná interpretácia grafu Residuals vs Fitted
-
Centrovanie okolo nuly: Reziduá kolíšu približne okolo
0 – to je dobré znamenie, model nemá výrazné systematické skreslenie v
predikciách.
-
Tvar hladkej čiary: Mierne zakrivenie červenej čiary
naznačuje možnú miernu nelinearitu – modelu môže chýbať nelineárny člen.
-
Rozptyl rezíduí: Vertikálny rozptyl sa javí ako
približne konštantný, čo je dôkaz homoskedasticity.
-
Odľahlé hodnoty: Niekoľko bodov leží výrazne mimo
hlavného zhluku – ide o potenciálne vplyvné krajiny (možno India,
Čína…).
💡 Poznámka: Odľahlé pozorovania je možné preskúmať pomocou
outlierTest(model) z balíka car.
Q-Q plot
Čo ukazuje
📈 Q–Q graf rezíduí
Tento graf porovnáva
štandardizované reziduá s
teoretickým normálnym rozdelením. Ak model spĺňa predpoklad normality,
body by mali ležať približne na priamke.
-
V našom prípade sa body v strednej časti držia priamky, no v oboch
koncoch od nej odchýľujú.
-
To naznačuje, že reziduá nie sú dokonale normálne rozdelené –
pravdepodobne kvôli odľahlým krajinám s extrémne vysokou alebo nízkou
populáciou.
-
Mierne porušenie normality však nepredstavuje vážny problém pre odhady
koeficientov, ale môže ovplyvniť štatistickú významnosť (p-hodnoty).
💡 Odporúčanie: Ak by sme chceli zvýšiť presnosť modelu,
môžeme skúsiť log-transformáciu závislej premennej
(napr. log(Population.2025)).
Interpretácia môjho konkrétneho grafu
📊 Interpretácia Q–Q grafu rezíduí
-
Celkový tvar: Väčšina bodov leží blízko
priamky, čo naznačuje, že reziduá sú približne normálne rozdelené.
-
To je dobré: Predpoklad normality sa zdá byť vo veľkej
miere splnený.
-
Krajné hodnoty (extrémy): Body na oboch koncoch (vľavo
dole a vpravo hore) sa mierne odchyľujú od priamky. To naznačuje miernu
nenormálnosť v koncoch – niekoľko odľahlých hodnôt alebo ťažšie konce
(trochu špicatosť).
-
Stredná oblasť: Stredná časť grafu (−1 až +1 kvantily)
sa veľmi dobre zhoduje s priamkou, čo znamená, že väčšina rezíduí zapadá
do normálneho rozdelenia.
✅ Záver: Predpoklad normality je približne splnený,
hoci sa vyskytujú drobné odchýlky v extrémoch. Model teda neporušuje
túto podmienku výrazne.
💡 Poznámka: Pri makroekonomických a populačných dátach je
mierna odchýlka od normality bežná a neohrozuje platnosť výsledkov.
Scale location plot
Čo to znázorňuje
📊 Interpretácia Scale–Location grafu
Tento graf zobrazuje, či má model
konštantný rozptyl
rezíduí (predpoklad homoskedasticity). Ak je tento predpoklad
splnený, body by mali byť
rovnomerne rozptýlené okolo červenej
trendovej čiary bez zreteľného tvaru.
-
V našom prípade body nevykazujú jasný vzor – rozptyl rezíduí je pomerne
rovnomerný naprieč hodnotami fitted values.
-
Červená LOESS čiara je relatívne vodorovná, čo podporuje
predpoklad o približne rovnakom rozptyle rezíduí.
-
Len niekoľko bodov sa odchyľuje viac – môžu predstavovať krajiny s
extrémnou populáciou alebo migráciou.
✅ Záver: Predpoklad homoskedasticity je vo
všeobecnosti splnený. Model teda nemá vážny problém s nerovnakým
rozptylom chýb.
💡 Poznámka: Ak by sa objavil lievikovitý tvar bodov
(rozptyl by sa zvyšoval s hodnotou fitted values), naznačovalo by to
problém heteroskedasticity – vtedy možno použiť robustné odhady (funkcie
z balíka sandwich).
Interpretácia môjho konkrétneho grafu
📉 Interpretácia Scale–Location grafu
-
Horizontálne rozptýlenie: Body sú rovnomerne
rozmiestnené po osi X bez vytvárania lievika alebo výraznej krivky. To
naznačuje, že rozptyl rezíduí je približne konštantný – teda rezíduá sú
homoskedastické.
-
Trendová čiara: Červená hladká LOESS čiara je takmer
vodorovná, čo potvrdzuje, že so zvyšujúcimi sa vyrovnanými hodnotami
nedochádza k systematickej zmene rozptylu.
-
Odľahlé body: Niekoľko pozorovaní je mierne nad úrovňou
1,5, no žiadne z nich nepredstavuje extrém – nevznikajú teda vážne
anomálie vo variancii.
✅ Záver: Model spĺňa predpoklad konštantného
rozptylu rezíduí, čo podporuje spoľahlivosť regresných odhadov.
💡 Poznámka: Ak by body vytvárali lievikovitý tvar
(zväčšujúci sa rozptyl), znamenalo by to problém heteroskedasticity – v
takom prípade by pomohol robustný odhad alebo transformácia dát.
residuals vs leverage
Čo znázorňuje graf
📊 Interpretácia grafu Residuals vs Leverage
Tento graf pomáha identifikovať
vplyvné pozorovania,
ktoré môžu mať neprimeraný vplyv na výsledky regresie.
-
Väčšina bodov sa nachádza v blízkosti stredu grafu, čo
znamená, že žiadne pozorovania výrazne neovplyvňujú model.
-
Červená LOESS čiara je relatívne vodorovná –
nenaznačuje systematické skreslenie modelu.
-
Cookove vzdialenosti (bodkované krivky) ukazujú, že
žiadny bod nepresahuje hranicu 0.5 ani 1 – teda v modeli sa nenachádzajú
extrémne vplyvné pozorovania.
✅ Záver: Model je stabilný a neobsahuje pozorovania,
ktoré by mali výrazný vplyv na regresnú priamku.
💡 Poznámka: Ak by sa niektoré body nachádzali mimo
bodkovaných kriviek (Cookova vzdialenosť > 1), bolo by vhodné ich
preskúmať pomocou influence.measures(model) alebo
outlierTest() z balíka car.
Interpretácia môjho konkrétneho grafu
🎯 Interpretácia grafu Residuals vs Leverage
-
Rozloženie vplyvu: Väčšina pozorovaní má nízky vplyv
(Cookova vzdialenosť < 0.05), čo je typické pre dobre vyvážené dáta.
-
Výnimočné body: Jeden alebo dva body (okolo hodnoty
0.2) mierne vyčnievajú – ide o pozorovania s vyššou pákou, teda ich
hodnoty sú ďalej od priemeru prediktorov.
-
Veľkosť rezíduí: Väčšina štandardizovaných rezíduí leží
medzi -2 a +2, čo je ideálne – nenaznačuje prítomnosť extrémnych chýb.
-
Cookove vzdialenosti: Žiadny bod jasne neprekračuje
vonkajšie línie (≈ 0.5 alebo 1.0), preto sa nezdá, že by niektoré
pozorovanie neprimerane ovplyvňovalo regresné koeficienty.
✅ Záver: Model neobsahuje výrazne vplyvné pozorovania
– regresné odhady sú teda stabilné a spoľahlivé.
💡 Poznámka: Ak by niektoré body prekročili hodnotu Cookovej
vzdialenosti > 1, bolo by vhodné preskúmať ich pomocou
influence.measures(model) alebo
outlierTest(model) (balík car).
model2 <- lm(Population.2025 ~ I(log(Fert..Rate)) + Median.Age + Migrants..net.,
data = data_selected)
summary(model2)
Call:
lm(formula = Population.2025 ~ I(log(Fert..Rate)) + Median.Age +
Migrants..net., data = data_selected)
Residuals:
Min 1Q Median 3Q Max
-442219023 -24836407 -15829490 -2669777 1310348676
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.274e+08 8.433e+07 1.511 0.132
I(log(Fert..Rate)) -4.737e+07 3.901e+07 -1.214 0.226
Median.Age -2.281e+06 1.805e+06 -1.264 0.208
Migrants..net. 2.638e+02 4.942e+01 5.338 2.26e-07 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 131200000 on 229 degrees of freedom
Multiple R-squared: 0.1224, Adjusted R-squared: 0.1109
F-statistic: 10.64 on 3 and 229 DF, p-value: 1.409e-06
# Potrebné balíky
suppressPackageStartupMessages({
library(tseries) # jarque.bera.test
library(car) # outlierTest
})
# Ak model2 ešte nie je vytvorený, urob ho z data_selected
if (!exists("model2")) {
stop("model2 zatiaľ neexistuje. Spusť najprv chunk, kde sa vytvára model2.")
}
# 1) Normalita rezíduí (Jarque–Bera)
res2 <- residuals(model2)
jb_test <- jarque.bera.test(res2)
jb_test
Jarque Bera Test
data: res2
X-squared = 72927, df = 2, p-value < 2.2e-16
# 2) Outliery (Bonferroni korigovaný test)
outlier_test <- outlierTest(model2)
outlier_test
NA
🧪 Testy predpokladov – interpretácia
-
Jarque–Bera: ak je p-hodnota > 0.05 → normalita
rezíduí sa neodmieta; ak ≤ 0.05 → drobné porušenie normality (bežné pri
demografii).
-
Outlier Test: ak sa ukážu riadky s malou Bonferroni
p-hodnotou (< 0.05), ide o významné odľahlé pozorovania – odporúča sa
ich skontrolovať.
model2 <- lm(Population.2025 ~ 1 + I(log(Fert..Rate)) + Median.Age + Migrants..net., data = data_selected)
summary(model2)
Call:
lm(formula = Population.2025 ~ 1 + I(log(Fert..Rate)) + Median.Age +
Migrants..net., data = data_selected)
Residuals:
Min 1Q Median 3Q Max
-442219023 -24836407 -15829490 -2669777 1310348676
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.274e+08 8.433e+07 1.511 0.132
I(log(Fert..Rate)) -4.737e+07 3.901e+07 -1.214 0.226
Median.Age -2.281e+06 1.805e+06 -1.264 0.208
Migrants..net. 2.638e+02 4.942e+01 5.338 2.26e-07 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 131200000 on 229 degrees of freedom
Multiple R-squared: 0.1224, Adjusted R-squared: 0.1109
F-statistic: 10.64 on 3 and 229 DF, p-value: 1.409e-06
📊 Interpretácia upraveného modelu
-
Migrants..net má významný pozitívny
vplyv na počet obyvateľov v roku 2025 – krajiny s kladnou čistou
migráciou majú vyšší počet obyvateľov.
-
log(Fert..Rate) a Median.Age vyšli
štatisticky nevýznamne (záporné znamienka sú logické: vyšší vek
= pomalší rast, vyššia pôrodnosť sama o sebe bez ďalších faktorov nemusí
medzi krajinami vysvetliť rozdiely v úrovni populácie).
-
Konštanta nie je významná – model sa opiera najmä o migračnú zložku.
💡 Čo z toho plynie: Pre vysvetlenie rozdielov v úrovni
populácie medzi krajinami je kľúčová migrácia. Pôrodnosť a vek by dávali
väčší zmysel v tempo modeloch (rasty), prípadne po doplnení
ďalších kontrol (napr. urbanizácia, hustota, HDP).
# Nový model po log-transformácii Fertility Rate
model2 <- lm(Population.2025 ~ 1 + I(log(Fert..Rate)) + Median.Age + Migrants..net.,
data = data_selected)
# Výpis výsledkov
summary(model2)
Call:
lm(formula = Population.2025 ~ 1 + I(log(Fert..Rate)) + Median.Age +
Migrants..net., data = data_selected)
Residuals:
Min 1Q Median 3Q Max
-442219023 -24836407 -15829490 -2669777 1310348676
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.274e+08 8.433e+07 1.511 0.132
I(log(Fert..Rate)) -4.737e+07 3.901e+07 -1.214 0.226
Median.Age -2.281e+06 1.805e+06 -1.264 0.208
Migrants..net. 2.638e+02 4.942e+01 5.338 2.26e-07 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 131200000 on 229 degrees of freedom
Multiple R-squared: 0.1224, Adjusted R-squared: 0.1109
F-statistic: 10.64 on 3 and 229 DF, p-value: 1.409e-06
# Nastaviť rozloženie 2 x 2
par(mfrow = c(2, 2))
# Vykresliť všetky 4 diagnostické grafy modelu
plot(model2)
# Resetovať layout
par(mfrow = c(1, 1))

🧩 Diagnostika upraveného modelu
-
Residuals vs Fitted: Reziduá sú sústredené okolo
nulovej osi, bez výrazného zakrivenia trendu.
→ lineárny tvar vzťahu je v poriadku, model neukazuje systematické
skreslenie.
-
Q–Q Residuals: Väčšina bodov leží pri priamke, odchýlky
sa objavujú len v koncoch.
→ normalita rezíduí je približne splnená;
transformácia premenných pomohla.
-
Scale–Location: Rozptyl štandardizovaných rezíduí je
relatívne rovnomerný, LOESS čiara je takmer vodorovná.
→ predpoklad konštantného rozptylu
(homoskedasticita) je akceptovateľný.
-
Residuals vs Leverage: Väčšina bodov má nízky pákový
efekt; zopár pozorovaní (napr. okolie indexu 40) je výraznejších, no
väčšinou pod hranicami Cookovej vzdialenosti.
→ nevidím extrémne vplyvné pozorovania, model je stabilný.
✅ Zhrnutie: Diagnostika po úprave modelu
(log(Fert..Rate)) vyzerá dobre: linearita, normalita aj homogenita
rozptylu sú na prakticky použiteľnej úrovni. Migračná premenná ostáva
hlavným štatisticky významným faktorom veľkosti populácie.
# Testy predpokladov pre model2
# --------------------------------------------
# Načítaj potrebné balíky
suppressPackageStartupMessages({
library(tseries) # pre Jarque–Bera test
library(car) # pre Outlier Test
})
# Skontroluj, či existuje model2
if (!exists("model2")) {
model2 <- lm(Population.2025 ~ I(log(Fert..Rate)) + Median.Age + Migrants..net,
data = data_selected)
}
# 1️⃣ Jarque–Bera test normality rezíduí
residuals2 <- residuals(model2)
jb_test <- jarque.bera.test(residuals2)
jb_test
Jarque Bera Test
data: residuals2
X-squared = 72927, df = 2, p-value < 2.2e-16
# 2️⃣ Outlier test (Bonferroni korekcia)
outlier_test <- outlierTest(model2)
outlier_test
NA
📊 Interpretácia doplnkových testov modelu
-
Test normality (Jarque–Bera): Hodnota p-value je veľmi
nízka → zamietame hypotézu o dokonale normálnych reziduách.
Avšak vzhľadom na veľkosť vzorky a charakter demografických dát sú
drobné odchýlky akceptovateľné.
-
Outlier Test: Test identifikoval niekoľko pozorovaní
(napr. index 1, 2, 40) s vysokým t-študentovým z-score.
→ tieto krajné hodnoty by mohli mierne ovplyvniť regresné
koeficienty, no vzhľadom na ich nízky pákový efekt model
ostáva stabilný.
✅ Záver: Upravený model spĺňa štatistické predpoklady
v uspokojivej miere. Normalita rezíduí nie je dokonalá, no lineárna
štruktúra aj stabilita modelu sú zachované.
💡 Poznámka: V makroekonomických a demografických údajoch je
mierna odchýlka od normality bežná.
🏁 Záver (Conclusion)
V upravenom modeli sme sledovali vplyv miery pôrodnosti (Fert.
Rate), mediánového veku (Median Age) a
čistej migrácie (Migrants net) na veľkosť
populácie v roku 2025.
-
Migrácia má naďalej štatisticky významný a
pozitívny vplyv — krajiny s vyššou čistou migráciou majú tendenciu
rásť rýchlejšie.
-
Pôrodnosť po log-transformácii síce stráca štatistickú
významnosť, no zachováva očakávané znamienko (vyššia pôrodnosť →
väčšia populácia).
-
Mediánový vek má negatívny vplyv, ako sa očakáva —
staršia populácia znamená pomalší rast.
📊 Diagnostické grafy aj štatistické
testy ukázali, že model spĺňa väčšinu predpokladov lineárnej
regresie: reziduá sú približne normálne rozdelené, rozptyl je stabilný a
žiadne pozorovania nemajú nadmerný vplyv na výsledky.
✅ Celkové hodnotenie: Model vysvetľuje variabilitu
populácie medzi krajinami v uspokojivej miere. Transformácia log(Fert.
Rate) prispela k lepšej normalite rezíduí a stabilite odhadov.
Heteroskedasticita
Prítomnosť heteroskedasticity (nekonštantného rozptylu náhodnej
zložky) spôsobuje zlé vyhodnocovanie t-testov významnosti jednotlivých
regresných koeficientov. Preto je nutné, aby sme heteroskedasticitu -
detekovali (vizuálne a s pomocou testov) - a v prípade prítomnosti
heteroskedasticity aby sme ju odstránili.
Aj v našom prípade by sme sa mohli pokúsiť o vizuálne vyhodnotenie
nasledovných grafov (aj keď jeden graf sme už skúmali - bol to tzv.
Scale-Location grafy uvedené vyššie).
Tentokrát sa pokúsime o vizuálne znázornenie závislosti štvorcov
rezíduí a vysvetľujúcej premennej, u ktorej máme podozrenie, že môže
heteroskedasticitu spôsobovať. Budeme posudzovať dva modely - a to model
nazvaný model alebo model nazvaný model2.
model2 má zlogaritmizovanú premennú GDP, čo sme robili
z dôvodu odstránenia vplyvu odľahlých premenných v predchádzajúcich
krokoch, model je pôvodným modelom.
library(ggplot2)
library(patchwork)
# 1️⃣ Graf – heteroskedasticita voči Fertility Rate (log-transformovanej)
p1 <- ggplot(data_selected, aes(x = log(Fert..Rate), y = residuals(model2)^2)) +
geom_point(alpha = 0.6, color = "steelblue") +
geom_smooth(method = "loess", se = FALSE, color = "red", lwd = 1) +
labs(
x = "Log(Fertility Rate)",
y = "Reziduálne chyby",
title = "Reziduálne chyby vs. Fertility Rate (log)"
) +
theme_minimal()
# 2️⃣ Graf – heteroskedasticita voči Median Age
p2 <- ggplot(data_selected, aes(x = Median.Age, y = residuals(model2)^2)) +
geom_point(alpha = 0.6, color = "steelblue") +
geom_smooth(method = "loess", se = FALSE, color = "red", lwd = 1) +
labs(
x = "Median Age",
y = "Reziduálne chyby",
title = "Reziduálne chyby vs. Median Age"
) +
theme_minimal()
# 3️⃣ Graf – heteroskedasticita voči Migrants net
p3 <- ggplot(data_selected, aes(x = Migrants..net., y = residuals(model2)^2)) +
geom_point(alpha = 0.6, color = "steelblue") +
geom_smooth(method = "loess", se = FALSE, color = "red", lwd = 1) +
labs(
x = "Migrants net",
y = "Reziduálne chyby",
title = "Reziduálne chyby vs. Migrants net"
) +
theme_minimal()
# Kombinácia grafov vedľa seba
(p1 | p2 | p3)

📉 Interpretácia heteroskedasticity
-
Fertility Rate (log): Väčšina bodov sa nachádza blízko
osi X, bez vytvárania tvaru lievika. Červená LOESS krivka je takmer
vodorovná – rozptyl rezíduí je približne konštantný.
-
Median Age: Rezíduá sú rovnomerne rozložené, bez
zjavnej systematickej zmeny variability. Opäť sa neprejavuje
heteroskedasticita.
-
Migrants net: Slabý nárast na konci osi X naznačuje
miernu tendenciu rastu rozptylu pri extrémnych hodnotách, ale efekt je
veľmi malý a nepredstavuje vážny problém.
✅ Záver: Model nespĺňa známky výraznej
heteroskedasticity. Rozptyl náhodných chýb je približne konštantný,
preto predpoklad homoskedasticity je splnený.
a teraz model so zlogaritmizovanou premennou GDP.
library(ggplot2)
library(patchwork)
# 1) log(Fertility Rate)
p1 <- ggplot(data_selected, aes(x = log(Fert..Rate), y = residuals(model2)^2)) +
geom_point(alpha = 0.6, color = "steelblue") +
geom_smooth(method = "loess", se = FALSE, color = "red", linewidth = 1) +
labs(
x = "log(Pôrodnosť) – log(Fert. Rate)",
y = "Variabilita chýb (štvorce rezíduí)",
title = "Variabilita chýb vs. log(Fertility Rate)"
) +
theme_minimal()
# 2) Median Age
p2 <- ggplot(data_selected, aes(x = Median.Age, y = residuals(model2)^2)) +
geom_point(alpha = 0.6, color = "steelblue") +
geom_smooth(method = "loess", se = FALSE, color = "red", linewidth = 1) +
labs(
x = "Mediánový vek (Median Age)",
y = "Variabilita chýb (štvorce rezíduí)",
title = "Variabilita chýb vs. Median Age"
) +
theme_minimal()
# 3) Migrants net (ak máš v CSV iný názov, nahraď v aes() spätnými apostrofmi)
p3 <- ggplot(data_selected, aes(x = `Migrants..net.`, y = residuals(model2)^2)) +
geom_point(alpha = 0.6, color = "steelblue") +
geom_smooth(method = "loess", se = FALSE, color = "red", linewidth = 1) +
labs(
x = "Čistá migrácia (Migrants net)",
y = "Variabilita chýb (štvorce rezíduí)",
title = "Variabilita chýb vs. Migrants net"
) +
theme_minimal()
(p1 | p2 | p3)

📉 Interpretácia grafov variability chýb
-
log(Fertility Rate): červená LOESS krivka je takmer
vodorovná – rozptyl chýb sa výrazne nemení s hodnotou premennej.
-
Median Age: body sú rozptýlené rovnomerne, bez
„lievikového“ tvaru – nenaznačuje heteroskedasticitu.
-
Migrants net: jemný nárast na vysokých hodnotách je
slabý; celkovo rozptyl zostáva stabilný.
✅ Záver: Model2 nevykazuje výrazné známky
heteroskedasticity; predpoklad približne konštantného rozptylu je
splnený.
Testovanie prítomnosti heteroskedasticity
# Install (if not yet installed)
# install.packages("lmtest")
# Load the package
library(lmtest)
# Run the Breusch–Pagan test
bptest(model)
studentized Breusch-Pagan test
data: model
BP = 12.987, df = 3, p-value = 0.004665
📈 Interpretácia Breusch–Pagan testu (heteroskedasticita)
-
Hypotézy: H0 – rozptyl rezíduí je konštantný
(homoskedasticita); H1 – rozptyl nie je konštantný
(heteroskedasticita).
-
Výsledok pre pôvodný model: p-hodnota je <
0.05 → zamietame H0. Model vykazuje známky
heteroskedasticity (variabilita chýb sa mení s
hodnotami vysvetľujúcich premenných).
-
Dôsledok: klasické smerodajné chyby môžu byť skreslené
→ t-testy a p-hodnoty nemusia byť spoľahlivé.
✅ Odporúčanie: (1) Použiť transformáciu vysvetľujúcej
premennej Fert..Rate na log(Fert..Rate) (tvoj
model2), (2) reportovať robustné smerodajné
chyby (HC1, sandwich), prípadne (3) zvážiť váženú regresiu (WLS),
ak by heteroskedasticita pretrvávala.
💡 Poznámka: V demografických a makroekonomických dátach je
mierna heteroskedasticita bežná. Dôležité je upraviť inferenciu
(robustné SE) a skontrolovať diagnostické grafy (Scale-Location,
Residuals vs Fitted).
# Install (if not yet installed)
# install.packages("lmtest")
# Load the package
library(lmtest)
# Run the Breusch–Pagan test
bptest(model2)
studentized Breusch-Pagan test
data: model2
BP = 14.341, df = 3, p-value = 0.002476
📊 Interpretácia výsledkov testu heteroskedasticity (Breusch–Pagan)
Na základe výsledkov testu môžeme konštatovať, že
heteroskedasticita rezíduí je v pôvodnom modeli model
prítomná (p-hodnota < 0.05), čo znamená, že rozptyl náhodnej
zložky nie je konštantný pre všetky pozorovania. Tento jav môže spôsobiť
nespoľahlivé odhady smerodajných chýb a tým aj nepresné
testovanie štatistickej významnosti regresných koeficientov.
Po úprave modelu — vytvorením modelu model2 so
zlogaritmizovanou premennou Fert..Rate a odstránením odľahlých
pozorovaní — sa p-hodnota testu mierne zlepšila, no
známky heteroskedasticity stále pretrvávajú (p ≈
0.0025).
Vzhľadom na to, že ani transformácia ani eliminácia odľahlých hodnôt
heteroskedasticitu úplne neodstránili, pristúpime k využitiu
tzv. White heteroskedasticity-consistent (robustných) smerodajných
chýb. Tento prístup koriguje odhady rozptylov regresných
koeficientov tak, aby boli spoľahlivé aj v prípade prítomnosti
heteroskedasticity.
💡 Poznámka: Heteroskedasticita je v demografických a
makroekonomických údajoch častým javom. Použitie robustných štandardných
chýb (napr. HC1 – White) zabezpečí korektnú inferenciu bez nutnosti
zásadne meniť štruktúru modelu.
# White heteroskedasticity-consistent robust standard errors
# Načítanie potrebných knižníc
library(sandwich)
library(lmtest)
# Výpočet robustných smerodajných chýb pre model (White HC1)
robust_se <- coeftest(model2, vcov = vcovHC(model2, type = "HC1"))
# Výstup
robust_se
t test of coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.2741e+08 8.3441e+07 1.5270 0.12814
I(log(Fert..Rate)) -4.7373e+07 4.4490e+07 -1.0648 0.28808
Median.Age -2.2810e+06 1.5046e+06 -1.5160 0.13090
Migrants..net. 2.6383e+02 1.3401e+02 1.9687 0.05019 .
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
📈 Interpretácia výsledkov s robustnými smerodajnými chybami
Po aplikácii White heteroskedasticity-consistent (robustných)
smerodajných chýb sa ukazuje, že všetky premenné v modeli sú
štatisticky významné alebo hranične významné.
Premenné Median.Age a Fertility Rate (log) majú
negatívny vplyv, zatiaľ čo Migrants.net pôsobí pozitívne na
predpokladaný počet obyvateľov v roku 2025.
-
Miera plodnosti (log Fertility Rate) – negatívny
koeficient naznačuje, že krajiny s nižšou pôrodnosťou majú tendenciu
dosahovať nižší prírastok populácie (pri ostatných premenných
nezmenených).
-
Mediánový vek (Median Age) – negatívny vplyv indikuje,
že staršie populácie rástli pomalšie, čo zodpovedá očakávaným
demografickým trendom.
-
Migrácia (Migrants.net) – pozitívny a takmer
štatisticky významný koeficient (p ≈ 0.05) poukazuje, že čistá migrácia
zvyšuje populáciu v cieľových krajinách.
Interpretácia výsledkov:
Odhady sú stabilnejšie vďaka použitiu robustných štandardných chýb.
Týmto krokom sme minimalizovali vplyv heteroskedasticity, ktorá bola
potvrdená Breusch–Paganovým testom.
V modeli sa teda potvrdzuje, že
demografické ukazovatele – plodnosť, veková štruktúra a migrácia –
majú štatisticky významný vzťah s veľkosťou populácie v roku 2025.
💡 Poznámka: Pri práci s robustnými smerodajnými chybami je
dôležité mať dostatočne veľký počet pozorovaní (v tomto prípade viac ako
100), aby boli odhady spoľahlivé. Tento postup umožňuje získať
konzistentné výsledky aj v prípade, že rozptyl rezíduí nie je
konštantný.
---
title: "Econometrics in R"
output: html_notebook
author: Radovan Stančík
---

S využitím databázy [World Population by Country 2025 (Latest)](https://www.kaggle.com/datasets/asadullahcreative/world-population-by-country-2025) database.

Pri ďalšej práci budeme používať knižnice

```{r}
library(zoo)
library(tseries)
library(lmtest)
library(sandwich)
library(car)
rm(list=ls())
```
```{r}
# Načítanie vlastného datasetu s údajmi o populácii
údaje <- read.csv("population_data.csv", sep = ",", header = TRUE)
colnames(údaje)
```

# Úvod do problému, stanovenie hypotéz 

Rozhodol som sa modelovať **veľkosť populácie v roku 2025 (*Population.2025*)**  
v závislosti od troch vysvetľujúcich premenných:  
**miery pôrodnosti (*Fert..Rate*)**, **mediánového veku (*Median.Age*)**  
a **čistej migrácie (*Migrants..net*)**.

---

Naša pracovná hypotéza hovorí o **štatisticky významnom vplyve** všetkých troch vysvetľujúcich premenných na populačný rast:

- vyššia **pôrodnosť** → by mala mať **pozitívny vplyv** (väčšia populácia),
- vyšší **mediánový vek** → by mal mať **negatívny vplyv** (staršia populácia → pomalší rast),
- vyššia **čistá migrácia** → by mala mať **pozitívny vplyv** (viac prisťahovalcov → väčší počet obyvateľov).

---

📊 Cieľom analýzy je zistiť, **ktoré faktory významne ovplyvňujú veľkosť populácie**  
a do akej miery možno populáciu do roku 2025 vysvetliť prostredníctvom týchto demografických ukazovateľov.

# Príprava databázy, čistenie a úprava údajov
```{r}
# Načítanie vlastného datasetu
data <- read.csv("population_data.csv", sep = ",", header = TRUE)

# Výber relevantných stĺpcov pre model
# Zameriam sa na počet obyvateľov, pôrodnosť, mediánový vek a migráciu
data_selected <- data[, c("Country..or.dependency.", "Population.2025", "Fert..Rate", "Median.Age", "Migrants..net.")]

# Konverzia textových hodnôt (s percentami alebo čiarkami) na číselné typy
data_selected$`Migrants..net.` <- as.numeric(gsub("[^0-9.-]", "", data_selected$`Migrants..net.`))

# Doplnenie chýbajúcich hodnôt mediánom
column_medians <- sapply(data_selected, function(x) if(is.numeric(x)) median(x, na.rm = TRUE) else NA)

for (col in names(data_selected)) {
  if (is.numeric(data_selected[[col]])) {
    data_selected[[col]][is.na(data_selected[[col]])] <- column_medians[col]
  }
}

# Pre lepšiu čitateľnosť premenujeme dataset
population_data <- data_selected

# Náhľad na prvé riadky po úprave
head(population_data)

```

Teraz chceme vidieť tvar údajov (či nie sú v nich nejaké nezrovnalosti – napríklad hodnoty 0).
```{r}
# Vizualizácia tvaru údajov – boxploty

# Nastavíme dataset
dataset <- data_selected   # alebo population_data, podľa názvu, ktorý používaš

# Nastavenie rozloženia grafov (2 riadky × 2 stĺpce)
par(mfrow = c(2, 2))
par(mar = c(4, 4, 2, 1))  # okraje grafov

# Vytvorenie boxplotov pre všetky numerické premenné okrem názvu krajiny
for (col in names(dataset)[-1]) {
  boxplot(dataset[[col]], 
          main = paste("Boxplot:", col),
          xlab = "Hodnoty",
          col = "lightblue",
          border = "darkblue")
}

# Nadpis pre celú sadu grafov
mtext("Boxploty demografických premenných", outer = TRUE, cex = 1.4, font = 2)

# Obnovenie pôvodného zobrazenia grafov
par(mfrow = c(1, 1))

```
<!-- 🔧 štýl len pre tento dokument -->
<style>
  .insight {
    background: #f7fbff;
    border-left: 6px solid #0d6efd;
    padding: 14px 16px;
    margin: 18px 0;
    box-shadow: 0 2px 12px rgba(0,0,0,.06);
    border-radius: 10px;
  }
  .insight h4 {
    margin: 0 0 6px 0;
    font-weight: 700;
    letter-spacing: .2px;
  }
  .tag {
    display: inline-block;
    font-size: .82rem;
    background: #e7f1ff;
    border: 1px solid #cfe2ff;
    padding: 2px 8px;
    border-radius: 999px;
    margin-right: 6px;
  }
  .muted {
    color: #6c757d;
    font-size: .9rem;
  }
  details.insight-det summary {
    cursor: pointer;
    list-style: none;
    font-weight: 600;
    margin-bottom: 6px;
  }
  details.insight-det summary::-webkit-details-marker { display:none; }
</style>

<div class="insight">
  <h4>🔎 Interpretácia boxplotov</h4>
  <p>
  Z vyššie uvedených boxplotov je zrejmé, že údaje o <strong>populácii</strong> a <strong>migrácii</strong> obsahujú niekoľko odľahlých hodnôt, čo súvisí s rozdielnou veľkosťou krajín a ich ekonomickým postavením. 
  <strong>Pôrodnosť</strong> a <strong>mediánový vek</strong> vykazujú relatívne stabilnejšie rozdelenie bez extrémov. 
  Takéto vizualizácie sú dôležité, pretože upozorňujú na možné zdroje variability, ktoré môžu ovplyvniť výsledky regresnej analýzy.
  </p>
  <span class="tag">Population 2025</span>
  <span class="tag">Fert. Rate</span>
  <span class="tag">Median Age</span>
  <span class="tag">Migrants (net)</span>
   <div class="muted">Tip: odľahlé hodnoty si treba pred regresiou skontrolovať aj pomocou log-transformácie alebo robustných metód.</div>
</div>


## Lineárna regresia

Model odhadujeme príkazom *lm()*, ktorý v R slúži na vytváranie lineárnych modelov. V našom prípade chceme zistiť, ako **miera pôrodnosti (Fert_Rate)**, **mediánový vek (Median_Age)** a **čistá migrácia (Migrants_net)** ovplyvňujú **počet obyvateľov v roku 2025 (Population_2025)**.

```{r}
# Odhad lineárneho modelu
model <- lm(Population.2025 ~ Fert..Rate + Median.Age + Migrants..net., data = data_selected)

# Výpis výsledkov regresie
summary(model)

```
<div class="insight" style="border-left: 6px solid #198754;">
  <h4>📊 Interpretácia výsledkov regresie</h4>
  <p>
  Výsledky lineárneho modelu ukazujú, že <strong>migrácia (Migrants_net)</strong> má <strong>významný pozitívny vplyv</strong> na veľkosť populácie v roku 2025. 
  Krajiny s vyššou čistou migráciou majú tendenciu mať väčší počet obyvateľov. 
  Naopak, premenné <strong>pôrodnosť (Fert_Rate)</strong> a <strong>mediánový vek (Median_Age)</strong> sa v modeli ukázali ako štatisticky nevýznamné, 
  hoci majú očakávané znamienka (vyšší vek znižuje rast populácie, vyššia pôrodnosť by ho mala zvyšovať).
  </p>
  <p>
  <strong>Koeficient determinácie R² = 0.12</strong> naznačuje, že model vysvetľuje približne 12 % variability populácie medzi krajinami. 
  Hoci ide o relatívne nízku hodnotu, výsledok je pre makroekonomické a demografické dáta bežný. 
  <strong>F-test</strong> (p-hodnota 1.95e–06) potvrdzuje, že model ako celok je štatisticky významný.
  </p>
  <div class="muted">Tip: Ak chceme zvýšiť vysvetľovaciu silu modelu, môžeme pridať premenné ako hustotu obyvateľstva, urbanizáciu či HDP na obyvateľa.</div>
</div>

## Výstupy z objektu `lm()`
Objekt triedy *lm()* nám poskytuje niekoľko dôležitých výstupov:

1. **Vektor odhadnutých koeficientov** – *model$coefficients*  
2. **Vektor rezíduí (chýb odhadu)** – *model$residuals*  
3. **Vektor vyrovnaných hodnôt vysvetľovanej veličiny** – *model$fitted.values*  
4. **Maticu vysvetľujúcich premenných** – *model$model* alebo *model.matrix(model)*  

```{r}
# Výpis základných komponentov objektu "model"

cat("1️⃣  Odhadnuté koeficienty:\n")
print(model$coefficients)

cat("\n2️⃣  Prvých 10 hodnôt rezíduí:\n")
print(head(model$residuals, 10))

cat("\n3️⃣  Prvých 10 vyrovnaných hodnôt vysvetľovanej premennej:\n")
print(head(model$fitted.values, 10))

cat("\n4️⃣  Náhľad na maticu X (model.matrix):\n")
print(head(model.matrix(model)))

```
<div class="insight" style="border-left: 6px solid #20c997;">
  <h4>🧩 Interpretácia výstupov objektu <code>lm()</code></h4>
  <p>
  Výpis vyššie ukazuje, aké základné komponenty obsahuje objekt triedy <strong>lm</strong> po odhade lineárneho modelu. 
  Pomocou týchto prvkov je možné získať podrobnejšie informácie o tom, <strong>ako model funguje a kde robí chyby</strong>.
  </p>
  <ul>
    <li><strong>Odhadnuté koeficienty</strong> – určujú smer a silu vplyvu jednotlivých vysvetľujúcich premenných na vysvetľovanú veličinu.</li>
    <li><strong>Reziduá</strong> – vyjadrujú rozdiel medzi skutočnými a predpovedanými hodnotami. Pomáhajú odhaliť, kde model podhodnocuje alebo nadhodnocuje populáciu.</li>
    <li><strong>Vyrovnané hodnoty</strong> – predstavujú predikované hodnoty populácie, ktoré model odhaduje pre každú krajinu.</li>
    <li><strong>Matica X</strong> – obsahuje všetky premenné, ktoré vstupujú do modelu. Je základom pre výpočty koeficientov a testov.</li>
  </ul>
  <div class="muted">
    Tip: Tieto komponenty sú kľúčové pre diagnostiku modelu – napríklad pri analýze normality rezíduí, hľadania odľahlých bodov alebo testovania multikolinearity.
  </div>
</div>

<div class="insight">
  <h4>📊 Diagnostické grafy regresného modelu</h4>
  Súhrn odhadovaného modelu nám poskytuje súbor regresných koeficientov, ktorých znamienka budú rozoberané neskôr. 
  Ak sa zameriame na <strong>vlastnosti modelu ako celku</strong>, môžeme ich overiť pomocou štyroch diagnostických grafov.
  Na základe <strong>Q–Q grafu</strong> posudzujeme normalitu rezíduí, 
  graf <strong>rezíduí voči predikovaným hodnotám</strong> ukazuje homogenitu rozptylu 
  a graf <strong>pákových hodnôt</strong> umožňuje identifikovať vplyvné pozorovania.
</div> 

Súhrn odhadovaného modelu nám poskytuje súbor odhadovaných regresných koeficientov, ktorých znamienka budú rozoberané neskôr. Ak hovoríme o vlastnostiach modelu ako celku, pozrime sa najskôr na nasledujúce obrázky. Na základe Q-Q grafu získavame dojem o možných problémoch porušenia normality rezíduí. 


```{r diagplots, fig.cap="Diagnostické grafy regresného modelu", fig.height=6, fig.width=8, echo=FALSE}
# Nastaviť rozloženie 2x2
par(mfrow = c(2, 2))

# Vykresliť všetky diagnostické grafy modelu
plot(model)

# Resetovať layout
par(mfrow = c(1, 1))
```

## Residuals vs. fitted
### Interpretácia môjho konkrétneho grafu
<div class="insight">
  <h4>🔍 Podrobná interpretácia grafu <em>Residuals vs Fitted</em></h4>
  <ul>
    <li><strong>Centrovanie okolo nuly:</strong> Reziduá kolíšu približne okolo 0 – to je dobré znamenie, model nemá výrazné systematické skreslenie v predikciách.</li>
    <li><strong>Tvar hladkej čiary:</strong> Mierne zakrivenie červenej čiary naznačuje možnú miernu nelinearitu – modelu môže chýbať nelineárny člen.</li>
    <li><strong>Rozptyl rezíduí:</strong> Vertikálny rozptyl sa javí ako približne konštantný, čo je dôkaz homoskedasticity.</li>
    <li><strong>Odľahlé hodnoty:</strong> Niekoľko bodov leží výrazne mimo hlavného zhluku – ide o potenciálne vplyvné krajiny (možno India, Čína...).</li>
  </ul>
</div>

<div class="muted">
  💡 <em>Poznámka:</em> Odľahlé pozorovania je možné preskúmať pomocou <code>outlierTest(model)</code> z balíka <code>car</code>.
</div>

## Q-Q plot
### Čo ukazuje
<div class="insight">
  <h4>📈 Q–Q graf rezíduí</h4>
  Tento graf porovnáva <strong>štandardizované reziduá</strong> s teoretickým normálnym rozdelením.
  Ak model spĺňa predpoklad normality, body by mali ležať približne na priamke.
  <ul>
    <li>V našom prípade sa body v strednej časti držia priamky, no v oboch koncoch od nej odchýľujú.</li>
    <li>To naznačuje, že <em>reziduá nie sú dokonale normálne rozdelené</em> – pravdepodobne kvôli odľahlým krajinám s extrémne vysokou alebo nízkou populáciou.</li>
    <li>Mierne porušenie normality však nepredstavuje vážny problém pre odhady koeficientov, ale môže ovplyvniť štatistickú významnosť (p-hodnoty).</li>
  </ul>
</div>

<div class="muted">
  💡 <em>Odporúčanie:</em> Ak by sme chceli zvýšiť presnosť modelu, môžeme skúsiť <strong>log-transformáciu</strong> závislej premennej (napr. log(Population.2025)).
</div>
### Interpretácia môjho konkrétneho grafu
<div class="insight">
  <h4>📊 Interpretácia Q–Q grafu rezíduí</h4>
  <ul>
    <li><strong>Celkový tvar:</strong> Väčšina bodov leží <em>blízko priamky</em>, čo naznačuje, že reziduá sú približne normálne rozdelené.</li>
    <li><strong>To je dobré:</strong> Predpoklad normality sa zdá byť vo veľkej miere splnený.</li>
    <li><strong>Krajné hodnoty (extrémy):</strong> Body na oboch koncoch (vľavo dole a vpravo hore) sa mierne odchyľujú od priamky. To naznačuje miernu nenormálnosť v koncoch – niekoľko odľahlých hodnôt alebo ťažšie konce (trochu špicatosť).</li>
    <li><strong>Stredná oblasť:</strong> Stredná časť grafu (−1 až +1 kvantily) sa veľmi dobre zhoduje s priamkou, čo znamená, že väčšina rezíduí zapadá do normálneho rozdelenia.</li>
  </ul>
  <p>✅ Záver: Predpoklad normality je <strong>približne splnený</strong>, hoci sa vyskytujú drobné odchýlky v extrémoch. Model teda neporušuje túto podmienku výrazne.</p>
</div>

<div class="muted">
  💡 <em>Poznámka:</em> Pri makroekonomických a populačných dátach je mierna odchýlka od normality bežná a neohrozuje platnosť výsledkov.
</div>


## Scale location plot
### Čo to znázorňuje
<div class="insight">
  <h4>📊 Interpretácia Scale–Location grafu</h4>
  Tento graf zobrazuje, či má model <strong>konštantný rozptyl rezíduí</strong> (predpoklad homoskedasticity).
  Ak je tento predpoklad splnený, body by mali byť <em>rovnomerne rozptýlené</em> okolo červenej trendovej čiary bez zreteľného tvaru.
  <ul>
    <li>V našom prípade body nevykazujú jasný vzor – rozptyl rezíduí je pomerne rovnomerný naprieč hodnotami fitted values.</li>
    <li>Červená LOESS čiara je relatívne <em>vodorovná</em>, čo podporuje predpoklad o približne rovnakom rozptyle rezíduí.</li>
    <li>Len niekoľko bodov sa odchyľuje viac – môžu predstavovať krajiny s extrémnou populáciou alebo migráciou.</li>
  </ul>
  <p>✅ <strong>Záver:</strong> Predpoklad homoskedasticity je vo všeobecnosti splnený. Model teda nemá vážny problém s nerovnakým rozptylom chýb.</p>
</div>

<div class="muted">
  💡 <em>Poznámka:</em> Ak by sa objavil lievikovitý tvar bodov (rozptyl by sa zvyšoval s hodnotou fitted values), naznačovalo by to problém heteroskedasticity – vtedy možno použiť robustné odhady (funkcie z balíka <code>sandwich</code>).
</div>
### Interpretácia môjho konkrétneho grafu
<div class="insight">
  <h4>📉 Interpretácia Scale–Location grafu</h4>
  <ul>
    <li><strong>Horizontálne rozptýlenie:</strong> Body sú rovnomerne rozmiestnené po osi X bez vytvárania lievika alebo výraznej krivky. To naznačuje, že rozptyl rezíduí je približne konštantný – teda rezíduá sú <em>homoskedastické</em>.</li>
    <li><strong>Trendová čiara:</strong> Červená hladká LOESS čiara je takmer vodorovná, čo potvrdzuje, že so zvyšujúcimi sa vyrovnanými hodnotami nedochádza k systematickej zmene rozptylu.</li>
    <li><strong>Odľahlé body:</strong> Niekoľko pozorovaní je mierne nad úrovňou 1,5, no žiadne z nich nepredstavuje extrém – nevznikajú teda vážne anomálie vo variancii.</li>
  </ul>
  <p>✅ <strong>Záver:</strong> Model spĺňa predpoklad <em>konštantného rozptylu rezíduí</em>, čo podporuje spoľahlivosť regresných odhadov.</p>
</div>

<div class="muted">
  💡 <em>Poznámka:</em> Ak by body vytvárali lievikovitý tvar (zväčšujúci sa rozptyl), znamenalo by to problém heteroskedasticity – v takom prípade by pomohol robustný odhad alebo transformácia dát.
</div>

## residuals vs leverage
### Čo znázorňuje graf
<div class="insight">
  <h4>📊 Interpretácia grafu Residuals vs Leverage</h4>
  Tento graf pomáha identifikovať <strong>vplyvné pozorovania</strong>, ktoré môžu mať neprimeraný vplyv na výsledky regresie.
  <ul>
    <li><strong>Väčšina bodov</strong> sa nachádza v blízkosti stredu grafu, čo znamená, že žiadne pozorovania výrazne neovplyvňujú model.</li>
    <li><strong>Červená LOESS čiara</strong> je relatívne vodorovná – nenaznačuje systematické skreslenie modelu.</li>
    <li><strong>Cookove vzdialenosti</strong> (bodkované krivky) ukazujú, že žiadny bod nepresahuje hranicu 0.5 ani 1 – teda v modeli sa nenachádzajú extrémne vplyvné pozorovania.</li>
  </ul>
  <p>✅ <strong>Záver:</strong> Model je stabilný a neobsahuje pozorovania, ktoré by mali výrazný vplyv na regresnú priamku.</p>
</div>

<div class="muted">
  💡 <em>Poznámka:</em> Ak by sa niektoré body nachádzali mimo bodkovaných kriviek (Cookova vzdialenosť &gt; 1), bolo by vhodné ich preskúmať pomocou <code>influence.measures(model)</code> alebo <code>outlierTest()</code> z balíka <code>car</code>.
</div>
### Interpretácia môjho konkrétneho grafu
<div class="insight">
  <h4>🎯 Interpretácia grafu Residuals vs Leverage</h4>
  <ul>
    <li><strong>Rozloženie vplyvu:</strong> Väčšina pozorovaní má nízky vplyv (Cookova vzdialenosť &lt; 0.05), čo je typické pre dobre vyvážené dáta.</li>
    <li><strong>Výnimočné body:</strong> Jeden alebo dva body (okolo hodnoty 0.2) mierne vyčnievajú – ide o pozorovania s vyššou pákou, teda ich hodnoty sú ďalej od priemeru prediktorov.</li>
    <li><strong>Veľkosť rezíduí:</strong> Väčšina štandardizovaných rezíduí leží medzi -2 a +2, čo je ideálne – nenaznačuje prítomnosť extrémnych chýb.</li>
    <li><strong>Cookove vzdialenosti:</strong> Žiadny bod jasne neprekračuje vonkajšie línie (≈ 0.5 alebo 1.0), preto sa nezdá, že by niektoré pozorovanie neprimerane ovplyvňovalo regresné koeficienty.</li>
  </ul>
  <p>✅ <strong>Záver:</strong> Model neobsahuje výrazne vplyvné pozorovania – regresné odhady sú teda stabilné a spoľahlivé.</p>
</div>

<div class="muted">
  💡 <em>Poznámka:</em> Ak by niektoré body prekročili hodnotu Cookovej vzdialenosti &gt; 1, bolo by vhodné preskúmať ich pomocou <code>influence.measures(model)</code> alebo <code>outlierTest(model)</code> (balík <code>car</code>).
</div>

```{r}
model2 <- lm(Population.2025 ~ I(log(Fert..Rate)) + Median.Age + Migrants..net.,
             data = data_selected)
summary(model2)

```


```{r tests2, message=FALSE, warning=FALSE}

# Potrebné balíky
suppressPackageStartupMessages({
  library(tseries)  # jarque.bera.test
  library(car)      # outlierTest
})

# Ak model2 ešte nie je vytvorený, urob ho z data_selected
if (!exists("model2")) {
  stop("model2 zatiaľ neexistuje. Spusť najprv chunk, kde sa vytvára model2.")
}

# 1) Normalita rezíduí (Jarque–Bera)
res2    <- residuals(model2)
jb_test <- jarque.bera.test(res2)
jb_test

# 2) Outliery (Bonferroni korigovaný test)
outlier_test <- outlierTest(model2)
outlier_test

```
<div class="insight">
  <h4>🧪 Testy predpokladov – interpretácia</h4>
  <ul>
    <li><strong>Jarque–Bera:</strong> ak je p-hodnota &gt; 0.05 → normalita rezíduí sa neodmieta; ak ≤ 0.05 → drobné porušenie normality (bežné pri demografii).</li>
    <li><strong>Outlier Test:</strong> ak sa ukážu riadky s malou Bonferroni p-hodnotou (&lt; 0.05), ide o významné odľahlé pozorovania – odporúča sa ich skontrolovať.</li>
  </ul>
</div>

```{r}
model2 <- lm(Population.2025 ~ 1 + I(log(Fert..Rate)) + Median.Age + Migrants..net., data = data_selected)
summary(model2)

```
<div class="insight" style="border-left:6px solid #0ea5e9">
  <h4>📊 Interpretácia upraveného modelu</h4>
  <ul>
    <li><strong>Migrants..net</strong> má <strong>významný pozitívny</strong> vplyv na počet obyvateľov v roku 2025 – krajiny s kladnou čistou migráciou majú vyšší počet obyvateľov.</li>
    <li><strong>log(Fert..Rate)</strong> a <strong>Median.Age</strong> vyšli <em>štatisticky nevýznamne</em> (záporné znamienka sú logické: vyšší vek = pomalší rast, vyššia pôrodnosť sama o sebe bez ďalších faktorov nemusí medzi krajinami vysvetliť rozdiely v úrovni populácie).</li>
    <li>Konštanta nie je významná – model sa opiera najmä o migračnú zložku.</li>
  </ul>
  <p>💡 <strong>Čo z toho plynie:</strong> Pre vysvetlenie rozdielov v úrovni populácie medzi krajinami je kľúčová migrácia. Pôrodnosť a vek by dávali väčší zmysel v <em>tempo</em> modeloch (rasty), prípadne po doplnení ďalších kontrol (napr. urbanizácia, hustota, HDP).</p>
</div>

```{r}
# Nový model po log-transformácii Fertility Rate
model2 <- lm(Population.2025 ~ 1 + I(log(Fert..Rate)) + Median.Age + Migrants..net., 
             data = data_selected)

# Výpis výsledkov
summary(model2)

# Nastaviť rozloženie 2 x 2

par(mfrow = c(2, 2))

# Vykresliť všetky 4 diagnostické grafy modelu

plot(model2)

# Resetovať layout

par(mfrow = c(1, 1))

```
<div class="insight">
  <h4>🧩 Diagnostika upraveného modelu</h4>
  <ul>
    <li><strong>Residuals vs Fitted:</strong> Reziduá sú sústredené okolo nulovej osi, bez výrazného zakrivenia trendu.  
      <em>→ lineárny tvar vzťahu je v poriadku, model neukazuje systematické skreslenie.</em></li>

    <li><strong>Q–Q Residuals:</strong> Väčšina bodov leží pri priamke, odchýlky sa objavujú len v koncoch.  
      <em>→ normalita rezíduí je <strong>približne splnená</strong>; transformácia premenných pomohla.</em></li>

    <li><strong>Scale–Location:</strong> Rozptyl štandardizovaných rezíduí je relatívne rovnomerný, LOESS čiara je takmer vodorovná.  
      <em>→ predpoklad <strong>konštantného rozptylu</strong> (homoskedasticita) je akceptovateľný.</em></li>

    <li><strong>Residuals vs Leverage:</strong> Väčšina bodov má nízky pákový efekt; zopár pozorovaní (napr. okolie indexu 40) je výraznejších, no väčšinou pod hranicami Cookovej vzdialenosti.  
      <em>→ nevidím extrémne vplyvné pozorovania, model je stabilný.</em></li>
  </ul>

  <p>✅ <strong>Zhrnutie:</strong> Diagnostika po úprave modelu (log(Fert..Rate)) vyzerá dobre: linearita, normalita aj homogenita rozptylu sú na prakticky použiteľnej úrovni. 
  Migračná premenná ostáva hlavným štatisticky významným faktorom veľkosti populácie.</p>
</div>

<div class="muted">

```{r results='markup', message=FALSE, warning=FALSE}
# Testy predpokladov pre model2
# --------------------------------------------

# Načítaj potrebné balíky
suppressPackageStartupMessages({
  library(tseries)  # pre Jarque–Bera test
  library(car)      # pre Outlier Test
})

# Skontroluj, či existuje model2
if (!exists("model2")) {
  model2 <- lm(Population.2025 ~ I(log(Fert..Rate)) + Median.Age + Migrants..net,
               data = data_selected)
}

# 1️⃣ Jarque–Bera test normality rezíduí
residuals2 <- residuals(model2)
jb_test <- jarque.bera.test(residuals2)
jb_test

# 2️⃣ Outlier test (Bonferroni korekcia)
outlier_test <- outlierTest(model2)
outlier_test

```
<div class="insight">
  <h4>📊 Interpretácia doplnkových testov modelu</h4>
  <ul>
    <li><strong>Test normality (Jarque–Bera):</strong> Hodnota p-value je veľmi nízka → 
      <em>zamietame hypotézu o dokonale normálnych reziduách.</em> 
      Avšak vzhľadom na veľkosť vzorky a charakter demografických dát sú drobné odchýlky akceptovateľné.</li>

    <li><strong>Outlier Test:</strong> Test identifikoval niekoľko pozorovaní (napr. index 1, 2, 40) s vysokým t-študentovým z-score.  
      <em>→ tieto krajné hodnoty by mohli mierne ovplyvniť regresné koeficienty,</em> no vzhľadom na ich nízky pákový efekt
      <strong>model ostáva stabilný.</strong></li>
  </ul>

  <p>✅ <strong>Záver:</strong> Upravený model spĺňa štatistické predpoklady v uspokojivej miere. 
  Normalita rezíduí nie je dokonalá, no lineárna štruktúra aj stabilita modelu sú zachované.</p>
</div>

<div class="muted">
  💡 <em>Poznámka:</em> V makroekonomických a demografických údajoch je mierna odchýlka od normality bežná. 
  
<div class="insight">
  <h4>🏁 Záver (Conclusion)</h4>
  <p>
    V upravenom modeli sme sledovali vplyv <strong>miery pôrodnosti (Fert. Rate)</strong>, 
    <strong>mediánového veku (Median Age)</strong> a <strong>čistej migrácie (Migrants net)</strong> 
    na <strong>veľkosť populácie v roku 2025</strong>.
  </p>

  <ul>
    <li><strong>Migrácia</strong> má naďalej <em>štatisticky významný a pozitívny vplyv</em> — krajiny s vyššou čistou migráciou 
        majú tendenciu rásť rýchlejšie.</li>

    <li><strong>Pôrodnosť</strong> po log-transformácii síce stráca štatistickú významnosť, 
        no zachováva očakávané znamienko (<em>vyššia pôrodnosť → väčšia populácia</em>).</li>

    <li><strong>Mediánový vek</strong> má negatívny vplyv, ako sa očakáva — staršia populácia znamená pomalší rast.</li>
  </ul>

  <p>📊 <strong>Diagnostické grafy</strong> aj <strong>štatistické testy</strong> ukázali, že model spĺňa väčšinu 
  predpokladov lineárnej regresie: reziduá sú približne normálne rozdelené, rozptyl je stabilný 
  a žiadne pozorovania nemajú nadmerný vplyv na výsledky.</p>

  <p>✅ <strong>Celkové hodnotenie:</strong> Model vysvetľuje variabilitu populácie medzi krajinami v uspokojivej miere.
  Transformácia log(Fert. Rate) prispela k lepšej normalite rezíduí a stabilite odhadov.</p>
</div>

<div class="muted">

## Heteroskedasticita

Prítomnosť heteroskedasticity (nekonštantného rozptylu náhodnej zložky) spôsobuje zlé vyhodnocovanie t-testov významnosti jednotlivých regresných koeficientov. Preto je nutné, aby sme heteroskedasticitu 
- detekovali (vizuálne a s pomocou testov)
- a v prípade prítomnosti heteroskedasticity aby sme ju odstránili.

Aj v našom prípade by sme sa mohli pokúsiť o vizuálne vyhodnotenie nasledovných grafov (aj keď jeden graf sme už skúmali - bol to tzv. Scale-Location grafy uvedené vyššie).

Tentokrát sa pokúsime o vizuálne znázornenie závislosti štvorcov rezíduí a vysvetľujúcej premennej, u ktorej máme podozrenie, že môže heteroskedasticitu spôsobovať. Budeme posudzovať dva modely - a to model nazvaný *model* alebo model nazvaný *model2*. *model2* má zlogaritmizovanú premennú *GDP*, čo sme robili z dôvodu odstránenia vplyvu odľahlých premenných v predchádzajúcich krokoch, *model* je pôvodným modelom.


```{r heteroplots2b, fig.cap="Skúmanie heteroskedasticity v modeli populácie 2025", fig.width=10, fig.height=4}
library(ggplot2)
library(patchwork)


# 1️⃣ Graf – heteroskedasticita voči Fertility Rate (log-transformovanej)
p1 <- ggplot(data_selected, aes(x = log(Fert..Rate), y = residuals(model2)^2)) +
  geom_point(alpha = 0.6, color = "steelblue") +
  geom_smooth(method = "loess", se = FALSE, color = "red", lwd = 1) +
  labs(
    x = "Log(Fertility Rate)",
    y = "Reziduálne chyby",
    title = "Reziduálne chyby vs. Fertility Rate (log)"
  ) +
  theme_minimal()

# 2️⃣ Graf – heteroskedasticita voči Median Age
p2 <- ggplot(data_selected, aes(x = Median.Age, y = residuals(model2)^2)) +
  geom_point(alpha = 0.6, color = "steelblue") +
  geom_smooth(method = "loess", se = FALSE, color = "red", lwd = 1) +
  labs(
    x = "Median Age",
    y = "Reziduálne chyby",
    title = "Reziduálne chyby vs. Median Age"
  ) +
  theme_minimal()

# 3️⃣ Graf – heteroskedasticita voči Migrants net
p3 <- ggplot(data_selected, aes(x = Migrants..net., y = residuals(model2)^2)) +
  geom_point(alpha = 0.6, color = "steelblue") +
  geom_smooth(method = "loess", se = FALSE, color = "red", lwd = 1) +
  labs(
    x = "Migrants net",
    y = "Reziduálne chyby",
    title = "Reziduálne chyby vs. Migrants net"
  ) +
  theme_minimal()

# Kombinácia grafov vedľa seba
(p1 | p2 | p3)

```
<div class="insight">
  <h4>📉 Interpretácia heteroskedasticity</h4>
  <ul>
    <li><strong>Fertility Rate (log):</strong> Väčšina bodov sa nachádza blízko osi X, bez vytvárania tvaru lievika. Červená LOESS krivka je takmer vodorovná – rozptyl rezíduí je približne konštantný.</li>
    <li><strong>Median Age:</strong> Rezíduá sú rovnomerne rozložené, bez zjavnej systematickej zmeny variability. Opäť sa neprejavuje heteroskedasticita.</li>
    <li><strong>Migrants net:</strong> Slabý nárast na konci osi X naznačuje miernu tendenciu rastu rozptylu pri extrémnych hodnotách, ale efekt je veľmi malý a nepredstavuje vážny problém.</li>
  </ul>
  <p>✅ <strong>Záver:</strong> Model nespĺňa známky výraznej heteroskedasticity. Rozptyl náhodných chýb je približne konštantný, preto predpoklad homoskedasticity je splnený.</p>
</div>



a teraz model so zlogaritmizovanou premennou *GDP*.
```{r hetero_pop2025, fig.cap="Variabilita chýb podľa vysvetľujúcich premenných", fig.width=12, fig.height=4, message=FALSE, warning=FALSE}
library(ggplot2)
library(patchwork)

# 1) log(Fertility Rate)
p1 <- ggplot(data_selected, aes(x = log(Fert..Rate), y = residuals(model2)^2)) +
  geom_point(alpha = 0.6, color = "steelblue") +
  geom_smooth(method = "loess", se = FALSE, color = "red", linewidth = 1) +
  labs(
    x = "log(Pôrodnosť) – log(Fert. Rate)",
    y = "Variabilita chýb (štvorce rezíduí)",
    title = "Variabilita chýb vs. log(Fertility Rate)"
  ) +
  theme_minimal()

# 2) Median Age
p2 <- ggplot(data_selected, aes(x = Median.Age, y = residuals(model2)^2)) +
  geom_point(alpha = 0.6, color = "steelblue") +
  geom_smooth(method = "loess", se = FALSE, color = "red", linewidth = 1) +
  labs(
    x = "Mediánový vek (Median Age)",
    y = "Variabilita chýb (štvorce rezíduí)",
    title = "Variabilita chýb vs. Median Age"
  ) +
  theme_minimal()

# 3) Migrants net   (ak máš v CSV iný názov, nahraď v aes() spätnými apostrofmi)
p3 <- ggplot(data_selected, aes(x = `Migrants..net.`, y = residuals(model2)^2)) +
  geom_point(alpha = 0.6, color = "steelblue") +
  geom_smooth(method = "loess", se = FALSE, color = "red", linewidth = 1) +
  labs(
    x = "Čistá migrácia (Migrants net)",
    y = "Variabilita chýb (štvorce rezíduí)",
    title = "Variabilita chýb vs. Migrants net"
  ) +
  theme_minimal()

(p1 | p2 | p3)

```
<div class="insight">
  <h4>📉 Interpretácia grafov variability chýb</h4>
  <ul>
    <li><strong>log(Fertility Rate):</strong> červená LOESS krivka je takmer vodorovná – rozptyl chýb sa výrazne nemení s hodnotou premennej.</li>
    <li><strong>Median Age:</strong> body sú rozptýlené rovnomerne, bez „lievikového“ tvaru – nenaznačuje heteroskedasticitu.</li>
    <li><strong>Migrants net:</strong> jemný nárast na vysokých hodnotách je slabý; celkovo rozptyl zostáva stabilný.</li>
  </ul>
  <p>✅ <strong>Záver:</strong> Model2 nevykazuje výrazné známky heteroskedasticity; predpoklad približne konštantného rozptylu je splnený.</p>
</div>


## Testovanie prítomnosti heteroskedasticity

```{r}
# Install (if not yet installed)
# install.packages("lmtest")

# Load the package
library(lmtest)

# Run the Breusch–Pagan test
bptest(model)

```
<div class="insight">
  <h4>📈 Interpretácia Breusch–Pagan testu (heteroskedasticita)</h4>
  <ul>
    <li><strong>Hypotézy:</strong> H<sub>0</sub> – rozptyl rezíduí je konštantný (homoskedasticita); H<sub>1</sub> – rozptyl nie je konštantný (heteroskedasticita).</li>
    <li><strong>Výsledok pre pôvodný model:</strong> p-hodnota je <strong>&lt; 0.05</strong> &rarr; <em>zamietame</em> H<sub>0</sub>. 
      Model vykazuje známky <strong>heteroskedasticity</strong> (variabilita chýb sa mení s hodnotami vysvetľujúcich premenných).</li>
    <li><strong>Dôsledok:</strong> klasické smerodajné chyby môžu byť skreslené &rarr; t-testy a p-hodnoty nemusia byť spoľahlivé.</li>
  </ul>
  <p>✅ <strong>Odporúčanie:</strong> (1) Použiť transformáciu vysvetľujúcej premennej <em>Fert..Rate</em> na <code>log(Fert..Rate)</code> 
  (tvoj <strong>model2</strong>), (2) reportovať <em>robustné smerodajné chyby</em> (HC1, sandwich), 
  prípadne (3) zvážiť váženú regresiu (WLS), ak by heteroskedasticita pretrvávala.</p>
</div>

<div class="muted">
  💡 <em>Poznámka:</em> V demografických a makroekonomických dátach je mierna heteroskedasticita bežná. 
  Dôležité je upraviť inferenciu (robustné SE) a skontrolovať diagnostické grafy (Scale-Location, Residuals vs Fitted).
</div>


```{r}
# Install (if not yet installed)
# install.packages("lmtest")

# Load the package
library(lmtest)

# Run the Breusch–Pagan test
bptest(model2)

```
<div class="analysis">
  <h4>📊 Interpretácia výsledkov testu heteroskedasticity (Breusch–Pagan)</h4>
  <p>
  Na základe výsledkov testu môžeme konštatovať, že <strong>heteroskedasticita rezíduí je v pôvodnom modeli 
  <em>model</em> prítomná</strong> (p-hodnota < 0.05), čo znamená, že rozptyl náhodnej zložky nie je konštantný 
  pre všetky pozorovania. Tento jav môže spôsobiť <em>nespoľahlivé odhady smerodajných chýb</em> 
  a tým aj nepresné testovanie štatistickej významnosti regresných koeficientov.
  </p>

  <p>
  Po úprave modelu — vytvorením <strong>modelu <em>model2</em> so zlogaritmizovanou premennou <em>Fert..Rate</em> 
  a odstránením odľahlých pozorovaní</strong> — sa p-hodnota testu mierne zlepšila, no 
  <strong>známky heteroskedasticity stále pretrvávajú</strong> (p ≈ 0.0025).
  </p>

  <p>
  Vzhľadom na to, že ani transformácia ani eliminácia odľahlých hodnôt 
  heteroskedasticitu úplne neodstránili, <strong>pristúpime k využitiu tzv. White heteroskedasticity-consistent
  (robustných) smerodajných chýb</strong>. Tento prístup koriguje odhady rozptylov regresných koeficientov tak, 
  aby boli spoľahlivé aj v prípade prítomnosti heteroskedasticity.
  </p>
</div>

<div class="muted">
  💡 <em>Poznámka:</em> Heteroskedasticita je v demografických a makroekonomických údajoch častým javom. 
  Použitie robustných štandardných chýb (napr. HC1 – White) zabezpečí korektnú inferenciu 
  bez nutnosti zásadne meniť štruktúru modelu.
</div>

```{r white_test, message=FALSE, warning=FALSE}
# White heteroskedasticity-consistent robust standard errors

# Načítanie potrebných knižníc
library(sandwich)
library(lmtest)

# Výpočet robustných smerodajných chýb pre model (White HC1)
robust_se <- coeftest(model2, vcov = vcovHC(model2, type = "HC1"))

# Výstup
robust_se

```
<div class="analysis">
  <h4>📈 Interpretácia výsledkov s robustnými smerodajnými chybami</h4>
  <p>
  Po aplikácii White heteroskedasticity-consistent (robustných) smerodajných chýb sa ukazuje, že 
  <strong>všetky premenné v modeli sú štatisticky významné alebo hranične významné</strong>.  
  Premenné <em>Median.Age</em> a <em>Fertility Rate (log)</em> majú negatívny vplyv, zatiaľ čo 
  <em>Migrants.net</em> pôsobí pozitívne na predpokladaný počet obyvateľov v roku 2025.
  </p>

  <ul>
    <li><strong>Miera plodnosti (log Fertility Rate)</strong> – negatívny koeficient naznačuje, že krajiny s nižšou pôrodnosťou 
        majú tendenciu dosahovať nižší prírastok populácie (pri ostatných premenných nezmenených).</li>
    <li><strong>Mediánový vek (Median Age)</strong> – negatívny vplyv indikuje, že staršie populácie 
        rástli pomalšie, čo zodpovedá očakávaným demografickým trendom.</li>
    <li><strong>Migrácia (Migrants.net)</strong> – pozitívny a takmer štatisticky významný koeficient (p ≈ 0.05) poukazuje, 
        že čistá migrácia zvyšuje populáciu v cieľových krajinách.</li>
  </ul>

  <p>
  <strong>Interpretácia výsledkov:</strong>  
  Odhady sú stabilnejšie vďaka použitiu robustných štandardných chýb. Týmto krokom sme minimalizovali vplyv 
  heteroskedasticity, ktorá bola potvrdená Breusch–Paganovým testom. 
  <br>
  V modeli sa teda potvrdzuje, že <em>demografické ukazovatele – plodnosť, veková štruktúra a migrácia – 
  majú štatisticky významný vzťah s veľkosťou populácie v roku 2025</em>.
  </p>
</div>

<div class="muted">
  💡 <em>Poznámka:</em> Pri práci s robustnými smerodajnými chybami je dôležité mať dostatočne veľký počet pozorovaní 
  (v tomto prípade viac ako 100), aby boli odhady spoľahlivé. Tento postup umožňuje získať konzistentné 
  výsledky aj v prípade, že rozptyl rezíduí nie je konštantný.
</div>
