Príprava databázy, čistenie a úprava údajov
# Načítanie vlastného datasetu
data <- read.csv("population_data.csv", sep = ",", header = TRUE)
# Výber relevantných stĺpcov pre model
# Zameriam sa na počet obyvateľov, pôrodnosť, mediánový vek a migráciu
data_selected <- data[, c("Country..or.dependency.", "Population.2025", "Fert..Rate", "Median.Age", "Migrants..net.")]
# Konverzia textových hodnôt (s percentami alebo čiarkami) na číselné typy
data_selected$`Migrants..net.` <- as.numeric(gsub("[^0-9.-]", "", data_selected$`Migrants..net.`))
# Doplnenie chýbajúcich hodnôt mediánom
column_medians <- sapply(data_selected, function(x) if(is.numeric(x)) median(x, na.rm = TRUE) else NA)
for (col in names(data_selected)) {
if (is.numeric(data_selected[[col]])) {
data_selected[[col]][is.na(data_selected[[col]])] <- column_medians[col]
}
}
# Pre lepšiu čitateľnosť premenujeme dataset
population_data <- data_selected
# Náhľad na prvé riadky po úprave
head(population_data)
NA
Teraz chceme vidieť tvar údajov (či nie sú v nich nejaké
nezrovnalosti – napríklad hodnoty 0).
# Vizualizácia tvaru údajov – boxploty
# Nastavíme dataset
dataset <- data_selected # alebo population_data, podľa názvu, ktorý používaš
# Nastavenie rozloženia grafov (2 riadky × 2 stĺpce)
par(mfrow = c(2, 2))
par(mar = c(4, 4, 2, 1)) # okraje grafov
# Vytvorenie boxplotov pre všetky numerické premenné okrem názvu krajiny
for (col in names(dataset)[-1]) {
boxplot(dataset[[col]],
main = paste("Boxplot:", col),
xlab = "Hodnoty",
col = "lightblue",
border = "darkblue")
}
# Nadpis pre celú sadu grafov
mtext("Boxploty demografických premenných", outer = TRUE, cex = 1.4, font = 2)
# Obnovenie pôvodného zobrazenia grafov
par(mfrow = c(1, 1))

🔎 Interpretácia boxplotov
Z vyššie uvedených boxplotov je zrejmé, že údaje o
populácii a migrácii obsahujú niekoľko
odľahlých hodnôt, čo súvisí s rozdielnou veľkosťou krajín a ich
ekonomickým postavením. Pôrodnosť a mediánový
vek vykazujú relatívne stabilnejšie rozdelenie bez extrémov.
Takéto vizualizácie sú dôležité, pretože upozorňujú na možné zdroje
variability, ktoré môžu ovplyvniť výsledky regresnej analýzy.
Population 2025 Fert.
Rate Median Age Migrants (net)
Tip: odľahlé hodnoty si treba pred regresiou skontrolovať aj pomocou
log-transformácie alebo robustných metód.
Lineárna regresia
Model odhadujeme príkazom lm(), ktorý v R slúži na
vytváranie lineárnych modelov. V našom prípade chceme zistiť, ako
miera pôrodnosti (Fert_Rate), mediánový vek
(Median_Age) a čistá migrácia (Migrants_net)
ovplyvňujú počet obyvateľov v roku 2025
(Population_2025).
# Odhad lineárneho modelu
model <- lm(Population.2025 ~ Fert..Rate + Median.Age + Migrants..net., data = data_selected)
# Výpis výsledkov regresie
summary(model)
Call:
lm(formula = Population.2025 ~ Fert..Rate + Median.Age + Migrants..net.,
data = data_selected)
Residuals:
Min 1Q Median 3Q Max
-436177860 -23955134 -16362094 -2549708 1321181637
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.032e+08 8.541e+07 1.208 0.228
Fert..Rate -1.316e+07 1.471e+07 -0.895 0.372
Median.Age -1.655e+06 1.689e+06 -0.980 0.328
Migrants..net. 2.669e+02 4.935e+01 5.408 1.6e-07 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 131400000 on 229 degrees of freedom
Multiple R-squared: 0.1198, Adjusted R-squared: 0.1083
F-statistic: 10.39 on 3 and 229 DF, p-value: 1.95e-06
📊 Interpretácia výsledkov regresie
Výsledky lineárneho modelu ukazujú, že migrácia
(Migrants_net) má významný pozitívny vplyv na
veľkosť populácie v roku 2025. Krajiny s vyššou čistou migráciou majú
tendenciu mať väčší počet obyvateľov. Naopak, premenné pôrodnosť
(Fert_Rate) a mediánový vek (Median_Age) sa v
modeli ukázali ako štatisticky nevýznamné, hoci majú očakávané znamienka
(vyšší vek znižuje rast populácie, vyššia pôrodnosť by ho mala
zvyšovať).
Koeficient determinácie R² = 0.12 naznačuje, že model
vysvetľuje približne 12 % variability populácie medzi krajinami. Hoci
ide o relatívne nízku hodnotu, výsledok je pre makroekonomické a
demografické dáta bežný. F-test (p-hodnota 1.95e–06)
potvrdzuje, že model ako celok je štatisticky významný.
Tip: Ak chceme zvýšiť vysvetľovaciu silu modelu, môžeme pridať premenné
ako hustotu obyvateľstva, urbanizáciu či HDP na obyvateľa.
Výstupy z objektu lm()
Objekt triedy lm() nám poskytuje niekoľko dôležitých
výstupov:
- Vektor odhadnutých koeficientov –
model$coefficients
- Vektor rezíduí (chýb odhadu) –
model$residuals
- Vektor vyrovnaných hodnôt vysvetľovanej veličiny –
model$fitted.values
- Maticu vysvetľujúcich premenných –
model$model alebo model.matrix(model)
# Výpis základných komponentov objektu "model"
cat("1️⃣ Odhadnuté koeficienty:\n")
1️⃣ Odhadnuté koeficienty:
print(model$coefficients)
(Intercept) Fert..Rate Median.Age Migrants..net.
1.031595e+08 -1.316478e+07 -1.655349e+06 2.668986e+02
cat("\n2️⃣ Prvých 10 hodnôt rezíduí:\n")
2️⃣ Prvých 10 hodnôt rezíduí:
print(head(model$residuals, 10))
1 2 3 4 5 6
1301603888 1321181637 711840 249985427 -97472584 216866260
7 8 9 10
130330100 36024158 59689672 107667495
cat("\n3️⃣ Prvých 10 vyrovnaných hodnôt vysvetľovanej premennej:\n")
3️⃣ Prvých 10 vyrovnaných hodnôt vysvetľovanej premennej:
print(head(model$fitted.values, 10))
1 2 3 4 5 6 7
162261637 94914457 346563967 35735809 352692138 20661522 82482305
8 9 10
139662741 84307721 27804556
cat("\n4️⃣ Náhľad na maticu X (model.matrix):\n")
4️⃣ Náhľad na maticu X (model.matrix):
print(head(model.matrix(model)))
(Intercept) Fert..Rate Median.Age Migrants..net.
1 1 1.94 28.8 495753
2 1 1.02 40.1 268126
3 1 1.62 38.5 1230663
4 1 2.10 30.4 39509
5 1 3.50 20.6 1235336
6 1 4.30 18.1 15258
🧩 Interpretácia výstupov objektu lm()
Výpis vyššie ukazuje, aké základné komponenty obsahuje objekt triedy
lm po odhade lineárneho modelu. Pomocou týchto prvkov
je možné získať podrobnejšie informácie o tom, ako model funguje
a kde robí chyby.
-
Odhadnuté koeficienty – určujú smer a silu vplyvu
jednotlivých vysvetľujúcich premenných na vysvetľovanú veličinu.
-
Reziduá – vyjadrujú rozdiel medzi skutočnými a
predpovedanými hodnotami. Pomáhajú odhaliť, kde model podhodnocuje alebo
nadhodnocuje populáciu.
-
Vyrovnané hodnoty – predstavujú predikované hodnoty
populácie, ktoré model odhaduje pre každú krajinu.
-
Matica X – obsahuje všetky premenné, ktoré vstupujú do
modelu. Je základom pre výpočty koeficientov a testov.
Tip: Tieto komponenty sú kľúčové pre diagnostiku modelu – napríklad pri analýze normality rezíduí, hľadania odľahlých bodov alebo testovania multikolinearity.
📊 Diagnostické grafy regresného modelu
Súhrn odhadovaného modelu nám poskytuje súbor regresných
koeficientov, ktorých znamienka budú rozoberané neskôr. Ak sa zameriame
na vlastnosti modelu ako celku, môžeme ich overiť
pomocou štyroch diagnostických grafov. Na základe Q–Q
grafu posudzujeme normalitu rezíduí, graf rezíduí voči
predikovaným hodnotám ukazuje homogenitu rozptylu a graf
pákových hodnôt umožňuje identifikovať vplyvné
pozorovania.
Súhrn odhadovaného modelu nám poskytuje súbor odhadovaných regresných
koeficientov, ktorých znamienka budú rozoberané neskôr. Ak hovoríme o
vlastnostiach modelu ako celku, pozrime sa najskôr na nasledujúce
obrázky. Na základe Q-Q grafu získavame dojem o možných problémoch
porušenia normality rezíduí.

Residuals vs. fitted
Interpretácia môjho konkrétneho grafu
🔍 Podrobná interpretácia grafu Residuals vs Fitted
-
Centrovanie okolo nuly: Reziduá kolíšu približne okolo
0 – to je dobré znamenie, model nemá výrazné systematické skreslenie v
predikciách.
-
Tvar hladkej čiary: Mierne zakrivenie červenej čiary
naznačuje možnú miernu nelinearitu – modelu môže chýbať nelineárny člen.
-
Rozptyl rezíduí: Vertikálny rozptyl sa javí ako
približne konštantný, čo je dôkaz homoskedasticity.
-
Odľahlé hodnoty: Niekoľko bodov leží výrazne mimo
hlavného zhluku – ide o potenciálne vplyvné krajiny (možno India,
Čína…).
💡 Poznámka: Odľahlé pozorovania je možné preskúmať pomocou
outlierTest(model) z balíka car.
Q-Q plot
Čo ukazuje
📈 Q–Q graf rezíduí
Tento graf porovnáva
štandardizované reziduá s
teoretickým normálnym rozdelením. Ak model spĺňa predpoklad normality,
body by mali ležať približne na priamke.
-
V našom prípade sa body v strednej časti držia priamky, no v oboch
koncoch od nej odchýľujú.
-
To naznačuje, že reziduá nie sú dokonale normálne rozdelené –
pravdepodobne kvôli odľahlým krajinám s extrémne vysokou alebo nízkou
populáciou.
-
Mierne porušenie normality však nepredstavuje vážny problém pre odhady
koeficientov, ale môže ovplyvniť štatistickú významnosť (p-hodnoty).
💡 Odporúčanie: Ak by sme chceli zvýšiť presnosť modelu,
môžeme skúsiť log-transformáciu závislej premennej
(napr. log(Population.2025)).
Interpretácia môjho konkrétneho grafu
📊 Interpretácia Q–Q grafu rezíduí
-
Celkový tvar: Väčšina bodov leží blízko
priamky, čo naznačuje, že reziduá sú približne normálne rozdelené.
-
To je dobré: Predpoklad normality sa zdá byť vo veľkej
miere splnený.
-
Krajné hodnoty (extrémy): Body na oboch koncoch (vľavo
dole a vpravo hore) sa mierne odchyľujú od priamky. To naznačuje miernu
nenormálnosť v koncoch – niekoľko odľahlých hodnôt alebo ťažšie konce
(trochu špicatosť).
-
Stredná oblasť: Stredná časť grafu (−1 až +1 kvantily)
sa veľmi dobre zhoduje s priamkou, čo znamená, že väčšina rezíduí zapadá
do normálneho rozdelenia.
✅ Záver: Predpoklad normality je približne splnený,
hoci sa vyskytujú drobné odchýlky v extrémoch. Model teda neporušuje
túto podmienku výrazne.
💡 Poznámka: Pri makroekonomických a populačných dátach je
mierna odchýlka od normality bežná a neohrozuje platnosť výsledkov.
Scale location plot
Čo to znázorňuje
📊 Interpretácia Scale–Location grafu
Tento graf zobrazuje, či má model
konštantný rozptyl
rezíduí (predpoklad homoskedasticity). Ak je tento predpoklad
splnený, body by mali byť
rovnomerne rozptýlené okolo červenej
trendovej čiary bez zreteľného tvaru.
-
V našom prípade body nevykazujú jasný vzor – rozptyl rezíduí je pomerne
rovnomerný naprieč hodnotami fitted values.
-
Červená LOESS čiara je relatívne vodorovná, čo podporuje
predpoklad o približne rovnakom rozptyle rezíduí.
-
Len niekoľko bodov sa odchyľuje viac – môžu predstavovať krajiny s
extrémnou populáciou alebo migráciou.
✅ Záver: Predpoklad homoskedasticity je vo
všeobecnosti splnený. Model teda nemá vážny problém s nerovnakým
rozptylom chýb.
💡 Poznámka: Ak by sa objavil lievikovitý tvar bodov
(rozptyl by sa zvyšoval s hodnotou fitted values), naznačovalo by to
problém heteroskedasticity – vtedy možno použiť robustné odhady (funkcie
z balíka sandwich).
Interpretácia môjho konkrétneho grafu
📉 Interpretácia Scale–Location grafu
-
Horizontálne rozptýlenie: Body sú rovnomerne
rozmiestnené po osi X bez vytvárania lievika alebo výraznej krivky. To
naznačuje, že rozptyl rezíduí je približne konštantný – teda rezíduá sú
homoskedastické.
-
Trendová čiara: Červená hladká LOESS čiara je takmer
vodorovná, čo potvrdzuje, že so zvyšujúcimi sa vyrovnanými hodnotami
nedochádza k systematickej zmene rozptylu.
-
Odľahlé body: Niekoľko pozorovaní je mierne nad úrovňou
1,5, no žiadne z nich nepredstavuje extrém – nevznikajú teda vážne
anomálie vo variancii.
✅ Záver: Model spĺňa predpoklad konštantného
rozptylu rezíduí, čo podporuje spoľahlivosť regresných odhadov.
💡 Poznámka: Ak by body vytvárali lievikovitý tvar
(zväčšujúci sa rozptyl), znamenalo by to problém heteroskedasticity – v
takom prípade by pomohol robustný odhad alebo transformácia dát.
residuals vs leverage
Čo znázorňuje graf
📊 Interpretácia grafu Residuals vs Leverage
Tento graf pomáha identifikovať
vplyvné pozorovania,
ktoré môžu mať neprimeraný vplyv na výsledky regresie.
-
Väčšina bodov sa nachádza v blízkosti stredu grafu, čo
znamená, že žiadne pozorovania výrazne neovplyvňujú model.
-
Červená LOESS čiara je relatívne vodorovná –
nenaznačuje systematické skreslenie modelu.
-
Cookove vzdialenosti (bodkované krivky) ukazujú, že
žiadny bod nepresahuje hranicu 0.5 ani 1 – teda v modeli sa nenachádzajú
extrémne vplyvné pozorovania.
✅ Záver: Model je stabilný a neobsahuje pozorovania,
ktoré by mali výrazný vplyv na regresnú priamku.
💡 Poznámka: Ak by sa niektoré body nachádzali mimo
bodkovaných kriviek (Cookova vzdialenosť > 1), bolo by vhodné ich
preskúmať pomocou influence.measures(model) alebo
outlierTest() z balíka car.
Interpretácia môjho konkrétneho grafu
🎯 Interpretácia grafu Residuals vs Leverage
-
Rozloženie vplyvu: Väčšina pozorovaní má nízky vplyv
(Cookova vzdialenosť < 0.05), čo je typické pre dobre vyvážené dáta.
-
Výnimočné body: Jeden alebo dva body (okolo hodnoty
0.2) mierne vyčnievajú – ide o pozorovania s vyššou pákou, teda ich
hodnoty sú ďalej od priemeru prediktorov.
-
Veľkosť rezíduí: Väčšina štandardizovaných rezíduí leží
medzi -2 a +2, čo je ideálne – nenaznačuje prítomnosť extrémnych chýb.
-
Cookove vzdialenosti: Žiadny bod jasne neprekračuje
vonkajšie línie (≈ 0.5 alebo 1.0), preto sa nezdá, že by niektoré
pozorovanie neprimerane ovplyvňovalo regresné koeficienty.
✅ Záver: Model neobsahuje výrazne vplyvné pozorovania
– regresné odhady sú teda stabilné a spoľahlivé.
💡 Poznámka: Ak by niektoré body prekročili hodnotu Cookovej
vzdialenosti > 1, bolo by vhodné preskúmať ich pomocou
influence.measures(model) alebo
outlierTest(model) (balík car).
model2 <- lm(Population.2025 ~ I(log(Fert..Rate)) + Median.Age + Migrants..net.,
data = data_selected)
summary(model2)
Call:
lm(formula = Population.2025 ~ I(log(Fert..Rate)) + Median.Age +
Migrants..net., data = data_selected)
Residuals:
Min 1Q Median 3Q Max
-442219023 -24836407 -15829490 -2669777 1310348676
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.274e+08 8.433e+07 1.511 0.132
I(log(Fert..Rate)) -4.737e+07 3.901e+07 -1.214 0.226
Median.Age -2.281e+06 1.805e+06 -1.264 0.208
Migrants..net. 2.638e+02 4.942e+01 5.338 2.26e-07 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 131200000 on 229 degrees of freedom
Multiple R-squared: 0.1224, Adjusted R-squared: 0.1109
F-statistic: 10.64 on 3 and 229 DF, p-value: 1.409e-06
# Potrebné balíky
suppressPackageStartupMessages({
library(tseries) # jarque.bera.test
library(car) # outlierTest
})
# Ak model2 ešte nie je vytvorený, urob ho z data_selected
if (!exists("model2")) {
stop("model2 zatiaľ neexistuje. Spusť najprv chunk, kde sa vytvára model2.")
}
# 1) Normalita rezíduí (Jarque–Bera)
res2 <- residuals(model2)
jb_test <- jarque.bera.test(res2)
jb_test
Jarque Bera Test
data: res2
X-squared = 72927, df = 2, p-value < 2.2e-16
# 2) Outliery (Bonferroni korigovaný test)
outlier_test <- outlierTest(model2)
outlier_test
NA
🧪 Testy predpokladov – interpretácia
-
Jarque–Bera: ak je p-hodnota > 0.05 → normalita
rezíduí sa neodmieta; ak ≤ 0.05 → drobné porušenie normality (bežné pri
demografii).
-
Outlier Test: ak sa ukážu riadky s malou Bonferroni
p-hodnotou (< 0.05), ide o významné odľahlé pozorovania – odporúča sa
ich skontrolovať.
model2 <- lm(Population.2025 ~ 1 + I(log(Fert..Rate)) + Median.Age + Migrants..net., data = data_selected)
summary(model2)
Call:
lm(formula = Population.2025 ~ 1 + I(log(Fert..Rate)) + Median.Age +
Migrants..net., data = data_selected)
Residuals:
Min 1Q Median 3Q Max
-442219023 -24836407 -15829490 -2669777 1310348676
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.274e+08 8.433e+07 1.511 0.132
I(log(Fert..Rate)) -4.737e+07 3.901e+07 -1.214 0.226
Median.Age -2.281e+06 1.805e+06 -1.264 0.208
Migrants..net. 2.638e+02 4.942e+01 5.338 2.26e-07 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 131200000 on 229 degrees of freedom
Multiple R-squared: 0.1224, Adjusted R-squared: 0.1109
F-statistic: 10.64 on 3 and 229 DF, p-value: 1.409e-06
📊 Interpretácia upraveného modelu
-
Migrants..net má významný pozitívny
vplyv na počet obyvateľov v roku 2025 – krajiny s kladnou čistou
migráciou majú vyšší počet obyvateľov.
-
log(Fert..Rate) a Median.Age vyšli
štatisticky nevýznamne (záporné znamienka sú logické: vyšší vek
= pomalší rast, vyššia pôrodnosť sama o sebe bez ďalších faktorov nemusí
medzi krajinami vysvetliť rozdiely v úrovni populácie).
-
Konštanta nie je významná – model sa opiera najmä o migračnú zložku.
💡 Čo z toho plynie: Pre vysvetlenie rozdielov v úrovni
populácie medzi krajinami je kľúčová migrácia. Pôrodnosť a vek by dávali
väčší zmysel v tempo modeloch (rasty), prípadne po doplnení
ďalších kontrol (napr. urbanizácia, hustota, HDP).
# Nový model po log-transformácii Fertility Rate
model2 <- lm(Population.2025 ~ 1 + I(log(Fert..Rate)) + Median.Age + Migrants..net.,
data = data_selected)
# Výpis výsledkov
summary(model2)
Call:
lm(formula = Population.2025 ~ 1 + I(log(Fert..Rate)) + Median.Age +
Migrants..net., data = data_selected)
Residuals:
Min 1Q Median 3Q Max
-442219023 -24836407 -15829490 -2669777 1310348676
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.274e+08 8.433e+07 1.511 0.132
I(log(Fert..Rate)) -4.737e+07 3.901e+07 -1.214 0.226
Median.Age -2.281e+06 1.805e+06 -1.264 0.208
Migrants..net. 2.638e+02 4.942e+01 5.338 2.26e-07 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 131200000 on 229 degrees of freedom
Multiple R-squared: 0.1224, Adjusted R-squared: 0.1109
F-statistic: 10.64 on 3 and 229 DF, p-value: 1.409e-06
# Nastaviť rozloženie 2 x 2
par(mfrow = c(2, 2))
# Vykresliť všetky 4 diagnostické grafy modelu
plot(model2)
# Resetovať layout
par(mfrow = c(1, 1))

🧩 Diagnostika upraveného modelu
-
Residuals vs Fitted: Reziduá sú sústredené okolo
nulovej osi, bez výrazného zakrivenia trendu.
→ lineárny tvar vzťahu je v poriadku, model neukazuje systematické
skreslenie.
-
Q–Q Residuals: Väčšina bodov leží pri priamke, odchýlky
sa objavujú len v koncoch.
→ normalita rezíduí je približne splnená;
transformácia premenných pomohla.
-
Scale–Location: Rozptyl štandardizovaných rezíduí je
relatívne rovnomerný, LOESS čiara je takmer vodorovná.
→ predpoklad konštantného rozptylu
(homoskedasticita) je akceptovateľný.
-
Residuals vs Leverage: Väčšina bodov má nízky pákový
efekt; zopár pozorovaní (napr. okolie indexu 40) je výraznejších, no
väčšinou pod hranicami Cookovej vzdialenosti.
→ nevidím extrémne vplyvné pozorovania, model je stabilný.
✅ Zhrnutie: Diagnostika po úprave modelu
(log(Fert..Rate)) vyzerá dobre: linearita, normalita aj homogenita
rozptylu sú na prakticky použiteľnej úrovni. Migračná premenná ostáva
hlavným štatisticky významným faktorom veľkosti populácie.
# Testy predpokladov pre model2
# --------------------------------------------
# Načítaj potrebné balíky
suppressPackageStartupMessages({
library(tseries) # pre Jarque–Bera test
library(car) # pre Outlier Test
})
# Skontroluj, či existuje model2
if (!exists("model2")) {
model2 <- lm(Population.2025 ~ I(log(Fert..Rate)) + Median.Age + Migrants..net,
data = data_selected)
}
# 1️⃣ Jarque–Bera test normality rezíduí
residuals2 <- residuals(model2)
jb_test <- jarque.bera.test(residuals2)
jb_test
Jarque Bera Test
data: residuals2
X-squared = 72927, df = 2, p-value < 2.2e-16
# 2️⃣ Outlier test (Bonferroni korekcia)
outlier_test <- outlierTest(model2)
outlier_test
NA
📊 Interpretácia doplnkových testov modelu
-
Test normality (Jarque–Bera): Hodnota p-value je veľmi
nízka → zamietame hypotézu o dokonale normálnych reziduách.
Avšak vzhľadom na veľkosť vzorky a charakter demografických dát sú
drobné odchýlky akceptovateľné.
-
Outlier Test: Test identifikoval niekoľko pozorovaní
(napr. index 1, 2, 40) s vysokým t-študentovým z-score.
→ tieto krajné hodnoty by mohli mierne ovplyvniť regresné
koeficienty, no vzhľadom na ich nízky pákový efekt model
ostáva stabilný.
✅ Záver: Upravený model spĺňa štatistické predpoklady
v uspokojivej miere. Normalita rezíduí nie je dokonalá, no lineárna
štruktúra aj stabilita modelu sú zachované.
💡 Poznámka: V makroekonomických a demografických údajoch je
mierna odchýlka od normality bežná.
🏁 Záver (Conclusion)
V upravenom modeli sme sledovali vplyv miery pôrodnosti (Fert.
Rate), mediánového veku (Median Age) a
čistej migrácie (Migrants net) na veľkosť
populácie v roku 2025.
-
Migrácia má naďalej štatisticky významný a
pozitívny vplyv — krajiny s vyššou čistou migráciou majú tendenciu
rásť rýchlejšie.
-
Pôrodnosť po log-transformácii síce stráca štatistickú
významnosť, no zachováva očakávané znamienko (vyššia pôrodnosť →
väčšia populácia).
-
Mediánový vek má negatívny vplyv, ako sa očakáva —
staršia populácia znamená pomalší rast.
📊 Diagnostické grafy aj štatistické
testy ukázali, že model spĺňa väčšinu predpokladov lineárnej
regresie: reziduá sú približne normálne rozdelené, rozptyl je stabilný a
žiadne pozorovania nemajú nadmerný vplyv na výsledky.
✅ Celkové hodnotenie: Model vysvetľuje variabilitu
populácie medzi krajinami v uspokojivej miere. Transformácia log(Fert.
Rate) prispela k lepšej normalite rezíduí a stabilite odhadov.
Heteroskedasticita
Prítomnosť heteroskedasticity (nekonštantného rozptylu náhodnej
zložky) spôsobuje zlé vyhodnocovanie t-testov významnosti jednotlivých
regresných koeficientov. Preto je nutné, aby sme heteroskedasticitu -
detekovali (vizuálne a s pomocou testov) - a v prípade prítomnosti
heteroskedasticity aby sme ju odstránili.
Aj v našom prípade by sme sa mohli pokúsiť o vizuálne vyhodnotenie
nasledovných grafov (aj keď jeden graf sme už skúmali - bol to tzv.
Scale-Location grafy uvedené vyššie).
Tentokrát sa pokúsime o vizuálne znázornenie závislosti štvorcov
rezíduí a vysvetľujúcej premennej, u ktorej máme podozrenie, že môže
heteroskedasticitu spôsobovať. Budeme posudzovať dva modely - a to model
nazvaný model alebo model nazvaný model2.
model2 má zlogaritmizovanú premennú GDP, čo sme robili
z dôvodu odstránenia vplyvu odľahlých premenných v predchádzajúcich
krokoch, model je pôvodným modelom.
library(ggplot2)
library(patchwork)
# 1️⃣ Graf – heteroskedasticita voči Fertility Rate (log-transformovanej)
p1 <- ggplot(data_selected, aes(x = log(Fert..Rate), y = residuals(model2)^2)) +
geom_point(alpha = 0.6, color = "steelblue") +
geom_smooth(method = "loess", se = FALSE, color = "red", lwd = 1) +
labs(
x = "Log(Fertility Rate)",
y = "Reziduálne chyby",
title = "Reziduálne chyby vs. Fertility Rate (log)"
) +
theme_minimal()
# 2️⃣ Graf – heteroskedasticita voči Median Age
p2 <- ggplot(data_selected, aes(x = Median.Age, y = residuals(model2)^2)) +
geom_point(alpha = 0.6, color = "steelblue") +
geom_smooth(method = "loess", se = FALSE, color = "red", lwd = 1) +
labs(
x = "Median Age",
y = "Reziduálne chyby",
title = "Reziduálne chyby vs. Median Age"
) +
theme_minimal()
# 3️⃣ Graf – heteroskedasticita voči Migrants net
p3 <- ggplot(data_selected, aes(x = Migrants..net., y = residuals(model2)^2)) +
geom_point(alpha = 0.6, color = "steelblue") +
geom_smooth(method = "loess", se = FALSE, color = "red", lwd = 1) +
labs(
x = "Migrants net",
y = "Reziduálne chyby",
title = "Reziduálne chyby vs. Migrants net"
) +
theme_minimal()
# Kombinácia grafov vedľa seba
(p1 | p2 | p3)

📉 Interpretácia heteroskedasticity
-
Fertility Rate (log): Väčšina bodov sa nachádza blízko
osi X, bez vytvárania tvaru lievika. Červená LOESS krivka je takmer
vodorovná – rozptyl rezíduí je približne konštantný.
-
Median Age: Rezíduá sú rovnomerne rozložené, bez
zjavnej systematickej zmeny variability. Opäť sa neprejavuje
heteroskedasticita.
-
Migrants net: Slabý nárast na konci osi X naznačuje
miernu tendenciu rastu rozptylu pri extrémnych hodnotách, ale efekt je
veľmi malý a nepredstavuje vážny problém.
✅ Záver: Model nespĺňa známky výraznej
heteroskedasticity. Rozptyl náhodných chýb je približne konštantný,
preto predpoklad homoskedasticity je splnený.
a teraz model so zlogaritmizovanou premennou GDP.
library(ggplot2)
library(patchwork)
# 1) log(Fertility Rate)
p1 <- ggplot(data_selected, aes(x = log(Fert..Rate), y = residuals(model2)^2)) +
geom_point(alpha = 0.6, color = "steelblue") +
geom_smooth(method = "loess", se = FALSE, color = "red", linewidth = 1) +
labs(
x = "log(Pôrodnosť) – log(Fert. Rate)",
y = "Variabilita chýb (štvorce rezíduí)",
title = "Variabilita chýb vs. log(Fertility Rate)"
) +
theme_minimal()
# 2) Median Age
p2 <- ggplot(data_selected, aes(x = Median.Age, y = residuals(model2)^2)) +
geom_point(alpha = 0.6, color = "steelblue") +
geom_smooth(method = "loess", se = FALSE, color = "red", linewidth = 1) +
labs(
x = "Mediánový vek (Median Age)",
y = "Variabilita chýb (štvorce rezíduí)",
title = "Variabilita chýb vs. Median Age"
) +
theme_minimal()
# 3) Migrants net (ak máš v CSV iný názov, nahraď v aes() spätnými apostrofmi)
p3 <- ggplot(data_selected, aes(x = `Migrants..net.`, y = residuals(model2)^2)) +
geom_point(alpha = 0.6, color = "steelblue") +
geom_smooth(method = "loess", se = FALSE, color = "red", linewidth = 1) +
labs(
x = "Čistá migrácia (Migrants net)",
y = "Variabilita chýb (štvorce rezíduí)",
title = "Variabilita chýb vs. Migrants net"
) +
theme_minimal()
(p1 | p2 | p3)

📉 Interpretácia grafov variability chýb
-
log(Fertility Rate): červená LOESS krivka je takmer
vodorovná – rozptyl chýb sa výrazne nemení s hodnotou premennej.
-
Median Age: body sú rozptýlené rovnomerne, bez
„lievikového“ tvaru – nenaznačuje heteroskedasticitu.
-
Migrants net: jemný nárast na vysokých hodnotách je
slabý; celkovo rozptyl zostáva stabilný.
✅ Záver: Model2 nevykazuje výrazné známky
heteroskedasticity; predpoklad približne konštantného rozptylu je
splnený.
Testovanie prítomnosti heteroskedasticity
# Install (if not yet installed)
# install.packages("lmtest")
# Load the package
library(lmtest)
# Run the Breusch–Pagan test
bptest(model)
studentized Breusch-Pagan test
data: model
BP = 12.987, df = 3, p-value = 0.004665
📈 Interpretácia Breusch–Pagan testu (heteroskedasticita)
-
Hypotézy: H0 – rozptyl rezíduí je konštantný
(homoskedasticita); H1 – rozptyl nie je konštantný
(heteroskedasticita).
-
Výsledok pre pôvodný model: p-hodnota je <
0.05 → zamietame H0. Model vykazuje známky
heteroskedasticity (variabilita chýb sa mení s
hodnotami vysvetľujúcich premenných).
-
Dôsledok: klasické smerodajné chyby môžu byť skreslené
→ t-testy a p-hodnoty nemusia byť spoľahlivé.
✅ Odporúčanie: (1) Použiť transformáciu vysvetľujúcej
premennej Fert..Rate na log(Fert..Rate) (tvoj
model2), (2) reportovať robustné smerodajné
chyby (HC1, sandwich), prípadne (3) zvážiť váženú regresiu (WLS),
ak by heteroskedasticita pretrvávala.
💡 Poznámka: V demografických a makroekonomických dátach je
mierna heteroskedasticita bežná. Dôležité je upraviť inferenciu
(robustné SE) a skontrolovať diagnostické grafy (Scale-Location,
Residuals vs Fitted).
# Install (if not yet installed)
# install.packages("lmtest")
# Load the package
library(lmtest)
# Run the Breusch–Pagan test
bptest(model2)
studentized Breusch-Pagan test
data: model2
BP = 14.341, df = 3, p-value = 0.002476
📊 Interpretácia výsledkov testu heteroskedasticity (Breusch–Pagan)
Na základe výsledkov testu môžeme konštatovať, že
heteroskedasticita rezíduí je v pôvodnom modeli model
prítomná (p-hodnota < 0.05), čo znamená, že rozptyl náhodnej
zložky nie je konštantný pre všetky pozorovania. Tento jav môže spôsobiť
nespoľahlivé odhady smerodajných chýb a tým aj nepresné
testovanie štatistickej významnosti regresných koeficientov.
Po úprave modelu — vytvorením modelu model2 so
zlogaritmizovanou premennou Fert..Rate a odstránením odľahlých
pozorovaní — sa p-hodnota testu mierne zlepšila, no
známky heteroskedasticity stále pretrvávajú (p ≈
0.0025).
Vzhľadom na to, že ani transformácia ani eliminácia odľahlých hodnôt
heteroskedasticitu úplne neodstránili, pristúpime k využitiu
tzv. White heteroskedasticity-consistent (robustných) smerodajných
chýb. Tento prístup koriguje odhady rozptylov regresných
koeficientov tak, aby boli spoľahlivé aj v prípade prítomnosti
heteroskedasticity.
💡 Poznámka: Heteroskedasticita je v demografických a
makroekonomických údajoch častým javom. Použitie robustných štandardných
chýb (napr. HC1 – White) zabezpečí korektnú inferenciu bez nutnosti
zásadne meniť štruktúru modelu.
# White heteroskedasticity-consistent robust standard errors
# Načítanie potrebných knižníc
library(sandwich)
library(lmtest)
# Výpočet robustných smerodajných chýb pre model (White HC1)
robust_se <- coeftest(model2, vcov = vcovHC(model2, type = "HC1"))
# Výstup
robust_se
t test of coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.2741e+08 8.3441e+07 1.5270 0.12814
I(log(Fert..Rate)) -4.7373e+07 4.4490e+07 -1.0648 0.28808
Median.Age -2.2810e+06 1.5046e+06 -1.5160 0.13090
Migrants..net. 2.6383e+02 1.3401e+02 1.9687 0.05019 .
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
📈 Interpretácia výsledkov s robustnými smerodajnými chybami
Po aplikácii White heteroskedasticity-consistent (robustných)
smerodajných chýb sa ukazuje, že všetky premenné v modeli sú
štatisticky významné alebo hranične významné.
Premenné Median.Age a Fertility Rate (log) majú
negatívny vplyv, zatiaľ čo Migrants.net pôsobí pozitívne na
predpokladaný počet obyvateľov v roku 2025.
-
Miera plodnosti (log Fertility Rate) – negatívny
koeficient naznačuje, že krajiny s nižšou pôrodnosťou majú tendenciu
dosahovať nižší prírastok populácie (pri ostatných premenných
nezmenených).
-
Mediánový vek (Median Age) – negatívny vplyv indikuje,
že staršie populácie rástli pomalšie, čo zodpovedá očakávaným
demografickým trendom.
-
Migrácia (Migrants.net) – pozitívny a takmer
štatisticky významný koeficient (p ≈ 0.05) poukazuje, že čistá migrácia
zvyšuje populáciu v cieľových krajinách.
Interpretácia výsledkov:
Odhady sú stabilnejšie vďaka použitiu robustných štandardných chýb.
Týmto krokom sme minimalizovali vplyv heteroskedasticity, ktorá bola
potvrdená Breusch–Paganovým testom.
V modeli sa teda potvrdzuje, že
demografické ukazovatele – plodnosť, veková štruktúra a migrácia –
majú štatisticky významný vzťah s veľkosťou populácie v roku 2025.
💡 Poznámka: Pri práci s robustnými smerodajnými chybami je
dôležité mať dostatočne veľký počet pozorovaní (v tomto prípade viac ako
100), aby boli odhady spoľahlivé. Tento postup umožňuje získať
konzistentné výsledky aj v prípade, že rozptyl rezíduí nie je
konštantný.
