Pokračujeme v predchádzajúcich úlohách, kde s pomocou regresnej
analýzy skúmame, ako demografické ukazovatele ovplyvňujú predpokladanú
veľkosť populácie krajín v roku 2025. V našom modeli sa zameriavame na
tri hlavné vysvetľujúce premenné:
Cieľom analýzy je zistiť, či a akým spôsobom tieto demografické
faktory prispievajú k očakávanému počtu obyvateľov v roku 2025.
Výsledok regresie je uvedený nižšie.
Testovať, či je model v správnej funkčnej forme (t. j. či je lineárna
špecifikácia vhodná, alebo či by ste mali transformovať premenné,
napríklad pomocou logaritmov alebo mocninami), možno vykonať viacerými
spôsobmi.
1. Test RESET (test chyby špecifikácie Ramseyho regresnej rovnice -
Ramsey Reset Test)
Ide o najštandardnejší formálny test nesprávnej špecifikácie funkčnej
formy ale dá sa použiť aj pre prípady, ak sme nešpecifikovali všetky
vysvetľujúce premenné.
Myšlienka: Nech pôvodný model má tvar \[y_t = \beta_0 + \beta_1 x_{t10} + \dots +\beta_k
x_{tk} + u_t\] Ak je váš model správne špecifikovaný, potom
pridaním mocnín vyrovnaných hodnôt (napr. \(\hat y_t^2\), \(\hat{y}_t^3\)) by sa pôvodný model nemal
podstatne zlepšiť, teda budeme testovať pôvodný model uvedený vyššie a
model
\[y_t = \beta_0 + \beta_1 x_{t10} + \dots
+\beta_k x_{tk} + \gamma_2\hat y_t^2 + \gamma_3\hat{y}_t^3 +
u_t\]
Budeme testovať hypotézu
\(H_0:\) model je správne
špecifikovaný (\(\gamma_2 = \gamma_3 =
0\))
oproti
\(H_1:\) model je nesprávne
špecifikovaný (\(\gamma_2 \ne 0 \quad
\text{alebo} \quad \gamma_3 \ne 0\))
library(lmtest)
# tvoj model:
model <- lm(Population.2025 ~ Fert..Rate + Median.Age + Migrants..net.,
data = data_selected)
# RESET test – test nesprávnej špecifikácie modelu
reset_results <- resettest(model, power = 2:3, type = "fitted")
reset_results
RESET test
data: model
RESET = 0.9428, df1 = 2, df2 = 227, p-value = 0.3911
Interpretácia: 🧪 RESET test – kontrola špecifikácie
modelu
Výsledok RESET testu:
- RESET = 0.9428
- p-value = 0.3911
Keďže p-value je vyššia ako 0.05, nezamietame
nulovú hypotézu, že model je správne špecifikovaný.
➡️ Model nepreukazuje chybnú funkčnú formu.
➡️ Nie je potrebné pridávať nelineárne členy ani ďalšie
premenné.
Model podľa RESET testu zodpovedá vhodnej
špecifikácii.
4. Porovnanie základného a modifikovaného modelu
Na základe grafov Component + Residual sme identifikovali, že
najväčší odklon od linearity vykazujú premenné Median.Age a
Migrants..net.. Tieto premenné nevytvárajú striktne lineárny vzťah so
závislou premennou Population.2025, čo naznačuje možnú potrebu doplnenia
kvadratických členov.
Preto predpokladáme, že pri nelineárnych úpravách pôvodného modelu
dôjde k zlepšeniu jeho špecifikácie práve po zavedení kvadrátov
premenných Median.Age² a Migrants..net.². Ich správanie v C+R grafoch
naznačovalo mierne zakrivenie, ktoré sa výraznejšie odchyľovalo od
priamky.
Ak má transformovaný model vyšší upravený koeficient determinácie
\(R^2_{adj}\), lepšiu štatistickú
významnosť a zároveň RESET test nepotvrdí nesprávnu špecifikáciu, môžeme
nový model považovať za vhodnejší. Odporúčame výsledky ďalej podporiť aj
porovnaním oboch modelov pomocou ANOVA testu, ktorý overí, či má
rozšírený model štatisticky významne lepšiu výkonnosť.
# Základný lineárny model
model <- lm(Population.2025 ~ 1 + Fert..Rate + Median.Age + Migrants..net.,
data = data_selected)
# Model s kvadratickými členmi na základe C+R grafov
model_kvadr <- lm(Population.2025 ~ 1 + Fert..Rate +
Median.Age + I(Median.Age^2) +
Migrants..net. + I(Migrants..net.^2),
data = data_selected)
# Výstupy modelu
summary(model_kvadr)
Call:
lm(formula = Population.2025 ~ 1 + Fert..Rate + Median.Age +
I(Median.Age^2) + Migrants..net. + I(Migrants..net.^2), data = data_selected)
Residuals:
Min 1Q Median 3Q Max
-93614219 -33867568 -24064751 -8026469 1418718877
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.873e+08 2.533e+08 0.739 0.461
Fert..Rate -2.194e+07 2.375e+07 -0.923 0.357
Median.Age -4.326e+06 1.151e+07 -0.376 0.707
I(Median.Age^2) 2.863e+04 1.502e+05 0.191 0.849
Migrants..net. 2.049e+02 1.952e+02 1.050 0.295
I(Migrants..net.^2) -8.655e-05 1.324e-04 -0.654 0.514
Residual standard error: 139500000 on 227 degrees of freedom
Multiple R-squared: 0.01705, Adjusted R-squared: -0.004599
F-statistic: 0.7876 on 5 and 227 DF, p-value: 0.5596
# Porovnanie základného a nelineárneho modelu
anova(model, model_kvadr)
Analysis of Variance Table
Model 1: Population.2025 ~ 1 + Fert..Rate + Median.Age + Migrants..net.
Model 2: Population.2025 ~ 1 + Fert..Rate + Median.Age + I(Median.Age^2) +
Migrants..net. + I(Migrants..net.^2)
Res.Df RSS Df Sum of Sq F Pr(>F)
1 229 4.4270e+18
2 227 4.4181e+18 2 8.9087e+15 0.2289 0.7956
# RESET test pre nelineárne rozšírený model
resettest(model_kvadr)
RESET test
data: model_kvadr
RESET = 0.74875, df1 = 2, df2 = 225, p-value = 0.4741
Takto modifikovaný model, v ktorom sme doplnili kvadrát premenných
Median.Age a Migrants..net., však neoznačuje žiadny z
kvadratických členov za štatisticky významný (p-hodnoty sú výrazne
väčšie ako 0,05). Zároveň nedochádza k zlepšeniu upraveného koeficientu
determinácie – naopak, jeho hodnota klesla na približne \(R^2_{\text{adj}} \approx -0{.}0046\).
Aj porovnanie modelov pomocou ANOVA (p-hodnota \(\approx 0{.}80\)) a RESET testu (p-hodnota
\(\approx 0{.}47\)) ukazuje, že
kvadratický model nie je lepší než pôvodný lineárny model. V ďalšej
analýze preto pracujeme s jednoduchším lineárnym modelom bez
kvadratických členov.
model_kvadr <- lm(Population.2025 ~ 1 + Fert..Rate + Median.Age + Migrants..net. +
I(Median.Age^2) + I(Migrants..net.^2),
data = data_selected)
summary(model_kvadr)
Call:
lm(formula = Population.2025 ~ 1 + Fert..Rate + Median.Age +
Migrants..net. + I(Median.Age^2) + I(Migrants..net.^2), data = data_selected)
Residuals:
Min 1Q Median 3Q Max
-93614219 -33867568 -24064751 -8026469 1418718877
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.873e+08 2.533e+08 0.739 0.461
Fert..Rate -2.194e+07 2.375e+07 -0.923 0.357
Median.Age -4.326e+06 1.151e+07 -0.376 0.707
Migrants..net. 2.049e+02 1.952e+02 1.050 0.295
I(Median.Age^2) 2.863e+04 1.502e+05 0.191 0.849
I(Migrants..net.^2) -8.655e-05 1.324e-04 -0.654 0.514
Residual standard error: 139500000 on 227 degrees of freedom
Multiple R-squared: 0.01705, Adjusted R-squared: -0.004599
F-statistic: 0.7876 on 5 and 227 DF, p-value: 0.5596
Porovnanie základného a kvadraticky modifikovaného modelu
Do modelu sme pridali kvadratické členy premenných
Median.Age a Migrants..net. s cieľom zachytiť
možné nelineárne vzťahy. Výsledky však ukazujú, že ani jeden z týchto
kvadratických členov nie je štatisticky významný (všetky p-hodnoty sú
výrazne väčšie ako 0.05).
Upravený koeficient determinácie zostal v podstate nezmenený a má
hodnotu
\(R^2_{adj} =
-0.0046\), čo naznačuje, že kvadraticky rozšírený model
nevysvetľuje variabilitu dát lepšie ako pôvodný model.
Zavedenie kvadratických členov preto neprinieslo
zlepšenie a v ďalšej analýze budeme pokračovať s pôvodným
lineárnym modelom.
5. Použitie rozšíreného RESET testu
model_rozsireny <- lm(
Population.2025 ~
Fert..Rate +
Median.Age +
Migrants..net. +
I(Median.Age^2) +
I(Migrants..net.^2),
data = data_selected
)
summary(model_rozsireny)
Call:
lm(formula = Population.2025 ~ Fert..Rate + Median.Age + Migrants..net. +
I(Median.Age^2) + I(Migrants..net.^2), data = data_selected)
Residuals:
Min 1Q Median 3Q Max
-93614219 -33867568 -24064751 -8026469 1418718877
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.873e+08 2.533e+08 0.739 0.461
Fert..Rate -2.194e+07 2.375e+07 -0.923 0.357
Median.Age -4.326e+06 1.151e+07 -0.376 0.707
Migrants..net. 2.049e+02 1.952e+02 1.050 0.295
I(Median.Age^2) 2.863e+04 1.502e+05 0.191 0.849
I(Migrants..net.^2) -8.655e-05 1.324e-04 -0.654 0.514
Residual standard error: 139500000 on 227 degrees of freedom
Multiple R-squared: 0.01705, Adjusted R-squared: -0.004599
F-statistic: 0.7876 on 5 and 227 DF, p-value: 0.5596
V tomto kroku testujeme, či kvadratické členy
Median.Age² a Migrants..net.²
prinášajú do modelu štatisticky významné informácie.
Ak by boli významné, mali by sme uvažovať nad kvadratickou
transformáciou týchto premenných.
Na základe výstupu summary(model_rozsireny) však vidíme,
že:
- koeficient pri
I(Median.Age^2) nie je
štatisticky významný (p = 0.849),
- koeficient pri
I(Migrants..net.^2) taktiež nie
je štatisticky významný (p = 0.514).
anova(model,model_rozsireny)
Analysis of Variance Table
Model 1: Population.2025 ~ 1 + Fert..Rate + Median.Age + Migrants..net.
Model 2: Population.2025 ~ Fert..Rate + Median.Age + Migrants..net. +
I(Median.Age^2) + I(Migrants..net.^2)
Res.Df RSS Df Sum of Sq F Pr(>F)
1 229 4.4270e+18
2 227 4.4181e+18 2 8.9087e+15 0.2289 0.7956
resettest(model_rozsireny)
RESET test
data: model_rozsireny
RESET = 0.74875, df1 = 2, df2 = 225, p-value = 0.4741
Pri RESET teste vidíme, že p-hodnota 0.4741 je
výrazne vyššia ako hladina významnosti 0.05.
To znamená, že nezamietame nulovú hypotézu správnej špecifikácie
modelu.
Zároveň však platí, že ani rozšírený model s kvadratickými členmi
nebol štatisticky významný
(ANOVA p = 0.7956), takže prípadný problém nesprávnej
špecifikácie modelu sa neodstránil,
ale zároveň nebol ani potvrdený. Zavedenie
kvadratických členov neprinieslo zlepšenie modelu.
6. Transformácia pomocou dummy premennej a lineárnej lomenej
funkcie
Predpokladajme, že máme dummy premennú \(D_t\), ktorá obsahuje len nuly a jedničky.
Takáto premenná sa dá využiť modelovanie zlomov, a to napr.
- zlom v autonómnom člene \(\beta_0\)
a to nasledovnou špecifikáciou \[y_t =
\beta_0 + \beta_D D+ \beta_1 x_{t1} + \dots +\beta_k x_{tk} +
u_t\] čo interpretujeme ako posun regresnej priamky (regresnej
nadroviny) o \(\beta_D\) jednotiek
pozdĺž zvislej osi a to len v pozorovaniach, ak je splnená podmienka
\(D_t = 1\)
- zlom v sklone regresnej priamky (nadroviny) a to len v
pozorovaniach, ak je splnená podmienka \(D_t =
1\), čo dosiahneme nasledovnou špecifikáciou \[y_t = \beta_0 + \beta_1 x_{t1} + \dots +
\beta_{i}x_{ti} + \beta_{Di}D_tx_{ti}+ \dots + \beta_k x_{tk} +
u_t\] kde teda sklon priamky pozdĺž premenne \(x_{ti}\) je \(\beta_i\) ale len v prípade \(D_t=0\), inak je ten sklon rovný \(\beta_i+\beta_{D_i}\).
Ak si pozrieme C+R grafy pre naše vysvetľujúce premenné, vidíme, že
najvýraznejšie odchýlky od linearity sa objavujú pri premenných
Migrants..net. a Median.Age. Vyrovnaná krivka pri
oboch premenných naznačuje mierne zakrivenie, najmä pri extrémnejších
hodnotách, čo môže signalizovať potrebu nelineárnej úpravy (t.j.
zavedenie kvadratického člena). Preto sme do modelu zaradili premenné
I(Median.Age²) a I(Migrants..net.²),
aby sme otestovali, či tieto nelineárne efekty dokážu zlepšiť
špecifikáciu modelu.
Kvantifikujme teraz model so zlomom v autonómnom členovi.
Keďže podľa C+R grafov zaznamenávame nelineárne správanie pri premenných
Migrants..net., zavedieme novú dummy premennú, ktorá rozdelí
krajiny podľa úrovne migrácie.
Nech
\(DUM_t = 0\) pre hodnoty
Migrants..net. nižšie ako medián
a
\(DUM_t = 1\) pre hodnoty
Migrants..net. vyššie alebo rovné mediánu.
Takto budeme môcť posúdiť, či sa intercept modelu výrazne mení pri
vyšších hodnotách migrácie.
# prah si môžeme určiť ako medián
threshold <- median(data_selected$Migrants..net., na.rm = TRUE)
# dummy premenná podľa prahu
data_selected$DUM <- ifelse(data_selected$Migrants..net. < threshold, 0, 1)
# model so zlomom v autonómnom členovi
model_auto <- lm(Population.2025 ~ 1 + DUM + Fert..Rate + Median.Age +
Migrants..net.,
data = data_selected)
summary(model_auto)
Call:
lm(formula = Population.2025 ~ 1 + DUM + Fert..Rate + Median.Age +
Migrants..net., data = data_selected)
Residuals:
Min 1Q Median 3Q Max
-128357100 -38514919 -22145390 1662071 1409733516
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.053e+08 9.279e+07 1.135 0.2577
DUM 3.905e+07 2.333e+07 1.674 0.0955 .
Fert..Rate -1.922e+07 1.547e+07 -1.243 0.2152
Median.Age -1.852e+06 1.787e+06 -1.036 0.3011
Migrants..net. 7.029e+01 6.337e+01 1.109 0.2686
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 138500000 on 228 degrees of freedom
Multiple R-squared: 0.02703, Adjusted R-squared: 0.009957
F-statistic: 1.583 on 4 and 228 DF, p-value: 0.1796
Zavedením zlomovej premennej DUM došlo k miernemu zlepšeniu modelu,
keďže koeficient pri DUM vyšiel na hladine významnosti 10 % štatisticky
významný (p ≈ 0.0955). To naznačuje, že pre krajiny nad zvolenou
hranicou fertility sa úroveň populácie systematicky líši (má iný
intercept). Ostatné premenné ostali nevýznamné a upravený R² zostal
veľmi nízky (≈ 0.00996). Celkový F-test naznačuje, že model ako celok
nie je významný (p ≈ 0.1796). Zavedenie zlomovej premennej preto
neprinieslo zásadné zlepšenie kvality modelu.
modelD_sklon <- lm(Population.2025 ~ 1 + Fert..Rate + I(DUM * Fert..Rate) +
Median.Age + Migrants..net.,
data = data_selected)
summary(modelD_sklon)
Call:
lm(formula = Population.2025 ~ 1 + Fert..Rate + I(DUM * Fert..Rate) +
Median.Age + Migrants..net., data = data_selected)
Residuals:
Min 1Q Median 3Q Max
-131583667 -36676438 -22886410 -753794 1411771077
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.444e+08 8.974e+07 1.610 0.1089
Fert..Rate -3.348e+07 1.850e+07 -1.810 0.0717 .
I(DUM * Fert..Rate) 1.549e+07 1.077e+07 1.439 0.1517
Median.Age -2.011e+06 1.783e+06 -1.128 0.2606
Migrants..net. 7.529e+01 6.323e+01 1.191 0.2350
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 138700000 on 228 degrees of freedom
Multiple R-squared: 0.02393, Adjusted R-squared: 0.006805
F-statistic: 1.397 on 4 and 228 DF, p-value: 0.2357
📌 Interpretácia výsledkov modelu so zlomom v sklone (interakcia
DUM * Fert..Rate)
V tomto kroku sme do modelu zaviedli zmenu sklonu pre
premennú Fert..Rate pomocou interakčného člena
I(DUM * Fert..Rate). Premenná DUM
rozdeľuje pozorovania na dve skupiny podľa vopred určenej hranice a
testujeme, či fertilita ovplyvňuje veľkosť populácie rozdielne v týchto
dvoch skupinách.
📊 Výsledky regresného modelu
- Fert..Rate
- odhad:
-3.348e+07
- p-hodnota:
0.0717
→ účinok je slabo významný (približne na 10 % hladine).
- Interakcia
DUM * Fert..Rate
- odhad:
1.549e+07
- p-hodnota:
0.1517
→ interakčný efekt nie je štatisticky významný, teda sklon
Fert..Rate sa po zmene DUM výrazne nemení.
- Median.Age
- p-hodnota:
0.2606
→ nevýznamný efekt.
- Migrants..net.
- p-hodnota:
0.2350
→ takisto nevýznamný efekt.
📈 Hodnotenie kvality modelu
Multiple R-squared: 0.02393
Adjusted R-squared: 0.006805
→ model vysvetľuje len približne 2,4 % variability v
údajoch.
F-test modelu: p-hodnota =
0.2357
→ model ako celok nie je štatisticky významný.
📝 Záver
- Interakčný člen
DUM * Fert..Rate
nezlepšil kvalitu modelu a nie je štatisticky
významný.
- Neexistuje dôkaz, že fertilita má odlišný vplyv na populáciu v roku
2025 medzi dvomi skupinami definovanými podľa premennej
DUM.
- Model má veľmi nízke hodnoty \(R^2\) aj \(R^2_{\text{adj}}\), čo znamená slabú
vysvetľovaciu schopnosť.
- Model so zlomom v sklone preto neodporúčame používať ako
finálny model.
anova(model, modelD_sklon)
Analysis of Variance Table
Model 1: Population.2025 ~ 1 + Fert..Rate + Median.Age + Migrants..net.
Model 2: Population.2025 ~ 1 + Fert..Rate + I(DUM * Fert..Rate) + Median.Age +
Migrants..net.
Res.Df RSS Df Sum of Sq F Pr(>F)
1 229 4.4270e+18
2 228 4.3872e+18 1 3.982e+16 2.0694 0.1517
resettest(modelD_sklon)
RESET test
data: modelD_sklon
RESET = 0.92117, df1 = 2, df2 = 226, p-value = 0.3995
📌 Porovnanie modelov pomocou ANOVA a RESET testu
Na overenie, či zavedenie interakčného člena
DUM * Fert..Rate viedlo k zlepšeniu špecifikácie modelu,
sme použili ANOVA test a následne aj RESET
test.
🔍 Výsledky ANOVA testu
ANOVA porovnáva:
- Model 1:
Population.2025 ~ 1 + Fert..Rate + Median.Age + Migrants..net.
- Model 2 (rozšírený):
Population.2025 ~ 1 + Fert..Rate + I(DUM * Fert..Rate) + Median.Age + Migrants..net.
Výsledok:
- F = 2.0694,
- p-hodnota = 0.1517
👉 Keďže p-hodnota je väčšia ako 0.05, rozšírený
model nevykazuje štatisticky významné zlepšenie oproti základnému
modelu.
Interakčný člen teda neprispel k lepšiemu vysvetleniu
variability v dátach.
🧪 RESET test pre model so zlomom v sklone
Výsledok RESET testu:
- RESET = 0.92117
- df1 = 2, df2 = 226
- p-hodnota = 0.3995
👉 Keďže p-hodnota je opäť oveľa vyššia ako 0.05,
nezamietame nulovú hypotézu správnej špecifikácie modelu.
RESET test teda neindicuje chybnú funkčnú formu, ale
zároveň ani nepotvrdzuje, že interakcia priniesla
zlepšenie.
📝 Záver
- Ani ANOVA, ani RESET test
nepreukázali, že by zavedenie interakčného člena
DUM * Fert..Rate prispelo k zlepšeniu modelu.
- Model so zlomom v sklone nie je štatisticky lepší
ako pôvodný model.
- Neexistuje dôkaz, že fertilita má odlišný vplyv na
populáciu v rôznych skupinách definovaných premennou DUM.
- Zostávame teda pri závere, že tento model nie je vhodný ako
finálny a nepodporuje hypotézu o zmene sklonu.
