library(zoo)
library(tseries)
library(lmtest)
library(sandwich)
library(car)
rm(list=ls())

Pokračujeme v predchádzajúcich úlohách, kde s pomocou regresnej analýzy skúmame, ako demografické ukazovatele ovplyvňujú predpokladanú veľkosť populácie krajín v roku 2025. V našom modeli sa zameriavame na tri hlavné vysvetľujúce premenné:

Cieľom analýzy je zistiť, či a akým spôsobom tieto demografické faktory prispievajú k očakávanému počtu obyvateľov v roku 2025.
Výsledok regresie je uvedený nižšie.

############################################################
# PRÍPRAVA ÚDAJOV
############################################################

# načítanie dát
údaje <- read.csv("population_data.csv",
                  sep = ",",
                  dec = ".",
                  header = TRUE)

údaje$Fert..Rate <- as.numeric(as.character(údaje$Fert..Rate))
údaje$Median.Age <- as.numeric(as.character(údaje$Median.Age))
údaje$Migrants..net. <- as.numeric(as.character(údaje$Migrants..net.))
údaje$Population.2025 <- as.numeric(as.character(údaje$Population.2025))

data_selected <- údaje[, c("Population.2025", "Fert..Rate", "Median.Age", "Migrants..net.")]

# výber premenných, s ktorými pracujeme
data_selected <- údaje[, c("Population.2025",
                           "Fert..Rate",
                           "Median.Age",
                           "Migrants..net.")]

# odstránenie chýbajúcich hodnôt imputáciou mediánom
column_medians <- sapply(data_selected, median, na.rm = TRUE)

data_imputed <- data_selected
for (col in names(data_imputed)) {
  data_imputed[[col]][is.na(data_imputed[[col]])] <- column_medians[col]
}

# konečný dataset
data_selected <- data_imputed


################################################################################
# ZAKLADNA REGRESIA
################################################################################
attach(údaje)
model <- lm(Population.2025 ~ Fert..Rate + Median.Age + Migrants..net., 
            data = data_selected)
summary(model)

Call:
lm(formula = Population.2025 ~ Fert..Rate + Median.Age + Migrants..net., 
    data = data_selected)

Residuals:
       Min         1Q     Median         3Q        Max 
-140219782  -35078796  -24786817   -5778921 1417079953 

Coefficients:
                 Estimate Std. Error t value Pr(>|t|)
(Intercept)     1.457e+08  8.995e+07   1.620    0.107
Fert..Rate     -1.893e+07  1.553e+07  -1.219    0.224
Median.Age     -2.177e+06  1.784e+06  -1.221    0.224
Migrants..net.  8.427e+01  6.307e+01   1.336    0.183

Residual standard error: 1.39e+08 on 229 degrees of freedom
Multiple R-squared:  0.01507,   Adjusted R-squared:  0.002167 
F-statistic: 1.168 on 3 and 229 DF,  p-value: 0.3227

Testovať, či je model v správnej funkčnej forme (t. j. či je lineárna špecifikácia vhodná, alebo či by ste mali transformovať premenné, napríklad pomocou logaritmov alebo mocninami), možno vykonať viacerými spôsobmi.

1. Test RESET (test chyby špecifikácie Ramseyho regresnej rovnice - Ramsey Reset Test)

Ide o najštandardnejší formálny test nesprávnej špecifikácie funkčnej formy ale dá sa použiť aj pre prípady, ak sme nešpecifikovali všetky vysvetľujúce premenné.

Myšlienka: Nech pôvodný model má tvar \[y_t = \beta_0 + \beta_1 x_{t10} + \dots +\beta_k x_{tk} + u_t\] Ak je váš model správne špecifikovaný, potom pridaním mocnín vyrovnaných hodnôt (napr. \(\hat y_t^2\), \(\hat{y}_t^3\)) by sa pôvodný model nemal podstatne zlepšiť, teda budeme testovať pôvodný model uvedený vyššie a model

\[y_t = \beta_0 + \beta_1 x_{t10} + \dots +\beta_k x_{tk} + \gamma_2\hat y_t^2 + \gamma_3\hat{y}_t^3 + u_t\]

Budeme testovať hypotézu

\(H_0:\) model je správne špecifikovaný (\(\gamma_2 = \gamma_3 = 0\))

oproti

\(H_1:\) model je nesprávne špecifikovaný (\(\gamma_2 \ne 0 \quad \text{alebo} \quad \gamma_3 \ne 0\))

library(lmtest)

# tvoj model:
model <- lm(Population.2025 ~ Fert..Rate + Median.Age + Migrants..net., 
            data = data_selected)

# RESET test – test nesprávnej špecifikácie modelu
reset_results <- resettest(model, power = 2:3, type = "fitted")
reset_results

    RESET test

data:  model
RESET = 0.9428, df1 = 2, df2 = 227, p-value = 0.3911

Interpretácia: 🧪 RESET test – kontrola špecifikácie modelu

Výsledok RESET testu:

Keďže p-value je vyššia ako 0.05, nezamietame nulovú hypotézu, že model je správne špecifikovaný.

➡️ Model nepreukazuje chybnú funkčnú formu.
➡️ Nie je potrebné pridávať nelineárne členy ani ďalšie premenné.

Model podľa RESET testu zodpovedá vhodnej špecifikácii.

2. Grafická analýza

Graf Residuals vs. Fitted

Grafická analýza vzťahu medzi vyrovnanými hodnotami náhodnej premennej a rezíduami:

plot(model, which = 1)

📊 Interpretácia grafu Residuals vs. Fitted

Na grafe Residuals vs. Fitted si všímame rozloženie reziduí okolo horizontálnej čiary.
Z nášho grafu možno pozorovať nasledovné:

✅ Záver

Na základe grafickej diagnostiky možno povedať, že model nevykazuje závažné štrukturálne problémy.
Správanie reziduí je primerane náhodné, čo podporuje závery aj z RESET testu.

Grafy C+R **

Táto analýza nám môže pomôcť pri hľadaní odpovede na otázku, ktorú premennú by sme mali transfomovať pomocou nejakej známej funkcie. Vychádzajme z pôvodnej rovnice

\[y_t = \beta_0 + \beta_1 x_{t1} + \dots +\beta_k x_{tk} + u_t\] Túto rovnicu najprv odhadneme a potom vykresľujeme grafy, kde výraz component+residual (C+R) plot vykresľuje na zvislej osi \(\hat{\beta}_ix_{ti}+e_t\) a na vodorovnej osi vykresľuje hodnoty \(x_{ti}\)

Tieto grafy pomáhajú identifikovať nelineárne vzťahy pre každý regresor:

car::crPlots(model)

📊 Interpretácia Component + Residual (C+R) grafov

Cieľom C+R grafov je overiť, či je vzťah medzi jednotlivými regresormi a závislou premennou lineárny, alebo či by mohla byť vhodná transformácia (logaritmus, mocnina a pod.).
Nižšie uvádzam interpretáciu pre každý regresor.


1️⃣ Premenná Fert..Rate

➡️ Lineárny tvar je postačujúci, transformácia nie je potrebná.


2️⃣ Premenná Median.Age

➡️ Lineárna špecifikácia je vhodná, transformácia nie je potrebná.


3️⃣ Premenná Migrants..net.

➡️ Možná kandidátka na transformáciu (napr. logaritmus), ale odklon nie je dramatický a model funguje aj bez úprav.


Zhrnutie

C+R grafy naznačujú, že regresory Fert..Rate a Median.Age majú lineárny vzťah so závislou premennou. Premenná Migrants..net. ukazuje mierne nelineárny trend, ale nie natoľko výrazný, aby bolo nevyhnutné meniť špecifikáciu modelu. Celkovo grafy nepoukazujú na potrebu zásadných transformácií premenných.

3. Nelineárna špecifikácia

Častokrát môžeme aj zložitejšie nelineárne vzťahy modelovať s pomocou ich aproximácie s polynómom, teda v prípade kvadratických členov

\[y_t = \beta_0 + \beta_1 x_{t10} + \dots +\beta_k x_{tk} + \dots + \gamma_i\hat x_{ik}^2 + \dots + \gamma_j\hat x_{jk}^2 + \dots + u_t\] Príklad na túto modifikáciu uvidíme nižšie.

4. Porovnanie základného a modifikovaného modelu

Na základe grafov Component + Residual sme identifikovali, že najväčší odklon od linearity vykazujú premenné Median.Age a Migrants..net.. Tieto premenné nevytvárajú striktne lineárny vzťah so závislou premennou Population.2025, čo naznačuje možnú potrebu doplnenia kvadratických členov.

Preto predpokladáme, že pri nelineárnych úpravách pôvodného modelu dôjde k zlepšeniu jeho špecifikácie práve po zavedení kvadrátov premenných Median.Age² a Migrants..net.². Ich správanie v C+R grafoch naznačovalo mierne zakrivenie, ktoré sa výraznejšie odchyľovalo od priamky.

Ak má transformovaný model vyšší upravený koeficient determinácie \(R^2_{adj}\), lepšiu štatistickú významnosť a zároveň RESET test nepotvrdí nesprávnu špecifikáciu, môžeme nový model považovať za vhodnejší. Odporúčame výsledky ďalej podporiť aj porovnaním oboch modelov pomocou ANOVA testu, ktorý overí, či má rozšírený model štatisticky významne lepšiu výkonnosť.

# Základný lineárny model
model <- lm(Population.2025 ~ 1 + Fert..Rate + Median.Age + Migrants..net., 
            data = data_selected)

# Model s kvadratickými členmi na základe C+R grafov
model_kvadr <- lm(Population.2025 ~ 1 + Fert..Rate + 
                    Median.Age + I(Median.Age^2) +
                    Migrants..net. + I(Migrants..net.^2),
                  data = data_selected)

# Výstupy modelu
summary(model_kvadr)

Call:
lm(formula = Population.2025 ~ 1 + Fert..Rate + Median.Age + 
    I(Median.Age^2) + Migrants..net. + I(Migrants..net.^2), data = data_selected)

Residuals:
       Min         1Q     Median         3Q        Max 
 -93614219  -33867568  -24064751   -8026469 1418718877 

Coefficients:
                      Estimate Std. Error t value Pr(>|t|)
(Intercept)          1.873e+08  2.533e+08   0.739    0.461
Fert..Rate          -2.194e+07  2.375e+07  -0.923    0.357
Median.Age          -4.326e+06  1.151e+07  -0.376    0.707
I(Median.Age^2)      2.863e+04  1.502e+05   0.191    0.849
Migrants..net.       2.049e+02  1.952e+02   1.050    0.295
I(Migrants..net.^2) -8.655e-05  1.324e-04  -0.654    0.514

Residual standard error: 139500000 on 227 degrees of freedom
Multiple R-squared:  0.01705,   Adjusted R-squared:  -0.004599 
F-statistic: 0.7876 on 5 and 227 DF,  p-value: 0.5596
# Porovnanie základného a nelineárneho modelu
anova(model, model_kvadr)
Analysis of Variance Table

Model 1: Population.2025 ~ 1 + Fert..Rate + Median.Age + Migrants..net.
Model 2: Population.2025 ~ 1 + Fert..Rate + Median.Age + I(Median.Age^2) + 
    Migrants..net. + I(Migrants..net.^2)
  Res.Df        RSS Df  Sum of Sq      F Pr(>F)
1    229 4.4270e+18                            
2    227 4.4181e+18  2 8.9087e+15 0.2289 0.7956
# RESET test pre nelineárne rozšírený model
resettest(model_kvadr)

    RESET test

data:  model_kvadr
RESET = 0.74875, df1 = 2, df2 = 225, p-value = 0.4741

Takto modifikovaný model, v ktorom sme doplnili kvadrát premenných Median.Age a Migrants..net., však neoznačuje žiadny z kvadratických členov za štatisticky významný (p-hodnoty sú výrazne väčšie ako 0,05). Zároveň nedochádza k zlepšeniu upraveného koeficientu determinácie – naopak, jeho hodnota klesla na približne \(R^2_{\text{adj}} \approx -0{.}0046\).

Aj porovnanie modelov pomocou ANOVA (p-hodnota \(\approx 0{.}80\)) a RESET testu (p-hodnota \(\approx 0{.}47\)) ukazuje, že kvadratický model nie je lepší než pôvodný lineárny model. V ďalšej analýze preto pracujeme s jednoduchším lineárnym modelom bez kvadratických členov.

model_kvadr <- lm(Population.2025 ~ 1 + Fert..Rate + Median.Age + Migrants..net. +
                    I(Median.Age^2) + I(Migrants..net.^2),
                  data = data_selected)

summary(model_kvadr)

Call:
lm(formula = Population.2025 ~ 1 + Fert..Rate + Median.Age + 
    Migrants..net. + I(Median.Age^2) + I(Migrants..net.^2), data = data_selected)

Residuals:
       Min         1Q     Median         3Q        Max 
 -93614219  -33867568  -24064751   -8026469 1418718877 

Coefficients:
                      Estimate Std. Error t value Pr(>|t|)
(Intercept)          1.873e+08  2.533e+08   0.739    0.461
Fert..Rate          -2.194e+07  2.375e+07  -0.923    0.357
Median.Age          -4.326e+06  1.151e+07  -0.376    0.707
Migrants..net.       2.049e+02  1.952e+02   1.050    0.295
I(Median.Age^2)      2.863e+04  1.502e+05   0.191    0.849
I(Migrants..net.^2) -8.655e-05  1.324e-04  -0.654    0.514

Residual standard error: 139500000 on 227 degrees of freedom
Multiple R-squared:  0.01705,   Adjusted R-squared:  -0.004599 
F-statistic: 0.7876 on 5 and 227 DF,  p-value: 0.5596

Porovnanie základného a kvadraticky modifikovaného modelu

Do modelu sme pridali kvadratické členy premenných Median.Age a Migrants..net. s cieľom zachytiť možné nelineárne vzťahy. Výsledky však ukazujú, že ani jeden z týchto kvadratických členov nie je štatisticky významný (všetky p-hodnoty sú výrazne väčšie ako 0.05).

Upravený koeficient determinácie zostal v podstate nezmenený a má hodnotu
\(R^2_{adj} = -0.0046\), čo naznačuje, že kvadraticky rozšírený model nevysvetľuje variabilitu dát lepšie ako pôvodný model.

Zavedenie kvadratických členov preto neprinieslo zlepšenie a v ďalšej analýze budeme pokračovať s pôvodným lineárnym modelom.

5. Použitie rozšíreného RESET testu

model_rozsireny <- lm(
  Population.2025 ~ 
    Fert..Rate +
    Median.Age +
    Migrants..net. +
    I(Median.Age^2) +
    I(Migrants..net.^2),
  data = data_selected
)

summary(model_rozsireny)

Call:
lm(formula = Population.2025 ~ Fert..Rate + Median.Age + Migrants..net. + 
    I(Median.Age^2) + I(Migrants..net.^2), data = data_selected)

Residuals:
       Min         1Q     Median         3Q        Max 
 -93614219  -33867568  -24064751   -8026469 1418718877 

Coefficients:
                      Estimate Std. Error t value Pr(>|t|)
(Intercept)          1.873e+08  2.533e+08   0.739    0.461
Fert..Rate          -2.194e+07  2.375e+07  -0.923    0.357
Median.Age          -4.326e+06  1.151e+07  -0.376    0.707
Migrants..net.       2.049e+02  1.952e+02   1.050    0.295
I(Median.Age^2)      2.863e+04  1.502e+05   0.191    0.849
I(Migrants..net.^2) -8.655e-05  1.324e-04  -0.654    0.514

Residual standard error: 139500000 on 227 degrees of freedom
Multiple R-squared:  0.01705,   Adjusted R-squared:  -0.004599 
F-statistic: 0.7876 on 5 and 227 DF,  p-value: 0.5596

V tomto kroku testujeme, či kvadratické členy Median.Age² a Migrants..net.²
prinášajú do modelu štatisticky významné informácie.
Ak by boli významné, mali by sme uvažovať nad kvadratickou transformáciou týchto premenných.

Na základe výstupu summary(model_rozsireny) však vidíme, že:

  • koeficient pri I(Median.Age^2) nie je štatisticky významný (p = 0.849),
  • koeficient pri I(Migrants..net.^2) taktiež nie je štatisticky významný (p = 0.514).
anova(model,model_rozsireny)
Analysis of Variance Table

Model 1: Population.2025 ~ 1 + Fert..Rate + Median.Age + Migrants..net.
Model 2: Population.2025 ~ Fert..Rate + Median.Age + Migrants..net. + 
    I(Median.Age^2) + I(Migrants..net.^2)
  Res.Df        RSS Df  Sum of Sq      F Pr(>F)
1    229 4.4270e+18                            
2    227 4.4181e+18  2 8.9087e+15 0.2289 0.7956
resettest(model_rozsireny)

    RESET test

data:  model_rozsireny
RESET = 0.74875, df1 = 2, df2 = 225, p-value = 0.4741

Pri RESET teste vidíme, že p-hodnota 0.4741 je výrazne vyššia ako hladina významnosti 0.05.
To znamená, že nezamietame nulovú hypotézu správnej špecifikácie modelu.

Zároveň však platí, že ani rozšírený model s kvadratickými členmi nebol štatisticky významný
(ANOVA p = 0.7956), takže prípadný problém nesprávnej špecifikácie modelu sa neodstránil,
ale zároveň nebol ani potvrdený. Zavedenie kvadratických členov neprinieslo zlepšenie modelu.

6. Transformácia pomocou dummy premennej a lineárnej lomenej funkcie

Predpokladajme, že máme dummy premennú \(D_t\), ktorá obsahuje len nuly a jedničky. Takáto premenná sa dá využiť modelovanie zlomov, a to napr.

  1. zlom v autonómnom člene \(\beta_0\) a to nasledovnou špecifikáciou \[y_t = \beta_0 + \beta_D D+ \beta_1 x_{t1} + \dots +\beta_k x_{tk} + u_t\] čo interpretujeme ako posun regresnej priamky (regresnej nadroviny) o \(\beta_D\) jednotiek pozdĺž zvislej osi a to len v pozorovaniach, ak je splnená podmienka \(D_t = 1\)
  2. zlom v sklone regresnej priamky (nadroviny) a to len v pozorovaniach, ak je splnená podmienka \(D_t = 1\), čo dosiahneme nasledovnou špecifikáciou \[y_t = \beta_0 + \beta_1 x_{t1} + \dots + \beta_{i}x_{ti} + \beta_{Di}D_tx_{ti}+ \dots + \beta_k x_{tk} + u_t\] kde teda sklon priamky pozdĺž premenne \(x_{ti}\) je \(\beta_i\) ale len v prípade \(D_t=0\), inak je ten sklon rovný \(\beta_i+\beta_{D_i}\).

Ak si pozrieme C+R grafy pre naše vysvetľujúce premenné, vidíme, že najvýraznejšie odchýlky od linearity sa objavujú pri premenných Migrants..net. a Median.Age. Vyrovnaná krivka pri oboch premenných naznačuje mierne zakrivenie, najmä pri extrémnejších hodnotách, čo môže signalizovať potrebu nelineárnej úpravy (t.j. zavedenie kvadratického člena). Preto sme do modelu zaradili premenné I(Median.Age²) a I(Migrants..net.²), aby sme otestovali, či tieto nelineárne efekty dokážu zlepšiť špecifikáciu modelu.

Kvantifikujme teraz model so zlomom v autonómnom členovi.
Keďže podľa C+R grafov zaznamenávame nelineárne správanie pri premenných Migrants..net., zavedieme novú dummy premennú, ktorá rozdelí krajiny podľa úrovne migrácie.

Nech
\(DUM_t = 0\) pre hodnoty Migrants..net. nižšie ako medián
a
\(DUM_t = 1\) pre hodnoty Migrants..net. vyššie alebo rovné mediánu.

Takto budeme môcť posúdiť, či sa intercept modelu výrazne mení pri vyšších hodnotách migrácie.

# prah si môžeme určiť ako medián
threshold <- median(data_selected$Migrants..net., na.rm = TRUE)

# dummy premenná podľa prahu
data_selected$DUM <- ifelse(data_selected$Migrants..net. < threshold, 0, 1)

# model so zlomom v autonómnom členovi
model_auto <- lm(Population.2025 ~ 1 + DUM + Fert..Rate + Median.Age +
                   Migrants..net., 
                 data = data_selected)

summary(model_auto)

Call:
lm(formula = Population.2025 ~ 1 + DUM + Fert..Rate + Median.Age + 
    Migrants..net., data = data_selected)

Residuals:
       Min         1Q     Median         3Q        Max 
-128357100  -38514919  -22145390    1662071 1409733516 

Coefficients:
                 Estimate Std. Error t value Pr(>|t|)  
(Intercept)     1.053e+08  9.279e+07   1.135   0.2577  
DUM             3.905e+07  2.333e+07   1.674   0.0955 .
Fert..Rate     -1.922e+07  1.547e+07  -1.243   0.2152  
Median.Age     -1.852e+06  1.787e+06  -1.036   0.3011  
Migrants..net.  7.029e+01  6.337e+01   1.109   0.2686  
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 138500000 on 228 degrees of freedom
Multiple R-squared:  0.02703,   Adjusted R-squared:  0.009957 
F-statistic: 1.583 on 4 and 228 DF,  p-value: 0.1796

Zavedením zlomovej premennej DUM došlo k miernemu zlepšeniu modelu, keďže koeficient pri DUM vyšiel na hladine významnosti 10 % štatisticky významný (p ≈ 0.0955). To naznačuje, že pre krajiny nad zvolenou hranicou fertility sa úroveň populácie systematicky líši (má iný intercept). Ostatné premenné ostali nevýznamné a upravený R² zostal veľmi nízky (≈ 0.00996). Celkový F-test naznačuje, že model ako celok nie je významný (p ≈ 0.1796). Zavedenie zlomovej premennej preto neprinieslo zásadné zlepšenie kvality modelu.

modelD_sklon <- lm(Population.2025 ~ 1 + Fert..Rate + I(DUM * Fert..Rate) +
                     Median.Age + Migrants..net., 
                   data = data_selected)

summary(modelD_sklon)

Call:
lm(formula = Population.2025 ~ 1 + Fert..Rate + I(DUM * Fert..Rate) + 
    Median.Age + Migrants..net., data = data_selected)

Residuals:
       Min         1Q     Median         3Q        Max 
-131583667  -36676438  -22886410    -753794 1411771077 

Coefficients:
                      Estimate Std. Error t value Pr(>|t|)  
(Intercept)          1.444e+08  8.974e+07   1.610   0.1089  
Fert..Rate          -3.348e+07  1.850e+07  -1.810   0.0717 .
I(DUM * Fert..Rate)  1.549e+07  1.077e+07   1.439   0.1517  
Median.Age          -2.011e+06  1.783e+06  -1.128   0.2606  
Migrants..net.       7.529e+01  6.323e+01   1.191   0.2350  
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 138700000 on 228 degrees of freedom
Multiple R-squared:  0.02393,   Adjusted R-squared:  0.006805 
F-statistic: 1.397 on 4 and 228 DF,  p-value: 0.2357

📌 Interpretácia výsledkov modelu so zlomom v sklone (interakcia DUM * Fert..Rate)

V tomto kroku sme do modelu zaviedli zmenu sklonu pre premennú Fert..Rate pomocou interakčného člena I(DUM * Fert..Rate). Premenná DUM rozdeľuje pozorovania na dve skupiny podľa vopred určenej hranice a testujeme, či fertilita ovplyvňuje veľkosť populácie rozdielne v týchto dvoch skupinách.


📊 Výsledky regresného modelu

  • Fert..Rate
    • odhad: -3.348e+07
    • p-hodnota: 0.0717
      → účinok je slabo významný (približne na 10 % hladine).
  • Interakcia DUM * Fert..Rate
    • odhad: 1.549e+07
    • p-hodnota: 0.1517
      → interakčný efekt nie je štatisticky významný, teda sklon Fert..Rate sa po zmene DUM výrazne nemení.
  • Median.Age
    • p-hodnota: 0.2606
      → nevýznamný efekt.
  • Migrants..net.
    • p-hodnota: 0.2350
      → takisto nevýznamný efekt.

📈 Hodnotenie kvality modelu

  • Multiple R-squared: 0.02393

  • Adjusted R-squared: 0.006805
    → model vysvetľuje len približne 2,4 % variability v údajoch.

  • F-test modelu: p-hodnota = 0.2357
    → model ako celok nie je štatisticky významný.


📝 Záver

  • Interakčný člen DUM * Fert..Rate nezlepšil kvalitu modelu a nie je štatisticky významný.
  • Neexistuje dôkaz, že fertilita má odlišný vplyv na populáciu v roku 2025 medzi dvomi skupinami definovanými podľa premennej DUM.
  • Model má veľmi nízke hodnoty \(R^2\) aj \(R^2_{\text{adj}}\), čo znamená slabú vysvetľovaciu schopnosť.
  • Model so zlomom v sklone preto neodporúčame používať ako finálny model.

anova(model, modelD_sklon)
Analysis of Variance Table

Model 1: Population.2025 ~ 1 + Fert..Rate + Median.Age + Migrants..net.
Model 2: Population.2025 ~ 1 + Fert..Rate + I(DUM * Fert..Rate) + Median.Age + 
    Migrants..net.
  Res.Df        RSS Df Sum of Sq      F Pr(>F)
1    229 4.4270e+18                           
2    228 4.3872e+18  1 3.982e+16 2.0694 0.1517
resettest(modelD_sklon)

    RESET test

data:  modelD_sklon
RESET = 0.92117, df1 = 2, df2 = 226, p-value = 0.3995

📌 Porovnanie modelov pomocou ANOVA a RESET testu

Na overenie, či zavedenie interakčného člena DUM * Fert..Rate viedlo k zlepšeniu špecifikácie modelu, sme použili ANOVA test a následne aj RESET test.


🔍 Výsledky ANOVA testu

ANOVA porovnáva:

  • Model 1:
    Population.2025 ~ 1 + Fert..Rate + Median.Age + Migrants..net.
  • Model 2 (rozšírený):
    Population.2025 ~ 1 + Fert..Rate + I(DUM * Fert..Rate) + Median.Age + Migrants..net.

Výsledok:

  • F = 2.0694,
  • p-hodnota = 0.1517

👉 Keďže p-hodnota je väčšia ako 0.05, rozšírený model nevykazuje štatisticky významné zlepšenie oproti základnému modelu.
Interakčný člen teda neprispel k lepšiemu vysvetleniu variability v dátach.


🧪 RESET test pre model so zlomom v sklone

Výsledok RESET testu:

  • RESET = 0.92117
  • df1 = 2, df2 = 226
  • p-hodnota = 0.3995

👉 Keďže p-hodnota je opäť oveľa vyššia ako 0.05, nezamietame nulovú hypotézu správnej špecifikácie modelu.
RESET test teda neindicuje chybnú funkčnú formu, ale zároveň ani nepotvrdzuje, že interakcia priniesla zlepšenie.


📝 Záver

  • Ani ANOVA, ani RESET test nepreukázali, že by zavedenie interakčného člena DUM * Fert..Rate prispelo k zlepšeniu modelu.
  • Model so zlomom v sklone nie je štatisticky lepší ako pôvodný model.
  • Neexistuje dôkaz, že fertilita má odlišný vplyv na populáciu v rôznych skupinách definovaných premennou DUM.
  • Zostávame teda pri závere, že tento model nie je vhodný ako finálny a nepodporuje hypotézu o zmene sklonu.

