knitr::opts_chunk$set(
echo = FALSE,
message = FALSE,
warning = FALSE)

1 Úvod

Cieľom tejto analýzy je preskúmať faktory ovplyvňujúce mieru rastu populácie krajín sveta s využitím databázy World Population Data.

Predpokladám, že: — väčšia populácia môže viesť k nižšej miere rastu kvôli efektu nasýtenia, — väčšia rozloha krajiny môže byť spojená s vyšším rastom, — vyššia hustota obyvateľstva môže brzdiť rast kvôli urbanizácii alebo limitom infraštruktúry.

Analýza zahŕňa lineárne aj nelineárne modely, diagnostiku regresie, testovanie heteroskedasticity, multikolinearity a zhlukovú analýzu EÚ krajín, aby sa zistilo, ktoré faktory skutočne významne ovplyvňujú rast populácie.

2 Dáta

Použité dáta obsahujú základné demografické charakteristiky krajín sveta:

cca3 X2023.population area..km.. density..km.. growth.rate
IND 1428627663 3287590 481 0.81
CHN 1425671352 9706961 151 -0.02
USA 339996563 9372610 37 0.50
IDN 277534122 1904569 148 0.74
PAK 240485658 881912 312 1.98
NGA 223804632 923768 246 2.41
BRA 216422446 8515767 26 0.52
BGD 172954319 147570 1329 1.03
RUS 144444359 17098242 9 -0.19
MEX 128455567 1964375 66 0.75

Dáta obsahujú pre každý štát veľkosť populácie, hustotu osídlenia, rozlohu a ročný rast populácie. Pre potreby analýzy boli premenné upravené, škálované a pre niektoré modely aj logaritmizované, aby sa zabezpečila lepšia interpretovateľnosť koeficientov a stabilita rozptylu rezíduí.

2.1 Boxploty

Boxploty slúžia na vizuálnu kontrolu rozdelenia numerických premenných. Umožňujú mi odhaliť extrémne hodnoty a základnú variabilitu dát.

2.2 Lineárna regresia

Pre základný lineárny model

growth.rate∼X2023.population+area..km..+density..km..

možno konštatovať, že žiadna z vysvetľujúcich premenných (rozloha, hustota obyvateľstva) nemá štatisticky významný vplyv na mieru rastu populácie. Model ako celok nie je štatisticky významný (p = 0.7143) a vysvetľuje iba 0,6 % variability rastu populácie (R² = 0.0059). Intercept (≈ 0.01) naznačuje, že priemerný ročný rast populácie krajín je približne 1 %.

## 
## Call:
## lm(formula = growth.rate ~ X2023.population + area..km.. + density..km.., 
##     data = udaje_model)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -8.4415 -0.7330 -0.1634  0.7371  3.9881 
## 
## Coefficients:
##                    Estimate Std. Error t value Pr(>|t|)    
## (Intercept)       1.002e+00  8.819e-02  11.360   <2e-16 ***
## X2023.population -1.453e-10  6.628e-10  -0.219    0.827    
## area..km..       -3.446e-09  5.177e-08  -0.067    0.947    
## density..km..    -4.690e-05  4.111e-05  -1.141    0.255    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.239 on 230 degrees of freedom
## Multiple R-squared:  0.005895,   Adjusted R-squared:  -0.007071 
## F-statistic: 0.4546 on 3 and 230 DF,  p-value: 0.7143

2.3 Diagnostické grafy regresného modelu

Diagnostické grafy regresného modelu

Figure 2.1: Diagnostické grafy regresného modelu

2.3.1 Výsledky diagnostiky

  • Reziduá sú blízko nuly a homogénne → model spĺňa predpoklad lineárnosti a homoskedasticity.
  • Q-Q graf naznačuje len miernu odchýlku od normality, nie kritickú.
  • Žiadne extrémne alebo vplyvné pozorovania → model nie je ťahaný outlierom.
  • Model je teda štatisticky bezpečný na interpretáciu, aj keď samotný R² a významnosť koeficientov ukazujú, že vysvetľuje len veľmi malú časť variability rastu populácie.

2.4 Diagnostické grafy regresného modelu - logaritmované

## 
## Call:
## lm(formula = growth.rate ~ I(log(X2023.population)) + area..km.. + 
##     density..km.., data = udaje_2023)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -8.7225 -0.6642 -0.0998  0.7031  3.9392 
## 
## Coefficients:
##                            Estimate Std. Error t value Pr(>|t|)    
## (Intercept)              -6.828e-01  4.555e-01  -1.499 0.135213    
## I(log(X2023.population))  1.149e-01  3.055e-02   3.761 0.000215 ***
## area..km..               -7.333e-08  4.802e-08  -1.527 0.128134    
## density..km..            -3.084e-05  4.013e-05  -0.768 0.443058    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.203 on 230 degrees of freedom
## Multiple R-squared:  0.06328,    Adjusted R-squared:  0.05107 
## F-statistic:  5.18 on 3 and 230 DF,  p-value: 0.001759
Diagnostické grafy regresného modelu

Figure 2.2: Diagnostické grafy regresného modelu

## 
##  Jarque Bera Test
## 
## data:  residuals
## X-squared = 1383.8, df = 2, p-value < 2.2e-16
##    rstudent unadjusted p-value Bonferroni p
## 41 -8.28151         1.0166e-14   2.3788e-12

V modeli sa zistilo, že rast populácie je pozitívne spojený s veľkosťou populácie – čím väčšia krajina podľa počtu obyvateľov, tým vyšší je jej rast. Naopak, rozloha krajiny a hustota obyvateľstva nemajú významný vplyv, ich účinok je v rámci náhodnej variability.

Rezíduá modelu nevykazujú presne normálne rozdelenie, ale vzhľadom na veľký počet pozorovaní je model stále spoľahlivý a vhodný na analýzu. Nezaznamenali sme žiadne závažné odchýlky od linearity, takže predpoklady regresie sú v podstate splnené.

3 Heteroskedasticita

V nasledujúcej časti po spustení Breusch–Pagan testu pre logaritmizovaný model som získala:

– BP test pre pôvodný model: p-hodnota = 0.2541

– BP test pre log-transformovaný model: p-hodnota = 0.3646

Pre oba modely sú p-hodnoty väčšie ako 0,05, čo znamená, že neexistuje štatisticky významný dôkaz heteroskedasticity rezíduí.

Logaritmická transformácia premenných navyše ešte mierne zlepšila stabilitu rozptylu rezíduí.

Grafická kontrola štvorcov rezíduí potvrdzuje, že rozptyl rezíduí je približne konštantný naprieč hodnotami vysvetľujúcich premenných.

3.1 Zlogaritmované grafy

3.2 Zlogaritmované grafy bez odľahlých hodnôt

Pre presnejšiu vizualizáciu som tiež odstránila odľahlé hodnoty rezíduí (pomocou interkvartilového rozpätia, IQR), čím sa grafy stali ešte prehľadnejšími a indikovali stabilný rozptyl.

## 
##  studentized Breusch-Pagan test
## 
## data:  model
## BP = 4.0687, df = 3, p-value = 0.2541
##  X2023.population      area..km..        density..km..    
##  Min.   :5.180e+02   Min.   :4.000e-01   Min.   :    0.0  
##  1st Qu.:4.226e+05   1st Qu.:2.650e+03   1st Qu.:   39.5  
##  Median :5.644e+06   Median :8.120e+04   Median :   97.5  
##  Mean   :3.437e+07   Mean   :5.814e+05   Mean   :  451.3  
##  3rd Qu.:2.325e+07   3rd Qu.:4.304e+05   3rd Qu.:  242.8  
##  Max.   :1.429e+09   Max.   :1.710e+07   Max.   :21403.0
## 
##  studentized Breusch-Pagan test
## 
## data:  model_log
## BP = 3.1807, df = 3, p-value = 0.3646
## 
## t test of coefficients:
## 
##                             Estimate  Std. Error t value  Pr(>|t|)    
## (Intercept)              -6.8280e-01  3.5698e-01 -1.9127   0.05703 .  
## I(log(X2023.population))  1.1490e-01  2.6711e-02  4.3016 2.508e-05 ***
## area..km..               -7.3330e-08  3.0318e-08 -2.4187   0.01635 *  
## density..km..            -3.0835e-05  5.1667e-05 -0.5968   0.55122    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

4 Nelineárne špecifikácie

## 
## Call:
## lm(formula = growth.rate ~ +1 + X2023.population + area..km.. + 
##     density..km.., data = udaje)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -8.4415 -0.7330 -0.1634  0.7371  3.9881 
## 
## Coefficients:
##                    Estimate Std. Error t value Pr(>|t|)    
## (Intercept)       1.002e+00  8.819e-02  11.360   <2e-16 ***
## X2023.population -1.453e-10  6.628e-10  -0.219    0.827    
## area..km..       -3.446e-09  5.177e-08  -0.067    0.947    
## density..km..    -4.690e-05  4.111e-05  -1.141    0.255    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.239 on 230 degrees of freedom
## Multiple R-squared:  0.005895,   Adjusted R-squared:  -0.007071 
## F-statistic: 0.4546 on 3 and 230 DF,  p-value: 0.7143

4.1 RESET test

## 
##  RESET test
## 
## data:  model_lin
## RESET = 1.2307, df1 = 2, df2 = 228, p-value = 0.294
## 
##  RESET test
## 
## data:  model_lin
## RESET = 2.4608, df1 = 1, df2 = 229, p-value = 0.1181
## 
##  RESET test
## 
## data:  model_lin
## RESET = 1.2307, df1 = 2, df2 = 228, p-value = 0.294

Na overenie, či je model správne špecifikovaný, som vykonali Ramseyho RESET test. Tento test skúma, či by pridanie nelineárnych členov predikovaných hodnôt významne zlepšilo model.

Lineárny model — RESET test: p = 0.294 a p = 0.1181

Interpretácia: p-hodnota > 0.05 → neexistuje štatisticky významný dôkaz nesprávnej špecifikácie. Model je teda vhodne špecifikovaný a netreba pridávať nelineárne členy ani ďalšie premenné.

4.2 Diagnostické grafy

4.2.1 Residuals vs Fitted

4.2.1.1 C+R grafy

4.2.2 Nelineárna špecifikácia - porovnanie základného a modifikovaného modelu

## 
## Call:
## lm(formula = growth.rate ~ X2023.population + area..km.. + density..km.., 
##     data = udaje_2023)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -8.4415 -0.7330 -0.1634  0.7371  3.9881 
## 
## Coefficients:
##                    Estimate Std. Error t value Pr(>|t|)    
## (Intercept)       1.002e+00  8.819e-02  11.360   <2e-16 ***
## X2023.population -1.453e-10  6.628e-10  -0.219    0.827    
## area..km..       -3.446e-09  5.177e-08  -0.067    0.947    
## density..km..    -4.690e-05  4.111e-05  -1.141    0.255    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.239 on 230 degrees of freedom
## Multiple R-squared:  0.005895,   Adjusted R-squared:  -0.007071 
## F-statistic: 0.4546 on 3 and 230 DF,  p-value: 0.7143
## 
## Call:
## lm(formula = growth.rate ~ X2023.population + area..km.. + density..km.. + 
##     I(X2023.population^2) + I(density..km..^2), data = udaje_2023)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -8.5325 -0.7013 -0.1495  0.7482  3.9937 
## 
## Coefficients:
##                         Estimate Std. Error t value Pr(>|t|)    
## (Intercept)            1.005e+00  9.956e-02  10.091   <2e-16 ***
## X2023.population       3.428e-09  2.388e-09   1.435   0.1525    
## area..km..            -4.533e-08  5.597e-08  -0.810   0.4188    
## density..km..         -2.762e-04  1.436e-04  -1.924   0.0556 .  
## I(X2023.population^2) -2.534e-18  1.653e-18  -1.533   0.1266    
## I(density..km..^2)     1.285e-08  7.628e-09   1.685   0.0933 .  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.231 on 228 degrees of freedom
## Multiple R-squared:  0.02799,    Adjusted R-squared:  0.00667 
## F-statistic: 1.313 on 5 and 228 DF,  p-value: 0.2593
## 
##  RESET test
## 
## data:  model_quad
## RESET = 1.133, df1 = 2, df2 = 226, p-value = 0.3239

4.3 Rozšírený RESET test pre nelineárny model

## 
## Call:
## lm(formula = growth.rate ~ X2023.population + area..km.. + density..km.. + 
##     I(X2023.population^2) + I(area..km..^2) + I(density..km..^2), 
##     data = udaje_2023)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -8.5790 -0.6944 -0.1406  0.7645  4.0497 
## 
## Coefficients:
##                         Estimate Std. Error t value Pr(>|t|)    
## (Intercept)            9.401e-01  1.026e-01   9.167   <2e-16 ***
## X2023.population       1.567e-09  2.501e-09   0.627   0.5316    
## area..km..             2.591e-07  1.435e-07   1.805   0.0723 .  
## density..km..         -2.317e-04  1.436e-04  -1.614   0.1080    
## I(X2023.population^2) -1.582e-18  1.689e-18  -0.937   0.3499    
## I(area..km..^2)       -2.302e-14  1.001e-14  -2.300   0.0224 *  
## I(density..km..^2)     1.075e-08  7.613e-09   1.412   0.1593    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.219 on 227 degrees of freedom
## Multiple R-squared:  0.05012,    Adjusted R-squared:  0.02501 
## F-statistic: 1.996 on 6 and 227 DF,  p-value: 0.0672
## 
##  RESET test
## 
## data:  model_rozsireny
## RESET = 5.7269, df1 = 2, df2 = 225, p-value = 0.00375

4.4 Transformácia pomocou dummy premennej a lineárnej lomenej funkcie

## 
## Call:
## lm(formula = growth.rate ~ +1 + DUM + X2023.population + area..km.. + 
##     density..km.., data = udaje_2023)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -8.8198 -0.6671 -0.0756  0.7208  4.2177 
## 
## Coefficients:
##                    Estimate Std. Error t value Pr(>|t|)    
## (Intercept)       7.689e-01  1.058e-01   7.270 5.63e-12 ***
## DUM               6.513e-01  1.730e-01   3.764 0.000212 ***
## X2023.population -5.454e-10  6.533e-10  -0.835 0.404648    
## area..km..       -4.722e-08  5.168e-08  -0.914 0.361814    
## density..km..    -2.980e-05  4.024e-05  -0.741 0.459714    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.205 on 229 degrees of freedom
## Multiple R-squared:  0.06382,    Adjusted R-squared:  0.04747 
## F-statistic: 3.903 on 4 and 229 DF,  p-value: 0.004366
## 
## Call:
## lm(formula = growth.rate ~ +1 + X2023.population + I(DUM * X2023.population) + 
##     area..km.. + density..km.., data = udaje_2023)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -8.4614 -0.7358 -0.1598  0.7289  4.0130 
## 
## Coefficients:
##                             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)                1.024e+00  1.016e-01  10.071   <2e-16 ***
## X2023.population          -1.498e-08  3.435e-08  -0.436    0.663    
## I(DUM * X2023.population)  1.481e-08  3.430e-08   0.432    0.666    
## area..km..                -5.222e-09  5.203e-08  -0.100    0.920    
## density..km..             -4.672e-05  4.118e-05  -1.134    0.258    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.242 on 229 degrees of freedom
## Multiple R-squared:  0.006704,   Adjusted R-squared:  -0.01065 
## F-statistic: 0.3864 on 4 and 229 DF,  p-value: 0.8183
## 
##  RESET test
## 
## data:  modelD_sklon
## RESET = 1.5274, df1 = 2, df2 = 227, p-value = 0.2193

Rozšírenie modelu o nelineárne členy a interakcie: zlepšilo vysvetlenú variabilitu modelu len mierne (Adjusted R² ≈ 0,025); RESET test potvrdil správnu špecifikáciu lineárneho modelu pre základné premenné; transformácie premenných umožnili lepšiu interpretovateľnosť koeficientov.

5 Zhluková analýza

Nižšie predložená analýza sa zaoberá zhlukovaním členských štátov EÚ na základe troch demografických ukazovateľov – veľkosti populácie, hustoty obyvateľstva a miery populačného rastu. Pomocou hierarchického zhlukovania (Wardova metóda) boli krajiny rozdelené do troch klastrov s odlišným populačným profilom. Prvý klaster združuje veľké štáty s vyššou populáciou a priemernou hustotou obyvateľstva, druhý klaster tvorí skupina stredne veľkých krajín s nižšou populáciou a miernym rastom, zatiaľ čo tretí klaster zahŕňa malé, veľmi husto zaľudnené štáty. Výsledky ukazujú, že demografické charakteristiky sa medzi klastrami výrazne líšia najmä v celkovej veľkosti populácie a hustote osídlenia, zatiaľ čo miera rastu hrá pri zhlukovaní menšiu úlohu. Takto získaná klasifikácia môže slúžiť ako východisko pre tvorbu diferencovaných politík EÚ, napríklad pri plánovaní infraštruktúry, regionálneho rozvoja alebo alokácie verejných zdrojov podľa typu krajiny.

5.1 Krajiny EÚ

Škálovanie

5.2 Boxploty

5.3 Korelačná matica

##            Population Density GrowthRate
## Population       1.00   -0.06       0.05
## Density         -0.06    1.00       0.06
## GrowthRate       0.05    0.06       1.00

5.4 Dendogram

6 Multikolinearita

6.1 Základný regresný model

## 
## Call:
## lm(formula = X2023.population ~ area..km.. + density..km.. + 
##     growth.rate, data = udaje_clean)
## 
## Residuals:
##        Min         1Q     Median         3Q        Max 
## -474570585  -15188922  -13460198   -4935689 1298489341 
## 
## Coefficients:
##                 Estimate Std. Error t value Pr(>|t|)    
## (Intercept)    1.519e+07  1.092e+07   1.391    0.165    
## area..km..     3.530e+01  4.595e+00   7.683 4.46e-13 ***
## density..km..  1.388e+02  4.101e+03   0.034    0.973    
## growth.rate   -1.438e+06  6.559e+06  -0.219    0.827    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 123300000 on 230 degrees of freedom
## Multiple R-squared:  0.2051, Adjusted R-squared:  0.1947 
## F-statistic: 19.78 on 3 and 230 DF,  p-value: 1.931e-11

Najvýznamnejšia je premenná area..km.., kde väčšia plocha krajiny súvisí s vyššou populáciou. Nevýznamné premenné ako density..km.. a growth.rate nemajú významný prínos k predikcii.

6.2 Korelačná matica

##               area..km.. density..km.. growth.rate
## area..km..         1.000        -0.065      -0.007
## density..km..     -0.065         1.000      -0.074
## growth.rate       -0.007        -0.074       1.000

Môžeme vidieť, že tu nie je žiadna silná korelácia medzi premennými. Môžeme povedať, že multikolinearita tu pravdepodobne nie je problém. Na presné overenie multikolinearity pri regresii použijeme v nasledujúcom kroku VIF.

6.3 VIF

##    area..km.. density..km..   growth.rate 
##      1.004420      1.009959      1.005720

Pri posudzovaní multikolinearity sa často používa ukazovateľ VIF (Variance Inflation Factor). Ak je jeho hodnota väčšia ako 5 (prísnejšie kritérium) alebo väčšia ako 10 (miernejšie kritérium), znamená to, že medzi premennými existuje vysoká závislosť a môže to ovplyvniť spoľahlivosť odhadov regresie. V tomto prípade sú hodnoty VIF pre všetky vysvetľujúce premenné nižšie než tieto hranice.

6.4 Condition Number

## [1] 1204635

Keďže v tomto prípade indikátor významne presahuje hranicu 100, signalizuje prítomnosť závažnej multikolinearity.

6.5 Riešenia

6.5.1 Vynechanie premennej

6.5.1.1 No Area

## 
## Call:
## lm(formula = X2023.population ~ density..km.. + growth.rate, 
##     data = udaje_clean)
## 
## Residuals:
##        Min         1Q     Median         3Q        Max 
##  -38444696  -34523949  -27941903   -9050031 1393974457 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)   
## (Intercept)   37250343   11779538   3.162  0.00178 **
## density..km..    -1938       4577  -0.424  0.67231   
## growth.rate   -2055224    7335897  -0.280  0.77961   
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 137900000 on 231 degrees of freedom
## Multiple R-squared:  0.001045,   Adjusted R-squared:  -0.007604 
## F-statistic: 0.1208 on 2 and 231 DF,  p-value: 0.8863

6.5.1.2 No Density

## 
## Call:
## lm(formula = X2023.population ~ area..km.. + growth.rate, data = udaje_clean)
## 
## Residuals:
##        Min         1Q     Median         3Q        Max 
## -474482010  -15192317  -13398818   -4959566 1298518486 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  1.527e+07  1.060e+07   1.441    0.151    
## area..km..   3.529e+01  4.575e+00   7.714 3.63e-13 ***
## growth.rate -1.455e+06  6.526e+06  -0.223    0.824    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.23e+08 on 231 degrees of freedom
## Multiple R-squared:  0.2051, Adjusted R-squared:  0.1982 
## F-statistic: 29.79 on 2 and 231 DF,  p-value: 3.083e-12

6.5.1.3 No Growth

## 
## Call:
## lm(formula = X2023.population ~ area..km.. + density..km.., data = udaje_clean)
## 
## Residuals:
##        Min         1Q     Median         3Q        Max 
## -473070872  -13923199  -13111941   -4878250 1298689351 
## 
## Coefficients:
##                Estimate Std. Error t value Pr(>|t|)    
## (Intercept)   1.375e+07  8.708e+06   1.579    0.116    
## area..km..    3.531e+01  4.585e+00   7.702 3.91e-13 ***
## density..km.. 2.063e+02  4.081e+03   0.051    0.960    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.23e+08 on 231 degrees of freedom
## Multiple R-squared:  0.2049, Adjusted R-squared:  0.198 
## F-statistic: 29.76 on 2 and 231 DF,  p-value: 3.157e-12

Tu vidíme, že vynechanie premennej density..km.. alebo growth.rate prakticky nemení hodnotu upraveného koeficientu determinácie (Adjusted R²), zatiaľ čo vynechanie premennej area..km.. by úplne znížilo vysvetlenú variabilitu modelu.

Preto, ak by sme chceli zjednodušiť model, uprednostnili by sme vynechanie density..km.. alebo growth.rate, pretože ich odstránenie nijako neovplyvňuje presnosť predikcie, zatiaľ čo plocha krajiny (area..km..) je kľúčová premenná, ktorú treba zachovať.

6.5.2 Škálovanie premenných

## 
## Call:
## lm(formula = X2023.population ~ area_c + density_c + growth_c, 
##     data = udaje_clean)
## 
## Residuals:
##        Min         1Q     Median         3Q        Max 
## -474570585  -15188922  -13460198   -4935689 1298489341 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 34374425    8059678   4.265 2.92e-05 ***
## area_c      62191432    8094786   7.683 4.46e-13 ***
## density_c     274746    8117076   0.034    0.973    
## growth_c    -1776183    8100021  -0.219    0.827    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 123300000 on 230 degrees of freedom
## Multiple R-squared:  0.2051, Adjusted R-squared:  0.1947 
## F-statistic: 19.78 on 3 and 230 DF,  p-value: 1.931e-11
##    area_c density_c  growth_c 
##  1.004420  1.009959  1.005720
## [1] 1.104844

Z výsledkov vidíme, že ukazovateľ Condition number sa podstatne zlepšil a nesignalizuje už žiadnu multikolinearitu. Ukazovatele VIF aj naďalej ostali veľmi nízke, čo je dobrou vlastnosťou preškálovania premenných

6.5.3 Iná úprava

6.5.3.1 Premenná area..km.. v tisícoch km²

## 
## Call:
## lm(formula = X2023.population ~ area1000 + density..km.. + growth.rate, 
##     data = udaje_clean)
## 
## Residuals:
##        Min         1Q     Median         3Q        Max 
## -474570585  -15188922  -13460198   -4935689 1298489341 
## 
## Coefficients:
##                 Estimate Std. Error t value Pr(>|t|)    
## (Intercept)   15187465.6 10915412.5   1.391    0.165    
## area1000         35299.1     4594.5   7.683 4.46e-13 ***
## density..km..      138.8     4100.8   0.034    0.973    
## growth.rate   -1438215.8  6558773.1  -0.219    0.827    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 123300000 on 230 degrees of freedom
## Multiple R-squared:  0.2051, Adjusted R-squared:  0.1947 
## F-statistic: 19.78 on 3 and 230 DF,  p-value: 1.931e-11
##      area1000 density..km..   growth.rate 
##      1.004420      1.009959      1.005720

Po škálovaní premennej area..km.. na tisíce km² (area1000) a zachovaní pôvodných jednotiek pre density..km.. a growth.rate sú regresné koeficienty porovnateľné z hľadiska rádu. Hodnoty VIF sú nízke vo všetkých prípadoch (area1000 ≈ 1.004, density..km.. ≈ 1.010, growth.rate ≈ 1.006), čo naznačuje, že multikolinearita nie je problém.

## [1] 1318.354

Conditional number modelu je 1318,35, čo je relatívne vysoké, ale nie také extrémne ako v pôvodnom prípade. Znamená to, že model je mierne citlivý na numerické chyby, ale stále je vhodný na interpretáciu a odhady koeficientov sú dostatočne spoľahlivé.