knitr::opts_chunk$set(
    echo = TRUE,
    message = FALSE,
    warning = FALSE
)

1 Úvod

Použitý dataset population_data.csv obsahuje údaje o populačnom vývoji, ktoré umožňujú analyzovať demografické trendy v čase a skúmať vzťahy medzi veľkosťou populácie a vybranými vysvetľujúcimi premennými. Takéto dáta sú vhodné na aplikáciu základných aj pokročilejších ekonometrických metód, najmä regresného modelovania a analýzy trendov.

Analýza populačných dát umožňuje identifikovať dlhodobé vývojové tendencie, odchýlky od trendu a potenciálne štrukturálne zmeny v demografickom vývoji. Pri modelovaní sa sledujú predpoklady ekonometrických modelov, ako sú heteroskedasticita, multikolinearita a autokorelácia rezíduí, pričom sa hodnotí aj vhodnosť zvoleného modelu.

Takáto analýza prispieva k lepšiemu pochopeniu populačných procesov a môže slúžiť ako podklad pre rozhodovanie v oblastiach verejnej politiky, regionálneho rozvoja, sociálneho zabezpečenia či dlhodobého ekonomického plánovania.

2 Moje dáta

Tieto dáta pochádzajú z verejne dostupného datasetu zameraného na populačný vývoj, ktorý je spracovaný v súbore population_data.csv. Dataset obsahuje údaje o vývoji populácie v čase a umožňuje analyzovať demografické trendy a ich zmeny v dlhodobom horizonte.

Dáta sú vhodné na analýzu časových radov, vizualizáciu trendov a ekonometrické modelovanie, pričom umožňujú skúmať vzťahy medzi veľkosťou populácie a vybranými vysvetľujúcimi premennými. Takýto typ údajov sa často využíva pri hodnotení demografického vývoja, regionálnych rozdielov a pri tvorbe prognóz populačného rastu alebo poklesu.

Údaje zachytávajú populačnú charakteristiku v jednotlivých obdobiach a poskytujú priestor na skúmanie trendových zmien, cyklických výkyvov alebo odchýlok od dlhodobého vývoja. V nasledujúcej analýze je dataset najskôr podrobený základnej kontrole a deskriptívnej analýze.

library(readr)
pop_data <- read_csv("population_data.csv", show_col_types = FALSE)
names(pop_data)
##  [1] "id"                      "Country (or dependency)"
##  [3] "Population 2025"         "Yearly Change"          
##  [5] "Net Change"              "Density (P/Km²)"        
##  [7] "Land Area (Km²)"         "Migrants (net)"         
##  [9] "Fert. Rate"              "Median Age"             
## [11] "Urban Pop %"             "World Share"
Kontrola dát – prvých 10 riadkov vybraných premenných
Country (or dependency) Population 2025 Yearly Change Median Age Urban Pop %
India 1463865525 0.89% 28.8 37.1%
China 1416096094 −0.23% 40.1 67.5%
United States 347275807 0.54% 38.5 82.8%
Indonesia 285721236 0.79% 30.4 59.6%
Pakistan 255219554 1.57% 20.6 34.4%
Nigeria 237527782 2.08% 18.1 54.9%
Brazil 212812405 0.38% 34.8 91.4%
Bangladesh 175686899 1.22% 26.0 42.6%
Russia 143997393 −0.57% 40.3 75%
Ethiopia 135472051 2.58% 19.1 22.5%

2.1 Štatistický popis

Prehľadná tabuľka základných štatistík vybraných demografických premenných
Poradie Premenna Statistiky
1 Population 2025 Min. : 501
2 Population 2025 1st Qu. : 466330
3 Population 2025 Median : 5731206
4 Population 2025 Mean : 35320796.32
5 Population 2025 3rd Qu. : 24074580
6 Population 2025 Max. : 1463865525
7 Yearly Change Min. : 0
8 Yearly Change 1st Qu. : 0.65
9 Yearly Change Median : 1.23
10 Yearly Change Mean : 1.44
11 Yearly Change 3rd Qu. : 2.13
12 Yearly Change Max. : 4.07
13 Yearly Change NA’s : 62
14 Median Age Min. : 14.5
15 Median Age 1st Qu. : 22.9
16 Median Age Median : 32.8
17 Median Age Mean : 31.9
18 Median Age 3rd Qu. : 39.8
19 Median Age Max. : 57.4
20 Urban Pop % Min. : 11.5
21 Urban Pop % 1st Qu. : 42.8
22 Urban Pop % Median : 62.05
23 Urban Pop % Mean : 60.76
24 Urban Pop % 3rd Qu. : 80.18
25 Urban Pop % Max. : 99.8
26 Urban Pop % NA’s : 23

Základné deskriptívne štatistiky poukazujú na výraznú variabilitu sledovaných demografických premenných.
Populácia v roku 2025 sa medzi jednotlivými krajinami výrazne líši, pričom medián dosahuje približne 5,7 milióna obyvateľov, zatiaľ čo priemerná hodnota je výrazne vyššia v dôsledku existencie veľmi ľudnatých krajín.

2.2 Boxplot

Väčšina hodnôt mediánového veku populácie sa nachádza v intervale približne 22.9 až 39.8 rokov. Medián dosahuje hodnotu okolo 32.8 rokov, čo predstavuje typický vek populácie v sledovaných krajinách.

Celkový rozptyl hodnôt sa pohybuje približne od 14.5 do 57.4 rokov, čo poukazuje na rozdiely medzi mladšími populáciami a krajinami so staršou vekovou štruktúrou. Extrémne odľahlé hodnoty (outliers) neboli identifikované.

2.3 Graf na regresiu

Graf znázorňuje vzťah medzi mediánovým vekom populácie a logaritmom veľkosti populácie v roku 2025. Výsledky naznačujú, že so zvyšujúcim sa mediánovým vekom populácia v logaritmickej mierke klesá.

Regresný model vykazuje hodnotu R² ≈ 0.08, čo znamená, že mediánový vek vysvetľuje približne 8.4 % variability veľkosti populácie. Aj keď ide o relatívne jednoduchý model, výsledky poukazujú na systematický vzťah medzi demografickou štruktúrou a veľkosťou populácie.

Viac vizuálnych informácií o tomto vzťahu poskytuje Figure 2.3: Regresný graf populácie a mediánového veku.

2.4 Heatmap korelačnej matice numerických veličín

Heatmapa korelačnej matice poukazuje na prítomnosť silných aj slabých vzťahov medzi vybranými demografickými premennými.
Najvýraznejšie korelácie sa objavujú medzi mediánovým vekom, ročnou zmenou populácie a podielom mestského obyvateľstva, kde sú identifikované silnejšie lineárne závislosti.
Väčšina ostatných korelácií dosahuje nízke až zanedbateľné hodnoty, čo naznačuje slabú lineárnu súvislosť medzi sledovanými premennými.

3 Regresia

3.1 Prieskum dát

3.2 Odhad lineárneho modelu

Regresný model: Ročná zmena populácie ~ demografické prediktory
term estimate std.error statistic p.value
(Intercept) -0.104 0.555 -0.187 0.852
median_age -0.011 0.012 -0.909 0.365
urban_pop 0.006 0.002 2.513 0.013
fert_rate 0.587 0.085 6.924 0.000
Výsledky regresného modelu naznačujú, že podiel mestského obyvateľstva a fertilita majú štatisticky významný vplyv na ročnú zmenu populácie. Premenná urban_pop pôsobí pozitívne, čo znamená, že vyššia miera urbanizácie je spojená s rýchlejším populačným rastom. Ešte výraznejší efekt má fert_rate, ktorá sa ukazuje ako najsilnejší prediktor v modeli (p < 0.001). Naopak, mediánový vek populácie sa v modeli nepreukázal ako štatisticky významný faktor. # 3.3 Robustné štandartné chyby
Koeficienty modelu s Newey–West robustnými štandardnými chybami
term estimate std.error statistic p.value
(Intercept) -0.104 0.547 -0.190 0.850
median_age -0.011 0.013 -0.845 0.399
urban_pop 0.006 0.002 2.442 0.016
fert_rate 0.587 0.075 7.773 0.000
Koeficienty modelu s HC3 robustnými štandardnými chybami
term estimate std.error statistic p.value
(Intercept) -0.104 0.543 -0.191 0.849
median_age -0.011 0.013 -0.852 0.396
urban_pop 0.006 0.002 2.325 0.021
fert_rate 0.587 0.076 7.728 0.000

3.4 Predikcie a vizualizácia

Graf porovnáva skutočné a predikované hodnoty ročnej zmeny populácie. Predikcie modelu vo všeobecnosti sledujú rastový trend skutočných hodnôt, avšak pri niektorých pozorovaniach sú viditeľné odchýlky medzi modelom a realitou. To naznačuje, že model zachytáva hlavný trend v dátach, no nie všetku individuálnu variabilitu medzi krajinami.

3.5 Diagnostika reziduí

Histogram rezíduí naznačuje približne symetrické rozdelenie okolo nuly. Prekrytá normálna krivka indikuje, že predpoklad normality rezíduí je primerane splnený.

Body v Q–Q grafe sa vo veľkej miere nachádzajú v blízkosti referenčnej priamky, čo naznačuje približnú normalitu rezíduí. Menšie odchýlky na koncoch rozdelenia sú pri reálnych dátach bežným javom.

4 Heteroskedasticita

4.1 Diagnostika reziduí

Diagnostické grafy regresného modelu naznačujú, že rezíduá sú náhodne rozptýlené okolo nuly, čo podporuje predpoklad linearity modelu. Q–Q graf poukazuje na približnú normalitu rezíduí, hoci pri extrémnych hodnotách sú viditeľné mierne odchýlky. Scale–Location graf neodhalil výraznú heteroskedasticitu a graf rezíduí voči leverage neidentifikuje výrazne vplyvné pozorovania, ktoré by zásadne deformovali výsledky modelu.

4.2 Test heteroskedasticity (Breusch-Pagan)

Breusch–Pagan test heteroskedasticity
statistic p.value parameter method
5.095 0.165 3 studentized Breusch-Pagan test

Výsledky Breusch–Pagan testu heteroskedasticity nepreukázali štatisticky významnú heteroskedasticitu rezíduí (p-hodnota = 0.165). Na základe toho nie je možné zamietnuť nulovú hypotézu o konštantnom rozptyle rezíduí, čo naznačuje, že predpoklad homoskedasticity je splnený.

4.3 Robustné (White) štandardné chyby a koeficienty

Koeficienty modelu s White (HC0) robustnými štandardnými chybami
term estimate std.error statistic p.value
(Intercept) -0.104 0.528 -0.196 0.844
median_age -0.011 0.013 -0.878 0.381
urban_pop 0.006 0.002 2.398 0.018
fert_rate 0.587 0.074 7.957 0.000

Po zohľadnení White (HC0) robustných štandardných chýb zostávajú premenné urban_pop a fert_rate štatisticky významné. Podiel mestského obyvateľstva má pozitívny, no mierny vplyv na ročnú zmenu populácie, zatiaľ čo fertilita predstavuje najsilnejší prediktor v modeli (p < 0.001). Naopak, mediánový vek populácie sa ani po aplikácii robustných chýb nepreukázal ako štatisticky významný faktor.

5 Nelineárne špecifikácie

5.1 Ramsey RESET test

Ramsey RESET test pre správnosť špecifikácie modelu
df1 df2 statistic p.value method
2 157 1.376 0.256 RESET test

Výsledky Ramsey RESET testu neindikujú nesprávnu špecifikáciu modelu, keďže p-hodnota (0.256) je vyššia ako zvolená hladina významnosti. Na základe testu teda nie je možné zamietnuť nulovú hypotézu a model je možné považovať za správne špecifikovaný.

5.2 Diagnostické grafy

## 
## **Graf Residuals vs Fitted** slúži na overenie predpokladu **linearity a homoskedasticity**.
## Reziduá sú rozptýlené **náhodne okolo nulovej línie**, bez zjavného systematického vzoru,
## čo naznačuje, že **lineárna špecifikácia modelu je primeraná**.
## Nevyskytuje sa ani výrazné rozširovanie alebo zužovanie rozptylu, preto
## **neexistuje silný dôkaz heteroskedasticity**.

5.3 Kvadratický model

Koeficienty kvadratického modelu
term estimate std.error statistic p.value
(Intercept) 3.071 1.539 1.995 0.048
median_age -0.167 0.077 -2.161 0.032
urban_pop 0.009 0.011 0.850 0.396
fert_rate 0.209 0.280 0.745 0.457
I(median_age^2) 0.002 0.001 1.914 0.057
I(urban_pop^2) 0.000 0.000 -0.297 0.767
I(fert_rate^2) 0.026 0.036 0.743 0.459
Porovnanie modelov (m1 vs m2) pomocou ANOVA
term Res.Df RSS Df Sum of Sq F Pr(>F)
1 159 52.984 NA NA NA NA
2 156 51.217 3 1.767 1.794 0.151
Ramsey RESET test pre kvadratický model
df1 df2 statistic p.value method
2 154 1.944 0.147 RESET test

Interpretácia kvadratického modelu a porovnanie špecifikácií

Odhadnutý kvadratický regresný model naznačuje, že zo sledovaných premenných má mediánový vek populácie štatisticky významný vplyv na ročnú zmenu populácie (p-value = 0.032), pričom vyšší mediánový vek je spojený s nižším tempom populačného rastu. Kvadratický člen mediánového veku je na hranici štatistickej významnosti (p-value = 0.057), čo môže naznačovať miernu nelinearitu vzťahu, avšak tento efekt nie je dostatočne silný na hladine významnosti 5 %.

Premenné urbanizácia populácie a fertilita ani ich kvadratické členy nepreukázali štatisticky významný vplyv, čo naznačuje, že ich efekt na ročnú zmenu populácie je v rámci tohto modelu slabý alebo nestabilný.

Porovnanie lineárneho a kvadratického modelu pomocou ANOVA nepreukázalo štatisticky významné zlepšenie po rozšírení modelu o kvadratické členy (p-value = 0.151). To znamená, že kvadratický model nevysvetľuje variabilitu dát významne lepšie ako jednoduchší lineárny model.

Výsledok Ramsey RESET testu pre kvadratický model (p-value = 0.147) nevedie k zamietnutiu nulovej hypotézy o správnej špecifikácii modelu. Z toho vyplýva, že kvadratický model je z hľadiska funkčného tvaru akceptovateľne špecifikovaný a nevykazuje známky vážnej nesprávnej špecifikácie.

Celkovo možno konštatovať, že napriek zahrnutiu nelineárnych členov kvadratický model neprináša výrazné zlepšenie oproti lineárnemu modelu, a preto je z hľadiska parsimónnosti vhodné uprednostniť jednoduchšiu špecifikáciu.

6 Multikolinearita

6.1 Korelačná analýza

Korelačná matica prediktorov
median_age urban_pop fert_rate
median_age 1.000 0.453 -0.876
urban_pop 0.453 1.000 -0.463
fert_rate -0.876 -0.463 1.000

Korelačná matica prediktorov poukazuje na výrazné vzťahy medzi niektorými demografickými premennými. Najsilnejšia závislosť sa prejavuje medzi mediánovým vekom a mierou fertility (r = -0.876), čo naznačuje, že krajiny s vyšším mediánovým vekom majú spravidla nižšiu fertilitu. Stredne silná pozitívna korelácia je pozorovaná medzi mediánovým vekom a mierou urbanizácie (r = 0.453), zatiaľ čo vzťah medzi urbanizáciou a fertilitou je negatívny (r = -0.463).

Tieto závery sú konzistentné aj so scatterplotovou maticou, ktorá vizuálne potvrdzuje lineárny charakter uvedených vzťahov a neodhaľuje výrazné extrémne hodnoty. Hoci niektoré korelácie dosahujú vyššie hodnoty, stále sa pohybujú pod hranicou kritickej úrovne, čo naznačuje zvýšené, ale stále akceptovateľné riziko multikolinearity.

6.2 VIF – multikolinearita

Variance Inflation Factor (VIF) pre pôvodný model
Predictor VIF
median_age 5.095
urban_pop 1.344
fert_rate 4.966

Výsledky Variance Inflation Factor (VIF) naznačujú miernu mieru multikolinearity v modeli. Premenné mediánový vek (VIF = 5.095) a fertilita (VIF = 4.966) dosahujú hodnoty blízke kritickej hranici, čo poukazuje na zvýšenú korelovanosť týchto prediktorov. Hodnota VIF pre premennú urbanizácia populácie je nízka, čo naznačuje, že táto premenná nepredstavuje zdroj multikolinearity. Celkovo možno multikolinearitu v modeli hodnotiť ako miernu, avšak ešte akceptovateľnú.

6.3 Condition Number

final_model <- lm(
  yearly_change ~ median_age + fert_rate,
  data = model_df
)
Súhrn finálneho (redukovaného) regresného modelu
term estimate std.error statistic p.value
(Intercept) 0.119 0.557 0.213 0.832
median_age -0.006 0.012 -0.455 0.650
fert_rate 0.568 0.086 6.623 0.000

Výsledky finálneho (redukovaného) regresného modelu naznačujú, že z analyzovaných demografických premenných má štatisticky významný vplyv na ročnú zmenu populácie iba miera fertility. Premenná fert_rate vykazuje silný pozitívny efekt (p < 0.001), čo znamená, že vyššia fertilita je spojená s vyšším populačným rastom.

Naopak, mediánový vek populácie (median_age) sa v modeli neukázal ako štatisticky významný faktor (p = 0.650), a preto jeho vplyv na ročnú zmenu populácie nemožno považovať za preukázaný. Absolútna hodnota interceptu taktiež nie je štatisticky významná, čo je v kontexte modelu akceptovateľné.

7 Literatúra

World Bank. (2023). World Development Indicators. Washington, DC: World Bank. Dostupné na: https://databank.worldbank.org/

United Nations, Department of Economic and Social Affairs. (2022). World Population Prospects 2022. New York: United Nations.

R Core Team. (2024). R: A Language and Environment for Statistical Computing. Vienna, Austria: R Foundation for Statistical Computing. Dostupné na: https://www.r-project.org/