knitr::opts_chunk$set(
echo = TRUE,
message = FALSE,
warning = FALSE
)
Použitý dataset population_data.csv obsahuje údaje o populačnom vývoji, ktoré umožňujú analyzovať demografické trendy v čase a skúmať vzťahy medzi veľkosťou populácie a vybranými vysvetľujúcimi premennými. Takéto dáta sú vhodné na aplikáciu základných aj pokročilejších ekonometrických metód, najmä regresného modelovania a analýzy trendov.
Analýza populačných dát umožňuje identifikovať dlhodobé vývojové tendencie, odchýlky od trendu a potenciálne štrukturálne zmeny v demografickom vývoji. Pri modelovaní sa sledujú predpoklady ekonometrických modelov, ako sú heteroskedasticita, multikolinearita a autokorelácia rezíduí, pričom sa hodnotí aj vhodnosť zvoleného modelu.
Takáto analýza prispieva k lepšiemu pochopeniu populačných procesov a môže slúžiť ako podklad pre rozhodovanie v oblastiach verejnej politiky, regionálneho rozvoja, sociálneho zabezpečenia či dlhodobého ekonomického plánovania.
Tieto dáta pochádzajú z verejne dostupného datasetu zameraného na populačný vývoj, ktorý je spracovaný v súbore population_data.csv. Dataset obsahuje údaje o vývoji populácie v čase a umožňuje analyzovať demografické trendy a ich zmeny v dlhodobom horizonte.
Dáta sú vhodné na analýzu časových radov, vizualizáciu trendov a ekonometrické modelovanie, pričom umožňujú skúmať vzťahy medzi veľkosťou populácie a vybranými vysvetľujúcimi premennými. Takýto typ údajov sa často využíva pri hodnotení demografického vývoja, regionálnych rozdielov a pri tvorbe prognóz populačného rastu alebo poklesu.
Údaje zachytávajú populačnú charakteristiku v jednotlivých obdobiach a poskytujú priestor na skúmanie trendových zmien, cyklických výkyvov alebo odchýlok od dlhodobého vývoja. V nasledujúcej analýze je dataset najskôr podrobený základnej kontrole a deskriptívnej analýze.
library(readr)
pop_data <- read_csv("population_data.csv", show_col_types = FALSE)
names(pop_data)
## [1] "id" "Country (or dependency)"
## [3] "Population 2025" "Yearly Change"
## [5] "Net Change" "Density (P/Km²)"
## [7] "Land Area (Km²)" "Migrants (net)"
## [9] "Fert. Rate" "Median Age"
## [11] "Urban Pop %" "World Share"
| Country (or dependency) | Population 2025 | Yearly Change | Median Age | Urban Pop % |
|---|---|---|---|---|
| India | 1463865525 | 0.89% | 28.8 | 37.1% |
| China | 1416096094 | −0.23% | 40.1 | 67.5% |
| United States | 347275807 | 0.54% | 38.5 | 82.8% |
| Indonesia | 285721236 | 0.79% | 30.4 | 59.6% |
| Pakistan | 255219554 | 1.57% | 20.6 | 34.4% |
| Nigeria | 237527782 | 2.08% | 18.1 | 54.9% |
| Brazil | 212812405 | 0.38% | 34.8 | 91.4% |
| Bangladesh | 175686899 | 1.22% | 26.0 | 42.6% |
| Russia | 143997393 | −0.57% | 40.3 | 75% |
| Ethiopia | 135472051 | 2.58% | 19.1 | 22.5% |
| Poradie | Premenna | Statistiky |
|---|---|---|
| 1 | Population 2025 | Min. : 501 |
| 2 | Population 2025 | 1st Qu. : 466330 |
| 3 | Population 2025 | Median : 5731206 |
| 4 | Population 2025 | Mean : 35320796.32 |
| 5 | Population 2025 | 3rd Qu. : 24074580 |
| 6 | Population 2025 | Max. : 1463865525 |
| 7 | Yearly Change | Min. : 0 |
| 8 | Yearly Change | 1st Qu. : 0.65 |
| 9 | Yearly Change | Median : 1.23 |
| 10 | Yearly Change | Mean : 1.44 |
| 11 | Yearly Change | 3rd Qu. : 2.13 |
| 12 | Yearly Change | Max. : 4.07 |
| 13 | Yearly Change | NA’s : 62 |
| 14 | Median Age | Min. : 14.5 |
| 15 | Median Age | 1st Qu. : 22.9 |
| 16 | Median Age | Median : 32.8 |
| 17 | Median Age | Mean : 31.9 |
| 18 | Median Age | 3rd Qu. : 39.8 |
| 19 | Median Age | Max. : 57.4 |
| 20 | Urban Pop % | Min. : 11.5 |
| 21 | Urban Pop % | 1st Qu. : 42.8 |
| 22 | Urban Pop % | Median : 62.05 |
| 23 | Urban Pop % | Mean : 60.76 |
| 24 | Urban Pop % | 3rd Qu. : 80.18 |
| 25 | Urban Pop % | Max. : 99.8 |
| 26 | Urban Pop % | NA’s : 23 |
Základné deskriptívne štatistiky poukazujú na
výraznú variabilitu sledovaných demografických
premenných.
Populácia v roku 2025 sa medzi jednotlivými krajinami
výrazne líši, pričom medián dosahuje
približne 5,7 milióna obyvateľov, zatiaľ čo
priemerná hodnota je výrazne vyššia v dôsledku
existencie veľmi ľudnatých krajín.
Väčšina hodnôt mediánového veku populácie sa nachádza v intervale približne 22.9 až 39.8 rokov. Medián dosahuje hodnotu okolo 32.8 rokov, čo predstavuje typický vek populácie v sledovaných krajinách.
Celkový rozptyl hodnôt sa pohybuje približne od 14.5 do 57.4 rokov, čo poukazuje na rozdiely medzi mladšími populáciami a krajinami so staršou vekovou štruktúrou. Extrémne odľahlé hodnoty (outliers) neboli identifikované.
Graf znázorňuje vzťah medzi mediánovým vekom populácie a logaritmom veľkosti populácie v roku 2025. Výsledky naznačujú, že so zvyšujúcim sa mediánovým vekom populácia v logaritmickej mierke klesá.
Regresný model vykazuje hodnotu R² ≈ 0.08, čo znamená, že mediánový vek vysvetľuje približne 8.4 % variability veľkosti populácie. Aj keď ide o relatívne jednoduchý model, výsledky poukazujú na systematický vzťah medzi demografickou štruktúrou a veľkosťou populácie.
Viac vizuálnych informácií o tomto vzťahu poskytuje Figure 2.3: Regresný graf populácie a mediánového veku.
Heatmapa korelačnej matice poukazuje na prítomnosť silných aj
slabých vzťahov medzi vybranými demografickými
premennými.
Najvýraznejšie korelácie sa objavujú medzi mediánovým
vekom, ročnou zmenou populácie a
podielom mestského obyvateľstva, kde sú identifikované
silnejšie lineárne závislosti.
Väčšina ostatných korelácií dosahuje nízke až zanedbateľné
hodnoty, čo naznačuje slabú lineárnu súvislosť
medzi sledovanými premennými.
| term | estimate | std.error | statistic | p.value |
|---|---|---|---|---|
| (Intercept) | -0.104 | 0.555 | -0.187 | 0.852 |
| median_age | -0.011 | 0.012 | -0.909 | 0.365 |
| urban_pop | 0.006 | 0.002 | 2.513 | 0.013 |
| fert_rate | 0.587 | 0.085 | 6.924 | 0.000 |
| term | estimate | std.error | statistic | p.value |
|---|---|---|---|---|
| (Intercept) | -0.104 | 0.547 | -0.190 | 0.850 |
| median_age | -0.011 | 0.013 | -0.845 | 0.399 |
| urban_pop | 0.006 | 0.002 | 2.442 | 0.016 |
| fert_rate | 0.587 | 0.075 | 7.773 | 0.000 |
| term | estimate | std.error | statistic | p.value |
|---|---|---|---|---|
| (Intercept) | -0.104 | 0.543 | -0.191 | 0.849 |
| median_age | -0.011 | 0.013 | -0.852 | 0.396 |
| urban_pop | 0.006 | 0.002 | 2.325 | 0.021 |
| fert_rate | 0.587 | 0.076 | 7.728 | 0.000 |
Graf porovnáva skutočné a predikované hodnoty ročnej zmeny populácie. Predikcie modelu vo všeobecnosti sledujú rastový trend skutočných hodnôt, avšak pri niektorých pozorovaniach sú viditeľné odchýlky medzi modelom a realitou. To naznačuje, že model zachytáva hlavný trend v dátach, no nie všetku individuálnu variabilitu medzi krajinami.
Histogram rezíduí naznačuje približne symetrické rozdelenie okolo nuly. Prekrytá normálna krivka indikuje, že predpoklad normality rezíduí je primerane splnený.
Body v Q–Q grafe sa vo veľkej miere nachádzajú v blízkosti referenčnej priamky, čo naznačuje približnú normalitu rezíduí. Menšie odchýlky na koncoch rozdelenia sú pri reálnych dátach bežným javom.
Diagnostické grafy regresného modelu naznačujú, že rezíduá sú náhodne rozptýlené okolo nuly, čo podporuje predpoklad linearity modelu. Q–Q graf poukazuje na približnú normalitu rezíduí, hoci pri extrémnych hodnotách sú viditeľné mierne odchýlky. Scale–Location graf neodhalil výraznú heteroskedasticitu a graf rezíduí voči leverage neidentifikuje výrazne vplyvné pozorovania, ktoré by zásadne deformovali výsledky modelu.
| statistic | p.value | parameter | method |
|---|---|---|---|
| 5.095 | 0.165 | 3 | studentized Breusch-Pagan test |
Výsledky Breusch–Pagan testu heteroskedasticity nepreukázali štatisticky významnú heteroskedasticitu rezíduí (p-hodnota = 0.165). Na základe toho nie je možné zamietnuť nulovú hypotézu o konštantnom rozptyle rezíduí, čo naznačuje, že predpoklad homoskedasticity je splnený.
| term | estimate | std.error | statistic | p.value |
|---|---|---|---|---|
| (Intercept) | -0.104 | 0.528 | -0.196 | 0.844 |
| median_age | -0.011 | 0.013 | -0.878 | 0.381 |
| urban_pop | 0.006 | 0.002 | 2.398 | 0.018 |
| fert_rate | 0.587 | 0.074 | 7.957 | 0.000 |
Po zohľadnení White (HC0) robustných štandardných chýb zostávajú premenné urban_pop a fert_rate štatisticky významné. Podiel mestského obyvateľstva má pozitívny, no mierny vplyv na ročnú zmenu populácie, zatiaľ čo fertilita predstavuje najsilnejší prediktor v modeli (p < 0.001). Naopak, mediánový vek populácie sa ani po aplikácii robustných chýb nepreukázal ako štatisticky významný faktor.
| df1 | df2 | statistic | p.value | method |
|---|---|---|---|---|
| 2 | 157 | 1.376 | 0.256 | RESET test |
Výsledky Ramsey RESET testu neindikujú nesprávnu špecifikáciu modelu, keďže p-hodnota (0.256) je vyššia ako zvolená hladina významnosti. Na základe testu teda nie je možné zamietnuť nulovú hypotézu a model je možné považovať za správne špecifikovaný.
##
## **Graf Residuals vs Fitted** slúži na overenie predpokladu **linearity a homoskedasticity**.
## Reziduá sú rozptýlené **náhodne okolo nulovej línie**, bez zjavného systematického vzoru,
## čo naznačuje, že **lineárna špecifikácia modelu je primeraná**.
## Nevyskytuje sa ani výrazné rozširovanie alebo zužovanie rozptylu, preto
## **neexistuje silný dôkaz heteroskedasticity**.
| term | estimate | std.error | statistic | p.value |
|---|---|---|---|---|
| (Intercept) | 3.071 | 1.539 | 1.995 | 0.048 |
| median_age | -0.167 | 0.077 | -2.161 | 0.032 |
| urban_pop | 0.009 | 0.011 | 0.850 | 0.396 |
| fert_rate | 0.209 | 0.280 | 0.745 | 0.457 |
| I(median_age^2) | 0.002 | 0.001 | 1.914 | 0.057 |
| I(urban_pop^2) | 0.000 | 0.000 | -0.297 | 0.767 |
| I(fert_rate^2) | 0.026 | 0.036 | 0.743 | 0.459 |
| term | Res.Df | RSS | Df | Sum of Sq | F | Pr(>F) |
|---|---|---|---|---|---|---|
| 1 | 159 | 52.984 | NA | NA | NA | NA |
| 2 | 156 | 51.217 | 3 | 1.767 | 1.794 | 0.151 |
| df1 | df2 | statistic | p.value | method |
|---|---|---|---|---|
| 2 | 154 | 1.944 | 0.147 | RESET test |
Odhadnutý kvadratický regresný model naznačuje, že zo sledovaných premenných má mediánový vek populácie štatisticky významný vplyv na ročnú zmenu populácie (p-value = 0.032), pričom vyšší mediánový vek je spojený s nižším tempom populačného rastu. Kvadratický člen mediánového veku je na hranici štatistickej významnosti (p-value = 0.057), čo môže naznačovať miernu nelinearitu vzťahu, avšak tento efekt nie je dostatočne silný na hladine významnosti 5 %.
Premenné urbanizácia populácie a fertilita ani ich kvadratické členy nepreukázali štatisticky významný vplyv, čo naznačuje, že ich efekt na ročnú zmenu populácie je v rámci tohto modelu slabý alebo nestabilný.
Porovnanie lineárneho a kvadratického modelu pomocou ANOVA nepreukázalo štatisticky významné zlepšenie po rozšírení modelu o kvadratické členy (p-value = 0.151). To znamená, že kvadratický model nevysvetľuje variabilitu dát významne lepšie ako jednoduchší lineárny model.
Výsledok Ramsey RESET testu pre kvadratický model (p-value = 0.147) nevedie k zamietnutiu nulovej hypotézy o správnej špecifikácii modelu. Z toho vyplýva, že kvadratický model je z hľadiska funkčného tvaru akceptovateľne špecifikovaný a nevykazuje známky vážnej nesprávnej špecifikácie.
Celkovo možno konštatovať, že napriek zahrnutiu nelineárnych členov kvadratický model neprináša výrazné zlepšenie oproti lineárnemu modelu, a preto je z hľadiska parsimónnosti vhodné uprednostniť jednoduchšiu špecifikáciu.
| median_age | urban_pop | fert_rate | |
|---|---|---|---|
| median_age | 1.000 | 0.453 | -0.876 |
| urban_pop | 0.453 | 1.000 | -0.463 |
| fert_rate | -0.876 | -0.463 | 1.000 |
Korelačná matica prediktorov poukazuje na výrazné vzťahy medzi niektorými demografickými premennými. Najsilnejšia závislosť sa prejavuje medzi mediánovým vekom a mierou fertility (r = -0.876), čo naznačuje, že krajiny s vyšším mediánovým vekom majú spravidla nižšiu fertilitu. Stredne silná pozitívna korelácia je pozorovaná medzi mediánovým vekom a mierou urbanizácie (r = 0.453), zatiaľ čo vzťah medzi urbanizáciou a fertilitou je negatívny (r = -0.463).
Tieto závery sú konzistentné aj so scatterplotovou maticou, ktorá vizuálne potvrdzuje lineárny charakter uvedených vzťahov a neodhaľuje výrazné extrémne hodnoty. Hoci niektoré korelácie dosahujú vyššie hodnoty, stále sa pohybujú pod hranicou kritickej úrovne, čo naznačuje zvýšené, ale stále akceptovateľné riziko multikolinearity.
| Predictor | VIF |
|---|---|
| median_age | 5.095 |
| urban_pop | 1.344 |
| fert_rate | 4.966 |
Výsledky Variance Inflation Factor (VIF) naznačujú miernu mieru multikolinearity v modeli. Premenné mediánový vek (VIF = 5.095) a fertilita (VIF = 4.966) dosahujú hodnoty blízke kritickej hranici, čo poukazuje na zvýšenú korelovanosť týchto prediktorov. Hodnota VIF pre premennú urbanizácia populácie je nízka, čo naznačuje, že táto premenná nepredstavuje zdroj multikolinearity. Celkovo možno multikolinearitu v modeli hodnotiť ako miernu, avšak ešte akceptovateľnú.
final_model <- lm(
yearly_change ~ median_age + fert_rate,
data = model_df
)
| term | estimate | std.error | statistic | p.value |
|---|---|---|---|---|
| (Intercept) | 0.119 | 0.557 | 0.213 | 0.832 |
| median_age | -0.006 | 0.012 | -0.455 | 0.650 |
| fert_rate | 0.568 | 0.086 | 6.623 | 0.000 |
Výsledky finálneho (redukovaného) regresného modelu naznačujú, že z analyzovaných demografických premenných má štatisticky významný vplyv na ročnú zmenu populácie iba miera fertility. Premenná fert_rate vykazuje silný pozitívny efekt (p < 0.001), čo znamená, že vyššia fertilita je spojená s vyšším populačným rastom.
Naopak, mediánový vek populácie (median_age) sa v modeli neukázal ako štatisticky významný faktor (p = 0.650), a preto jeho vplyv na ročnú zmenu populácie nemožno považovať za preukázaný. Absolútna hodnota interceptu taktiež nie je štatisticky významná, čo je v kontexte modelu akceptovateľné.
World Bank. (2023). World Development Indicators. Washington, DC: World Bank. Dostupné na: https://databank.worldbank.org/
United Nations, Department of Economic and Social Affairs. (2022). World Population Prospects 2022. New York: United Nations.
R Core Team. (2024). R: A Language and Environment for Statistical Computing. Vienna, Austria: R Foundation for Statistical Computing. Dostupné na: https://www.r-project.org/