# Load data
udaje <- read.csv("world_population.csv", dec=".", sep=",", header = TRUE)
# Select relevant variables for prediction
udaje_pred <- udaje[, c("Country.Territory","X2020.Population", "X2015.Population",
"Growth.Rate", "Continent")]
# Median imputation for numeric variables
numeric_cols <- c("X2020.Population", "X2015.Population", "Growth.Rate")
column_medians <- sapply(udaje_pred[, numeric_cols], median, na.rm = TRUE)
for (col in numeric_cols) {
udaje_pred[[col]][is.na(udaje_pred[[col]])] <- column_medians[col]
}
# Log-transform for modeling
udaje_pred$log_pop <- log(udaje_pred$X2020.Population)
udaje_pred$log_pop15 <- log(udaje_pred$X2015.Population)
# Dataset ready for predictive modeling
udaje <- udaje_pred
Čo skúmame:
Pripravujeme dáta na predikciu budúcej populácie.
Chýbajúce hodnoty dopĺňame mediánom, aby model fungoval
správne.
Log-transformácia populácie stabilizuje extrémne rozdiely medzi
malými a veľkými krajinami.
# Pre budúcu populáciu nás najviac zaujíma historická populácia a rast
xvars <- udaje[, c("X2015.Population", "Growth.Rate")]
round(cor(xvars), 3)
X2015.Population Growth.Rate
X2015.Population 1.000 -0.032
Growth.Rate -0.032 1.000
Teraz zisťujeme, ako sú medzi sebou prepojené historická
populácia a ročný rast. Väčšinou historická populácia a Growth.Rate nie
sú silne korelované → obe môžu byť použité ako prediktory pre budúcu
populáciu.
pairs(xvars,
main = "Scatterplotová matica – historická populácia a Growth Rate")

Vizualizujeme vzťah medzi historickou populáciou a rastom a
pozrieme sa, či existujú extrémne hodnoty alebo netypické
krajiny.
Ako môžme vidieť, väčšina krajín sa nachádza v stabilnom pásme rastu,
niektoré majú extrémne hodnoty, ktoré môžu ovplyvniť predikciu.
Area..km.. Density..per.km.. Growth.Rate
1.004343 1.009057 1.005232
X <- model.matrix(model)[, -1]
XtX <- t(X) %*% X
eig <- eigen(XtX)
condition_number <- sqrt(max(eig$values) / min(eig$values))
condition_number
[1] 1980890
Chceme zistiť, ako historická populácia, rast a kontinent
vplývajú na populáciu 2020. Model nám zároveň slúži na overenie
predikčnej schopnosti.
# Model predikcie populácie 2020
model_pred <- lm(log_pop ~ log_pop15 + Growth.Rate + Continent, data = udaje)
summary(model_pred)
Call:
lm(formula = log_pop ~ log_pop15 + Growth.Rate + Continent, data = udaje)
Residuals:
Min 1Q Median 3Q Max
-0.228477 -0.018980 0.001669 0.020626 0.181035
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -2.274370 0.267180 -8.513 2.39e-15 ***
log_pop15 0.999371 0.001313 761.114 < 2e-16 ***
Growth.Rate 2.347058 0.262618 8.937 < 2e-16 ***
ContinentAsia -0.021732 0.009384 -2.316 0.021465 *
ContinentEurope -0.057497 0.010139 -5.671 4.32e-08 ***
ContinentNorth America -0.041139 0.010860 -3.788 0.000195 ***
ContinentOceania -0.048714 0.012870 -3.785 0.000197 ***
ContinentSouth America -0.024168 0.013950 -1.732 0.084559 .
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.04529 on 226 degrees of freedom
Multiple R-squared: 0.9997, Adjusted R-squared: 0.9997
F-statistic: 1.25e+05 on 7 and 226 DF, p-value: < 2.2e-16
Historická populácia je najsilnejší prediktor.
Growth.Rate má pozitívny vplyv – krajiny s vyšším rastom budú
väčšie.
Kontinent zachytáva regionálne rozdiely (napr. Európa má priemerne
menšiu populáciu pri rovnakej historickej veľkosti).
# Spätná transformácia na počet obyvateľov
udaje$pred_pop2020 <- exp(predict(model_pred, newdata = udaje))
# Predikcia podľa Growth.Rate
udaje$pred_pop2025 <- udaje$X2020.Population * (1 + udaje$Growth.Rate)^5
udaje$pred_pop2030 <- udaje$X2020.Population * (1 + udaje$Growth.Rate)^10
# --- Výber konkrétnych krajín ---
vybrane_krajiny <- c("Slovakia",
"Czech Republic",
"Hungary",
"Austria",
"Ukraine",
"Poland")
# Filtrovanie podľa názvu krajiny
udaje_vybrane <- udaje[udaje$Country.Territory %in% vybrane_krajiny, ]
# --- Zobrazenie výsledku ---
udaje_vybrane[, c("Country.Territory",
"X2020.Population",
"pred_pop2020",
"pred_pop2025",
"pred_pop2030")]
Predikujeme populáciu do budúcnosti (2025 a 2030) pomocou
Growth.Rate. Umožňuje nám odhadnúť rast a porovnať ho medzi
krajinami.
Keď sa pozrieme na naše výsledky, vidíme, že východiskové hodnoty
populácie v roku 2020 zodpovedajú reálnym počtom obyvateľov v
jednotlivých krajinách. Model však pri dlhodobej predikcii (najmä smerom
k roku 2030) generuje extrémne vysoké čísla. Toto sa deje preto, že sme
použili jednoduchý výpočet založený na exponenciálnom raste, ktorý pri
dlhšom období veľmi preháňa výsledky.
V krátkodobom horizonte (do roku 2025) sú predpovede ešte relatívne
podobné realite – populácia sa mení len mierne. V dlhodobom horizonte
(rok 2030) už model predpovedá nereálne vysoký nárast, takže tieto čísla
nevnímame ako skutočnú predpoveď, ale skôr ako ukážku toho, ako rýchlo
vie populácia narásť, keď necháme v modeli pôsobiť rastovú mieru bez
obmedzenia.
Krajinám môžeme pripísať tieto trendy:
Slovensko, Česko, Rakúsko, Maďarsko a Poľsko – krátkodobo
stabilné, bez veľkých zmien.
Ukrajina – krátkodobo skôr pokles, čo zodpovedá realite.
Dlhodobé výsledky – sú enormné vo všetkých krajinách, čo
znamená, že exponenciálny model nie je vhodný na dlhé časové
obdobie.
X <- model.matrix(model_centered)[, -1]
XtX <- t(X) %*% X
eig <- eigen(XtX)
condition_number <- sqrt(max(eig$values) / min(eig$values))
condition_number
[1] 1.09998
udaje$GrowthRate_c <- scale(udaje$Growth.Rate, center=TRUE, scale=TRUE)
model_centered <- lm(log_pop ~ log_pop15 + GrowthRate_c + Continent, data = udaje)
summary(model_centered)
Call:
lm(formula = log_pop ~ log_pop15 + GrowthRate_c + Continent,
data = udaje)
Residuals:
Min 1Q Median 3Q Max
-0.228477 -0.018980 0.001669 0.020626 0.181035
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.095167 0.021598 4.406 1.62e-05 ***
log_pop15 0.999371 0.001313 761.114 < 2e-16 ***
GrowthRate_c 0.031415 0.003515 8.937 < 2e-16 ***
ContinentAsia -0.021732 0.009384 -2.316 0.021465 *
ContinentEurope -0.057497 0.010139 -5.671 4.32e-08 ***
ContinentNorth America -0.041139 0.010860 -3.788 0.000195 ***
ContinentOceania -0.048714 0.012870 -3.785 0.000197 ***
ContinentSouth America -0.024168 0.013950 -1.732 0.084559 .
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.04529 on 226 degrees of freedom
Multiple R-squared: 0.9997, Adjusted R-squared: 0.9997
F-statistic: 1.25e+05 on 7 and 226 DF, p-value: < 2.2e-16
library(MASS)
# Matrix-based analysis for predictive variables
X <- as.matrix(udaje[, c("log_pop15", "Growth.Rate")]) # historická populácia a rast
y <- udaje$log_pop # log-populácia 2020
lambda <- 0.01 # regularizačný parameter pre Ridge (môžeš upraviť)
A <- t(X) %*% X
AInv <- solve(A)
Alam <- t(X) %*% X + lambda * diag(ncol(X))
AlamInv <- solve(Alam)
cat("lambda =", lambda, "\n")
lambda = 0.01
cat("Matrix A:\n"); print(A)
Matrix A:
log_pop15 Growth.Rate
log_pop15 53207.913 3504.1094
Growth.Rate 3504.109 238.5454
cat("Matrix Alam (regularized):\n"); print(Alam)
Matrix Alam (regularized):
log_pop15 Growth.Rate
log_pop15 53207.923 3504.1094
Growth.Rate 3504.109 238.5554
cat("Inverse of A:\n"); print(AInv)
Inverse of A:
log_pop15 Growth.Rate
log_pop15 0.0005765852 -0.00846974
Growth.Rate -0.0084697403 0.12860820
cat("Inverse of Alam:\n"); print(AlamInv)
Inverse of Alam:
log_pop15 Growth.Rate
log_pop15 0.0005758655 -0.008458813
Growth.Rate -0.0084588128 0.128442299
cat("Eigenvalues of A:\n"); print(eigen(A)$values)
Eigenvalues of A:
[1] 53438.716800 7.741971
cat("Eigenvalues of Alam:\n"); print(eigen(Alam)$values)
Eigenvalues of Alam:
[1] 53438.726800 7.751971
Celkové zistenie:
Historická populácia je najsilnejším prediktorom budúcej
populácie.
Growth.Rate umožňuje predikciu rastu do budúcnosti (2025, 2030).
Kontinent zachytáva regionálne rozdiely.
Model umožňuje praktickú predikciu budúcej populácie pre všetky
krajiny a jej porovnanie medzi regiónmi.
Na základe našej analýzy môžeme povedať, že model funguje dobre
na krátkodobú projekciu, ale pri dlhšom časovom horizonte dochádza k
výraznému nadhodnocovaniu populácie. Preto tieto výsledky skôr ukazujú,
ako veľmi dokáže model reagovať na rastovú mieru, než to, ako bude
populácia v skutočnosti vyzerať.
