Úvod a predstavenie databázy

Cieľom práce je analyzovať vývoj populácie Slovenskej republiky v porovnaní s vybranými štátmi Európskej únie, predovšetkým s Českou republikou. Analýza využíva databázu World_Population, ktorá obsahuje súhrnné demografické údaje o krajinách sveta.

1.Základná charakteristika databázy:

Databáza zhromažďuje napríklad údaje o:

  • počte obyvateľov jednotlivých krajín/kontinentov,
  • rozlohe územia,
  • hustote obyvateľstva,
  • ročnom prírastku alebo úbytku populácie,
  • roku záznamu

Tieto údaje umožňujú porovnanie demografického vývoja medzi krajinami a identifikáciu základných trendov.

head(world_population)                            # niekolko prvych riadkov
colnames(world_population)
 [1] "Rank"                        "CCA3"                        "Country.Territory"          
 [4] "Capital"                     "Continent"                   "X2022.Population"           
 [7] "X2020.Population"            "X2015.Population"            "X2010.Population"           
[10] "X2000.Population"            "X1990.Population"            "X1980.Population"           
[13] "X1970.Population"            "Area..km.."                  "Density..per.km.."          
[16] "Growth.Rate"                 "World.Population.Percentage"

2.Porovnanie Slovenska a Českej republiky (1980–2020)

Pre naše skúmanie si z databázy world population na začiatok vyberáme krajiny Slovensko a Českú republiku. Následne pozorujeme roky 1980-2020 ako sa vyvíjala populácia a teda počet obyvateľov v priebehu týchto rokov.

library(ggplot2)
SVK_CZE_data <- world_population %>%
  filter(CCA3 %in% c("SVK", "CZE")) %>%  # Filtrovanie na Slovensko a Česko
  select(CCA3, "X2020.Population", "X2010.Population", "X2000.Population", "X1990.Population", "X1980.Population") # Vyberáme len relevantné stĺpce
head(SVK_CZE_data)

Scatter plot

library(dplyr)
library(tidyr)
library(ggplot2)

# Predpokladám, že dataset je uložený v premennej `SVK_CZE_data`

# 1. Vyberieme potrebné stĺpce a dáta len pre Slovensko a Česko
SVK_CZE_sel <- SVK_CZE_data %>%
  filter(CCA3 %in% c("SVK", "CZE")) %>%  # Filtrovanie na Slovensko a Česko
  select(CCA3, "X2020.Population", "X2010.Population", "X2000.Population", "X1990.Population", "X1980.Population")  # Vyberáme len relevantné stĺpce

# 2. Premeníme dáta do dlhého formátu (pre graf)
SVK_CZE_long <- SVK_CZE_sel %>%
  pivot_longer(cols = c("X2020.Population", "X2010.Population", "X2000.Population", "X1990.Population", "X1980.Population"),
               names_to = "year",     # Stĺpec s rokmi
               values_to = "population")  # Stĺpec s populáciou

# 3. Vytvoríme stĺpcový graf - Zobrazíme populáciu Slovenska a Česka v rokoch 1980, 1990, 2000, 2010 a 2020
ggplot(SVK_CZE_long, aes(x = year,y = population, fill = CCA3, group = CCA3)) + geom_bar(stat = "identity", position = "dodge", width = 0.8) + # Stĺpcový graf s oddelenými stĺpcami pre každú krajinu 
  geom_text(aes(label = population), position = position_dodge(width = 0.3), vjust = -0.1) + # Pridanie označení hodnôt 
  theme_minimal() + # Minimalistický dizajn grafu 
  labs(title = "Vývoj populácie Slovenska a Česka", # Upravený nadpis 
       x = "Rok", 
       y = "Populácia", 
       fill = "Krajina") + # Popis farieb podľa krajiny 
  theme(axis.text.x = element_text(angle = 30, hjust = 1)) # Rotácia textu na osi X

(Tento graf má deskriptívny charakter a slúži na ilustráciu základných rozdielov medzi krajinami.)

Obe krajiny vykazujú v sledovanom období mierny rast populácie.

Česká republika má počas celého obdobia vyšší počet obyvateľov než Slovensko. -> v Česku možno pozorovať mierny pokles populácie v období 1990–2000, ktorý môže súvisieť s demografickými a spoločenskými zmenami po roku 1989.

library(dplyr)
library(knitr)

# 1. Vyberieme potrebné stĺpce a dáta len pre Slovensko a Česko
SVK_CZE_sel <- SVK_CZE_data %>%
  filter(CCA3 %in% c("SVK", "CZE")) %>%  # Filtrovanie na Slovensko a Česko
  select(CCA3, "X2020.Population", "X2010.Population", "X2000.Population", "X1990.Population", "X1980.Population")  # Relevantné stĺpce

# 2. Premeníme dáta do dlhého formátu
SVK_CZE_long <- SVK_CZE_sel %>%
  pivot_longer(cols = c("X2020.Population", "X2010.Population", "X2000.Population", "X1990.Population", "X1980.Population"),
               names_to = "year",
               values_to = "population")
# 3. Vypočítame základné štatistiky populácie podľa krajiny a roku
SVK_CZE_stats <- SVK_CZE_long %>%
  group_by(CCA3, year) %>%
  summarise(
    n      = n(),
    mean   = mean(population, na.rm = TRUE),
    sd     = sd(population, na.rm = TRUE),
    min    = min(population, na.rm = TRUE),
    q25    = quantile(population, 0.25, na.rm = TRUE),
    median = median(population, na.rm = TRUE),
    q75    = quantile(population, 0.75, na.rm = TRUE),
    max    = max(population, na.rm = TRUE),
    .groups = "drop"
  )

# 4. Vytvoríme tabuľku pomocou knitr
kable(SVK_CZE_stats, digits = 0, caption = "Základné štatistiky populácie Slovenska a Česka (1980–2020)")
Základné štatistiky populácie Slovenska a Česka (1980–2020)
CCA3 year n mean sd min q25 median q75 max
CZE X1980.Population 1 10270060 NA 10270060 10270060 10270060 10270060 10270060
CZE X1990.Population 1 10301192 NA 10301192 10301192 10301192 10301192 10301192
CZE X2000.Population 1 10234710 NA 10234710 10234710 10234710 10234710 10234710
CZE X2010.Population 1 10464749 NA 10464749 10464749 10464749 10464749 10464749
CZE X2020.Population 1 10530953 NA 10530953 10530953 10530953 10530953 10530953
SVK X1980.Population 1 4973883 NA 4973883 4973883 4973883 4973883 4973883
SVK X1990.Population 1 5261305 NA 5261305 5261305 5261305 5261305 5261305
SVK X2000.Population 1 5376690 NA 5376690 5376690 5376690 5376690 5376690
SVK X2010.Population 1 5396424 NA 5396424 5396424 5396424 5396424 5396424
SVK X2020.Population 1 5456681 NA 5456681 5456681 5456681 5456681 5456681

Hlavné zistenia:

Rast populácie: Obidve krajiny vykazujú pozitívny trend rastu populácie od roku 1980 do roku 2020, čo môže naznačovať stabilný demografický vývoj, alebo len veľmi pomalý rast.

Medzery v dynamike: Mierny pokles v populácii Česka medzi 1990 a 2000 môže byť spôsobený rôznymi faktormi (napr. emigrácia, pokles natality a pod.) a môže si vyžadovať hlbšiu analýzu, či už v kontexte ekonomických alebo politických zmien v tej dobe.

Porovnanie krajín: Počet obyvateľov Česka bol v priebehu rokov vždy vyšší než počet obyvateľov Slovenska, čo je očakávané vzhľadom na veľkosť oboch krajín (Česká republika má väčšiu populáciu než Slovensko).

3.Porovnanie populácie Slovenska a Česka v rokoch 2020

Štatistické testovanie – metodické obmedzenia

Na porovnanie populácií Slovenska a Českej republiky bol vykonaný t-test a jednoduchá analýza rozptylu (ANOVA). Tieto testy sú však použité len ilustratívne, pretože pozorovania v jednotlivých rokoch nie sú nezávislé a tvoria časový rad. Z tohto dôvodu výsledky t-testu a ANOVA neinterpretujeme ako inferenčný dôkaz, ale len ako potvrdenie výrazného rozdielu v úrovni populácie medzi krajinami.

# 1. Vyberieme populáciu Slovenska a Česka v roku 2020
SVK_CZE_2020 <- SVK_CZE_data %>%
  filter(CCA3 %in% c("SVK", "CZE")) %>%
  select(CCA3, "X2020.Population")

# 2. Vykonáme t-test na porovnanie populácie medzi SVK a CZE v roku 2020
SVK_pop <- SVK_CZE_long %>% filter(CCA3 == "SVK") %>% pull(population)
CZE_pop <- SVK_CZE_long %>% filter(CCA3 == "CZE") %>% pull(population)

# 3. Výpis výsledku testu
t_test_result <- t.test(SVK_pop, CZE_pop)
print(t_test_result)

    Welch Two Sample t-test

data:  SVK_pop and CZE_pop
t = -48.899, df = 7.0276, p-value = 3.655e-10
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -5312182 -4822491
sample estimates:
mean of x mean of y 
  5292997  10360333 

Rozdiel v populáciách medzi Slovenskom a Českom je štatisticky významný. P-hodnota je extrémne nízka (3.655 × 10⁻¹⁰), čo znamená, že rozdiel medzi priemernými populáciami týchto dvoch krajín nie je náhodný.

Priemerná populácia Česka je oveľa vyššia než populácia Slovenska, čo je očakávané vzhľadom na veľkosť oboch krajín.

95% interval spoľahlivosti naznačuje, že skutočný rozdiel medzi priemernými populáciami sa pohybuje medzi približne 4,8 miliónmi a 5,3 miliónmi obyvateľov v prospech Česka.

Na základe tohto testu môžeme jednoznačne povedať, že medzi populáciami Slovenska a Česka je štatisticky významný rozdiel. Tento rozdiel je veľmi vysoký a neexistuje žiadna pravdepodobnosť, že by tento rozdiel bol spôsobený náhodou.

ANOVA

anova_result <- aov(population ~ year, data = SVK_CZE_long)
summary(anova_result)

Výsledky analýzy rozptylu (ANOVA) naznačujú, že medzi priemernými populáciami Slovenska a Česka v rokoch 1980, 1990, 2000, 2010 a 2020 neexistuje štatisticky významný rozdiel.

F-hodnota: 0.003 P-hodnota: 1

Na základe týchto výsledkov nemôžeme odmietnuť nulovú hypotézu, čo znamená, že z hľadiska týchto dát neexistuje dôkaz o rozdieloch medzi populáciami v jednotlivých rokoch.

Tieto výsledky naznačujú stabilitu populácie v sledovanom období (1980–2020), pričom populácie oboch krajín sa vyvíjali relatívne konzistentne bez štatisticky významných zmien.

Regresná analýza vývoja populácie

# install.packages(c("broom", "kableExtra", "dplyr", "stringr"))
library(broom)
library(dplyr)
library(kableExtra)
library(stringr)

# Your model (already fitted)
# model <- lm(ESG.INDEX ~ RETURN.ON.ASSETS + FIRM.SIZE + DEBT.TO.ASSET, data = udaje.2013)

coef.tbl <- tidy(model, conf.int = TRUE) %>%
  mutate(
    term = recode(term,
      "(Intercept)" = "Intercept",
      "year1990 Population" = "Rok 1990",
      "year2000 Population" = "Rok 2000",
      "year2010 Population" = "Rok 2010",
      "year2020 Population" = "Rok 2020",
      "CCA3SVK" = "Slovensko"
    ),
    stars = case_when(
      p.value < 0.001 ~ "***",
      p.value < 0.01  ~ "**",
      p.value < 0.05  ~ "*",
      p.value < 0.1   ~ "·",
      TRUE            ~ ""
    )
  ) %>%
  transmute(
    Term = term,
    Estimate = estimate,
    `Std. Error` = std.error,
    `t value` = statistic,
    `p value` = p.value,
    `95% CI` = str_c("[", round(conf.low, 0), ", ", round(conf.high, 0), "]"),
    Sig = stars
  )

coef.tbl %>%
  kable(
    digits = 0,
    caption = "OLS regresné koeficienty (population ~ year + CCA3)"
  ) %>%
  kable_styling(full_width = FALSE, bootstrap_options = c("striped", "hover", "condensed")) %>%
  column_spec(1, bold = TRUE) %>%
  row_spec(0, bold = TRUE, background = "#f2f2f2") %>%
  footnote(
    general = "Signif. codes: *** p<0.001, ** p<0.01, * p<0.05, · p<0.1.",
    threeparttable = TRUE)
OLS regresné koeficienty (population ~ year + CCA3)
Term Estimate Std. Error t value p value 95% CI Sig
Intercept 10155640 85287 119 0 [9918846, 10392433] ***
Rok 1990 159277 110104 1 0 [-146422, 464976]
Rok 2000 183728 110104 2 0 [-121970, 489427]
Rok 2010 308615 110104 3 0 [2916, 614314] *
Rok 2020 371845 110104 3 0 [66147, 677544] *
Slovensko -5067336 69636 -73 0 [-5260677, -4873995] ***
Note:
Signif. codes: *** p<0.001, ** p<0.01, * p<0.05, · p<0.1.
NA

Na základe výsledkov lineárnej regresie (OLS) môžeme konštatovať, že v rokoch 1990, 2000, 2010 a 2020 došlo k určitému nárastu populácie v porovnaní s rokom 1980. Všetky rozdiely, okrem rokov 1990 a 2000, sú štatisticky významné. V rokoch 2010 a 2020 bola populácia o 308,615 a 371,845 obyvateľov vyššia než v roku 1980, čo naznačuje rast v týchto obdobiach.

Naproti tomu roky 1990 a 2000 nevykazujú štatisticky významný rozdiel v porovnaní s rokom 1980, čo naznačuje stabilitu v tomto období. Výrazný rozdiel bol pozorovaný aj medzi Českou republikou a Slovenskom, kde populácia Slovenska bola v priemere nižšia o viac než 5 miliónov obyvateľov, čo je štatisticky veľmi významné. Model ukazuje, že rok 1980 predstavuje základný referenčný bod pre ďalšie analýzy a vplyv rôznych faktorov na zmeny v populácii.

Vysoká hodnota R-squared (0.9992) ukazuje, že model veľmi dobre vysvetľuje variabilitu v populáciách oboch krajín. P-hodnoty pre roky 2010 a 2020, ako aj pre Slovensko, sú významné, čo naznačuje, že tieto faktory majú silný vplyv na populáciu.

Celkovo môžeme povedať, že medzi rokom 1980 a 2020 došlo k významným zmenám v populácii, pričom Slovensko vykazuje výrazne nižšiu populáciu v porovnaní s Českou republikou. Výsledky tejto analýzy tak poskytujú cenné informácie o demografických trendoch v oboch krajinách v posledných desaťročiach. Ale keďže model má veľmi vysoké R², čo je spôsobené malým počtom pozorovaní a veľkými rozdielmi v úrovni populácie, výsledky preto interpretujeme opisne, nie predikčne.

4.Hustota obyvateľstva a jej determinanty

Ďalšia časť práce sa zameriava na vzťah medzi hustotou obyvateľstva, populáciou a rozlohou krajín v roku 2020.

# Načítanie dát
udaje <- read.csv("world_population.csv", dec=".", sep=",", header = TRUE)

# Kontrola názvov stĺpcov
names(udaje)
 [1] "Rank"                        "CCA3"                        "Country.Territory"          
 [4] "Capital"                     "Continent"                   "X2022.Population"           
 [7] "X2020.Population"            "X2015.Population"            "X2010.Population"           
[10] "X2000.Population"            "X1990.Population"            "X1980.Population"           
[13] "X1970.Population"            "Area..km.."                  "Density..per.km.."          
[16] "Growth.Rate"                 "World.Population.Percentage"
# Výber len číselných údajov (uprav podľa presných názvov stĺpcov)
udaje.2020 <- udaje[, c("X2020.Population", "Area..km..", "Density..per.km..")]

# Konverzia na numeric
udaje.2020 <- as.data.frame(lapply(udaje.2020, as.numeric))

# Nahradenie NA mediánmi
column_medians <- sapply(udaje.2020, median, na.rm = TRUE)
for (col in names(udaje.2020)) {
  udaje.2020[[col]][is.na(udaje.2020[[col]])] <- column_medians[col]
}

# Vykreslenie boxplotov
par(mfrow = c(2, 2))
par(mar = c(4, 4, 2, 1))
for (col in names(udaje.2020)) {
  boxplot(udaje.2020[[col]], main = col, xlab = "Hodnoty", col = "lightblue", border = "pink")
}

1. X2020.Population

Väčšina hodnôt sa koncentruje pri veľmi nízkych hodnotách populácie. Viditeľných je niekoľko výrazných odľahlých hodnôt (outliers) – niektoré krajiny/územia majú populáciu výrazne vyššiu než ostatné. Rozdelenie je silne pravostranné (pozitívne zošikmené) – väčšina pozorovaní má malé hodnoty, zatiaľ čo niekoľko extrémnych pozorovaní ťahá medián smerom nadol.

2. Area..km..

Väčšina krajín má pomerne malú rozlohu, pričom zopár veľmi veľkých území spôsobuje silnú pravostrannú šikmosť. Viaceré body ďaleko od hlavného poľa dát naznačujú odľahlé pozorovania (veľké krajiny). Podobne ako pri populácii, dáta sú veľmi nesymetrické – odporúča sa zvážiť transformáciu (napr. log(area)).

3. Density..per.km..

Hustota obyvateľstva má väčšinu hodnôt sústredených pri nízkych číslach, no niekoľko oblastí má extrémne vysokú hustotu. To sa prejavuje odľahlými bodmi nad horným fúzom boxplotu. Rozdelenie je pravostranné, teda existujú niektoré extrémne husto obývané regióny. Transformácia (napr. log) by mohla pomôcť zlepšiť symetriu rozdelenia.

# Nastaviť rozloženie 2 x 2
par(mfrow = c(2, 2))

# Vykresliť všetky 4 diagnostické grafy modelu
plot(model)

# (Voliteľné) pridať spoločný nadpis
mtext("Diagnostické grafy regresného modelu", outer = TRUE, cex = 1.2, font = 2)

# Resetovať layout
par(mfrow = c(1, 1))

Čo nám hovoria tieto grafy?

Residuals vs Fitted

Reziduály sú rozložené okolo nuly bez výrazného trendu, čo naznačuje dobré prispôsobenie modelu. Mierne zakrivenie čiary poukazuje na možnú nelinearitu alebo vplyv niekoľkých odľahlých pozorovaní.

Normal Q–Q plot

Väčšina bodov leží blízko diagonály, takže rozdelenie rezíduí je približne normálne. Menšie odchýlky na okrajoch naznačujú len mierne porušenie normality.

Scale–Location

Rozptyl rezíduí sa javí ako približne konštantný, čo podporuje predpoklad homoskedasticity. Mierne výkyvy na začiatku môžu byť spôsobené niekoľkými extrémnymi bodmi.

Residuals vs Factor Levels

Reziduály sa v jednotlivých faktorových úrovniach pohybujú okolo nuly, bez systematického trendu. Body 5 a 10 pôsobia ako možné vplyvné pozorovania, ktoré môžu ovplyvňovať model.

install.packages("tseries")  # len raz
library(tseries)   
model2 <- lm(Density..per.km.. ~ X2020.Population + Area..km.., data = udaje.2020)
summary(model2)

Call:
lm(formula = Density..per.km.. ~ X2020.Population + Area..km.., 
    data = udaje.2020)

Residuals:
    Min      1Q  Median      3Q     Max 
 -493.6  -417.8  -361.8  -217.8 22677.4 

Coefficients:
                   Estimate Std. Error t value Pr(>|t|)    
(Intercept)       4.948e+02  1.434e+02   3.452 0.000662 ***
X2020.Population  2.622e-08  1.124e-06   0.023 0.981404    
Area..km..       -7.495e-05  8.647e-05  -0.867 0.386995    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 2071 on 231 degrees of freedom
Multiple R-squared:  0.003987,  Adjusted R-squared:  -0.004636 
F-statistic: 0.4624 on 2 and 231 DF,  p-value: 0.6304
# Diagnostické grafy
par(mfrow = c(2, 2))
par(mar = c(4, 4, 2, 1))
plot(model2)
par(mfrow = c(1, 1))

Residuals vs Fitted

Reziduály sa väčšinou pohybujú okolo nuly, čo naznačuje, že model nemá výrazné systematické chyby v predikciách. Niekoľko bodov s veľkými reziduálmi (napr. 120, 135, 188) predstavuje možné odľahlé pozorovania.

Normal Q–Q plot

Väčšina bodov sleduje diagonálu, no koniec grafu sa výrazne odchyľuje smerom nahor. To znamená, že reziduály nie sú dokonale normálne rozdelené a existujú extrémne hodnoty v pravej časti rozdelenia.

Scale–Location

Rozptyl rezíduí sa javí ako relatívne konštantný, bez výrazného rozširovania alebo zužovania. Len niekoľko bodov s vysokými štandardizovanými reziduálmi môže naznačovať miernu heteroskedasticitu.

Residuals vs Leverage

Väčšina bodov má nízke hodnoty leverage, čo je dobré, no niekoľko pozorovaní (napr. 120, 135, 172) má väčší vplyv podľa Cookovej vzdialenosti. Tieto pozorovania môžu výraznejšie ovplyvňovať odhad parametrov a je vhodné ich skontrolovať.

5.Analýza heteroskedasticity

Pri modelovaní tempa rastu populácie bola identifikovaná heteroskedasticita rezíduí, čo potvrdil aj Breusch–Paganov test. Rozptyl chýb sa zvyšuje pri extrémnych hodnotách rastu populácie. Na riešenie tohto problému boli použité robustné štandardné chyby, ktoré potvrdili štatistickú významnosť trendu poklesu tempa rastu populácie v čase.

library(dplyr)
library(tidyr)
library(ggplot2)
library(patchwork)

# 1️⃣ Preformátovanie dát do dlhého formátu
world_population_long <- world_population %>%
  select(Continent, Country.Territory, 
         X2022.Population, X2020.Population, X2015.Population, 
         X2010.Population, X2000.Population, X1990.Population, X1980.Population, X1970.Population) %>%
  pivot_longer(cols = starts_with("X"), 
               names_to = "Year", 
               values_to = "Population") %>%
  mutate(Year = as.numeric(gsub("X|\\.Population", "", Year))) %>%  # odstráni "X" a ".Population", zostáva rok
  group_by(Country.Territory) %>%
  arrange(Year) %>%
  mutate(GrowthRate = (Population / lag(Population) - 1) * 100) %>%
  ungroup() %>%
  filter(!is.na(GrowthRate))

# 2️⃣ Lineárny model
model <- lm(GrowthRate ~ Year, data = world_population_long)

# 3️⃣ Predikcie a reziduá
world_population_long$pred_model <- predict(model)
world_population_long$resid_model <- resid(model)

# 4️⃣ Grafy heteroskedasticity
p1 <- ggplot(world_population_long, aes(x = Year, y = resid_model^2)) +
  geom_point(alpha = 1, color = "steelblue") +
  geom_smooth(method = "loess", se = FALSE, color = "pink") +
  labs(x = "Rok", y = "Štvorce rezíduí", title = "Residuals² vs Rok") +
  theme_minimal()

p2 <- ggplot(world_population_long, aes(x = GrowthRate, y = resid_model^2)) +
  geom_point(alpha = 0.6, color = "lightblue") +
  geom_smooth(method = "loess", se = FALSE, color = "pink") +
  labs(x = "Tempo rastu populácie (%)", y = "Štvorce rezíduí", title = "Residuals² vs Growth Rate") +
  theme_minimal()

# 5️⃣ Zobrazenie oboch grafov vedľa seba
p1 + p2

Graf Residuals² vs Rok

ukazuje, že model predpovedá populáciu presne v rokoch medzi 1990 a 2020, ale má veľké odchýlky v roku 1980 a niektorých ďalších rokoch, čo naznačuje, že model nezachytáva všetky faktory ovplyvňujúce populáciu v týchto obdobiach.

Graf Residuals² vs Growth Rate

ukazuje, že model má väčšie chyby pri vyšších tempách rastu populácie. To naznačuje, že model nie je schopný presne predpovedať populáciu pri rýchlom raste, čo môže vyžadovať komplexnejší model pre obdobia s extrémnym rastom.

library(ggplot2)
library(patchwork)
model <- lm(GrowthRate ~ Continent, data = world_population_long)
world_population_long$resid_model <- resid(model)
p1 <- ggplot(world_population_long, aes(x = Year, y = resid_model^2)) +
  geom_point(alpha = 0.6, color = "grey") +
  geom_smooth(method = "loess", se = FALSE, color = "purple") +
  labs(x = "Rok", y = "Štvorce rezíduí", title = "Residuals² vs Rok") +
  theme_minimal() +
  theme(
  plot.background = element_rect(fill = "#f5f5dc", color = NA),  # béžová
  panel.background = element_rect(fill = "#f5f5dc", color = NA)
) 
p2 <- ggplot(world_population_long, aes(x = GrowthRate, y = resid_model^2)) +
  geom_point(alpha = 0.6, color = "lightblue") +
  geom_smooth(method = "loess", se = FALSE, color = "pink") +
  labs(x = "Tempo rastu populácie (%)", y = "Štvorce rezíduí", title = "Residuals² vs Growth Rate") +
  theme_minimal() +
  theme(
  plot.background = element_rect(fill = "#f5f5dc", color = NA),  # béžová
  panel.background = element_rect(fill = "#f5f5dc", color = NA)
) 
p1 + p2

Graf: Štvorce rezíduí vs Rok

V tomto grafe sledujeme, či sa veľkosť chýb modelu mení v čase. Fialová vyhladená krivka je takmer rovná, čo naznačuje, že rozptyl rezíduí je stabilný naprieč rokmi. To znamená, že premenná „rok“ pravdepodobne nespôsobuje heteroskedasticitu. Model teda v tomto smere neukazuje žiadny systematický problém.

Graf: Štvorce rezíduí vs Tempo rastu populácie

Tu skúmame, či veľkosť chýb závisí od tempa rastu populácie. Červená krivka má výrazný oblúkovitý tvar, čo naznačuje, že model robí väčšie chyby pri extrémnych hodnotách rastu. To je vizuálny náznak heteroskedasticity teda toho, že rozptyl rezíduí nie je konštantný. Tento problém potvrdzuje aj výsledok Breusch–Paganovho testu.

# 📦 Načítanie knižníc
library(dplyr)
library(tidyr)
library(ggplot2)
library(lmtest)
library(patchwork)

# 1️⃣ Preformátovanie dát do dlhého formátu
world_population_long <- world_population %>%
  select(Continent, Country.Territory, 
         X2022.Population, X2020.Population, X2015.Population, 
         X2010.Population, X2000.Population, X1990.Population, X1980.Population, X1970.Population) %>%
  pivot_longer(cols = starts_with("X"), 
               names_to = "Year", 
               values_to = "Population") %>%
  mutate(Year = as.numeric(gsub("X|\\.Population", "", Year))) %>%  # z názvu stĺpca vyber rok
  group_by(Country.Territory) %>%
  arrange(Year) %>%
  mutate(GrowthRate = (Population / lag(Population) - 1) * 100) %>%
  ungroup() %>%
  filter(!is.na(GrowthRate))

# 2️⃣ Vytvorenie lineárneho modelu
model <- lm(GrowthRate ~ Year, data = world_population_long)
summary(model)

Call:
lm(formula = GrowthRate ~ Year, data = world_population_long)

Residuals:
    Min      1Q  Median      3Q     Max 
-69.121  -7.491  -2.093   5.668 239.690 

Coefficients:
              Estimate Std. Error t value Pr(>|t|)    
(Intercept) 1087.20768   59.39472   18.30   <2e-16 ***
Year          -0.53527    0.02962  -18.07   <2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 17.63 on 1636 degrees of freedom
Multiple R-squared:  0.1664,    Adjusted R-squared:  0.1659 
F-statistic: 326.6 on 1 and 1636 DF,  p-value: < 2.2e-16
# 3️⃣ Breusch-Pagan test na heteroskedasticitu
bptest(model)

    studentized Breusch-Pagan test

data:  model
BP = 19.018, df = 1, p-value = 1.295e-05

Breusch–Paganov test overuje, či sa veľkosť chýb modelu mení v závislosti od vysvetľujúcich premenných – teda či je prítomná heteroskedasticita. Výsledok testu (BP = 19.018, p-hodnota < 0.001) naznačuje, že rozptyl rezíduí nie je konštantný. To znamená, že model robí systematicky väčšie chyby pri určitých hodnotách vstupných premenných. Takýto problém môže ovplyvniť spoľahlivosť odhadov a vyžaduje úpravu modelu.

# Install (if not yet installed)
# install.packages("lmtest")

# Load the package
library(lmtest)

model2 <- lm(GrowthRate ~ +1 + I(log(Year)),data=world_population_long)
summary(model2)

Call:
lm(formula = GrowthRate ~ +1 + I(log(Year)), data = world_population_long)

Residuals:
    Min      1Q  Median      3Q     Max 
-69.089  -7.493  -2.125   5.670 239.708 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept)   8153.92     450.83   18.09   <2e-16 ***
I(log(Year)) -1070.57      59.29  -18.06   <2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 17.63 on 1636 degrees of freedom
Multiple R-squared:  0.1662,    Adjusted R-squared:  0.1657 
F-statistic:   326 on 1 and 1636 DF,  p-value: < 2.2e-16
# Run the Breusch–Pagan test
bptest(model2)

    studentized Breusch-Pagan test

data:  model2
BP = 18.994, df = 1, p-value = 1.311e-05

Tento model skúma vzťah medzi rastom populácie a logaritmicky transformovaným rokom. Výsledky ukazujú, že log(Year) má silne negatívny a štatisticky významný vplyv na rast populácie. Napriek transformácii však Breusch–Paganov test (BP = 18.994, p < 0.001) stále naznačuje prítomnosť heteroskedasticity. To znamená, že rozptyl chýb sa mení a model by mohol byť ďalej upravený, napríklad použitím robustných metód.

#install.packages("sandwich")
#install.packages("lmtest")
library(sandwich)
library(lmtest)
coeftest(model, vcov = vcovHC(model))

t test of coefficients:

               Estimate  Std. Error t value  Pr(>|t|)    
(Intercept) 1087.207679   66.659480  16.310 < 2.2e-16 ***
Year          -0.535267    0.033097 -16.173 < 2.2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
library(zoo)
library(tseries)
library(lmtest)
library(sandwich)
library(car)
rm(list=ls())

Následne sme z datasetu vybrali tri dôležité ukazovatele: populáciu v roku 2020, rozlohu krajiny a hustotu obyvateľstva. Pretože údaje obsahovali chýbajúce hodnoty, doplnili sme ich pomocou mediánu, aby analýza nebola skreslená ani prerušená NA hodnotami. Následne sme všetky premenné prekonvertovali na číselný formát, aby sa dali ďalej štatisticky spracovať. Výsledkom je čistý a kompletný dataset vhodný na následné regresné modelovanie.

attach(udaje)

# Lineárny model: hustota ako funkcia populácie a rozlohy
model <- lm(Density..per.km.. ~ 1 + X2020.Population + Area..km.., data = udaje)

summary(model)

Call:
lm(formula = Density..per.km.. ~ 1 + X2020.Population + Area..km.., 
    data = udaje)

Residuals:
    Min      1Q  Median      3Q     Max 
 -493.6  -417.8  -361.8  -217.8 22677.4 

Coefficients:
                   Estimate Std. Error t value Pr(>|t|)    
(Intercept)       4.948e+02  1.434e+02   3.452 0.000662 ***
X2020.Population  2.622e-08  1.124e-06   0.023 0.981404    
Area..km..       -7.495e-05  8.647e-05  -0.867 0.386995    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 2071 on 231 degrees of freedom
Multiple R-squared:  0.003987,  Adjusted R-squared:  -0.004636 
F-statistic: 0.4624 on 2 and 231 DF,  p-value: 0.6304

Zostavila som lineárny model, v ktorom som hustotu obyvateľstva vysvetľovala pomocou populácie v roku 2020 a rozlohy územia. Cieľom bolo overiť, či tieto dve premenné dokážu štatisticky významne vysvetliť rozdiely v hustote obyvateľstva medzi krajinami.

Z výsledkov vidím, že ani populácia, ani rozloha územia nemajú v tomto modeli štatisticky významný vplyv na hustotu obyvateľstva. Hodnoty p-value sú pri oboch premenných veľmi vysoké, čo znamená, že ich vplyv na vysvetľovanú premennú sa v tomto modeli nepotvrdil.

Teda na základe našej doterajšej analýzy vieme povedať, že počet obyvateľov v roku 2020 a rozloha územia nemajú štatisticky významný vplyv na hustotu obyvateľstva v tomto modeli, čo naznačuje, že tieto faktory nie sú dôležité pre vysvetlenie hustoty obyvateľstva v tomto prípade.

car::crPlots(model)

Graf – 2020 Population

Väčšina bodov je veľmi blízko osi 0 → populácia väčšiny krajín/území je relatívne nízka (v porovnaní s extrémami). Niekoľko vzdialených bodov (outlierov) predstavuje veľmi veľké populácie. Fialová čiara (lineárny model) mierne stúpa → model predpokladá pozitívnu, ale slabú lineárnu závislosť. Modrá LOESS krivka je takmer plochá → skutočný nelineárny trend je prakticky nulový. #### Interpretácia: Populácia nemá výrazný lineárny ani nelineárny efekt na hustotu obyvateľstva v tomto modeli. Outliery môžu skresľovať fit.

Graf – Area (km²)

Situácia je podobná – väčšina území má malú rozlohu, pár extrémne veľkých štátov vytvára outliery. Lineárny model (fialová čiara) mierne klesá → väčšia rozloha môže súvisieť s nižšou hustotou. LOESS (modrá krivka) je tiež mierne klesajúca, ale takmer plochá. #### Interpretácia: Rozloha má slabý negatívny vzťah s hustotou, čo je logicky očakávané, ale závislosť je veľmi slabá. Nelineárny efekt sa prakticky neprejavuje.

6.Klastrová analýza európskych krajín

Pre ďalšiu analýzu sme si tentokrát z našej databázy vytiahli všetky európske štáty.

Pomocou hierarchického zhlukovania (Ward.D2) boli európske krajiny rozdelené do troch klastrov:

Klaster 1: menšie a stredne veľké krajiny s vyššou hustotou obyvateľstva, Klaster 2: veľké krajiny s vysokou populáciou a strednou hustotou, Klaster 3: veľmi veľké krajiny s nízkou hustotou obyvateľstva.

Táto analýza nám umožnila identifikovať štrukturálne podobnosti medzi krajinami a lepšie pochopiť regionálne rozdiely v demografii.

rm(list = ls())
udaje <- read.csv("world_population.csv", stringsAsFactors = FALSE)

# výber kontinentov podľa tvojich údajov
kontinenty <- c("Europe")

udaje2020 <- subset(udaje, Continent %in% kontinenty)

# výber stĺpcov, ktoré v databáze existujú
udaje2020 <- udaje2020[, c("Country.Territory",
                           "X2020.Population",
                           "Area..km..",
                           "Density..per.km..",
                           "Growth.Rate")]

# zmena názvu riadkov
rownames(udaje2020) <- udaje2020$Country.Territory
udaje2020$Country.Territory <- NULL

udaje2020
NA
udaje_complete <- na.omit(udaje2020)
udaje_scaled <- scale(udaje_complete)
num_vars <- as.data.frame(udaje_scaled)
num_plots <- ncol(num_vars)
par(mfrow = c(ceiling(sqrt(num_plots)), ceiling(num_plots / ceiling(sqrt(num_plots)))))
par(mar = c(4, 4, 2, 1))
for (col in names(num_vars)) {
  boxplot(num_vars[[col]],
          main = col,
          col = "lightpink",
          horizontal = TRUE)}
mtext("Boxploty numerických premenných (rok 2020)", outer = TRUE, cex = 1.3, font = 2)

Tento graf nám ukazuje rozdelenie štyroch premenných európskych štátov po logaritmickej transformácii: populácie, rozlohy, hustoty obyvateľstva a miery rastu. Vidíme, že populácia, rozloha aj hustota majú väčšinou nízke až stredné hodnoty, no zároveň obsahujú výrazné odľahlé hodnoty, čo znamená prítomnosť veľkých alebo veľmi hustých krajín. Miera rastu populácie je zväčša blízko nule, avšak niektoré štáty vykazujú výraznejší pokles alebo nárast.

dist_mat <- dist(udaje2020, method = "euclidean")
hc <- hclust(dist_mat, method = "ward.D2")
plot(hc, labels = rownames(udaje_scaled),
     main = "Hierarchical klastering of countries (Ward.D2)",
     xlab = "", sub = "")
k <- 3
h_cut <- hc$height[length(hc$height) - (k - 1)]
abline(h = h_cut, col = "pink", lwd = 6, lty = 6)

klaster_membership <- cutree(hc, k = k)
udaje_klasters <- data.frame(
  Country = rownames(udaje_complete),
  udaje_complete,
  klaster = factor(klaster_membership))

Tento dendrogram nám zobrazuje výsledky hierarchického zhlukovania európskych krajín na základe vybraných charakteristík pomocou metódy Ward.D2.Vidíme, že krajiny sa delia do niekoľkých výrazných skupín podľa podobnosti v analyzovaných dátach. Niektoré krajiny sú veľmi blízko seba, čo znamená, že majú podobné hodnoty premenných, zatiaľ čo iné tvoria samostatné, odlišné klastre.Prerušovaná červená čiara predstavuje prah, podľa ktorého môžeme určiť počet zhlukov. Pod týmto prahom sa krajiny rozdeľujú do viacerých skupín, ktoré môžeme ďalej skúmať, napríklad na základe podobnej hustoty obyvateľstva, veľkosti alebo populácie.Tento výsledok nám umožňuje lepšie porozumieť štruktúre dát a identifikovať prirodzené zoskupenia krajín v Európe, čo je užitočné pre ďalšie analýzy a porovnania.

data_prac <- data.frame(cbind(udaje_klasters$Country, udaje_klasters$klaster))
colnames(data_prac) <- c("Country","klaster")
data_prac
udaje2020 <- data.frame(
  udaje2020,
  klaster = udaje_klasters$klaster)
library(dplyr)
descriptives <- udaje2020 %>%
  group_by(klaster) %>%
  summarise(
    across(
      .cols = where(is.numeric),
      .fns = list(
        mean = ~mean(.x, na.rm = TRUE)),
      .names = "{.col}_{.fn}"))
descriptives

7.Predikcia budúcej populácie

V poslednej časti práce bola vykonaná jednoduchá predikcia populácie na roky 2025 a 2030 na základe historickej populácie a miery rastu.

# Load data
udaje <- read.csv("world_population.csv", dec=".", sep=",", header = TRUE)
udaje_pred <- udaje[, c("Country.Territory","X2020.Population", "X2015.Population",
                        "Growth.Rate", "Continent")]
numeric_cols <- c("X2020.Population", "X2015.Population", "Growth.Rate")
column_medians <- sapply(udaje_pred[, numeric_cols], median, na.rm = TRUE)
for (col in numeric_cols) {
  udaje_pred[[col]][is.na(udaje_pred[[col]])] <- column_medians[col]}
udaje_pred$log_pop <- log(udaje_pred$X2020.Population)
udaje_pred$log_pop15 <- log(udaje_pred$X2015.Population)
udaje <- udaje_pred

Čo skúmame: - Pripravujeme dáta na predikciu budúcej populácie. - Chýbajúce hodnoty dopĺňame mediánom, aby model fungoval správne. - Log-transformácia populácie stabilizuje extrémne rozdiely medzi malými a veľkými krajinami.

Pre budúcu populáciu nás najviac zaujíma historická populácia a rast

# Pre budúcu populáciu nás najviac zaujíma historická populácia a rast
xvars <- udaje[, c("X2015.Population", "Growth.Rate")]
round(cor(xvars), 3)
                 X2015.Population Growth.Rate
X2015.Population            1.000      -0.032
Growth.Rate                -0.032       1.000

Scatterplotová matica – historická populácia a Growth Rate

Vizualizujeme vzťah medzi historickou populáciou a rastom a pozrieme sa, či existujú extrémne hodnoty alebo netypické krajiny.

Ako môžme vidieť, väčšina krajín sa nachádza v stabilnom pásme rastu, niektoré majú extrémne hodnoty, ktoré môžu ovplyvniť predikciu.

pairs(xvars, main = "Scatterplotová matica – historická populácia a Growth Rate")

model_pred <- lm(log_pop ~ log_pop15 + Growth.Rate + Continent, data = udaje)
# Spätná transformácia na počet obyvateľov
udaje$pred_pop2020 <- exp(predict(model_pred, newdata = udaje))
# Predikcia podľa Growth.Rate
udaje$pred_pop2025 <- udaje$X2020.Population * (1 + udaje$Growth.Rate)^5
udaje$pred_pop2030 <- udaje$X2020.Population * (1 + udaje$Growth.Rate)^10
# --- Výber konkrétnych krajín ---
vybrane_krajiny <- c("Slovakia", 
                     "Czech Republic", 
                     "Hungary", 
                     "Austria", 
                     "Ukraine", 
                     "Poland")
# Filtrovanie podľa názvu krajiny
udaje_vybrane <- udaje[udaje$Country.Territory %in% vybrane_krajiny, ]
# --- Zobrazenie výsledku ---
udaje_vybrane[, c("Country.Territory", 
                  "X2020.Population", 
                  "pred_pop2020", 
                  "pred_pop2025", 
                  "pred_pop2030")]

Predikujeme populáciu do budúcnosti (2025 a 2030) pomocou Growth.Rate. Umožňuje nám odhadnúť rast a porovnať ho medzi krajinami.

Keď sa pozrieme na naše výsledky, vidíme, že východiskové hodnoty populácie v roku 2020 zodpovedajú reálnym počtom obyvateľov v jednotlivých krajinách. Model však pri dlhodobej predikcii (najmä smerom k roku 2030) generuje extrémne vysoké čísla. Toto sa deje preto, že sme použili jednoduchý výpočet založený na exponenciálnom raste, ktorý pri dlhšom období veľmi preháňa výsledky.

V krátkodobom horizonte (do roku 2025) sú predpovede ešte relatívne podobné realite – populácia sa mení len mierne. V dlhodobom horizonte (rok 2030) už model predpovedá nereálne vysoký nárast, takže tieto čísla nevnímame ako skutočnú predpoveď, ale skôr ako ukážku toho, ako rýchlo vie populácia narásť, keď necháme v modeli pôsobiť rastovú mieru bez obmedzenia.

Krajinám môžeme pripísať tieto trendy:

Slovensko, Česko, Rakúsko, Maďarsko a Poľsko – krátkodobo stabilné, bez veľkých zmien.

Ukrajina – krátkodobo skôr pokles, čo zodpovedá realite.

Zistenia

-> krátkodobé predikcie (do roku 2025) sú relatívne stabilné, ->dlhodobé predikcie generujú extrémne vysoké hodnoty v dôsledku exponenciálneho charakteru modelu.

Tieto výsledky preto neinterpretujeme ako realistickú prognózu, ale ako ilustráciu citlivosti modelu na rastovú mieru.

8.Záver

Analýza vývoja populácie Slovenskej republiky a Českej republiky ukázala, že v sledovanom období dochádza v oboch krajinách k relatívne stabilnému demografickému vývoju, bez výrazných výkyvov v celkovom počte obyvateľov. Napriek podobnému trendu je rozdiel v absolútnej veľkosti populácie medzi týmito krajinami výrazný a dlhodobo pretrvávajúci, čo odráža ich odlišnú historickú a demografickú trajektóriu.

Analýza hustoty obyvateľstva potvrdila, že tento ukazovateľ nie je možné jednoducho vysvetliť len pomocou veľkosti populácie alebo rozlohy krajiny. Výsledky naznačujú, že hustota obyvateľstva je ovplyvnená širším spektrom faktorov, ako sú geografické podmienky, úroveň urbanizácie, ekonomická štruktúra či historický vývoj osídlenia. Jednoduché lineárne modely preto nedokážu plne zachytiť komplexnosť tohto javu.

Použité štatistické a regresné modely sa ukázali ako vhodné nástroje na deskriptívnu analýzu a krátkodobé porovnanie demografických trendov medzi krajinami. Pri pokusoch o dlhodobejšiu predikciu populácie sa však prejavili ich výrazné obmedzenia, najmä citlivosť na zvolenú mieru rastu a predpoklad konštantného trendu v čase. Pre realistickejšie prognózy by bolo potrebné uplatniť sofistikovanejšie demografické prístupy, ktoré zohľadňujú vekovú štruktúru obyvateľstva, migračné toky a fertilitu.

Napriek uvedeným obmedzeniam práca poskytuje ucelený pohľad na základné demografické rozdiely a podobnosti medzi vybranými krajinami Európy. Zároveň poukazuje na limity jednoduchých štatistických modelov pri analýze populačných procesov a zdôrazňuje potrebu opatrnej interpretácie výsledkov, najmä pri ich využití na predikčné účely.

