knitr::opts_chunk$set(
  echo = TRUE,
  message = FALSE,
  warning = FALSE
)

Úvod k zadaniu

Úlohou je:

  • navrhnúť vlastný cvičebný dokument k práci s databázou,
  • zvoliť databázu s údajmi zoradenými v čase, ktorú bude možné neskôr použiť na ďalšie ekonometrické analýzy,
  • ukázať základnú prácu s údajmi (import, úprava, grafy, jednoduché modely)

V ďalšej časti preto podrobnejšie popisujem voľbu databázy a následne demonštrujem prácu s ňou v prostredí R.


Voľba databázy – World Development Indicators (WDI)

Ako databázu som si zvolila World Development Indicators (WDI) zo Svetovej banky. Ide o verejne dostupnú databázu, ktorá obsahuje dlhé časové rady makroekonomických ukazovateľov pre množstvo krajín sveta.

V rámci tohto zadania budem pracovať s týmito údajmi:

  • krajiny: Slovensko, Česko, Poľsko,
  • obdobie: roky 2000–2023 (ročné údaje),
  • premenné:
    • HDP na obyvateľa (konštantné ceny),
    • miera nezamestnanosti,
    • medziročná inflácia (CPI).

Tieto údaje sú zoradené v čase, takže sú vhodné na ďalšiu analýzu (časové rady, porovnanie krajín, jednoduché regresné modely a pod.).

Na sťahovanie dát použijem balík WDI a na následnú prácu s údajmi balíky tidyverse, knitr a kableExtra.


Načítanie knižníc

# inštalácia (iba raz, ak ešte nie sú nainštalované)
# install.packages("WDI")
# install.packages("tidyverse")
# install.packages("kableExtra")

library(WDI)
library(tidyverse)
library(knitr)
library(kableExtra)

Stiahnutie a príprava údajov z WDI

Voľba krajín a indikátorov

# ISO kódy krajín (3-písmenové kódy)
krajiny <- c("SVK", "CZE", "POL")

# Zvolené indikátory WDI (s vlastnými názvami stĺpcov)
indikatory <- c(
  gdp_pc      = "NY.GDP.PCAP.KD",   # HDP na obyvateľa, konštantné ceny
  unemployment = "SL.UEM.TOTL.ZS",  # miera nezamestnanosti v %
  inflation    = "FP.CPI.TOTL.ZG"   # medziročná inflácia CPI v %
)

# Stiahnutie údajov za roky 2000–2023
wdi_raw <- WDI(
  country   = krajiny,
  indicator = indikatory,
  start     = 2000,
  end       = 2023
)

# Úprava a zoradenie údajov
wdi_data <- wdi_raw %>%
  rename(
    krajina = country,
    rok     = year
  ) %>%
  arrange(krajina, rok)

head(wdi_data)

Základný popis zvolenej databázy

V tejto podsekcii krátko popíšem, aké údaje chcem do budúcna spracovávať:

  • HDP na obyvateľa (gdp_pc) – ukazovateľ ekonomickej úrovne krajiny,
  • nezamestnanosť (unemployment) – situácia na trhu práce,
  • inflácia (inflation) – stabilita cien.

V ďalších zadaniach by sa dali napríklad skúmať:

  • rozdiely v úrovni HDP na obyvateľa medzi krajinami,
  • vzťah medzi HDP a nezamestnanosťou (napr. Okunov zákon),
  • vzťah medzi infláciou a nezamestnanosťou (Phillipsova krivka),
  • jednoduché predikcie na základe trendu.

Prvé prehliadnutie dát

Základná štruktúra

glimpse(wdi_data)

Ukážka prvých riadkov

kable(
  head(wdi_data, 10),
  caption = "Prvých 10 riadkov stiahnutých údajov z WDI"
) %>%
  kable_styling(
    full_width = FALSE,
    bootstrap_options = c("striped", "hover", "condensed", "responsive")
  )

Deskriptívna analýza

Základné štatistiky podľa krajín

summary_tbl <- wdi_data %>%
  group_by(krajina) %>%
  summarise(
    pocet_rokov   = n_distinct(rok),
    priemer_gdp   = mean(gdp_pc, na.rm = TRUE),
    priemer_unemp = mean(unemployment, na.rm = TRUE),
    priemer_infl  = mean(inflation, na.rm = TRUE),
    .groups = "drop"
  )

summary_tbl %>%
  kable(
    digits = 2,
    caption = "Základné štatistiky ukazovateľov podľa krajín (2000–2023)"
  ) %>%
  kable_styling(
    full_width = FALSE,
    bootstrap_options = c("striped", "hover", "condensed")
  )

Korelačná matica

cor_tbl <- wdi_data %>%
  select(gdp_pc, unemployment, inflation) %>%
  cor(use = "complete.obs")

kable(
  cor_tbl,
  digits = 2,
  caption = "Korelačná matica ukazovateľov"
) %>%
  kable_styling(full_width = FALSE)

Grafické znázornenie vývoja v čase

V tejto časti vykreslím časové rady všetkých troch ukazovateľov pre zvolené krajiny. Grafy sa automaticky vykreslia pri Knit → HTML.

HDP na obyvateľa

ggplot(wdi_data, aes(x = rok, y = gdp_pc, color = krajina)) +
  geom_line(size = 1) +
  labs(
    title = "HDP na obyvateľa – Slovensko, Česko, Poľsko",
    x = "Rok",
    y = "HDP na obyvateľa (konštantné ceny, USD)",
    color = "Krajina"
  ) +
  theme_minimal()

Miera nezamestnanosti

ggplot(wdi_data, aes(x = rok, y = unemployment, color = krajina)) +
  geom_line(size = 1) +
  labs(
    title = "Miera nezamestnanosti – Slovensko, Česko, Poľsko",
    x = "Rok",
    y = "Nezamestnanosť (%)",
    color = "Krajina"
  ) +
  theme_minimal()

Inflácia

ggplot(wdi_data, aes(x = rok, y = inflation, color = krajina)) +
  geom_line(size = 1) +
  labs(
    title = "Inflácia (CPI) – Slovensko, Česko, Poľsko",
    x = "Rok",
    y = "Medziročná zmena CPI (%)",
    color = "Krajina"
  ) +
  theme_minimal()

Jednoduchý model – vzťah HDP a nezamestnanosti

Ako ilustráciu jednoduchého ekonometrického modelu odhadnem lineárny vzťah medzi HDP na obyvateľa a mierou nezamestnanosti:

\[ \text{unemployment}_{it} = \beta_0 + \beta_1 \cdot \text{gdp\_pc}_{it} + u_{it}, \]

kde \(i\) reprezentuje krajinu a \(t\) rok.

model_unemp <- lm(unemployment ~ gdp_pc, data = wdi_data)
summary(model_unemp)

Grafická ilustrácia modelu

Pre jednoduchosť zobrazím vzťah pre všetky krajiny spolu:

ggplot(wdi_data, aes(x = gdp_pc, y = unemployment, color = krajina)) +
  geom_point(alpha = 0.7) +
  geom_smooth(method = "lm", se = FALSE, color = "black") +
  labs(
    title = "HDP na obyvateľa vs. miera nezamestnanosti",
    x = "HDP na obyvateľa (konštantné ceny, USD)",
    y = "Nezamestnanosť (%)",
    color = "Krajina"
  ) +
  theme_minimal()

Zhrnutie a plán na ďalšie hodiny

V tomto RMarkdown dokumente som:

  1. Zvolila databázu World Development Indicators (WDI), ktorá obsahuje časovo zoradené makroekonomické údaje.
  2. Stiahla údaje pre Slovensko, Česko a Poľsko za roky 2000–2023:
    • HDP na obyvateľa,
    • mieru nezamestnanosti,
    • infláciu.
  3. Ukázala:
    • základné tabuľkové prehliadnutie dát,
    • deskriptívne štatistiky,
    • korelačnú maticu,
    • viacero grafov (časové rady, scatter plot s regresnou čiarou),
    • jednoduchý lineárny model.

Čo plánujem robiť na budúcich hodinách

Na nasledujúcich cvičeniach by som chcela s týmito dátami ďalej pracovať:

  • skúmať trendy a cykly v jednotlivých ukazovateľoch,
  • porovnať dynamiku medzi krajinami,
  • vytvoriť panelový dataset a odhadovať jednoduché panelové modely,
  • otestovať vzťah medzi nezamestnanosťou a rastom HDP (napr. jednoduchá verzia Okunovho zákona),
  • pokúsiť sa o krátkodobú predikciu jednotlivých ukazovateľov.
