knitr::opts_chunk$set(
echo = TRUE,
message = FALSE,
warning = FALSE
)
Úvod k zadaniu
Úlohou je:
- navrhnúť vlastný cvičebný dokument k práci s databázou,
- zvoliť databázu s údajmi zoradenými v čase, ktorú bude možné neskôr
použiť na ďalšie ekonometrické analýzy,
- ukázať základnú prácu s údajmi (import, úprava, grafy, jednoduché
modely)
V ďalšej časti preto podrobnejšie popisujem voľbu
databázy a následne demonštrujem prácu s ňou v prostredí R.
Voľba databázy – World Development Indicators (WDI)
Ako databázu som si zvolila World Development Indicators
(WDI) zo Svetovej banky. Ide o verejne dostupnú databázu, ktorá
obsahuje dlhé časové rady makroekonomických ukazovateľov pre množstvo
krajín sveta.
V rámci tohto zadania budem pracovať s týmito údajmi:
- krajiny: Slovensko, Česko, Poľsko,
- obdobie: roky 2000–2023 (ročné údaje),
- premenné:
- HDP na obyvateľa (konštantné ceny),
- miera nezamestnanosti,
- medziročná inflácia (CPI).
Tieto údaje sú zoradené v čase, takže sú vhodné na
ďalšiu analýzu (časové rady, porovnanie krajín, jednoduché regresné
modely a pod.).
Na sťahovanie dát použijem balík WDI a na následnú
prácu s údajmi balíky tidyverse, knitr
a kableExtra.
Načítanie knižníc
# inštalácia (iba raz, ak ešte nie sú nainštalované)
# install.packages("WDI")
# install.packages("tidyverse")
# install.packages("kableExtra")
library(WDI)
library(tidyverse)
library(knitr)
library(kableExtra)
Stiahnutie a príprava údajov z WDI
Voľba krajín a indikátorov
# ISO kódy krajín (3-písmenové kódy)
krajiny <- c("SVK", "CZE", "POL")
# Zvolené indikátory WDI (s vlastnými názvami stĺpcov)
indikatory <- c(
gdp_pc = "NY.GDP.PCAP.KD", # HDP na obyvateľa, konštantné ceny
unemployment = "SL.UEM.TOTL.ZS", # miera nezamestnanosti v %
inflation = "FP.CPI.TOTL.ZG" # medziročná inflácia CPI v %
)
# Stiahnutie údajov za roky 2000–2023
wdi_raw <- WDI(
country = krajiny,
indicator = indikatory,
start = 2000,
end = 2023
)
# Úprava a zoradenie údajov
wdi_data <- wdi_raw %>%
rename(
krajina = country,
rok = year
) %>%
arrange(krajina, rok)
head(wdi_data)
Základný popis zvolenej databázy
V tejto podsekcii krátko popíšem, aké údaje chcem do budúcna
spracovávať:
- HDP na obyvateľa (gdp_pc) – ukazovateľ ekonomickej
úrovne krajiny,
- nezamestnanosť (unemployment) – situácia na trhu
práce,
- inflácia (inflation) – stabilita cien.
V ďalších zadaniach by sa dali napríklad skúmať:
- rozdiely v úrovni HDP na obyvateľa medzi krajinami,
- vzťah medzi HDP a nezamestnanosťou (napr. Okunov zákon),
- vzťah medzi infláciou a nezamestnanosťou (Phillipsova krivka),
- jednoduché predikcie na základe trendu.
Prvé prehliadnutie dát
Ukážka prvých riadkov
kable(
head(wdi_data, 10),
caption = "Prvých 10 riadkov stiahnutých údajov z WDI"
) %>%
kable_styling(
full_width = FALSE,
bootstrap_options = c("striped", "hover", "condensed", "responsive")
)
Deskriptívna analýza
Základné štatistiky podľa krajín
summary_tbl <- wdi_data %>%
group_by(krajina) %>%
summarise(
pocet_rokov = n_distinct(rok),
priemer_gdp = mean(gdp_pc, na.rm = TRUE),
priemer_unemp = mean(unemployment, na.rm = TRUE),
priemer_infl = mean(inflation, na.rm = TRUE),
.groups = "drop"
)
summary_tbl %>%
kable(
digits = 2,
caption = "Základné štatistiky ukazovateľov podľa krajín (2000–2023)"
) %>%
kable_styling(
full_width = FALSE,
bootstrap_options = c("striped", "hover", "condensed")
)
Korelačná matica
cor_tbl <- wdi_data %>%
select(gdp_pc, unemployment, inflation) %>%
cor(use = "complete.obs")
kable(
cor_tbl,
digits = 2,
caption = "Korelačná matica ukazovateľov"
) %>%
kable_styling(full_width = FALSE)
Grafické znázornenie vývoja v čase
V tejto časti vykreslím časové rady všetkých troch
ukazovateľov pre zvolené krajiny. Grafy sa automaticky vykreslia pri
Knit → HTML.
HDP na obyvateľa
ggplot(wdi_data, aes(x = rok, y = gdp_pc, color = krajina)) +
geom_line(size = 1) +
labs(
title = "HDP na obyvateľa – Slovensko, Česko, Poľsko",
x = "Rok",
y = "HDP na obyvateľa (konštantné ceny, USD)",
color = "Krajina"
) +
theme_minimal()
Miera nezamestnanosti
ggplot(wdi_data, aes(x = rok, y = unemployment, color = krajina)) +
geom_line(size = 1) +
labs(
title = "Miera nezamestnanosti – Slovensko, Česko, Poľsko",
x = "Rok",
y = "Nezamestnanosť (%)",
color = "Krajina"
) +
theme_minimal()
Inflácia
ggplot(wdi_data, aes(x = rok, y = inflation, color = krajina)) +
geom_line(size = 1) +
labs(
title = "Inflácia (CPI) – Slovensko, Česko, Poľsko",
x = "Rok",
y = "Medziročná zmena CPI (%)",
color = "Krajina"
) +
theme_minimal()
Jednoduchý model – vzťah HDP a nezamestnanosti
Ako ilustráciu jednoduchého ekonometrického modelu odhadnem lineárny
vzťah medzi HDP na obyvateľa a mierou nezamestnanosti:
\[
\text{unemployment}_{it} = \beta_0 + \beta_1 \cdot \text{gdp\_pc}_{it} +
u_{it},
\]
kde \(i\) reprezentuje krajinu a
\(t\) rok.
model_unemp <- lm(unemployment ~ gdp_pc, data = wdi_data)
summary(model_unemp)
Grafická ilustrácia modelu
Pre jednoduchosť zobrazím vzťah pre všetky krajiny spolu:
ggplot(wdi_data, aes(x = gdp_pc, y = unemployment, color = krajina)) +
geom_point(alpha = 0.7) +
geom_smooth(method = "lm", se = FALSE, color = "black") +
labs(
title = "HDP na obyvateľa vs. miera nezamestnanosti",
x = "HDP na obyvateľa (konštantné ceny, USD)",
y = "Nezamestnanosť (%)",
color = "Krajina"
) +
theme_minimal()
Zhrnutie a plán na ďalšie hodiny
V tomto RMarkdown dokumente som:
- Zvolila databázu World Development Indicators
(WDI), ktorá obsahuje časovo zoradené makroekonomické
údaje.
- Stiahla údaje pre Slovensko, Česko a Poľsko za roky
2000–2023:
- HDP na obyvateľa,
- mieru nezamestnanosti,
- infláciu.
- Ukázala:
- základné tabuľkové prehliadnutie dát,
- deskriptívne štatistiky,
- korelačnú maticu,
- viacero grafov (časové rady, scatter plot s regresnou čiarou),
- jednoduchý lineárny model.
Čo plánujem robiť na budúcich hodinách
Na nasledujúcich cvičeniach by som chcela s týmito dátami ďalej
pracovať:
- skúmať trendy a cykly v jednotlivých
ukazovateľoch,
- porovnať dynamiku medzi krajinami,
- vytvoriť panelový dataset a odhadovať jednoduché
panelové modely,
- otestovať vzťah medzi nezamestnanosťou a rastom HDP (napr.
jednoduchá verzia Okunovho zákona),
- pokúsiť sa o krátkodobú predikciu jednotlivých
ukazovateľov.
