knitr::opts_chunk$set(
echo = TRUE,
message = FALSE,
warning = FALSE
)
Priamy import z WDI
install.packages(“WDI”) # ak treba
library(WDI) library(dplyr)
countries <- c(“SVK”,“CZE”,“POL”,“HUN”)
indicators <- c( GDP.PCAP = “NY.GDP.PCAP.KD”, INFLATION =
“FP.CPI.TOTL.ZG”, UNEMP = “SL.UEM.TOTL.ZS”, EXPORTS = “NE.EXP.GNFS.ZS”
)
wdi_raw <- WDI( country = countries, indicator = indicators, start
= 2000, end = 2023 )
udaje <- wdi_raw %>% rename( COUNTRY = country, YEAR = year )
%>% arrange(COUNTRY, YEAR)
head(udaje) colnames(udaje)
Vidíme, že databáza obsahuje štyri numerické indikátory pre štyri
krajiny vo vybranom období. Rok (YEAR) slúži ako časová premenná.
zápis do csv
write.csv2(udaje, “udaje_WDI_V4.csv”, row.names = FALSE)
import z csv
udaje_csv <- read.csv2( “udaje_WDI_V4.csv”, header = TRUE, sep =
“;”, dec = “.” )
head(udaje_csv)
Pre ilustráciu sa zameriam na rok 2015 a porovnám krajiny V4.
library(ggplot2)
udaje_2015 <- udaje %>% filter(YEAR == 2015) %>%
select(COUNTRY, YEAR, GDP.PCAP, INFLATION, UNEMP, EXPORTS) %>%
na.omit()
udaje_2015 ggplot(udaje_2015, aes(x = EXPORTS, y = GDP.PCAP, color =
COUNTRY)) + geom_point(size = 3) + theme_minimal() + labs( title = “HDP
na obyvateľa vs. exporty (% HDP), rok 2015”, x = “Exporty (% HDP)”, y =
“HDP na obyvateľa (konštantné USD)”, color = “Krajina” ) # Z grafu
vidíme, že krajiny sa líšia tak v úrovni HDP na obyvateľa, ako aj v
podiele exportov na HDP. Často platí, že vyšší HDP na obyvateľa je
spojený s vyšším exportným podielom, ale vzťah nie je úplne
lineárny.
Boxplot – rozdelenie HDP podľa krajiny (2010–2020)Česká republika má
najvyššie mediánové hodnoty HDP na obyvateľa. Slovensko je mierne za
Českou republikou, ale nad Poľskom aj Maďarskom.Poľsko aj Maďarsko sú
zreteľne pod úrovňou Slovenska.
udaje_10_20 <- udaje %>% filter(YEAR >= 2010, YEAR <=
2020) %>% select(COUNTRY, YEAR, GDP.PCAP) %>% na.omit()
ggplot(udaje_10_20, aes(x = COUNTRY, y = GDP.PCAP)) +
geom_boxplot(fill = “lightblue”, color = “darkblue”) + theme_minimal() +
labs( title = “Rozdelenie HDP na obyvateľa podľa krajiny (2010–2020)”, x
= “Krajina”, y = “HDP na obyvateľa (konštantné USD)” ) # Boxplot
ukazuje, že Česko a Slovensko majú spravidla vyšší HDP na obyvateľa ako
Poľsko či Maďarsko. Rozptyl hodnôt v rámci krajiny súvisí s vývojom v
čase.
Line graf – HDP v čase
ggplot(udaje, aes(x = YEAR, y = GDP.PCAP, color = COUNTRY)) +
geom_line() + theme_minimal() + labs( title = “Vývoj HDP na obyvateľa v
krajinách V4 (2000–2023)”, x = “Rok”, y = “HDP na obyvateľa (konštantné
USD)”, color = “Krajina” ) # Čiarový graf ukazuje rastúci trend HDP na
obyvateľa vo všetkých krajinách, s viditeľnými poklesmi v krízových
rokoch (2008–2009, 2020).
tabuľka základných štatistík
library(knitr)
gdp_stats <- udaje %>% filter(YEAR %in% 2010:2020) %>%
group_by(YEAR) %>% summarise( n = n(), mean = mean(GDP.PCAP, na.rm =
TRUE), sd = sd(GDP.PCAP, na.rm = TRUE), min = min(GDP.PCAP, na.rm =
TRUE), q25 = quantile(GDP.PCAP, 0.25, na.rm = TRUE), median =
median(GDP.PCAP, na.rm = TRUE), q75 = quantile(GDP.PCAP, 0.75, na.rm =
TRUE), max = max(GDP.PCAP, na.rm = TRUE), .groups = “drop” )
kable(gdp_stats, digits = 2, caption = “Základné štatistiky HDP na
obyvateľa (2010–2020, krajiny V4)”) # Tabuľka ukazuje, ako sa priemerný
HDP na obyvateľa v krajinách V4 menil v čase.Vidíme rast priemeru aj
maxima, čo odráža ekonomický rast regiónu. library(kableExtra)
gdp_stats %>% kable( digits = 2, caption = “Základné štatistiky
HDP na obyvateľa (2010–2020, krajiny V4)” ) %>% kable_styling(
full_width = FALSE, bootstrap_options = c(“striped”,“hover”,“condensed”)
) %>% column_spec(1, bold = TRUE) %>% row_spec(0, bold = TRUE,
background = “#f2f2f2”) %>% add_header_above(c(” ” = 2, “HDP
štatistiky” = 7)) # Korelačná matica a Heatmap Vypočítam korelačnú
maticu numerických premenných pre rok 2015 a vykreslím heatmapu.
num_2015 <- udaje_2015 %>% select(GDP.PCAP, INFLATION, UNEMP,
EXPORTS)
cor_mat <- cor(num_2015, use = “pairwise.complete.obs”) cor_mat #
Heatmap pomocou ggplot2
library(tidyr)
cor_long <- as.data.frame(cor_mat) %>% mutate(var1 =
rownames(cor_mat)) %>% pivot_longer( cols = -var1, names_to = “var2”,
values_to = “corr” )
ggplot(cor_long, aes(x = var1, y = var2, fill = corr)) + geom_tile()
+ scale_fill_gradient2( low = “blue”, mid = “white”, high = “red”,
midpoint = 0 ) + theme_minimal() + labs( title = “Korelačná matica (rok
2015, krajiny V4)”, x = ““, y =”“, fill =”Korelácia” ) # Z heatmapy
vidíme napríklad, či je HDP na obyvateľa pozitívne alebo negatívne
korelovaný s infláciou, nezamestnanosťou a exportmi. Silne pozitívne
hodnoty (červené) znamenajú, že premenné rastú spolu, kým silne
negatívne (modré) naznačujú opačný pohyb.
t-test: Porovnanie priemeru HDP na obyvateľa v rokoch 2005 a
2015
t.test.result <- t.test( udaje\(GDP.PCAP[udaje\)YEAR == 2005], udaje\(GDP.PCAP[udaje\)YEAR == 2015] )
t.test.result # Výsledok t-testu ukazuje, či je rozdiel medzi
priemerným HDP na obyvateľa v rokoch 2005 a 2015 štatisticky významný.
Očakávame, že v roku 2015 je HDP výrazne vyšší – ak je p-hodnota malá
(napr. < 0.05), hypotézu o rovnakom priemere zamietame.
ANOVA: Porovnanie HDP medzi krajinami (2015)
anova.result <- aov(GDP.PCAP ~ COUNTRY, data = udaje_2015)
summary(anova.result)
Lineárna regresia Model: HDP ~ inflácia + nezamestnanosť + exporty
(2015)
wdi_reg <- udaje %>% filter(YEAR == 2015) %>%
select(GDP.PCAP, INFLATION, UNEMP, EXPORTS) %>% na.omit()
model <- lm(GDP.PCAP ~ INFLATION + UNEMP + EXPORTS, data =
wdi_reg) summary(model)
Tabuľka regresných koeficientov
install.packages(c(“broom”,“stringr”)) # ak treba
library(broom) library(stringr) library(kableExtra)
coef.tbl <- tidy(model, conf.int = TRUE) %>% mutate( term =
recode(term, “(Intercept)” = “Intercept”, “INFLATION” = “Inflácia”,
“UNEMP” = “Nezamestnanosť”, “EXPORTS” = “Exporty (% HDP)” ), stars =
case_when( p.value < 0.001 ~ “”, p.value < 0.01 ~
””, p.value < 0.05 ~ ””, p.value < 0.1 ~ “·”, TRUE ~
“” ) ) %>% transmute( Term = term, Estimate = estimate,
Std. Error= std.error, t value = statistic,
p value = p.value, 95% CI = str_c(“[”,
round(conf.low,3), ”, ”, round(conf.high,3), ”]”), Sig = stars )
coef.tbl %>% kable( digits = 3, caption = “OLS koeficienty (HDP na
obyvateľa ~ inflácia + nezamestnanosť + exporty)” ) %>%
kable_styling( full_width = FALSE, bootstrap_options =
c(“striped”,“hover”,“condensed”) ) %>% column_spec(1, bold = TRUE)
%>% row_spec(0, bold = TRUE, background = “#f2f2f2”) %>% footnote(
general = “Signif. codes: *** p<0.001, ** p<0.01, * p<0.05, ·
p<0.1.”, threeparttable = TRUE ) # koeficienty s hviezdičkami sú
štatisticky významné. Znamienko určuje, či daná premenná súvisí s HDP
pozitívne alebo negatívne.
Model Fit Statistics
fit.tbl <- glance(model) %>% transmute( R-squared
= r.squared, Adj. R-squared = adj.r.squared,
F-statistic = statistic, F p-value = p.value,
AIC = AIC, BIC = BIC, Num. obs. =
nobs )
fit.tbl %>% kable(digits = 3, caption = “Model Fit Statistics”)
%>% kable_styling( full_width = FALSE, bootstrap_options =
c(“condensed”) )
---
title: "práca s databázov-V4 ekonomické ukazovatele"
author: "Natália Soligová <br>
(s využitím verejne dostupných kódov a ChatGPT)"
date: "September 2025"
output: 
  html_notebook:
    toc: true
    toc_float: true
    theme: united
    highlight: tango
editor_options: 
  markdown: 
    wrap: 72
---

```{r}
knitr::opts_chunk$set(
    echo = TRUE,
    message = FALSE,
    warning = FALSE
)
```
# Priamy import z WDI
# install.packages("WDI")   # ak treba

library(WDI)
library(dplyr)

countries <- c("SVK","CZE","POL","HUN")

indicators <- c(
GDP.PCAP  = "NY.GDP.PCAP.KD",
INFLATION = "FP.CPI.TOTL.ZG",
UNEMP     = "SL.UEM.TOTL.ZS",
EXPORTS   = "NE.EXP.GNFS.ZS"
)

wdi_raw <- WDI(
country   = countries,
indicator = indicators,
start     = 2000,
end       = 2023
)

udaje <- wdi_raw %>%
rename(
COUNTRY = country,
YEAR    = year
) %>%
arrange(COUNTRY, YEAR)

head(udaje)
colnames(udaje)

# Vidíme, že databáza obsahuje štyri numerické indikátory pre štyri krajiny vo vybranom období. Rok (YEAR) slúži ako časová premenná.
# zápis do csv

write.csv2(udaje, "udaje_WDI_V4.csv", row.names = FALSE)

# import z csv

udaje_csv <- read.csv2(
"udaje_WDI_V4.csv",
header = TRUE,
sep    = ";",
dec    = "."
)

head(udaje_csv)

# Pre ilustráciu sa zameriam na rok 2015 a porovnám krajiny V4.
library(ggplot2)

udaje_2015 <- udaje %>%
filter(YEAR == 2015) %>%
select(COUNTRY, YEAR, GDP.PCAP, INFLATION, UNEMP, EXPORTS) %>%
na.omit()

udaje_2015
ggplot(udaje_2015, aes(x = EXPORTS, y = GDP.PCAP, color = COUNTRY)) +
geom_point(size = 3) +
theme_minimal() +
labs(
title = "HDP na obyvateľa vs. exporty (% HDP), rok 2015",
x     = "Exporty (% HDP)",
y     = "HDP na obyvateľa (konštantné USD)",
color = "Krajina"
)
# Z grafu vidíme, že krajiny sa líšia tak v úrovni HDP na obyvateľa, ako aj v podiele exportov na HDP. Často platí, že vyšší HDP na obyvateľa je spojený s vyšším exportným podielom, ale vzťah nie je úplne lineárny.

# Boxplot – rozdelenie HDP podľa krajiny (2010–2020)Česká republika má najvyššie mediánové hodnoty HDP na obyvateľa. Slovensko je mierne za Českou republikou, ale nad Poľskom aj Maďarskom.Poľsko aj Maďarsko sú zreteľne pod úrovňou Slovenska.

udaje_10_20 <- udaje %>%
filter(YEAR >= 2010, YEAR <= 2020) %>%
select(COUNTRY, YEAR, GDP.PCAP) %>%
na.omit()

ggplot(udaje_10_20, aes(x = COUNTRY, y = GDP.PCAP)) +
geom_boxplot(fill = "lightblue", color = "darkblue") +
theme_minimal() +
labs(
title = "Rozdelenie HDP na obyvateľa podľa krajiny (2010–2020)",
x     = "Krajina",
y     = "HDP na obyvateľa (konštantné USD)"
)
# Boxplot ukazuje, že Česko a Slovensko majú spravidla vyšší HDP na obyvateľa ako Poľsko či Maďarsko. Rozptyl hodnôt v rámci krajiny súvisí s vývojom v čase.

# Line graf – HDP v čase
ggplot(udaje, aes(x = YEAR, y = GDP.PCAP, color = COUNTRY)) +
geom_line() +
theme_minimal() +
labs(
title = "Vývoj HDP na obyvateľa v krajinách V4 (2000–2023)",
x     = "Rok",
y     = "HDP na obyvateľa (konštantné USD)",
color = "Krajina"
)
# Čiarový graf ukazuje rastúci trend HDP na obyvateľa vo všetkých krajinách, s viditeľnými poklesmi v krízových rokoch (2008–2009, 2020).

# tabuľka základných štatistík
library(knitr)

gdp_stats <- udaje %>%
filter(YEAR %in% 2010:2020) %>%
group_by(YEAR) %>%
summarise(
n      = n(),
mean   = mean(GDP.PCAP, na.rm = TRUE),
sd     = sd(GDP.PCAP, na.rm = TRUE),
min    = min(GDP.PCAP, na.rm = TRUE),
q25    = quantile(GDP.PCAP, 0.25, na.rm = TRUE),
median = median(GDP.PCAP, na.rm = TRUE),
q75    = quantile(GDP.PCAP, 0.75, na.rm = TRUE),
max    = max(GDP.PCAP, na.rm = TRUE),
.groups = "drop"
)

kable(gdp_stats, digits = 2,
caption = "Základné štatistiky HDP na obyvateľa (2010–2020, krajiny V4)")
# Tabuľka ukazuje, ako sa priemerný HDP na obyvateľa v krajinách V4 menil v čase.Vidíme rast priemeru aj maxima, čo odráža ekonomický rast regiónu.
library(kableExtra)

gdp_stats %>%
kable(
digits  = 2,
caption = "Základné štatistiky HDP na obyvateľa (2010–2020, krajiny V4)"
) %>%
kable_styling(
full_width        = FALSE,
bootstrap_options = c("striped","hover","condensed")
) %>%
column_spec(1, bold = TRUE) %>%
row_spec(0, bold = TRUE, background = "#f2f2f2") %>%
add_header_above(c(" " = 2, "HDP štatistiky" = 7))
# Korelačná matica a Heatmap  Vypočítam korelačnú maticu numerických premenných pre rok 2015 a vykreslím heatmapu.
num_2015 <- udaje_2015 %>%
select(GDP.PCAP, INFLATION, UNEMP, EXPORTS)

cor_mat <- cor(num_2015, use = "pairwise.complete.obs")
cor_mat
# Heatmap pomocou ggplot2

library(tidyr)

cor_long <- as.data.frame(cor_mat) %>%
mutate(var1 = rownames(cor_mat)) %>%
pivot_longer(
cols = -var1,
names_to = "var2",
values_to = "corr"
)

ggplot(cor_long, aes(x = var1, y = var2, fill = corr)) +
geom_tile() +
scale_fill_gradient2(
low  = "blue",
mid  = "white",
high = "red",
midpoint = 0
) +
theme_minimal() +
labs(
title = "Korelačná matica (rok 2015, krajiny V4)",
x     = "",
y     = "",
fill  = "Korelácia"
)
# Z heatmapy vidíme napríklad, či je HDP na obyvateľa pozitívne alebo negatívne korelovaný s infláciou, nezamestnanosťou a exportmi. Silne pozitívne hodnoty (červené) znamenajú, že premenné rastú spolu, kým silne negatívne (modré) naznačujú opačný pohyb.

# t-test: Porovnanie priemeru HDP na obyvateľa v rokoch 2005 a 2015
t.test.result <- t.test(
udaje$GDP.PCAP[udaje$YEAR == 2005],
udaje$GDP.PCAP[udaje$YEAR == 2015]
)

t.test.result
# Výsledok t-testu ukazuje, či je rozdiel medzi priemerným HDP na obyvateľa v rokoch 2005 a 2015 štatisticky významný. Očakávame, že v roku 2015 je HDP výrazne vyšší – ak je p-hodnota malá (napr. < 0.05), hypotézu o rovnakom priemere zamietame.

# ANOVA: Porovnanie HDP medzi krajinami (2015)
anova.result <- aov(GDP.PCAP ~ COUNTRY, data = udaje_2015)
summary(anova.result)

# Lineárna regresia Model: HDP ~ inflácia + nezamestnanosť + exporty (2015)
wdi_reg <- udaje %>%
filter(YEAR == 2015) %>%
select(GDP.PCAP, INFLATION, UNEMP, EXPORTS) %>%
na.omit()

model <- lm(GDP.PCAP ~ INFLATION + UNEMP + EXPORTS, data = wdi_reg)
summary(model)

# Tabuľka regresných koeficientov
# install.packages(c("broom","stringr"))  # ak treba

library(broom)
library(stringr)
library(kableExtra)

coef.tbl <- tidy(model, conf.int = TRUE) %>%
mutate(
term = recode(term,
"(Intercept)" = "Intercept",
"INFLATION"   = "Inflácia",
"UNEMP"       = "Nezamestnanosť",
"EXPORTS"     = "Exporty (% HDP)"
),
stars = case_when(
p.value < 0.001 ~ "***",
p.value < 0.01  ~ "**",
p.value < 0.05  ~ "*",
p.value < 0.1   ~ "·",
TRUE            ~ ""
)
) %>%
transmute(
Term        = term,
Estimate    = estimate,
`Std. Error`= std.error,
`t value`   = statistic,
`p value`   = p.value,
`95% CI`    = str_c("[", round(conf.low,3), ", ", round(conf.high,3), "]"),
Sig         = stars
)

coef.tbl %>%
kable(
digits  = 3,
caption = "OLS koeficienty (HDP na obyvateľa ~ inflácia + nezamestnanosť + exporty)"
) %>%
kable_styling(
full_width        = FALSE,
bootstrap_options = c("striped","hover","condensed")
) %>%
column_spec(1, bold = TRUE) %>%
row_spec(0, bold = TRUE, background = "#f2f2f2") %>%
footnote(
general = "Signif. codes: *** p<0.001, ** p<0.01, * p<0.05, · p<0.1.",
threeparttable = TRUE
)
# koeficienty s hviezdičkami sú štatisticky významné. Znamienko určuje, či daná premenná súvisí s HDP pozitívne alebo negatívne.

# Model Fit Statistics
fit.tbl <- glance(model) %>%
transmute(
`R-squared`      = r.squared,
`Adj. R-squared` = adj.r.squared,
`F-statistic`    = statistic,
`F p-value`      = p.value,
`AIC`            = AIC,
`BIC`            = BIC,
`Num. obs.`      = nobs
)

fit.tbl %>%
kable(digits = 3, caption = "Model Fit Statistics") %>%
kable_styling(
full_width        = FALSE,
bootstrap_options = c("condensed")
)










