knitr::opts_chunk$set(
    echo = TRUE,
    message = FALSE,
    warning = FALSE
)

Priamy import z WDI

install.packages(“WDI”) # ak treba

library(WDI) library(dplyr)

countries <- c(“SVK”,“CZE”,“POL”,“HUN”)

indicators <- c( GDP.PCAP = “NY.GDP.PCAP.KD”, INFLATION = “FP.CPI.TOTL.ZG”, UNEMP = “SL.UEM.TOTL.ZS”, EXPORTS = “NE.EXP.GNFS.ZS” )

wdi_raw <- WDI( country = countries, indicator = indicators, start = 2000, end = 2023 )

udaje <- wdi_raw %>% rename( COUNTRY = country, YEAR = year ) %>% arrange(COUNTRY, YEAR)

head(udaje) colnames(udaje)

Vidíme, že databáza obsahuje štyri numerické indikátory pre štyri krajiny vo vybranom období. Rok (YEAR) slúži ako časová premenná.

zápis do csv

write.csv2(udaje, “udaje_WDI_V4.csv”, row.names = FALSE)

import z csv

udaje_csv <- read.csv2( “udaje_WDI_V4.csv”, header = TRUE, sep = “;”, dec = “.” )

head(udaje_csv)

Pre ilustráciu sa zameriam na rok 2015 a porovnám krajiny V4.

library(ggplot2)

udaje_2015 <- udaje %>% filter(YEAR == 2015) %>% select(COUNTRY, YEAR, GDP.PCAP, INFLATION, UNEMP, EXPORTS) %>% na.omit()

udaje_2015 ggplot(udaje_2015, aes(x = EXPORTS, y = GDP.PCAP, color = COUNTRY)) + geom_point(size = 3) + theme_minimal() + labs( title = “HDP na obyvateľa vs. exporty (% HDP), rok 2015”, x = “Exporty (% HDP)”, y = “HDP na obyvateľa (konštantné USD)”, color = “Krajina” ) # Z grafu vidíme, že krajiny sa líšia tak v úrovni HDP na obyvateľa, ako aj v podiele exportov na HDP. Často platí, že vyšší HDP na obyvateľa je spojený s vyšším exportným podielom, ale vzťah nie je úplne lineárny.

Boxplot – rozdelenie HDP podľa krajiny (2010–2020)Česká republika má najvyššie mediánové hodnoty HDP na obyvateľa. Slovensko je mierne za Českou republikou, ale nad Poľskom aj Maďarskom.Poľsko aj Maďarsko sú zreteľne pod úrovňou Slovenska.

udaje_10_20 <- udaje %>% filter(YEAR >= 2010, YEAR <= 2020) %>% select(COUNTRY, YEAR, GDP.PCAP) %>% na.omit()

ggplot(udaje_10_20, aes(x = COUNTRY, y = GDP.PCAP)) + geom_boxplot(fill = “lightblue”, color = “darkblue”) + theme_minimal() + labs( title = “Rozdelenie HDP na obyvateľa podľa krajiny (2010–2020)”, x = “Krajina”, y = “HDP na obyvateľa (konštantné USD)” ) # Boxplot ukazuje, že Česko a Slovensko majú spravidla vyšší HDP na obyvateľa ako Poľsko či Maďarsko. Rozptyl hodnôt v rámci krajiny súvisí s vývojom v čase.

Line graf – HDP v čase

ggplot(udaje, aes(x = YEAR, y = GDP.PCAP, color = COUNTRY)) + geom_line() + theme_minimal() + labs( title = “Vývoj HDP na obyvateľa v krajinách V4 (2000–2023)”, x = “Rok”, y = “HDP na obyvateľa (konštantné USD)”, color = “Krajina” ) # Čiarový graf ukazuje rastúci trend HDP na obyvateľa vo všetkých krajinách, s viditeľnými poklesmi v krízových rokoch (2008–2009, 2020).

tabuľka základných štatistík

library(knitr)

gdp_stats <- udaje %>% filter(YEAR %in% 2010:2020) %>% group_by(YEAR) %>% summarise( n = n(), mean = mean(GDP.PCAP, na.rm = TRUE), sd = sd(GDP.PCAP, na.rm = TRUE), min = min(GDP.PCAP, na.rm = TRUE), q25 = quantile(GDP.PCAP, 0.25, na.rm = TRUE), median = median(GDP.PCAP, na.rm = TRUE), q75 = quantile(GDP.PCAP, 0.75, na.rm = TRUE), max = max(GDP.PCAP, na.rm = TRUE), .groups = “drop” )

kable(gdp_stats, digits = 2, caption = “Základné štatistiky HDP na obyvateľa (2010–2020, krajiny V4)”) # Tabuľka ukazuje, ako sa priemerný HDP na obyvateľa v krajinách V4 menil v čase.Vidíme rast priemeru aj maxima, čo odráža ekonomický rast regiónu. library(kableExtra)

gdp_stats %>% kable( digits = 2, caption = “Základné štatistiky HDP na obyvateľa (2010–2020, krajiny V4)” ) %>% kable_styling( full_width = FALSE, bootstrap_options = c(“striped”,“hover”,“condensed”) ) %>% column_spec(1, bold = TRUE) %>% row_spec(0, bold = TRUE, background = “#f2f2f2”) %>% add_header_above(c(” ” = 2, “HDP štatistiky” = 7)) # Korelačná matica a Heatmap Vypočítam korelačnú maticu numerických premenných pre rok 2015 a vykreslím heatmapu. num_2015 <- udaje_2015 %>% select(GDP.PCAP, INFLATION, UNEMP, EXPORTS)

cor_mat <- cor(num_2015, use = “pairwise.complete.obs”) cor_mat # Heatmap pomocou ggplot2

library(tidyr)

cor_long <- as.data.frame(cor_mat) %>% mutate(var1 = rownames(cor_mat)) %>% pivot_longer( cols = -var1, names_to = “var2”, values_to = “corr” )

ggplot(cor_long, aes(x = var1, y = var2, fill = corr)) + geom_tile() + scale_fill_gradient2( low = “blue”, mid = “white”, high = “red”, midpoint = 0 ) + theme_minimal() + labs( title = “Korelačná matica (rok 2015, krajiny V4)”, x = ““, y =”“, fill =”Korelácia” ) # Z heatmapy vidíme napríklad, či je HDP na obyvateľa pozitívne alebo negatívne korelovaný s infláciou, nezamestnanosťou a exportmi. Silne pozitívne hodnoty (červené) znamenajú, že premenné rastú spolu, kým silne negatívne (modré) naznačujú opačný pohyb.

t-test: Porovnanie priemeru HDP na obyvateľa v rokoch 2005 a 2015

t.test.result <- t.test( udaje\(GDP.PCAP[udaje\)YEAR == 2005], udaje\(GDP.PCAP[udaje\)YEAR == 2015] )

t.test.result # Výsledok t-testu ukazuje, či je rozdiel medzi priemerným HDP na obyvateľa v rokoch 2005 a 2015 štatisticky významný. Očakávame, že v roku 2015 je HDP výrazne vyšší – ak je p-hodnota malá (napr. < 0.05), hypotézu o rovnakom priemere zamietame.

ANOVA: Porovnanie HDP medzi krajinami (2015)

anova.result <- aov(GDP.PCAP ~ COUNTRY, data = udaje_2015) summary(anova.result)

Lineárna regresia Model: HDP ~ inflácia + nezamestnanosť + exporty (2015)

wdi_reg <- udaje %>% filter(YEAR == 2015) %>% select(GDP.PCAP, INFLATION, UNEMP, EXPORTS) %>% na.omit()

model <- lm(GDP.PCAP ~ INFLATION + UNEMP + EXPORTS, data = wdi_reg) summary(model)

Tabuľka regresných koeficientov

install.packages(c(“broom”,“stringr”)) # ak treba

library(broom) library(stringr) library(kableExtra)

coef.tbl <- tidy(model, conf.int = TRUE) %>% mutate( term = recode(term, “(Intercept)” = “Intercept”, “INFLATION” = “Inflácia”, “UNEMP” = “Nezamestnanosť”, “EXPORTS” = “Exporty (% HDP)” ), stars = case_when( p.value < 0.001 ~ “”, p.value < 0.01 ~ ””, p.value < 0.05 ~ ””, p.value < 0.1 ~ “·”, TRUE ~ “” ) ) %>% transmute( Term = term, Estimate = estimate, Std. Error= std.error, t value = statistic, p value = p.value, 95% CI = str_c(“[”, round(conf.low,3), ”, ”, round(conf.high,3), ”]”), Sig = stars )

coef.tbl %>% kable( digits = 3, caption = “OLS koeficienty (HDP na obyvateľa ~ inflácia + nezamestnanosť + exporty)” ) %>% kable_styling( full_width = FALSE, bootstrap_options = c(“striped”,“hover”,“condensed”) ) %>% column_spec(1, bold = TRUE) %>% row_spec(0, bold = TRUE, background = “#f2f2f2”) %>% footnote( general = “Signif. codes: *** p<0.001, ** p<0.01, * p<0.05, · p<0.1.”, threeparttable = TRUE ) # koeficienty s hviezdičkami sú štatisticky významné. Znamienko určuje, či daná premenná súvisí s HDP pozitívne alebo negatívne.

Model Fit Statistics

fit.tbl <- glance(model) %>% transmute( R-squared = r.squared, Adj. R-squared = adj.r.squared, F-statistic = statistic, F p-value = p.value, AIC = AIC, BIC = BIC, Num. obs. = nobs )

fit.tbl %>% kable(digits = 3, caption = “Model Fit Statistics”) %>% kable_styling( full_width = FALSE, bootstrap_options = c(“condensed”) )

---
title: "práca s databázov-V4 ekonomické ukazovatele"
author: "Natália Soligová <br>
(s využitím verejne dostupných kódov a ChatGPT)"
date: "September 2025"
output: 
  html_notebook:
    toc: true
    toc_float: true
    theme: united
    highlight: tango
editor_options: 
  markdown: 
    wrap: 72
---

```{r}
knitr::opts_chunk$set(
    echo = TRUE,
    message = FALSE,
    warning = FALSE
)
```
# Priamy import z WDI
# install.packages("WDI")   # ak treba

library(WDI)
library(dplyr)

countries <- c("SVK","CZE","POL","HUN")

indicators <- c(
GDP.PCAP  = "NY.GDP.PCAP.KD",
INFLATION = "FP.CPI.TOTL.ZG",
UNEMP     = "SL.UEM.TOTL.ZS",
EXPORTS   = "NE.EXP.GNFS.ZS"
)

wdi_raw <- WDI(
country   = countries,
indicator = indicators,
start     = 2000,
end       = 2023
)

udaje <- wdi_raw %>%
rename(
COUNTRY = country,
YEAR    = year
) %>%
arrange(COUNTRY, YEAR)

head(udaje)
colnames(udaje)

# Vidíme, že databáza obsahuje štyri numerické indikátory pre štyri krajiny vo vybranom období. Rok (YEAR) slúži ako časová premenná.
# zápis do csv

write.csv2(udaje, "udaje_WDI_V4.csv", row.names = FALSE)

# import z csv

udaje_csv <- read.csv2(
"udaje_WDI_V4.csv",
header = TRUE,
sep    = ";",
dec    = "."
)

head(udaje_csv)

# Pre ilustráciu sa zameriam na rok 2015 a porovnám krajiny V4.
library(ggplot2)

udaje_2015 <- udaje %>%
filter(YEAR == 2015) %>%
select(COUNTRY, YEAR, GDP.PCAP, INFLATION, UNEMP, EXPORTS) %>%
na.omit()

udaje_2015
ggplot(udaje_2015, aes(x = EXPORTS, y = GDP.PCAP, color = COUNTRY)) +
geom_point(size = 3) +
theme_minimal() +
labs(
title = "HDP na obyvateľa vs. exporty (% HDP), rok 2015",
x     = "Exporty (% HDP)",
y     = "HDP na obyvateľa (konštantné USD)",
color = "Krajina"
)
# Z grafu vidíme, že krajiny sa líšia tak v úrovni HDP na obyvateľa, ako aj v podiele exportov na HDP. Často platí, že vyšší HDP na obyvateľa je spojený s vyšším exportným podielom, ale vzťah nie je úplne lineárny.

# Boxplot – rozdelenie HDP podľa krajiny (2010–2020)Česká republika má najvyššie mediánové hodnoty HDP na obyvateľa. Slovensko je mierne za Českou republikou, ale nad Poľskom aj Maďarskom.Poľsko aj Maďarsko sú zreteľne pod úrovňou Slovenska.

udaje_10_20 <- udaje %>%
filter(YEAR >= 2010, YEAR <= 2020) %>%
select(COUNTRY, YEAR, GDP.PCAP) %>%
na.omit()

ggplot(udaje_10_20, aes(x = COUNTRY, y = GDP.PCAP)) +
geom_boxplot(fill = "lightblue", color = "darkblue") +
theme_minimal() +
labs(
title = "Rozdelenie HDP na obyvateľa podľa krajiny (2010–2020)",
x     = "Krajina",
y     = "HDP na obyvateľa (konštantné USD)"
)
# Boxplot ukazuje, že Česko a Slovensko majú spravidla vyšší HDP na obyvateľa ako Poľsko či Maďarsko. Rozptyl hodnôt v rámci krajiny súvisí s vývojom v čase.

# Line graf – HDP v čase
ggplot(udaje, aes(x = YEAR, y = GDP.PCAP, color = COUNTRY)) +
geom_line() +
theme_minimal() +
labs(
title = "Vývoj HDP na obyvateľa v krajinách V4 (2000–2023)",
x     = "Rok",
y     = "HDP na obyvateľa (konštantné USD)",
color = "Krajina"
)
# Čiarový graf ukazuje rastúci trend HDP na obyvateľa vo všetkých krajinách, s viditeľnými poklesmi v krízových rokoch (2008–2009, 2020).

# tabuľka základných štatistík
library(knitr)

gdp_stats <- udaje %>%
filter(YEAR %in% 2010:2020) %>%
group_by(YEAR) %>%
summarise(
n      = n(),
mean   = mean(GDP.PCAP, na.rm = TRUE),
sd     = sd(GDP.PCAP, na.rm = TRUE),
min    = min(GDP.PCAP, na.rm = TRUE),
q25    = quantile(GDP.PCAP, 0.25, na.rm = TRUE),
median = median(GDP.PCAP, na.rm = TRUE),
q75    = quantile(GDP.PCAP, 0.75, na.rm = TRUE),
max    = max(GDP.PCAP, na.rm = TRUE),
.groups = "drop"
)

kable(gdp_stats, digits = 2,
caption = "Základné štatistiky HDP na obyvateľa (2010–2020, krajiny V4)")
# Tabuľka ukazuje, ako sa priemerný HDP na obyvateľa v krajinách V4 menil v čase.Vidíme rast priemeru aj maxima, čo odráža ekonomický rast regiónu.
library(kableExtra)

gdp_stats %>%
kable(
digits  = 2,
caption = "Základné štatistiky HDP na obyvateľa (2010–2020, krajiny V4)"
) %>%
kable_styling(
full_width        = FALSE,
bootstrap_options = c("striped","hover","condensed")
) %>%
column_spec(1, bold = TRUE) %>%
row_spec(0, bold = TRUE, background = "#f2f2f2") %>%
add_header_above(c(" " = 2, "HDP štatistiky" = 7))
# Korelačná matica a Heatmap  Vypočítam korelačnú maticu numerických premenných pre rok 2015 a vykreslím heatmapu.
num_2015 <- udaje_2015 %>%
select(GDP.PCAP, INFLATION, UNEMP, EXPORTS)

cor_mat <- cor(num_2015, use = "pairwise.complete.obs")
cor_mat
# Heatmap pomocou ggplot2

library(tidyr)

cor_long <- as.data.frame(cor_mat) %>%
mutate(var1 = rownames(cor_mat)) %>%
pivot_longer(
cols = -var1,
names_to = "var2",
values_to = "corr"
)

ggplot(cor_long, aes(x = var1, y = var2, fill = corr)) +
geom_tile() +
scale_fill_gradient2(
low  = "blue",
mid  = "white",
high = "red",
midpoint = 0
) +
theme_minimal() +
labs(
title = "Korelačná matica (rok 2015, krajiny V4)",
x     = "",
y     = "",
fill  = "Korelácia"
)
# Z heatmapy vidíme napríklad, či je HDP na obyvateľa pozitívne alebo negatívne korelovaný s infláciou, nezamestnanosťou a exportmi. Silne pozitívne hodnoty (červené) znamenajú, že premenné rastú spolu, kým silne negatívne (modré) naznačujú opačný pohyb.

# t-test: Porovnanie priemeru HDP na obyvateľa v rokoch 2005 a 2015
t.test.result <- t.test(
udaje$GDP.PCAP[udaje$YEAR == 2005],
udaje$GDP.PCAP[udaje$YEAR == 2015]
)

t.test.result
# Výsledok t-testu ukazuje, či je rozdiel medzi priemerným HDP na obyvateľa v rokoch 2005 a 2015 štatisticky významný. Očakávame, že v roku 2015 je HDP výrazne vyšší – ak je p-hodnota malá (napr. < 0.05), hypotézu o rovnakom priemere zamietame.

# ANOVA: Porovnanie HDP medzi krajinami (2015)
anova.result <- aov(GDP.PCAP ~ COUNTRY, data = udaje_2015)
summary(anova.result)

# Lineárna regresia Model: HDP ~ inflácia + nezamestnanosť + exporty (2015)
wdi_reg <- udaje %>%
filter(YEAR == 2015) %>%
select(GDP.PCAP, INFLATION, UNEMP, EXPORTS) %>%
na.omit()

model <- lm(GDP.PCAP ~ INFLATION + UNEMP + EXPORTS, data = wdi_reg)
summary(model)

# Tabuľka regresných koeficientov
# install.packages(c("broom","stringr"))  # ak treba

library(broom)
library(stringr)
library(kableExtra)

coef.tbl <- tidy(model, conf.int = TRUE) %>%
mutate(
term = recode(term,
"(Intercept)" = "Intercept",
"INFLATION"   = "Inflácia",
"UNEMP"       = "Nezamestnanosť",
"EXPORTS"     = "Exporty (% HDP)"
),
stars = case_when(
p.value < 0.001 ~ "***",
p.value < 0.01  ~ "**",
p.value < 0.05  ~ "*",
p.value < 0.1   ~ "·",
TRUE            ~ ""
)
) %>%
transmute(
Term        = term,
Estimate    = estimate,
`Std. Error`= std.error,
`t value`   = statistic,
`p value`   = p.value,
`95% CI`    = str_c("[", round(conf.low,3), ", ", round(conf.high,3), "]"),
Sig         = stars
)

coef.tbl %>%
kable(
digits  = 3,
caption = "OLS koeficienty (HDP na obyvateľa ~ inflácia + nezamestnanosť + exporty)"
) %>%
kable_styling(
full_width        = FALSE,
bootstrap_options = c("striped","hover","condensed")
) %>%
column_spec(1, bold = TRUE) %>%
row_spec(0, bold = TRUE, background = "#f2f2f2") %>%
footnote(
general = "Signif. codes: *** p<0.001, ** p<0.01, * p<0.05, · p<0.1.",
threeparttable = TRUE
)
# koeficienty s hviezdičkami sú štatisticky významné. Znamienko určuje, či daná premenná súvisí s HDP pozitívne alebo negatívne.

# Model Fit Statistics
fit.tbl <- glance(model) %>%
transmute(
`R-squared`      = r.squared,
`Adj. R-squared` = adj.r.squared,
`F-statistic`    = statistic,
`F p-value`      = p.value,
`AIC`            = AIC,
`BIC`            = BIC,
`Num. obs.`      = nobs
)

fit.tbl %>%
kable(digits = 3, caption = "Model Fit Statistics") %>%
kable_styling(
full_width        = FALSE,
bootstrap_options = c("condensed")
)










