knitr::opts_chunk$set(
echo = TRUE,
message = FALSE,
warning = FALSE
)
Priamy import z WDI
install.packages(“WDI”) # ak treba
library(WDI) library(dplyr)
countries <- c(“SVK”,“CZE”,“POL”,“HUN”)
indicators <- c( GDP.PCAP = “NY.GDP.PCAP.KD”, INFLATION =
“FP.CPI.TOTL.ZG”, UNEMP = “SL.UEM.TOTL.ZS”, EXPORTS = “NE.EXP.GNFS.ZS”
)
wdi_raw <- WDI( country = countries, indicator = indicators, start
= 2000, end = 2023 )
udaje <- wdi_raw %>% rename( COUNTRY = country, YEAR = year )
%>% arrange(COUNTRY, YEAR)
head(udaje) colnames(udaje)
Vidíme, že databáza obsahuje štyri numerické indikátory pre štyri
krajiny vo vybranom období. Rok (YEAR) slúži ako časová premenná.
zápis do csv
write.csv2(udaje, “udaje_WDI_V4.csv”, row.names = FALSE)
import z csv
udaje_csv <- read.csv2( “udaje_WDI_V4.csv”, header = TRUE, sep =
“;”, dec = “.” )
head(udaje_csv)
Pre ilustráciu sa zameriam na rok 2015 a porovnám krajiny V4.
library(ggplot2)
udaje_2015 <- udaje %>% filter(YEAR == 2015) %>%
select(COUNTRY, YEAR, GDP.PCAP, INFLATION, UNEMP, EXPORTS) %>%
na.omit()
udaje_2015 ggplot(udaje_2015, aes(x = EXPORTS, y = GDP.PCAP, color =
COUNTRY)) + geom_point(size = 3) + theme_minimal() + labs( title = “HDP
na obyvateľa vs. exporty (% HDP), rok 2015”, x = “Exporty (% HDP)”, y =
“HDP na obyvateľa (konštantné USD)”, color = “Krajina” ) # Z grafu
vidíme, že krajiny sa líšia tak v úrovni HDP na obyvateľa, ako aj v
podiele exportov na HDP. Často platí, že vyšší HDP na obyvateľa je
spojený s vyšším exportným podielom, ale vzťah nie je úplne
lineárny.
Boxplot – rozdelenie HDP podľa krajiny (2010–2020)Česká republika má
najvyššie mediánové hodnoty HDP na obyvateľa. Slovensko je mierne za
Českou republikou, ale nad Poľskom aj Maďarskom.Poľsko aj Maďarsko sú
zreteľne pod úrovňou Slovenska.
udaje_10_20 <- udaje %>% filter(YEAR >= 2010, YEAR <=
2020) %>% select(COUNTRY, YEAR, GDP.PCAP) %>% na.omit()
ggplot(udaje_10_20, aes(x = COUNTRY, y = GDP.PCAP)) +
geom_boxplot(fill = “lightblue”, color = “darkblue”) + theme_minimal() +
labs( title = “Rozdelenie HDP na obyvateľa podľa krajiny (2010–2020)”, x
= “Krajina”, y = “HDP na obyvateľa (konštantné USD)” ) # Boxplot
ukazuje, že Česko a Slovensko majú spravidla vyšší HDP na obyvateľa ako
Poľsko či Maďarsko. Rozptyl hodnôt v rámci krajiny súvisí s vývojom v
čase.
Line graf – HDP v čase
ggplot(udaje, aes(x = YEAR, y = GDP.PCAP, color = COUNTRY)) +
geom_line() + theme_minimal() + labs( title = “Vývoj HDP na obyvateľa v
krajinách V4 (2000–2023)”, x = “Rok”, y = “HDP na obyvateľa (konštantné
USD)”, color = “Krajina” ) # Čiarový graf ukazuje rastúci trend HDP na
obyvateľa vo všetkých krajinách, s viditeľnými poklesmi v krízových
rokoch (2008–2009, 2020).
tabuľka základných štatistík
library(knitr)
gdp_stats <- udaje %>% filter(YEAR %in% 2010:2020) %>%
group_by(YEAR) %>% summarise( n = n(), mean = mean(GDP.PCAP, na.rm =
TRUE), sd = sd(GDP.PCAP, na.rm = TRUE), min = min(GDP.PCAP, na.rm =
TRUE), q25 = quantile(GDP.PCAP, 0.25, na.rm = TRUE), median =
median(GDP.PCAP, na.rm = TRUE), q75 = quantile(GDP.PCAP, 0.75, na.rm =
TRUE), max = max(GDP.PCAP, na.rm = TRUE), .groups = “drop” )
kable(gdp_stats, digits = 2, caption = “Základné štatistiky HDP na
obyvateľa (2010–2020, krajiny V4)”) # Tabuľka ukazuje, ako sa priemerný
HDP na obyvateľa v krajinách V4 menil v čase.Vidíme rast priemeru aj
maxima, čo odráža ekonomický rast regiónu. library(kableExtra)
gdp_stats %>% kable( digits = 2, caption = “Základné štatistiky
HDP na obyvateľa (2010–2020, krajiny V4)” ) %>% kable_styling(
full_width = FALSE, bootstrap_options = c(“striped”,“hover”,“condensed”)
) %>% column_spec(1, bold = TRUE) %>% row_spec(0, bold = TRUE,
background = “#f2f2f2”) %>% add_header_above(c(” ” = 2, “HDP
štatistiky” = 7)) # Korelačná matica a Heatmap Vypočítam korelačnú
maticu numerických premenných pre rok 2015 a vykreslím heatmapu.
num_2015 <- udaje_2015 %>% select(GDP.PCAP, INFLATION, UNEMP,
EXPORTS)
cor_mat <- cor(num_2015, use = “pairwise.complete.obs”) cor_mat #
Heatmap pomocou ggplot2
library(tidyr)
cor_long <- as.data.frame(cor_mat) %>% mutate(var1 =
rownames(cor_mat)) %>% pivot_longer( cols = -var1, names_to = “var2”,
values_to = “corr” )
ggplot(cor_long, aes(x = var1, y = var2, fill = corr)) + geom_tile()
+ scale_fill_gradient2( low = “blue”, mid = “white”, high = “red”,
midpoint = 0 ) + theme_minimal() + labs( title = “Korelačná matica (rok
2015, krajiny V4)”, x = ““, y =”“, fill =”Korelácia” ) # Z heatmapy
vidíme napríklad, či je HDP na obyvateľa pozitívne alebo negatívne
korelovaný s infláciou, nezamestnanosťou a exportmi. Silne pozitívne
hodnoty (červené) znamenajú, že premenné rastú spolu, kým silne
negatívne (modré) naznačujú opačný pohyb.
t-test: Porovnanie priemeru HDP na obyvateľa v rokoch 2005 a
2015
t.test.result <- t.test( udaje\(GDP.PCAP[udaje\)YEAR == 2005], udaje\(GDP.PCAP[udaje\)YEAR == 2015] )
t.test.result # Výsledok t-testu ukazuje, či je rozdiel medzi
priemerným HDP na obyvateľa v rokoch 2005 a 2015 štatisticky významný.
Očakávame, že v roku 2015 je HDP výrazne vyšší – ak je p-hodnota malá
(napr. < 0.05), hypotézu o rovnakom priemere zamietame.
ANOVA: Porovnanie HDP medzi krajinami (2015)
anova.result <- aov(GDP.PCAP ~ COUNTRY, data = udaje_2015)
summary(anova.result)
Lineárna regresia Model: HDP ~ inflácia + nezamestnanosť + exporty
(2015)
wdi_reg <- udaje %>% filter(YEAR == 2015) %>%
select(GDP.PCAP, INFLATION, UNEMP, EXPORTS) %>% na.omit()
model <- lm(GDP.PCAP ~ INFLATION + UNEMP + EXPORTS, data =
wdi_reg) summary(model)
Tabuľka regresných koeficientov
install.packages(c(“broom”,“stringr”)) # ak treba
library(broom) library(stringr) library(kableExtra)
coef.tbl <- tidy(model, conf.int = TRUE) %>% mutate( term =
recode(term, “(Intercept)” = “Intercept”, “INFLATION” = “Inflácia”,
“UNEMP” = “Nezamestnanosť”, “EXPORTS” = “Exporty (% HDP)” ), stars =
case_when( p.value < 0.001 ~ “”, p.value < 0.01 ~
””, p.value < 0.05 ~ ””, p.value < 0.1 ~ “·”, TRUE ~
“” ) ) %>% transmute( Term = term, Estimate = estimate,
Std. Error= std.error, t value = statistic,
p value = p.value, 95% CI = str_c(“[”,
round(conf.low,3), ”, ”, round(conf.high,3), ”]”), Sig = stars )
coef.tbl %>% kable( digits = 3, caption = “OLS koeficienty (HDP na
obyvateľa ~ inflácia + nezamestnanosť + exporty)” ) %>%
kable_styling( full_width = FALSE, bootstrap_options =
c(“striped”,“hover”,“condensed”) ) %>% column_spec(1, bold = TRUE)
%>% row_spec(0, bold = TRUE, background = “#f2f2f2”) %>% footnote(
general = “Signif. codes: *** p<0.001, ** p<0.01, * p<0.05, ·
p<0.1.”, threeparttable = TRUE ) # koeficienty s hviezdičkami sú
štatisticky významné. Znamienko určuje, či daná premenná súvisí s HDP
pozitívne alebo negatívne.
Model Fit Statistics
fit.tbl <- glance(model) %>% transmute( R-squared
= r.squared, Adj. R-squared = adj.r.squared,
F-statistic = statistic, F p-value = p.value,
AIC = AIC, BIC = BIC, Num. obs. =
nobs )
fit.tbl %>% kable(digits = 3, caption = “Model Fit Statistics”)
%>% kable_styling( full_width = FALSE, bootstrap_options =
c(“condensed”) )
