Analýza makroekonomických ukazovateľov
Úvod do problému, stanovenie hypotéz
Rozhodla som sa modelovať hodnotu akciového indexu (Stock Index
Value) v závislosti od makroekonomických premenných: inflácie (Inflation
Rate (%)), rastu HDP (GDP Growth Rate (%)), nezamestnanosti
(Unemployment Rate (%)), a úrokovej sadzby (Interest Rate (%)).
Pracovná hypotéza predpokladá:
Inflation Rate (%) – negatívny vplyv na akciový index.
GDP Growth Rate (%) – pozitívny vplyv.
Unemployment Rate (%) – negatívny vplyv.
Interest Rate (%) – negatívny vplyv.
Cieľom analýzy je overiť, ktoré premenné štatisticky významne
ovplyvňujú Stock Index Value a posúdiť vhodnosť lineárneho regresného
modelu.
Načítanie knižníc
library(zoo)
library(tseries)
library(lmtest)
library(sandwich)
library(car)
library(carData)
library(cowplot)
library(ggplot2)
rm(list=ls())
Načitanie dát
data <- read.csv("economic_indicators_dataset_2010_2023.csv")
Výber premennych
macro <- data[, c("Inflation.Rate....",
"GDP.Growth.Rate....",
"Unemployment.Rate....",
"Interest.Rate....",
"Stock.Index.Value")]
summary(macro)
Inflation.Rate.... GDP.Growth.Rate.... Unemployment.Rate.... Interest.Rate.... Stock.Index.Value
Min. :0.000 Min. :-5.000 Min. : 2.000 Min. :-0.980 Min. : 1017
1st Qu.:2.525 1st Qu.:-1.170 1st Qu.: 4.258 1st Qu.: 2.027 1st Qu.:11588
Median :5.205 Median : 2.580 Median : 6.865 Median : 4.975 Median :20996
Mean :5.085 Mean : 2.415 Mean : 6.907 Mean : 4.698 Mean :20926
3rd Qu.:7.710 3rd Qu.: 5.445 3rd Qu.: 9.502 3rd Qu.: 7.353 3rd Qu.:30825
Max. :9.990 Max. : 9.930 Max. :11.970 Max. :10.000 Max. :39982
Imputácia mediánov
column_medians <- sapply(macro, median, na.rm = TRUE)
macro_imp <- macro
for (col in names(macro)) {
macro_imp[[col]][is.na(macro_imp[[col]])] <- column_medians[col]
}
macro <- macro_imp
Boxploty
num_plots <- length(names(macro))
par(mfrow = c(2, 3))
par(mar = c(4, 4, 2, 1))
for (col in names(macro)) {
boxplot(macro[[col]], main = col, xlab = "Hodnota", col = "lightblue")
}
mtext("Boxploty makroekonomických premenných", outer = TRUE, cex = 1.4, font = 2)

Teraz sme:
Skontrolovali štruktúru dát.
Vybrali relevantné premenné.
Doplnili chýbajúce hodnoty mediánmi.
Vykreslili boxploty pre jednotlivé premenné, aby sme
identifikovali potenciálne odľahlé hodnoty.
Pozorovania ukázali, že väčšina dát je v očakávanom rozsahu. Inflácia
a úroková sadzba majú mierne rozšírené rozptýlenie, ale nie je
extrémne.
Lineárna regresia – model 1
model <- lm(Stock.Index.Value ~ Inflation.Rate.... +
GDP.Growth.Rate.... +
Unemployment.Rate.... +
Interest.Rate....,
data = macro)
summary(model)
Call:
lm(formula = Stock.Index.Value ~ Inflation.Rate.... + GDP.Growth.Rate.... +
Unemployment.Rate.... + Interest.Rate...., data = macro)
Residuals:
Min 1Q Median 3Q Max
-20623.1 -9434.3 104.2 9972.6 19610.5
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 23055.78 1678.73 13.734 <2e-16 ***
Inflation.Rate.... -37.23 167.90 -0.222 0.825
GDP.Growth.Rate.... -26.39 121.94 -0.216 0.829
Unemployment.Rate.... -152.38 166.52 -0.915 0.361
Interest.Rate.... -175.40 157.57 -1.113 0.266
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 11090 on 495 degrees of freedom
Multiple R-squared: 0.00455, Adjusted R-squared: -0.003494
F-statistic: 0.5656 on 4 and 495 DF, p-value: 0.6877
Lineárny model odhadovaný pre Stock Index Value na základe premenných
Inflation Rate, GDP Growth Rate, Unemployment Rate a Interest Rate
ukazuje, že žiadna z vysvetľujúcich premenných nie je štatisticky
významná. Intercept je vysoko významný, ale všetky koeficienty ostatných
premenných majú p-hodnoty výrazne vyššie ako 0,05. Hodnota R-squared je
extrémne nízka (0,00455), čo naznačuje, že model nevysvetľuje
variabilitu Stock Index Value.
Reziduá modelu sa pohybujú približne medzi −20623 a +19610 a ich
medián je veľmi blízko nule, čo naznačuje stredné centrovanie
reziduí.
Diagnostické grafy pre model 1
par(mfrow = c(2, 2))
plot(model)
mtext("Diagnostické grafy regresného modelu", outer = TRUE, cex = 1.2, font = 2)

Residuals vs Fitted
- Väčšina reziduí je rozptýlená okolo nuly bez výrazného
systematického skreslenia, aj keď vidíme niektoré extrémne body.
Q-Q plot
- Reziduá sú približne normálne rozložené, hoci na okrajoch grafu
možno pozorovať mierne odchýlky – niekoľko extrémnych hodnôt.
Scale-Location
- Variancia reziduí je relatívne stabilná; nie sú výrazné známky
heteroskedasticity.
Residuals vs Leverage
- Väčšina bodov má nízku páku a štandardizované reziduá sa pohybujú
medzi −2 a +2. Žiadne pozorovanie nevybočuje výrazne z Cookovej
vzdialenosti.
Jarque–Bera test normality
residuals_model <- residuals(model)
jb_test <- jarque.bera.test(residuals_model)
jb_test
Jarque Bera Test
data: residuals_model
X-squared = 26.622, df = 2, p-value = 1.656e-06
Hodnota testu JB = 26,622 s p-hodnotou 1,656e-06 naznačuje, že
reziduá nie sú úplne normálne rozložené. Odchýlky môžu byť spôsobené
extrémnymi hodnotami alebo špičatými rozdeleniami.
Outlier test
outlier_test <- outlierTest(model)
outlier_test
No Studentized residuals with Bonferroni p < 0.05
Largest |rstudent|:
Jedno pozorovanie bolo označené ako potenciálny odľahlý bod (rstudent
= −1,8766), ale p-hodnota po Bonferroni korekcii nie je k dispozícii.
Tento bod môže mierne ovplyvniť odhad koeficientov.
Heteroskedasticita – grafy pre model 1
p1 <- ggplot(macro, aes(x = GDP.Growth.Rate...., y = resid(model)^2)) +
geom_point(alpha = 0.6) +
geom_smooth(method = "loess", se = FALSE, color = "red") +
labs(x = "GDP Growth (%)",
y = "Reziduá²",
title = "Reziduá² vs GDP Growth") +
theme_minimal()
p2 <- ggplot(macro, aes(x = Inflation.Rate...., y = resid(model)^2)) +
geom_point(alpha = 0.6) +
geom_smooth(method = "loess", se = FALSE, color = "red") +
labs(x = "Inflation Rate (%)",
y = "Reziduá²",
title = "Reziduá² vs Inflation") +
theme_minimal()
plot_grid(p1, p2)

Na grafoch “Reziduá vs GDP Growth” a “Reziduá vs Inflation” môžeme
pozorovať, že ružová vyhladená krivka zostáva relatívne plochá a rozptyl
reziduí sa s hodnotami premenných výrazne nemení. Menšie kolísanie
naznačuje len slabé náznaky heteroskedasticity, ktoré však nie sú
výrazné. Celkovo možno teda usúdiť, že v modeli sa heteroskedasticita
výrazne nevyskytuje a rozptyl náhodnej zložky zostáva približne
konštantný.
Oprava modelu (model 2) + vylúčenie problem
shift <- abs(min(macro$GDP.Growth.Rate...., na.rm = TRUE)) + 0.01
model2 <- lm(Stock.Index.Value ~
I(log(GDP.Growth.Rate.... + shift)) +
Unemployment.Rate.... +
Interest.Rate....,
data = macro)
summary(model2)
Call:
lm(formula = Stock.Index.Value ~ I(log(GDP.Growth.Rate.... +
shift)) + Unemployment.Rate.... + Interest.Rate...., data = macro)
Residuals:
Min 1Q Median 3Q Max
-20968.9 -9345.4 -62.7 9908.4 19840.0
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 23669.9 1683.6 14.059 <2e-16 ***
I(log(GDP.Growth.Rate.... + shift)) -517.9 533.4 -0.971 0.332
Unemployment.Rate.... -148.3 166.2 -0.892 0.373
Interest.Rate.... -174.3 157.2 -1.109 0.268
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 11060 on 496 degrees of freedom
Multiple R-squared: 0.006244, Adjusted R-squared: 0.0002336
F-statistic: 1.039 on 3 and 496 DF, p-value: 0.375
Po logaritmickej transformácii GDP Growth Rate a odstránení Inflation
Rate model ukazuje podobný obraz: žiadna z premenných (okrem interceptu)
nie je štatisticky významná. Koeficienty sú stále nízke a p-hodnoty
vyššie než 0,05. R-squared je veľmi nízke (0,0062), čo znamená, že model
stále nevysvetľuje variabilitu Stock Index Value.
Reziduá sú podobne rozptýlené a medián je blízko nuly.
Diagnostické grafy pre model 2
par(mfrow = c(2, 2))
plot(model2)
mtext("Diagnostické grafy - Model 2 (log GDP)", outer = TRUE, cex = 1.2, font = 2)

Residuals vs Fitted
- Podobne ako pri model 1, reziduá sú rozptýlené okolo nuly, bez
výrazných systematických odchýlok.
Q-Q plot
- Reziduá sú približne normálne rozložené, mierne odchýlky na
okrajoch.
Scale-Location
- Variancia reziduí je stabilná, nenaznačuje heteroskedasticitu.
Residuals vs Leverage
- Väčšina bodov má nízku páku, žiadne výrazne ovplyvňujúce
pozorovanie.
Heteroskedasticita – grafy pre model 2
p3 <- ggplot(macro, aes(x = log(GDP.Growth.Rate.... + 1), y = resid(model2)^2)) +
geom_point(alpha = 0.6) +
geom_smooth(method = "loess", se = FALSE, color = "red") +
labs(x = "log(GDP Growth)",
y = "Reziduá²",
title = "Reziduá² vs log(GDP Growth)") +
theme_minimal()
p4 <- ggplot(macro, aes(x = Unemployment.Rate...., y = resid(model2)^2)) +
geom_point(alpha = 0.6) +
geom_smooth(method = "loess", se = FALSE, color = "red") +
labs(x = "Unemployment Rate (%)",
y = "Reziduá²",
title = "Reziduá² vs Unemployment") +
theme_minimal()
plot_grid(p3, p4)

Po logaritmickej transformácii premennej GDP Growth sa ružová krivka
vyrovnala a rozptyl reziduí sa stal rovnomernejším, čo naznačuje, že
transformácia znížila heteroskedasticitu. Premenná Unemployment Rate
nevykazuje viditeľné známky heteroskedasticity, takže celkovo možno
povedať, že nový model má stabilnejší rozptyl reziduí a lepšiu štruktúru
ako pôvodný.
Breusch-Pagan test pre model 1 aj model 2
studentized Breusch-Pagan test
data: model
BP = 2.9462, df = 4, p-value = 0.5669
studentized Breusch-Pagan test
data: model2
BP = 2.3352, df = 3, p-value = 0.5058
- Pre model 1: BP = 2,9462, p = 0,5669
- Pre model 2: BP = 2,3352, p = 0,5058
Výsledky Breusch–Paganovho testu pre model 1 (p = 0.5669) aj model 2
(p = 0.5058) naznačujú, že nemáme dostatok dôkazov na zamietnutie
nulovej hypotézy homoskedasticity. Rozptyl rezíduí sa javí ako približne
konštantný a nevykazuje systematickú závislosť od vysvetľujúcich
premenných.
Z toho možno konštatovať, že reziduá oboch modelov spĺňajú predpoklad
homoskedasticity, čo indikuje, že odhady regresných koeficientov sú
efektívne a nie je potrebné aplikovať korekcie na
heteroskedasticitu.
