knitr::opts_chunk$set(
echo = TRUE,
message = FALSE,
warning = FALSE
)
library(zoo)
library(tseries)
library(lmtest)
library(sandwich)
library(car)
library(ggplot2)
library(patchwork)
library(quantmod)
Na začiatok si stiahneme naše dáta a z nich vypočítame logaritmické
výnosnosti, s ktorými následne budeme pracovať.
tickers <- c("AAPL", "GLD", "XLE", "SPY") # Apple, Gold ETF, Energy ETF, S&P500 ETF
getSymbols(tickers, from = "2024-01-01", to = "2025-01-01")
[1] "AAPL" "GLD" "XLE" "SPY"
data <- merge(Cl(AAPL), Cl(GLD), Cl(XLE), Cl(SPY))
colnames(data) <- tickers
ret <- na.omit(diff(log(data)))
colnames(ret) <- paste0(colnames(ret), "_ret")
ret_df <- na.omit(as.data.frame(ret))
head(ret_df)
op <- par(mfrow = c(2, 2), mar = c(4,4,2,1))
for (col in names(ret_df)) {
boxplot(ret_df[[col]], main = col, xlab = "Value", col = "purple")
}
par(op)

Boxploty znázorňujú rozdelenie denných logaritmických výnosov aktív
AAPL, GLD, XLE a SPY. Všetky výnosy sa sústreďujú okolo nuly, pričom
najväčšiu volatilitu vykazuje AAPL a najstabilnejšie hodnoty má GLD.
Mierne odľahlé body predstavujú extrémne pohyby na trhu, no celkové
rozdelenie je vyvážené a vhodné na ďalšiu analýzu.
model <- lm(AAPL_ret ~ GLD_ret + XLE_ret + SPY_ret, data = ret_df)
summary(model)
Call:
lm(formula = AAPL_ret ~ GLD_ret + XLE_ret + SPY_ret, data = ret_df)
Residuals:
Min 1Q Median 3Q Max
-0.044288 -0.006673 -0.000362 0.005717 0.066928
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.0003073 0.0007477 0.411 0.6814
GLD_ret 0.0028525 0.0818840 0.035 0.9722
XLE_ret -0.1950403 0.0705065 -2.766 0.0061 **
SPY_ret 1.0396059 0.1007431 10.319 <2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.01173 on 247 degrees of freedom
Multiple R-squared: 0.3122, Adjusted R-squared: 0.3038
F-statistic: 37.37 on 3 and 247 DF, p-value: < 2.2e-16
Model vysvetľuje závislosť výnosu akcie AAPL od výnosov GLD, XLE a
SPY. Z výsledkov vyplýva, že štatisticky významné premenné sú XLE (p =
0,0061) a SPY (p < 0,001). Premenná GLD významný vplyv nemá. Kladný
koeficient pri SPY (1,04) potvrdzuje silnú väzbu akcie Apple na celkový
trh, zatiaľ čo záporný koeficient pri XLE (-0,20) naznačuje mierny
opačný vzťah s energetickým sektorom. Hodnota R^2=0,31 znamená, že model
vysvetľuje približne 31 % variability výnosov akcie Apple.
op <- par(mfrow = c(2,2))
plot(model)
par(op)

library(ggfortify)
autoplot(model,
which = 1:4,
colour = "#c8a2c8", # svetlofialové body
smooth.colour = "#9d4edd", # jemnejšia fialová LOESS čiara
smooth.linetype = "solid",
size = 2,
label.size = 3) +
theme_minimal(base_size = 13) +
theme(
plot.title = element_text(color = "#5a189a", face = "bold", hjust = 0.5),
strip.text = element_text(color = "#5a189a", face = "bold"),
panel.grid.minor = element_blank(),
panel.background = element_rect(fill = "white", color = NA),
plot.background = element_rect(fill = "white", color = NA)
)

Diagnostické grafy ukazujú, že model je dobre špecifikovaný. Reziduá
sú rozložené rovnomerne okolo nuly, čo potvrdzuje absenciu výraznej
systematickej chyby. Q-Q graf naznačuje len mierne odchýlky od normality
na okrajoch rozdelenia. Graf Scale-Location potvrdzuje približne
konštantnú varianciu rezíduí (homoskedasticitu) a graf Residuals vs
Leverage neodhalil žiadne významné vplyvné pozorovania. Celkovo možno
model považovať za stabilný a spoľahlivý.Graf Cook’s distance naznačuje,
že žiadne pozorovanie výrazne neovplyvňuje stabilitu modelu, keďže
všetky hodnoty zostávajú bezpečne pod hranicou významného vplyvu.
# Jarque–Bera
jb_test <- tseries::jarque.bera.test(residuals(model)); jb_test
Jarque Bera Test
data: residuals(model)
X-squared = 279.24, df = 2, p-value < 2.2e-16
# Outlier test (Bonferroni)
outlier_car <- car::outlierTest(model); outlier_car
Jarque-Bera test ukázal, že reziduá modelu nie sú normálne rozdelené
(p-hodnota < 0,001), čo naznačuje prítomnosť extrémnych hodnôt. Test
odľahlých pozorovaní (Bonferroni) identifikoval tri dni – 21. 3. 2024,
3. 5. 2024 a 11. 6. 2024 – ako štatisticky významné odľahlé pozorovania,
ktoré mohli ovplyvniť výsledky regresie.
model2 <- lm(AAPL_ret ~ I(log(1 + SPY_ret)) + XLE_ret, data = ret_df)
summary(model2)
Call:
lm(formula = AAPL_ret ~ I(log(1 + SPY_ret)) + XLE_ret, data = ret_df)
Residuals:
Min 1Q Median 3Q Max
-0.044321 -0.006706 -0.000423 0.005711 0.066901
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.0003426 0.0007431 0.461 0.64516
I(log(1 + SPY_ret)) 1.0402443 0.0980078 10.614 < 2e-16 ***
XLE_ret -0.1953592 0.0696616 -2.804 0.00544 **
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.0117 on 248 degrees of freedom
Multiple R-squared: 0.313, Adjusted R-squared: 0.3074
F-statistic: 56.48 on 2 and 248 DF, p-value: < 2.2e-16
op <- par(mfrow = c(2,2))
plot(model2)
par(op)

# Normalita + outliers pre model2
tseries::jarque.bera.test(residuals(model2))
Jarque Bera Test
data: residuals(model2)
X-squared = 280.67, df = 2, p-value < 2.2e-16
autoplot(model2,
which = 1:4,
colour = "#c8a2c8", # svetlofialové body
smooth.colour = "#9d4edd", # jemnejšia fialová LOESS čiara
smooth.linetype = "solid",
size = 2,
label.size = 3) +
theme_minimal(base_size = 13) +
theme(
plot.title = element_text(color = "#5a189a", face = "bold", hjust = 0.5),
strip.text = element_text(color = "#5a189a", face = "bold"),
panel.grid.minor = element_blank(),
panel.background = element_rect(fill = "white", color = NA),
plot.background = element_rect(fill = "white", color = NA)
)

Po úprave modelu (logaritmická transformácia SPY_ret) sa štruktúra
rezíduí zlepšila, hoci Jarque-Bera test stále naznačuje mierne odchýlky
od normality. Outlier test opäť identifikoval rovnaké tri dni – 21. 3.
2024, 3. 5. 2024 a 11. 6. 2024 – ako odľahlé pozorovania, avšak ich
vplyv na model je už menší. Celkovo možno povedať, že transformácia
prispela k stabilnejšiemu a robustnejšiemu modelu.
# Pôvodný model
p1 <- ggplot(ret_df, aes(x = SPY_ret, y = resid(model)^2)) +
geom_point(alpha = 0.6) +
geom_smooth(method = "loess", se = FALSE, color = "purple") +
labs(x = "SPY_ret", y = "Squared residuals", title = "Squared residuals vs SPY_ret") +
theme_minimal()
p2 <- ggplot(ret_df, aes(x = XLE_ret, y = resid(model)^2)) +
geom_point(alpha = 0.6) +
geom_smooth(method = "loess", se = FALSE, color = "purple") +
labs(x = "XLE_ret", y = "Squared residuals", title = "Squared residuals vs XLE_ret") +
theme_minimal()
p1 + p2

Grafy zobrazujú závislosť štvorcov rezíduí od výnosov SPY_ret a
XLE_ret s cieľom overiť prítomnosť heteroskedasticity. Červená
vyhladzovacia krivka je takmer vodorovná, čo naznačuje, že rozptyl
rezíduí zostáva približne konštantný pri rôznych hodnotách oboch
premenných. Nevidíme žiadny rozširujúci sa alebo zužujúci tvar, preto
možno konštatovať, že v modeli sa heteroskedasticita nevyskytuje.
# Upravený model (model2) s log(1+SPY_ret)
p3 <- ggplot(ret_df, aes(x = log(1 + SPY_ret), y = resid(model2)^2)) +
geom_point(alpha = 0.6) +
geom_smooth(method = "loess", se = FALSE, color = "purple") +
labs(x = "log(1 + SPY_ret)", y = "Squared residuals", title = "Residuals vs log(1+SPY_ret)") +
theme_minimal()
p4 <- ggplot(ret_df, aes(x = XLE_ret, y = resid(model2)^2)) +
geom_point(alpha = 0.6) +
geom_smooth(method = "loess", se = FALSE, color = "purple") +
labs(x = "XLE_ret", y = "Squared residuals", title = "Residuals vs XLE_ret (model2)") +
theme_minimal()
p3 + p4

Grafy zobrazujú závislosť štvorcov rezíduí od premenných log(1 +
SPY_ret) a XLE_ret po logaritmickej transformácii v modeli 2. Červená
vyhladzovacia krivka zostáva takmer vodorovná, čo naznačuje, že rozptyl
rezíduí sa s hodnotami vysvetľujúcich premenných výrazne nemení. Z toho
vyplýva, že transformácia úspešne odstránila heteroskedasticitu a model
má konštantný rozptyl chýb.
studentized Breusch-Pagan test
data: model
BP = 0.48024, df = 3, p-value = 0.9232
studentized Breusch-Pagan test
data: model2
BP = 0.48542, df = 2, p-value = 0.7845
Výsledky Breusch–Pagan testu pre oba modely ukazujú, že p-hodnoty
(0,9232 a 0,7845) sú výrazne vyššie než 0,05. To znamená, že nezamietame
nulovú hypotézu o homoskedasticite rezíduí. Inými slovami, rozptyl chýb
je konštantný a v modeloch nie je prítomná heteroskedasticita, čo
potvrdzuje ich spoľahlivosť.
# Robustné SE pre model2 (doporučené reportovať)
lmtest::coeftest(model2, vcov = sandwich::vcovHC(model2, type = "HC1"))
t test of coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.00034261 0.00073427 0.4666 0.641193
I(log(1 + SPY_ret)) 1.04024435 0.09913013 10.4937 < 2.2e-16 ***
XLE_ret -0.19535922 0.06000130 -3.2559 0.001288 **
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Tabuľka zobrazuje výsledky robustnej regresie s upravenými
smerodajnými chybami (HC1), ktoré zohľadňujú možnú
heteroskedasticitu.
Premenná log(1 + SPY_ret) má silne pozitívny a štatisticky významný
vplyv (p < 0.001) na výnos akcie AAPL, čo znamená, že Apple sa správa
veľmi podobne ako trhový index SPY. Premenná XLE_ret má negatívny a
štatisticky významný vplyv (p < 0.01), teda rast energetického
sektora súvisí s miernym poklesom výnosov Apple. Konštanta (intercept)
nie je štatisticky významná, čo naznačuje, že pri nulových výnosoch SPY
a XLE je priemerný výnos AAPL blízky nule.
# Durbin–Watson (autokorelácia rezíduí)
lmtest::dwtest(model2)
Durbin-Watson test
data: model2
DW = 2.0406, p-value = 0.6239
alternative hypothesis: true autocorrelation is greater than 0
# RESET (nelinearity/špecifikácia)
lmtest::resettest(model2, power = 2:3, type = "fitted")
RESET test
data: model2
RESET = 1.3159, df1 = 2, df2 = 246, p-value = 0.2701
# VIF (multikolinearita)
car::vif(model2)
I(log(1 + SPY_ret)) XLE_ret
1.109609 1.109609
Výsledky doplnkových testov potvrdzujú, že vytvorený model je
štatisticky spoľahlivý a správne špecifikovaný. Hodnota
Durbin–Watsonovho testu (DW = 2.04, p = 0.62) naznačuje, že v rezíduách
sa nenachádza autokorelácia, čo znamená, že chyby nie sú navzájom
závislé a model spĺňa predpoklad nezávislosti rezíduí. RESET test s
p-hodnotou 0.27 nepreukázal žiadne problémy so špecifikáciou modelu,
teda model má správne zvolenú funkčnú formu a nie je potrebné pridávať
nelineárne členy. Výsledky VIF (Variance Inflation Factor) s hodnotou
1.1 pre obe vysvetľujúce premenné potvrdzujú, že medzi nimi neexistuje
multikolinearita. Celkovo možno konštatovať, že model je dobre
špecifikovaný, rezíduá sú nezávislé a vysvetľujúce premenné nie sú
navzájom závislé.
library(knitr)
library(dplyr)
results <- data.frame(
Test = c("Durbin–Watson", "RESET", "VIF (I(log(1+SPY_ret)))", "VIF (XLE_ret)"),
Statistic = c(2.0406, 1.3159, 1.1096, 1.1096),
`p-hodnota` = c(0.6239, 0.2701, NA, NA),
Interpretácia = c(
"Bez autokorelácie rezíduí",
"Bez problémov so špecifikáciou modelu",
"Žiadna multikolinearita",
"Žiadna multikolinearita"
)
)
kable(results, caption = "Súhrn doplnkových diagnostických testov pre model2")
Súhrn doplnkových diagnostických testov pre model2
| Test |
Statistic |
p.hodnota |
Interpretácia |
| Durbin–Watson |
2.0406 |
0.6239 |
Bez autokorelácie rezíduí |
| RESET |
1.3159 |
0.2701 |
Bez problémov so špecifikáciou modelu |
| VIF (I(log(1+SPY_ret))) |
1.1096 |
NA |
Žiadna multikolinearita |
| VIF (XLE_ret) |
1.1096 |
NA |
Žiadna multikolinearita |
Tabuľka zobrazuje výsledky doplnkových diagnostických testov pre
model 2. Durbin–Watson test potvrdzuje, že rezíduá nie sú
autokorelované. RESET test ukazuje, že model je správne špecifikovaný a
neobsahuje nelineárne chyby. Hodnoty VIF sú veľmi nízke, čo znamená, že
medzi vysvetľujúcimi premennými neexistuje multikolinearita. Celkovo
možno model považovať za stabilný a štatisticky spoľahlivý.
