1. Úvod a údaje
Cieľom tejto úlohy je analyzovať vzťahy medzi logaritmickými dennými
výnosmi vybraného akciového titulu a výnosmi ďalších finančných aktív.
Konkrétne sa zameriavame na spoločnosť Apple (AAPL) a skúmame, do akej
miery sa jej denné výnosy dajú vysvetliť vývojom na trhu so zlatom
(GLD), energetickým sektorom (XLE) a celkovým trhovým indexom S&P
500 (SPY).
Výber aktív umožňuje porovnať správanie technologickej akcie s
rôznymi časťami finančného trhu — komoditami, sektorovými ETF a širokým
trhovým benchmarkom. Použitím denných logaritmických výnosov eliminujeme
vplyv úrovne cien a získavame časový rad vhodný na ekonometrickú
analýzu.
Úvod do problému a stanovenie hypotéz
Denné výnosy akciových titulov reagujú na široké spektrum faktorov,
ktoré zahŕňajú celkový trhový sentiment, vývoj v jednotlivých sektoroch
aj pohyby alternatívnych aktív. Technologické spoločnosti, medzi ktoré
patrí aj Apple (AAPL), bývajú typicky veľmi citlivé na zmeny vo
výkonnosti celého trhu, ale ich správanie môže byť ovplyvnené aj
špecifickými segmentmi, ako sú komodity alebo odvetvové ETF. V tejto
úlohe preto analyzujeme, ako sa denné logaritmické výnosy spoločnosti
Apple vyvíjajú v závislosti od výnosov troch ďalších aktív: indexu
S&P 500 reprezentovaného ETF SPY, zlata prostredníctvom ETF GLD a
energetického sektora cez ETF XLE. Cieľom je zistiť, či zmeny v týchto
aktívach dokážu štatisticky významne vysvetliť správanie sa výnosov
Apple a či má najväčší vplyv práve celkový trh, ako by naznačovala
ekonomická intuícia.
Naša pracovná hypotéza predpokladá, že všetky tri vysvetľujúce
premenné – výnosy indexu SPY, výnosy zlata (GLD) a výnosy energetického
sektora (XLE) – majú štatisticky významný vplyv na denné logaritmické
výnosy spoločnosti Apple (AAPL). Očakávame pritom, že výnosy trhu
reprezentované ETF SPY budú mať pozitívny vplyv, keďže Apple je súčasťou
indexu S&P 500 a jeho cena spravidla rastie v súlade s celkovým
trhovým sentimentom.
V prípade výnosov zlata predpokladáme, že vplyv môže byť buď mierne
negatívny, alebo veľmi slabý, keďže zlato často funguje ako bezpečné
aktívum a jeho výnosy sa môžu pohybovať opačne než akciové trhy. Pri
energetickom sektore očakávame, že jeho výnosy budú mať kladný vplyv na
výnosy Apple, keďže rast energetického sektora býva spojený s lepším
makroekonomickým prostredím, vyššou ekonomickou aktivitou a celkovo
pozitívnym sentimentom investorov.
Pracovná hypotéza teda tvrdí, že všetky tri koeficienty v regresnom
modeli sú štatisticky významné, pričom odhadovaný koeficient pri SPY by
mal byť kladný, koeficient pri XLE taktiež kladný a koeficient pri GLD
mierne záporný alebo blízko nule. Spoločná nulová hypotéza tvrdí, že
žiadna z vysvetľujúcich premenných nevysvetľuje správanie výnosov Apple,
čo znamená, že všetky koeficienty sú rovné nule; túto hypotézu testujeme
F-testom v rámci lineárneho regresného modelu.
Budeme testovať hypotézu
\(H_0:\) model je správne
špecifikovaný (\(\gamma_2 = \gamma_3 =
0\))
oproti
\(H_1:\) model je nesprávne
špecifikovaný (\(\gamma_2 \ne 0 \quad
\text{alebo} \quad \gamma_3 \ne 0\))
Import údajov
Na začiatok si importujeme údaje. Vybrala som si dáta o cene akcií
spoločnosti Apple a ETF’s, ktoré opisujú vývoj trhu zlata (GLD),
energetického sektora (XLE) a (SPY), ktoré kopíruje trh S&P 500.
Dáta sú za obdobie 1.1.2024-1.1.2025. Údaje sú stiahnuté priamo z
internetu, z databázy YahooFinance. Tieto hodnoty predstavujú vývoj
cien, na ktorom budeme následne analyzovať logaritmické výnosnosti a
vzájomné vzťahy medzi výnosnosťami daných aktív.
tickers <- c("AAPL", "GLD", "XLE", "SPY") # Apple, Gold ETF, Energy ETF, S&P500 ETF
getSymbols(tickers, from = "2024-01-01", to = "2025-01-01")
[1] "AAPL" "GLD" "XLE" "SPY"
data <- merge(Cl(AAPL), Cl(GLD), Cl(XLE), Cl(SPY))
colnames(data) <- tickers
ret <- na.omit(diff(log(data)))
colnames(ret) <- paste0(colnames(ret), "_ret")
ret_df <- na.omit(as.data.frame(ret))
head(ret_df)
Deskriptívna štatistika
V nasledujúcej časti vykonávame deskriptívnu štatistiku denných
logaritmických výnosov štyroch finančných aktív, aby sme získali
základný prehľad o ich rozdelení a volatilite.
AAPL_ret GLD_ret XLE_ret SPY_ret
Min. :-0.049366 Min. :-0.0363355 Min. :-3.276e-02 Min. :-0.030257
1st Qu.:-0.006736 1st Qu.:-0.0042584 1st Qu.:-6.372e-03 1st Qu.:-0.003000
Median : 0.001595 Median : 0.0016010 Median : 1.543e-03 Median : 0.001093
Mean : 0.001193 Mean : 0.0009509 Mean : 4.302e-05 Mean : 0.000857
3rd Qu.: 0.009288 3rd Qu.: 0.0073401 3rd Qu.: 6.793e-03 3rd Qu.: 0.005756
Max. : 0.070131 Max. : 0.0221408 Max. : 3.691e-02 Max. : 0.024561
Apple
Rozpätie výnosov sa pohybuje od –4,94 % po +7,01 %, čo z aktív robí
najvolatilnejšie. Priemerný denný výnos (0,12 %) aj medián (0,16 %) sú
pozitívne a naznačujú mierny rastový trend, zatiaľ čo bežné denné pohyby
(IQR) sa pohybujú do ±1 %.
Gold
Výnosy zlata kolíšu medzi –3,63 % a +2,21 %, čo je menej ako pri
AAPL. Priemer (0,095 %) aj medián (0,16 %) sú mierne pozitívne. Nižší
IQR potvrdzuje stabilnejší charakter zlata ako defenzívneho aktíva.
XLE
Rozpätie od –3,28 % do +3,69 % naznačuje výraznejšiu volatilitu
typickú pre energetický sektor. Priemerný výnos je takmer nulový, čo
odráža neutrálne dlhodobé smerovanie. Medián (0,15 %) je pozitívny, no
variabilita je vyššia ako pri SPY či GLD.
SPY
S&P 500 má najnižšie rozpätie výnosov (–3,02 % až +2,45 %) aj
najmenšie medzikvartilové rozpätie, čo potvrdzuje jeho stabilitu.
Priemerný denný výnos (0,085 %) aj medián (0,11 %) zostávajú pozitívne a
zodpovedajú širokému diverzifikovanému portfóliu.
2. Lineárna regresia v základnom tvare
V tejto časti odhadujeme lineárny regresný model, ktorého cieľom je
vysvetliť denné logaritmické výnosy spoločnosti Apple (AAPL) pomocou
výnosov troch ďalších finančných aktív: zlata (GLD), energetického
sektora (XLE) a indexu S&P 500 reprezentovaného ETF SPY. Ide o
najjednoduchší špecifikačný variant modelu, v ktorom predpokladáme
lineárny vzťah medzi výnosmi Apple a uvedenými vysvetľujúcimi
premennými, pričom koeficienty predstavujú okamžitú citlivosť výnosu
Apple na malé zmeny v jednotlivých aktívach. Odhad slúži ako
východiskový krok pre testovanie stanovených hypotéz aj pre následnú
diagnostiku modelu. Pôvodný regresný model:
\[AAPL\_ret = \beta_0 + \beta_1 \cdot
GLD\_ret + \beta_2 \cdot XLE\_ret + \beta_3 \cdot SPY\_ret +
u\]
model <- lm(AAPL_ret ~ GLD_ret + XLE_ret + SPY_ret, data = ret_df)
summary(model)
Call:
lm(formula = AAPL_ret ~ GLD_ret + XLE_ret + SPY_ret, data = ret_df)
Residuals:
Min 1Q Median 3Q Max
-0.044288 -0.006673 -0.000362 0.005717 0.066928
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.0003073 0.0007477 0.411 0.6814
GLD_ret 0.0028525 0.0818840 0.035 0.9722
XLE_ret -0.1950403 0.0705065 -2.766 0.0061 **
SPY_ret 1.0396059 0.1007431 10.319 <2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.01173 on 247 degrees of freedom
Multiple R-squared: 0.3122, Adjusted R-squared: 0.3038
F-statistic: 37.37 on 3 and 247 DF, p-value: < 2.2e-16
Výsledky ukazujú, že najvýznamnejším faktorom ovplyvňujúcim denný
výnos Apple je index SPY, ktorý má kladný a vysoko štatisticky významný
koeficient. To znamená, že pohyb celého trhu je kľúčovým determinantnom
správania ceny Apple, čo je v súlade s očakávaniami, keďže Apple tvorí
významnú časť indexu S&P 500. Koeficient pri GLD je veľmi malý a
neštatisticky významný, čo naznačuje, že výnosy zlata nemajú
systematický vplyv na výnosy Apple. Premenná XLE je štatisticky významná
na hladine 1 % a jej koeficient má záporné znamienko, čo naznačuje, že v
analyzovanom období sa výnosy energetického sektora pohybovali často
opačným smerom ako výnosy Apple. Celková štatistická významnosť modelu
je potvrdená F-testom a približne 31 % variability výnosov Apple je
vysvetlených zahrnutými premennými.
Korelačná matica
V tejto časti analyzujeme vzťahy medzi vysvetľujúcimi premennými
použitými v regresnom modeli. Cieľom je overiť, či sa medzi nimi
nevyskytujú silné lineárne väzby, ktoré by mohli naznačovať prítomnosť
multikolinearity. Korelačná matica poskytuje rýchny prehľad o tom, do
akej miery sa jednotlivé premenné navzájom pohybujú rovnakým smerom.
xvars <- ret_df[, c("GLD_ret", "XLE_ret", "SPY_ret")]
round(cor(xvars), 3)
GLD_ret XLE_ret SPY_ret
GLD_ret 1.000 0.210 0.265
XLE_ret 0.210 1.000 0.314
SPY_ret 0.265 0.314 1.000
Z výsledkov je zrejmé, že korelácie medzi premennými GLD_ret, XLE_ret
a SPY_ret sú relatívne nízke, pohybujú sa približne v intervale od 0.21
do 0.31. Takéto hodnoty nepredstavujú riziko výraznej multikolinearity.
Žiadna z dvojíc nevykazuje vysokú koreláciu, ktorú by bolo potrebné
ďalej riešiť (napríklad hodnoty nad 0.8 alebo 0.9). Pre regresný model
to znamená, že vysvetľujúce premenné sú dostatočne samostatné a je možné
nimi spoľahlivo odhadovať vplyv na závislú premennú.
Párové scatterploty
Na obrázku môžeme taktiež vidieť koreláciu medzi jednotlivými
premennými.
pairs(xvars,
main = "Scatterplotová matica – premenné GLD_ret, XLE_ret, SPY_ret")

Vo všetkých dvojiciach pozorujeme len mierne lineárne vzťahy, bez
výrazného smerovania bodov do jednej spoločnej línie. Body sú rozptýlené
pomerne rovnomerne a neukazujú na silnú závislosť medzi premennými.
Grafická analýza preto potvrdzuje výsledky korelačnej matice a
naznačuje, že medzi vysvetľujúcimi premennými sa nevyskytuje závažná
multikolinearita.
VIF
V tejto časti hodnotíme úroveň multikolinearity pomocou ukazovateľa
VIF (Variance Inflation Factor). Tento ukazovateľ meria, do akej miery
je variabilita odhadu regresného koeficientu zvýšená v dôsledku
korelácie s ostatnými vysvetľujúcimi premennými. Nízke hodnoty VIF
naznačujú, že premenné nie sú navzájom lineárne silno prepojené a že
koeficienty modelu sú spoľahlivo identifikované.
GLD_ret XLE_ret SPY_ret
1.096492 1.130832 1.162842
Hodnoty VIF sa pohybujú medzi 1.09 a 1.16, čo predstavuje veľmi nízku
úroveň multikolinearity. Keďže za potenciálne problematické sa považujú
hodnoty nad 5 (resp. nad 10 pri prísnejších kritériách), výsledky
jednoznačne naznačujú, že model netrpí multikolinearitou. Všetky
vysvetľujúce premenné sú dostatočne nezávislé a ich zaradenie do
spoločného regresného modelu nepredstavuje problém.
Condition Number
V tejto časti hodnotíme multikolinearitu pomocou tzv. condition
number (číselného indexu podmienky). Ide o diagnostiku založenú na
vlastných hodnotách matice X’X, ktorá ukazuje, do akej miery je regresný
model citlivý na malé zmeny v dátach. Vyššie hodnoty signalizujú väčšiu
nestabilitu odhadov a možný problém s multikolinearitou. Ako orientačné
pravidlo sa považujú za neškodné hodnoty pod 10, za mierne problematické
hodnoty medzi 10–30 a za závažnú multikolinearitu hodnoty nad 30.
X <- model.matrix(model)[, -1]
XtX <- t(X) %*% X
eig <- eigen(XtX)
condition_number <- sqrt(max(eig$values) / min(eig$values))
condition_number
[1] 1.747995
Vypočítaný condition number má hodnotu približne 1.75, čo je veľmi
nízka hodnota. Takéto číslo jednoznačne naznačuje, že matica
vysvetľujúcich premenných je dobre podmienená a model nie je citlivý na
malé zmeny v dátach. Inými slovami, výsledok potvrdzuje absenciu
multikolinearity, čo je v súlade s koreláciami aj s VIF analýzou.
Na doplnenie základných ukazovateľov multikolinearity využijeme aj
analýzu vlastných hodnôt a indexov podmienenosti. Tento postup umožňuje
získať presnejší obraz o tom, ako sú vysvetľujúce premenné rozložené v
priestore a či sa určitá ich kombinácia nespráva problematicky. Ide o
rozšírenú diagnostiku, ktorá poskytuje detailnejší pohľad na stabilitu
regresného modelu.
library(olsrr)
ols_eigen_cindex(model)
V tabuľke vidíme štyri vlastné hodnoty, ktoré reprezentujú štyri
ortogonálne komponenty priestoru vysvetľujúcich premenných. Pre každú z
nich je vypočítaný condition index, ktorý ukazuje mieru potenciálneho
numerického problému. Všetky indexy sa nachádzajú veľmi nízko, v rozsahu
1.00 až 1.53, čo je hlboko pod hranicami, ktoré by signalizovali
akýkoľvek problém (za rizikové sa považujú hodnoty nad 10 a najmä nad
30).
Ďalší pohľad poskytujú záťaže (proporcie variancií) jednotlivých
premenných v posledných stĺpcoch. Ak by existovala multikolinearita,
viaceré premenné by vykazovali vysoké hodnoty v rovnakom riadku, typicky
pri vysokom condition indexe. V tomto prípade však žiadna z premenných
nevykazuje koncentrované zaťaženie pri žiadnom z indexov, čo potvrdzuje,
že model je stabilný a nie je ovplyvnený vzájomnými lineárnymi väzbami
medzi GLD_ret, XLE_ret a SPY_ret.
Výsledok tak poskytuje dodatočný dôkaz, že multikolinearita nie je v
našom modeli prítomná — konzistentne s výsledkami korelácií, VIF aj
základného condition number.
Riešenia multikolinearity
Vynechanie premennej
Model bez GLD_ret
V tomto kroku odhadujeme model, v ktorom bola premenná GLD_ret
vynechaná zo skupiny vysvetľujúcich premenných. Cieľom je posúdiť, či
jej vylúčenie mení správanie regresného modelu, a či ostatné premenné
dokážu zachytiť variabilitu v závislej premennej bez jej prítomnosti.
Takéto porovnanie umožňuje identifikovať, do akej miery jednotlivé
premenné prispievajú k vysvetleniu AAPL_ret.
model_no_GLD <- lm(AAPL_ret ~ XLE_ret + SPY_ret, data = ret_df)
summary(model_no_GLD)
Call:
lm(formula = AAPL_ret ~ XLE_ret + SPY_ret, data = ret_df)
Residuals:
Min 1Q Median 3Q Max
-0.044297 -0.006680 -0.000397 0.005743 0.066933
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.0003094 0.0007439 0.416 0.67786
XLE_ret -0.1947011 0.0696900 -2.794 0.00562 **
SPY_ret 1.0403592 0.0981964 10.595 < 2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.01171 on 248 degrees of freedom
Multiple R-squared: 0.3122, Adjusted R-squared: 0.3066
F-statistic: 56.28 on 2 and 248 DF, p-value: < 2.2e-16
Po odstránení GLD_ret zostali v modeli premenné XLE_ret a SPY_ret.
Obe majú signifikantný vplyv na AAPL_ret, pričom SPY_ret vykazuje veľmi
silný a štatisticky jednoznačný efekt. Hodnota R-squared je približne
0.31, čo znamená, že model zachytáva podobnú úroveň variability ako
pôvodný model s tromi prediktormi. Koeficient pri XLE_ret zostáva
negatívny a signifikantný, čo naznačuje, že jeho vplyv je stabilný aj
bez zahrnutia GLD_ret. Celkovo sa výkon modelu výraznejšie nezhoršil, čo
potvrdzuje, že GLD_ret nie je kľúčovým nositeľom informácie v tomto
regresnom vzťahu.
Model bez XLE_ret
Model odhadujeme znova po vynechaní premennej XLE_ret, aby sme
posúdili jej prínos k vysvetleniu variability AAPL_ret.
model_no_XLE <- lm(AAPL_ret ~ GLD_ret + SPY_ret, data = ret_df)
summary(model_no_XLE)
Call:
lm(formula = AAPL_ret ~ GLD_ret + SPY_ret, data = ret_df)
Residuals:
Min 1Q Median 3Q Max
-0.045317 -0.007132 -0.000145 0.006499 0.067501
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.0003941 0.0007570 0.521 0.603
GLD_ret -0.0284325 0.0821797 -0.346 0.730
SPY_ret 0.9632624 0.0981801 9.811 <2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.01189 on 248 degrees of freedom
Multiple R-squared: 0.2909, Adjusted R-squared: 0.2852
F-statistic: 50.86 on 2 and 248 DF, p-value: < 2.2e-16
Po odstránení XLE_ret zostávajú v modeli premenné GLD_ret a SPY_ret.
Premenná SPY_ret zostáva výrazne signifikantná a naďalej predstavuje
dominantný zdroj vysvetľujúcej sily v modeli. Koeficient pri GLD_ret nie
je štatisticky významný, čo naznačuje, že jeho informačný prínos je
veľmi obmedzený. Hodnota R-squared sa mierne znížila, ale zostáva
porovnateľná s ostatnými redukovanými modelmi, čo potvrdzuje, že
vynechanie XLE_ret nemá zásadný vplyv na celkovú kvalitu regresie. Model
preto dobre funguje aj bez tejto premennej.
Model bez SPY_ret
Model odhadujeme po vynechaní premennej SPY_ret, aby sme zistili, do
akej miery na nej závisí vysvetľujúca sila pôvodnej regresie.
model_no_SPY <- lm(AAPL_ret ~ GLD_ret + XLE_ret, data = ret_df)
summary(model_no_SPY)
Call:
lm(formula = AAPL_ret ~ GLD_ret + XLE_ret, data = ret_df)
Residuals:
Min 1Q Median 3Q Max
-0.047934 -0.008045 0.000562 0.007643 0.068597
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.0010172 0.0008889 1.144 0.2536
GLD_ret 0.1842357 0.0954812 1.930 0.0548 .
XLE_ret 0.0042769 0.0809565 0.053 0.9579
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.01401 on 248 degrees of freedom
Multiple R-squared: 0.01565, Adjusted R-squared: 0.007708
F-statistic: 1.971 on 2 and 248 DF, p-value: 0.1415
Po odstránení SPY_ret zostávajú v modeli premenné GLD_ret a XLE_ret,
avšak ani jedna z nich nevykazuje štatisticky významný vplyv na
AAPL_ret. Hodnota R-squared výrazne klesla na približne 0.02, čo
znamená, že model prakticky nedokáže vysvetliť variabilitu závislej
premennej. Výrazný pokles vysvetľovacej schopnosti a nesignifikantnosť
koeficientov ukazujú, že SPY_ret je kľúčovou premennou v pôvodnom modeli
a nesie hlavnú časť informácie o vývoji výnosov AAPL.
Škálovanie premenných
Model bol odhadnutý s centrovanými a štandardizovanými hodnotami
vysvetľujúcich premenných, aby sa zhodnotilo, či transformácia ovplyvní
stabilitu koeficientov a diagnostiku multikolinearity.
ret_df_c <- ret_df %>%
mutate(
GLD_c = scale(GLD_ret, center = TRUE, scale = FALSE),
XLE_c = scale(XLE_ret, center = TRUE, scale = FALSE),
SPY_c = scale(SPY_ret, center = TRUE, scale = FALSE)
)
# Odhad modelu s centrovanými premennými
model_centered <- lm(AAPL_ret ~ GLD_c + XLE_c + SPY_c, data = ret_df)
summary(model_centered)
Call:
lm(formula = AAPL_ret ~ GLD_c + XLE_c + SPY_c, data = ret_df)
Residuals:
Min 1Q Median 3Q Max
-0.044288 -0.006673 -0.000362 0.005717 0.066928
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.193e-03 7.407e-04 1.610 0.1087
GLD_c 2.707e-05 7.772e-04 0.035 0.9722
XLE_c -2.183e-03 7.892e-04 -2.766 0.0061 **
SPY_c 8.259e-03 8.003e-04 10.319 <2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.01173 on 247 degrees of freedom
Multiple R-squared: 0.3122, Adjusted R-squared: 0.3038
F-statistic: 37.37 on 3 and 247 DF, p-value: < 2.2e-16
GLD_c XLE_c SPY_c
1.096492 1.130832 1.162842
Centrovanie a škálovanie nemení štatistickú významnosť ani smer
pôsobenia jednotlivých premenných. Premenná SPY_c zostáva výrazne
signifikantná a dominuje vysvetľujúcej sile modelu, zatiaľ čo GLD_c opäť
nevykazuje žiadny významný vplyv. Koeficient pri XLE_c zostáva negatívny
a štatisticky významný, čo je v súlade s pôvodným modelom. Hodnota
R-squared sa prakticky nezmenila, čo ukazuje, že transformácia nemala
vplyv na celkovú kvalitu regresie. VIF hodnoty zostávajú veľmi nízke, čo
potvrdzuje absenciu multikolinearity aj po transformácii.
Condition number vypočítaný pre centrovaný model slúži ako doplnkový
ukazovateľ na posúdenie, či transformácia premenných ovplyvnila
stabilitu numerického riešenia regresie.
Conditional Number je
X <- model.matrix(model_centered)[, -1]
XtX <- t(X) %*% X
eig <- eigen(XtX)
condition_number <- sqrt(max(eig$values) / min(eig$values))
condition_number
[1] 1.503723
Hodnota condition number je približne 1.50, čo predstavuje veľmi
nízku úroveň a potvrdzuje, že ani po centrovaní nevznikajú žiadne
náznaky multikolinearity. Model je numericky stabilný, premenné sa
správajú nezávisle a transformácia nezmenila vzťahy medzi nimi. Táto
diagnostika tak podporuje záver, že multikolinearita v dátach
nepredstavuje problém.
Porovnanie centrovaného a základného modelu
Porovnanie pôvodného a centrovaného modelu umožňuje overiť, či
transformácia vysvetľujúcich premenných ovplyvnila výšku koeficientov a
smerodajné odchýlky. Tento postup ukazuje, či sú odhady stabilné voči
zmene mierky premenných a pomáha identifikovať prípadnú citlivosť
modelu.
library(broom)
compare <- bind_cols(
tidy(model)[, c("term", "estimate", "std.error")] %>% rename(estimate_raw = estimate, se_raw = std.error),
tidy(model_centered)[, c("estimate", "std.error")] %>% rename(estimate_c = estimate, se_c = std.error)
)
compare
Z porovnania vidno, že centrovanie nemá vplyv na štatistickú
významnosť ani smer pôsobenia jednotlivých premenných. Hodnoty odhadov
sa síce zmenili v absolútnych číslach (čo je prirodzený dôsledok
transformácie), avšak ich relatívne pôsobenie a významnosť zostali
rovnaké. Smerodajné odchýlky sa zmenili len minimálne, čo naznačuje, že
model je stabilný a neprejavuje citlivosť na rozdielne mierky
vysvetľujúcich premenných. Celkové správanie modelu tak potvrdzuje, že
multikolinearita nepredstavuje problém a výsledky sú robustné aj po
centrovaní.
Iná úprava premennej, ktorá zachová interpretovateľnosť
Lineárny model s percentuálnymi jednotkami prediktorov
Aby sme zvýšili interpretovateľnosť regresného modelu, prevedieme
vysvetľujúce premenné z pôvodných log-výnosov na percentuálne zmeny.
Tento postup nemení štatistickú podstatu modelu, ale umožňuje
jednoduchšie čítanie koeficientov – odhad následne vyjadruje zmenu
AAPL_ret pri zmene vysvetľujúcej premennej o jeden percentuálny bod.
Okrem zrozumiteľnosti zároveň preverujeme, či prevod na inú mierku
nejako ovplyvní diagnostiku multikolinearity alebo stabilitu modelových
odhadov.
# Prevody vysvetľujúcich premenných na percentuálne body
ret_df$GLD_pct <- 100 * ret_df$GLD_ret
ret_df$XLE_pct <- 100 * ret_df$XLE_ret
ret_df$SPY_pct <- 100 * ret_df$SPY_ret
# Lineárny model s percentuálnymi jednotkami prediktorov
model_pct <- lm(AAPL_ret ~ GLD_pct + XLE_pct + SPY_pct, data = ret_df)
summary(model_pct)
Call:
lm(formula = AAPL_ret ~ GLD_pct + XLE_pct + SPY_pct, data = ret_df)
Residuals:
Min 1Q Median 3Q Max
-0.044288 -0.006673 -0.000362 0.005717 0.066928
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 3.073e-04 7.477e-04 0.411 0.6814
GLD_pct 2.852e-05 8.188e-04 0.035 0.9722
XLE_pct -1.950e-03 7.051e-04 -2.766 0.0061 **
SPY_pct 1.040e-02 1.007e-03 10.319 <2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.01173 on 247 degrees of freedom
Multiple R-squared: 0.3122, Adjusted R-squared: 0.3038
F-statistic: 37.37 on 3 and 247 DF, p-value: < 2.2e-16
Model s percentuálnymi jednotkami poskytuje prakticky rovnaké
výsledky ako pôvodný model s log-výnosmi. Premenná SPY_pct zostáva veľmi
silným a štatisticky významným prediktorom AAPL_ret, čo potvrdzuje jej
dominantnú úlohu pri vysvetľovaní zmien v závislej premennej. Premenná
XLE_pct opäť vykazuje štatisticky významný negatívny vplyv, a to rovnako
ako v predchádzajúcich odhadoch. Premenná GLD_pct ostáva bez
štatistického významu, čo naznačuje, že informácia z tejto premennej
neprispieva k vysvetleniu výnosov AAPL. Hodnota R-squared zostáva na
približne rovnakej úrovni ako v predchádzajúcich modeloch, čo ukazuje,
že zmena jednotiek nemení vysvetľovaciu silu regresie.
VIF diagnostika
# VIF diagnostika
vif(model_pct)
GLD_pct XLE_pct SPY_pct
1.096492 1.130832 1.162842
Hodnoty VIF sú veľmi nízke (približne 1.1), čo potvrdzuje absenciu
multikolinearity aj po prevedení premenných na percentuálne zmeny.
Všetky vysvetľujúce premenné sú navzájom nezávislé v takom rozsahu, že
ich spoločné zahrnutie do regresného modelu nepredstavuje žiadny
problém.
Condition number
# Condition number (rovnaká logika ako v cvičení)
X <- model.matrix(model_pct)[, -1]
XtX <- t(X) %*% X
eig <- eigen(XtX)
condition_number <- sqrt(max(eig$values) / min(eig$values))
condition_number
[1] 1.747995
Vypočítaná hodnota condition number je približne 1.75, čo je veľmi
nízka hodnota a zodpovedá dobre podmienenému regresnému modelu. To
znamená, že numerická stabilita modelu zostáva zachovaná a že ani po
zmene jednotiek nedochádza k zvýšeniu citlivosti modelu na malé zmeny vo
vysvetľujúcich premenných.
