knitr::opts_chunk$set(
    echo = TRUE,
    message = FALSE,
    warning = FALSE
)
library(zoo)
library(tseries)
library(lmtest)
library(sandwich)
library(car)
rm(list=ls())

1. Úvod a údaje

Cieľom tejto úlohy je analyzovať vzťahy medzi logaritmickými dennými výnosmi vybraného akciového titulu a výnosmi ďalších finančných aktív. Konkrétne sa zameriavame na spoločnosť Apple (AAPL) a skúmame, do akej miery sa jej denné výnosy dajú vysvetliť vývojom na trhu so zlatom (GLD), energetickým sektorom (XLE) a celkovým trhovým indexom S&P 500 (SPY).

Výber aktív umožňuje porovnať správanie technologickej akcie s rôznymi časťami finančného trhu — komoditami, sektorovými ETF a širokým trhovým benchmarkom. Použitím denných logaritmických výnosov eliminujeme vplyv úrovne cien a získavame časový rad vhodný na ekonometrickú analýzu.

Úvod do problému a stanovenie hypotéz

Denné výnosy akciových titulov reagujú na široké spektrum faktorov, ktoré zahŕňajú celkový trhový sentiment, vývoj v jednotlivých sektoroch aj pohyby alternatívnych aktív. Technologické spoločnosti, medzi ktoré patrí aj Apple (AAPL), bývajú typicky veľmi citlivé na zmeny vo výkonnosti celého trhu, ale ich správanie môže byť ovplyvnené aj špecifickými segmentmi, ako sú komodity alebo odvetvové ETF. V tejto úlohe preto analyzujeme, ako sa denné logaritmické výnosy spoločnosti Apple vyvíjajú v závislosti od výnosov troch ďalších aktív: indexu S&P 500 reprezentovaného ETF SPY, zlata prostredníctvom ETF GLD a energetického sektora cez ETF XLE. Cieľom je zistiť, či zmeny v týchto aktívach dokážu štatisticky významne vysvetliť správanie sa výnosov Apple a či má najväčší vplyv práve celkový trh, ako by naznačovala ekonomická intuícia.

Naša pracovná hypotéza predpokladá, že všetky tri vysvetľujúce premenné – výnosy indexu SPY, výnosy zlata (GLD) a výnosy energetického sektora (XLE) – majú štatisticky významný vplyv na denné logaritmické výnosy spoločnosti Apple (AAPL). Očakávame pritom, že výnosy trhu reprezentované ETF SPY budú mať pozitívny vplyv, keďže Apple je súčasťou indexu S&P 500 a jeho cena spravidla rastie v súlade s celkovým trhovým sentimentom.

V prípade výnosov zlata predpokladáme, že vplyv môže byť buď mierne negatívny, alebo veľmi slabý, keďže zlato často funguje ako bezpečné aktívum a jeho výnosy sa môžu pohybovať opačne než akciové trhy. Pri energetickom sektore očakávame, že jeho výnosy budú mať kladný vplyv na výnosy Apple, keďže rast energetického sektora býva spojený s lepším makroekonomickým prostredím, vyššou ekonomickou aktivitou a celkovo pozitívnym sentimentom investorov.

Pracovná hypotéza teda tvrdí, že všetky tri koeficienty v regresnom modeli sú štatisticky významné, pričom odhadovaný koeficient pri SPY by mal byť kladný, koeficient pri XLE taktiež kladný a koeficient pri GLD mierne záporný alebo blízko nule. Spoločná nulová hypotéza tvrdí, že žiadna z vysvetľujúcich premenných nevysvetľuje správanie výnosov Apple, čo znamená, že všetky koeficienty sú rovné nule; túto hypotézu testujeme F-testom v rámci lineárneho regresného modelu.

Budeme testovať hypotézu

\(H_0:\) model je správne špecifikovaný (\(\gamma_2 = \gamma_3 = 0\))

oproti

\(H_1:\) model je nesprávne špecifikovaný (\(\gamma_2 \ne 0 \quad \text{alebo} \quad \gamma_3 \ne 0\))

Import údajov

Na začiatok si importujeme údaje. Vybrala som si dáta o cene akcií spoločnosti Apple a ETF’s, ktoré opisujú vývoj trhu zlata (GLD), energetického sektora (XLE) a (SPY), ktoré kopíruje trh S&P 500. Dáta sú za obdobie 1.1.2024-1.1.2025. Údaje sú stiahnuté priamo z internetu, z databázy YahooFinance. Tieto hodnoty predstavujú vývoj cien, na ktorom budeme následne analyzovať logaritmické výnosnosti a vzájomné vzťahy medzi výnosnosťami daných aktív.

tickers <- c("AAPL", "GLD", "XLE", "SPY")   # Apple, Gold ETF, Energy ETF, S&P500 ETF
getSymbols(tickers, from = "2024-01-01", to = "2025-01-01")
[1] "AAPL" "GLD"  "XLE"  "SPY" 
data <- merge(Cl(AAPL), Cl(GLD), Cl(XLE), Cl(SPY))
colnames(data) <- tickers

ret <- na.omit(diff(log(data)))
colnames(ret) <- paste0(colnames(ret), "_ret")

ret_df <- na.omit(as.data.frame(ret))
head(ret_df)

Deskriptívna štatistika

V nasledujúcej časti vykonávame deskriptívnu štatistiku denných logaritmických výnosov štyroch finančných aktív, aby sme získali základný prehľad o ich rozdelení a volatilite.

summary(ret_df)
    AAPL_ret            GLD_ret              XLE_ret              SPY_ret         
 Min.   :-0.049366   Min.   :-0.0363355   Min.   :-3.276e-02   Min.   :-0.030257  
 1st Qu.:-0.006736   1st Qu.:-0.0042584   1st Qu.:-6.372e-03   1st Qu.:-0.003000  
 Median : 0.001595   Median : 0.0016010   Median : 1.543e-03   Median : 0.001093  
 Mean   : 0.001193   Mean   : 0.0009509   Mean   : 4.302e-05   Mean   : 0.000857  
 3rd Qu.: 0.009288   3rd Qu.: 0.0073401   3rd Qu.: 6.793e-03   3rd Qu.: 0.005756  
 Max.   : 0.070131   Max.   : 0.0221408   Max.   : 3.691e-02   Max.   : 0.024561  

Apple

Rozpätie výnosov sa pohybuje od –4,94 % po +7,01 %, čo z aktív robí najvolatilnejšie. Priemerný denný výnos (0,12 %) aj medián (0,16 %) sú pozitívne a naznačujú mierny rastový trend, zatiaľ čo bežné denné pohyby (IQR) sa pohybujú do ±1 %.

Gold

Výnosy zlata kolíšu medzi –3,63 % a +2,21 %, čo je menej ako pri AAPL. Priemer (0,095 %) aj medián (0,16 %) sú mierne pozitívne. Nižší IQR potvrdzuje stabilnejší charakter zlata ako defenzívneho aktíva.

XLE

Rozpätie od –3,28 % do +3,69 % naznačuje výraznejšiu volatilitu typickú pre energetický sektor. Priemerný výnos je takmer nulový, čo odráža neutrálne dlhodobé smerovanie. Medián (0,15 %) je pozitívny, no variabilita je vyššia ako pri SPY či GLD.

SPY

S&P 500 má najnižšie rozpätie výnosov (–3,02 % až +2,45 %) aj najmenšie medzikvartilové rozpätie, čo potvrdzuje jeho stabilitu. Priemerný denný výnos (0,085 %) aj medián (0,11 %) zostávajú pozitívne a zodpovedajú širokému diverzifikovanému portfóliu.

2. Lineárna regresia v základnom tvare

V tejto časti odhadujeme lineárny regresný model, ktorého cieľom je vysvetliť denné logaritmické výnosy spoločnosti Apple (AAPL) pomocou výnosov troch ďalších finančných aktív: zlata (GLD), energetického sektora (XLE) a indexu S&P 500 reprezentovaného ETF SPY. Ide o najjednoduchší špecifikačný variant modelu, v ktorom predpokladáme lineárny vzťah medzi výnosmi Apple a uvedenými vysvetľujúcimi premennými, pričom koeficienty predstavujú okamžitú citlivosť výnosu Apple na malé zmeny v jednotlivých aktívach. Odhad slúži ako východiskový krok pre testovanie stanovených hypotéz aj pre následnú diagnostiku modelu. Pôvodný regresný model:

\[AAPL\_ret = \beta_0 + \beta_1 \cdot GLD\_ret + \beta_2 \cdot XLE\_ret + \beta_3 \cdot SPY\_ret + u\]

model <- lm(AAPL_ret ~ GLD_ret + XLE_ret + SPY_ret, data = ret_df)
summary(model)

Call:
lm(formula = AAPL_ret ~ GLD_ret + XLE_ret + SPY_ret, data = ret_df)

Residuals:
      Min        1Q    Median        3Q       Max 
-0.044288 -0.006673 -0.000362  0.005717  0.066928 

Coefficients:
              Estimate Std. Error t value Pr(>|t|)    
(Intercept)  0.0003073  0.0007477   0.411   0.6814    
GLD_ret      0.0028525  0.0818840   0.035   0.9722    
XLE_ret     -0.1950403  0.0705065  -2.766   0.0061 ** 
SPY_ret      1.0396059  0.1007431  10.319   <2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.01173 on 247 degrees of freedom
Multiple R-squared:  0.3122,    Adjusted R-squared:  0.3038 
F-statistic: 37.37 on 3 and 247 DF,  p-value: < 2.2e-16

Výsledky ukazujú, že najvýznamnejším faktorom ovplyvňujúcim denný výnos Apple je index SPY, ktorý má kladný a vysoko štatisticky významný koeficient. To znamená, že pohyb celého trhu je kľúčovým determinantnom správania ceny Apple, čo je v súlade s očakávaniami, keďže Apple tvorí významnú časť indexu S&P 500. Koeficient pri GLD je veľmi malý a neštatisticky významný, čo naznačuje, že výnosy zlata nemajú systematický vplyv na výnosy Apple. Premenná XLE je štatisticky významná na hladine 1 % a jej koeficient má záporné znamienko, čo naznačuje, že v analyzovanom období sa výnosy energetického sektora pohybovali často opačným smerom ako výnosy Apple. Celková štatistická významnosť modelu je potvrdená F-testom a približne 31 % variability výnosov Apple je vysvetlených zahrnutými premennými.

Korelačná matica

V tejto časti analyzujeme vzťahy medzi vysvetľujúcimi premennými použitými v regresnom modeli. Cieľom je overiť, či sa medzi nimi nevyskytujú silné lineárne väzby, ktoré by mohli naznačovať prítomnosť multikolinearity. Korelačná matica poskytuje rýchny prehľad o tom, do akej miery sa jednotlivé premenné navzájom pohybujú rovnakým smerom.

xvars <- ret_df[, c("GLD_ret", "XLE_ret", "SPY_ret")]
round(cor(xvars), 3)
        GLD_ret XLE_ret SPY_ret
GLD_ret   1.000   0.210   0.265
XLE_ret   0.210   1.000   0.314
SPY_ret   0.265   0.314   1.000

Z výsledkov je zrejmé, že korelácie medzi premennými GLD_ret, XLE_ret a SPY_ret sú relatívne nízke, pohybujú sa približne v intervale od 0.21 do 0.31. Takéto hodnoty nepredstavujú riziko výraznej multikolinearity. Žiadna z dvojíc nevykazuje vysokú koreláciu, ktorú by bolo potrebné ďalej riešiť (napríklad hodnoty nad 0.8 alebo 0.9). Pre regresný model to znamená, že vysvetľujúce premenné sú dostatočne samostatné a je možné nimi spoľahlivo odhadovať vplyv na závislú premennú.

Párové scatterploty

Na obrázku môžeme taktiež vidieť koreláciu medzi jednotlivými premennými.

pairs(xvars,
      main = "Scatterplotová matica – premenné GLD_ret, XLE_ret, SPY_ret")

Vo všetkých dvojiciach pozorujeme len mierne lineárne vzťahy, bez výrazného smerovania bodov do jednej spoločnej línie. Body sú rozptýlené pomerne rovnomerne a neukazujú na silnú závislosť medzi premennými. Grafická analýza preto potvrdzuje výsledky korelačnej matice a naznačuje, že medzi vysvetľujúcimi premennými sa nevyskytuje závažná multikolinearita.

VIF

V tejto časti hodnotíme úroveň multikolinearity pomocou ukazovateľa VIF (Variance Inflation Factor). Tento ukazovateľ meria, do akej miery je variabilita odhadu regresného koeficientu zvýšená v dôsledku korelácie s ostatnými vysvetľujúcimi premennými. Nízke hodnoty VIF naznačujú, že premenné nie sú navzájom lineárne silno prepojené a že koeficienty modelu sú spoľahlivo identifikované.

vif(model)
 GLD_ret  XLE_ret  SPY_ret 
1.096492 1.130832 1.162842 

Hodnoty VIF sa pohybujú medzi 1.09 a 1.16, čo predstavuje veľmi nízku úroveň multikolinearity. Keďže za potenciálne problematické sa považujú hodnoty nad 5 (resp. nad 10 pri prísnejších kritériách), výsledky jednoznačne naznačujú, že model netrpí multikolinearitou. Všetky vysvetľujúce premenné sú dostatočne nezávislé a ich zaradenie do spoločného regresného modelu nepredstavuje problém.

Condition Number

V tejto časti hodnotíme multikolinearitu pomocou tzv. condition number (číselného indexu podmienky). Ide o diagnostiku založenú na vlastných hodnotách matice X’X, ktorá ukazuje, do akej miery je regresný model citlivý na malé zmeny v dátach. Vyššie hodnoty signalizujú väčšiu nestabilitu odhadov a možný problém s multikolinearitou. Ako orientačné pravidlo sa považujú za neškodné hodnoty pod 10, za mierne problematické hodnoty medzi 10–30 a za závažnú multikolinearitu hodnoty nad 30.

X <- model.matrix(model)[, -1]
XtX <- t(X) %*% X
eig <- eigen(XtX)

condition_number <- sqrt(max(eig$values) / min(eig$values))
condition_number
[1] 1.747995

Vypočítaný condition number má hodnotu približne 1.75, čo je veľmi nízka hodnota. Takéto číslo jednoznačne naznačuje, že matica vysvetľujúcich premenných je dobre podmienená a model nie je citlivý na malé zmeny v dátach. Inými slovami, výsledok potvrdzuje absenciu multikolinearity, čo je v súlade s koreláciami aj s VIF analýzou.

Na doplnenie základných ukazovateľov multikolinearity využijeme aj analýzu vlastných hodnôt a indexov podmienenosti. Tento postup umožňuje získať presnejší obraz o tom, ako sú vysvetľujúce premenné rozložené v priestore a či sa určitá ich kombinácia nespráva problematicky. Ide o rozšírenú diagnostiku, ktorá poskytuje detailnejší pohľad na stabilitu regresného modelu.

library(olsrr)
ols_eigen_cindex(model)

V tabuľke vidíme štyri vlastné hodnoty, ktoré reprezentujú štyri ortogonálne komponenty priestoru vysvetľujúcich premenných. Pre každú z nich je vypočítaný condition index, ktorý ukazuje mieru potenciálneho numerického problému. Všetky indexy sa nachádzajú veľmi nízko, v rozsahu 1.00 až 1.53, čo je hlboko pod hranicami, ktoré by signalizovali akýkoľvek problém (za rizikové sa považujú hodnoty nad 10 a najmä nad 30).

Ďalší pohľad poskytujú záťaže (proporcie variancií) jednotlivých premenných v posledných stĺpcoch. Ak by existovala multikolinearita, viaceré premenné by vykazovali vysoké hodnoty v rovnakom riadku, typicky pri vysokom condition indexe. V tomto prípade však žiadna z premenných nevykazuje koncentrované zaťaženie pri žiadnom z indexov, čo potvrdzuje, že model je stabilný a nie je ovplyvnený vzájomnými lineárnymi väzbami medzi GLD_ret, XLE_ret a SPY_ret.

Výsledok tak poskytuje dodatočný dôkaz, že multikolinearita nie je v našom modeli prítomná — konzistentne s výsledkami korelácií, VIF aj základného condition number.

Riešenia multikolinearity

Vynechanie premennej

Model bez GLD_ret

V tomto kroku odhadujeme model, v ktorom bola premenná GLD_ret vynechaná zo skupiny vysvetľujúcich premenných. Cieľom je posúdiť, či jej vylúčenie mení správanie regresného modelu, a či ostatné premenné dokážu zachytiť variabilitu v závislej premennej bez jej prítomnosti. Takéto porovnanie umožňuje identifikovať, do akej miery jednotlivé premenné prispievajú k vysvetleniu AAPL_ret.

model_no_GLD <- lm(AAPL_ret ~ XLE_ret + SPY_ret, data = ret_df)
summary(model_no_GLD)

Call:
lm(formula = AAPL_ret ~ XLE_ret + SPY_ret, data = ret_df)

Residuals:
      Min        1Q    Median        3Q       Max 
-0.044297 -0.006680 -0.000397  0.005743  0.066933 

Coefficients:
              Estimate Std. Error t value Pr(>|t|)    
(Intercept)  0.0003094  0.0007439   0.416  0.67786    
XLE_ret     -0.1947011  0.0696900  -2.794  0.00562 ** 
SPY_ret      1.0403592  0.0981964  10.595  < 2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.01171 on 248 degrees of freedom
Multiple R-squared:  0.3122,    Adjusted R-squared:  0.3066 
F-statistic: 56.28 on 2 and 248 DF,  p-value: < 2.2e-16

Po odstránení GLD_ret zostali v modeli premenné XLE_ret a SPY_ret. Obe majú signifikantný vplyv na AAPL_ret, pričom SPY_ret vykazuje veľmi silný a štatisticky jednoznačný efekt. Hodnota R-squared je približne 0.31, čo znamená, že model zachytáva podobnú úroveň variability ako pôvodný model s tromi prediktormi. Koeficient pri XLE_ret zostáva negatívny a signifikantný, čo naznačuje, že jeho vplyv je stabilný aj bez zahrnutia GLD_ret. Celkovo sa výkon modelu výraznejšie nezhoršil, čo potvrdzuje, že GLD_ret nie je kľúčovým nositeľom informácie v tomto regresnom vzťahu.

Model bez XLE_ret

Model odhadujeme znova po vynechaní premennej XLE_ret, aby sme posúdili jej prínos k vysvetleniu variability AAPL_ret.

model_no_XLE <- lm(AAPL_ret ~ GLD_ret + SPY_ret, data = ret_df)
summary(model_no_XLE)

Call:
lm(formula = AAPL_ret ~ GLD_ret + SPY_ret, data = ret_df)

Residuals:
      Min        1Q    Median        3Q       Max 
-0.045317 -0.007132 -0.000145  0.006499  0.067501 

Coefficients:
              Estimate Std. Error t value Pr(>|t|)    
(Intercept)  0.0003941  0.0007570   0.521    0.603    
GLD_ret     -0.0284325  0.0821797  -0.346    0.730    
SPY_ret      0.9632624  0.0981801   9.811   <2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.01189 on 248 degrees of freedom
Multiple R-squared:  0.2909,    Adjusted R-squared:  0.2852 
F-statistic: 50.86 on 2 and 248 DF,  p-value: < 2.2e-16

Po odstránení XLE_ret zostávajú v modeli premenné GLD_ret a SPY_ret. Premenná SPY_ret zostáva výrazne signifikantná a naďalej predstavuje dominantný zdroj vysvetľujúcej sily v modeli. Koeficient pri GLD_ret nie je štatisticky významný, čo naznačuje, že jeho informačný prínos je veľmi obmedzený. Hodnota R-squared sa mierne znížila, ale zostáva porovnateľná s ostatnými redukovanými modelmi, čo potvrdzuje, že vynechanie XLE_ret nemá zásadný vplyv na celkovú kvalitu regresie. Model preto dobre funguje aj bez tejto premennej.

Model bez SPY_ret

Model odhadujeme po vynechaní premennej SPY_ret, aby sme zistili, do akej miery na nej závisí vysvetľujúca sila pôvodnej regresie.

model_no_SPY <- lm(AAPL_ret ~ GLD_ret + XLE_ret, data = ret_df)
summary(model_no_SPY)

Call:
lm(formula = AAPL_ret ~ GLD_ret + XLE_ret, data = ret_df)

Residuals:
      Min        1Q    Median        3Q       Max 
-0.047934 -0.008045  0.000562  0.007643  0.068597 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)  
(Intercept) 0.0010172  0.0008889   1.144   0.2536  
GLD_ret     0.1842357  0.0954812   1.930   0.0548 .
XLE_ret     0.0042769  0.0809565   0.053   0.9579  
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.01401 on 248 degrees of freedom
Multiple R-squared:  0.01565,   Adjusted R-squared:  0.007708 
F-statistic: 1.971 on 2 and 248 DF,  p-value: 0.1415

Po odstránení SPY_ret zostávajú v modeli premenné GLD_ret a XLE_ret, avšak ani jedna z nich nevykazuje štatisticky významný vplyv na AAPL_ret. Hodnota R-squared výrazne klesla na približne 0.02, čo znamená, že model prakticky nedokáže vysvetliť variabilitu závislej premennej. Výrazný pokles vysvetľovacej schopnosti a nesignifikantnosť koeficientov ukazujú, že SPY_ret je kľúčovou premennou v pôvodnom modeli a nesie hlavnú časť informácie o vývoji výnosov AAPL.

Škálovanie premenných

Model bol odhadnutý s centrovanými a štandardizovanými hodnotami vysvetľujúcich premenných, aby sa zhodnotilo, či transformácia ovplyvní stabilitu koeficientov a diagnostiku multikolinearity.

ret_df_c <- ret_df %>%
  mutate(
    GLD_c = scale(GLD_ret, center = TRUE, scale = FALSE),
    XLE_c = scale(XLE_ret, center = TRUE, scale = FALSE),
    SPY_c = scale(SPY_ret, center = TRUE, scale = FALSE)
  )

# Odhad modelu s centrovanými premennými
model_centered <- lm(AAPL_ret ~ GLD_c + XLE_c + SPY_c, data = ret_df)
summary(model_centered)

Call:
lm(formula = AAPL_ret ~ GLD_c + XLE_c + SPY_c, data = ret_df)

Residuals:
      Min        1Q    Median        3Q       Max 
-0.044288 -0.006673 -0.000362  0.005717  0.066928 

Coefficients:
              Estimate Std. Error t value Pr(>|t|)    
(Intercept)  1.193e-03  7.407e-04   1.610   0.1087    
GLD_c        2.707e-05  7.772e-04   0.035   0.9722    
XLE_c       -2.183e-03  7.892e-04  -2.766   0.0061 ** 
SPY_c        8.259e-03  8.003e-04  10.319   <2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.01173 on 247 degrees of freedom
Multiple R-squared:  0.3122,    Adjusted R-squared:  0.3038 
F-statistic: 37.37 on 3 and 247 DF,  p-value: < 2.2e-16
vif(model_centered)
   GLD_c    XLE_c    SPY_c 
1.096492 1.130832 1.162842 

Centrovanie a škálovanie nemení štatistickú významnosť ani smer pôsobenia jednotlivých premenných. Premenná SPY_c zostáva výrazne signifikantná a dominuje vysvetľujúcej sile modelu, zatiaľ čo GLD_c opäť nevykazuje žiadny významný vplyv. Koeficient pri XLE_c zostáva negatívny a štatisticky významný, čo je v súlade s pôvodným modelom. Hodnota R-squared sa prakticky nezmenila, čo ukazuje, že transformácia nemala vplyv na celkovú kvalitu regresie. VIF hodnoty zostávajú veľmi nízke, čo potvrdzuje absenciu multikolinearity aj po transformácii.

Condition number vypočítaný pre centrovaný model slúži ako doplnkový ukazovateľ na posúdenie, či transformácia premenných ovplyvnila stabilitu numerického riešenia regresie.

Conditional Number je

X <- model.matrix(model_centered)[, -1]
XtX <- t(X) %*% X
eig <- eigen(XtX)

condition_number <- sqrt(max(eig$values) / min(eig$values))
condition_number
[1] 1.503723

Hodnota condition number je približne 1.50, čo predstavuje veľmi nízku úroveň a potvrdzuje, že ani po centrovaní nevznikajú žiadne náznaky multikolinearity. Model je numericky stabilný, premenné sa správajú nezávisle a transformácia nezmenila vzťahy medzi nimi. Táto diagnostika tak podporuje záver, že multikolinearita v dátach nepredstavuje problém.

Porovnanie centrovaného a základného modelu

Porovnanie pôvodného a centrovaného modelu umožňuje overiť, či transformácia vysvetľujúcich premenných ovplyvnila výšku koeficientov a smerodajné odchýlky. Tento postup ukazuje, či sú odhady stabilné voči zmene mierky premenných a pomáha identifikovať prípadnú citlivosť modelu.

library(broom)
compare <- bind_cols(
  tidy(model)[, c("term", "estimate", "std.error")] %>% rename(estimate_raw = estimate, se_raw = std.error),
  tidy(model_centered)[, c("estimate", "std.error")] %>% rename(estimate_c = estimate, se_c = std.error)
)
compare
NA

Z porovnania vidno, že centrovanie nemá vplyv na štatistickú významnosť ani smer pôsobenia jednotlivých premenných. Hodnoty odhadov sa síce zmenili v absolútnych číslach (čo je prirodzený dôsledok transformácie), avšak ich relatívne pôsobenie a významnosť zostali rovnaké. Smerodajné odchýlky sa zmenili len minimálne, čo naznačuje, že model je stabilný a neprejavuje citlivosť na rozdielne mierky vysvetľujúcich premenných. Celkové správanie modelu tak potvrdzuje, že multikolinearita nepredstavuje problém a výsledky sú robustné aj po centrovaní.

Iná úprava premennej, ktorá zachová interpretovateľnosť

Lineárny model s percentuálnymi jednotkami prediktorov

Aby sme zvýšili interpretovateľnosť regresného modelu, prevedieme vysvetľujúce premenné z pôvodných log-výnosov na percentuálne zmeny. Tento postup nemení štatistickú podstatu modelu, ale umožňuje jednoduchšie čítanie koeficientov – odhad následne vyjadruje zmenu AAPL_ret pri zmene vysvetľujúcej premennej o jeden percentuálny bod. Okrem zrozumiteľnosti zároveň preverujeme, či prevod na inú mierku nejako ovplyvní diagnostiku multikolinearity alebo stabilitu modelových odhadov.

# Prevody vysvetľujúcich premenných na percentuálne body
ret_df$GLD_pct <- 100 * ret_df$GLD_ret
ret_df$XLE_pct <- 100 * ret_df$XLE_ret
ret_df$SPY_pct <- 100 * ret_df$SPY_ret
# Lineárny model s percentuálnymi jednotkami prediktorov
model_pct <- lm(AAPL_ret ~ GLD_pct + XLE_pct + SPY_pct, data = ret_df)
summary(model_pct)

Call:
lm(formula = AAPL_ret ~ GLD_pct + XLE_pct + SPY_pct, data = ret_df)

Residuals:
      Min        1Q    Median        3Q       Max 
-0.044288 -0.006673 -0.000362  0.005717  0.066928 

Coefficients:
              Estimate Std. Error t value Pr(>|t|)    
(Intercept)  3.073e-04  7.477e-04   0.411   0.6814    
GLD_pct      2.852e-05  8.188e-04   0.035   0.9722    
XLE_pct     -1.950e-03  7.051e-04  -2.766   0.0061 ** 
SPY_pct      1.040e-02  1.007e-03  10.319   <2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.01173 on 247 degrees of freedom
Multiple R-squared:  0.3122,    Adjusted R-squared:  0.3038 
F-statistic: 37.37 on 3 and 247 DF,  p-value: < 2.2e-16

Model s percentuálnymi jednotkami poskytuje prakticky rovnaké výsledky ako pôvodný model s log-výnosmi. Premenná SPY_pct zostáva veľmi silným a štatisticky významným prediktorom AAPL_ret, čo potvrdzuje jej dominantnú úlohu pri vysvetľovaní zmien v závislej premennej. Premenná XLE_pct opäť vykazuje štatisticky významný negatívny vplyv, a to rovnako ako v predchádzajúcich odhadoch. Premenná GLD_pct ostáva bez štatistického významu, čo naznačuje, že informácia z tejto premennej neprispieva k vysvetleniu výnosov AAPL. Hodnota R-squared zostáva na približne rovnakej úrovni ako v predchádzajúcich modeloch, čo ukazuje, že zmena jednotiek nemení vysvetľovaciu silu regresie.

VIF diagnostika

# VIF diagnostika

vif(model_pct)
 GLD_pct  XLE_pct  SPY_pct 
1.096492 1.130832 1.162842 

Hodnoty VIF sú veľmi nízke (približne 1.1), čo potvrdzuje absenciu multikolinearity aj po prevedení premenných na percentuálne zmeny. Všetky vysvetľujúce premenné sú navzájom nezávislé v takom rozsahu, že ich spoločné zahrnutie do regresného modelu nepredstavuje žiadny problém.

Condition number

# Condition number (rovnaká logika ako v cvičení)
X <- model.matrix(model_pct)[, -1]
XtX <- t(X) %*% X
eig <- eigen(XtX)
condition_number <- sqrt(max(eig$values) / min(eig$values))
condition_number
[1] 1.747995

Vypočítaná hodnota condition number je približne 1.75, čo je veľmi nízka hodnota a zodpovedá dobre podmienenému regresnému modelu. To znamená, že numerická stabilita modelu zostáva zachovaná a že ani po zmene jednotiek nedochádza k zvýšeniu citlivosti modelu na malé zmeny vo vysvetľujúcich premenných.

