Predmetom tejto analýzy sú denné údaje o cenách štyroch finančných aktív: akcie Apple (AAPL), indexového fondu S&P 500 (SPY), fondu reprezentujúceho cenu zlata (GLD) a energetického sektora prostredníctvom ETF XLE. Všetky údaje boli získané z verejne dostupnej databázy Yahoo Finance a pokrývajú rovnaké časové obdobie, čo umožňuje ich vzájomné porovnanie.
Z pôvodných cien sme vypočítali denné logaritmické výnosnosti, ktoré sú štandardným vstupom v ekonometrických modeloch finančných časových radov. Logaritmická výnosnosť eliminuje efekt rozdielnych cenových hladín jednotlivých aktív, je časovo aditívna a pri vysokofrekvenčných dátach sa často približuje normálnemu rozdeleniu, čo je dôležité pri testovaní predpokladov lineárnych modelov.
Význam analýzy výnosností finančných aktív je podložený viacerými empirickými štúdiami. Bansal a kol. (2022)1 poukazujú na to, že krátkodobé zmeny na akciovom trhu vykazujú štatistické vzťahy, ktoré možno úspešne modelovať pomocou ekonometrických a strojových metód. Nabipour a kol. (2020)2 zase porovnávajú rôzne prístupy predikcie akciového trhu a zdôrazňujú, že aj jednoduché transformácie dát, ako sú logaritmické výnosnosti, výrazne zlepšujú stabilitu modelov. Tieto poznatky potvrdzujú opodstatnenosť nášho analytického postupu.
V ďalšej časti práce sa zameriame na štatistické vlastnosti vytvorených časových radov logaritmických výnosností a následne budeme skúmať, do akej miery je možné výnosnosť akcie Apple vysvetliť vývojom zvyšných troch aktív pomocou lineárneho regresného modelu.
V analýze pracujeme s dennými logaritmickými výnosnosťami štyroch finančných aktív: akcie Apple, fondu sledujúceho cenu zlata (GLD), ETF zameraného na energetický sektor (XLE) a indexového fondu S&P 500 (SPY). Dáta boli získané z databázy Yahoo Finance za obdobie roku 2024, pričom každý riadok datasetu predstavuje jeden obchodný deň a každý stĺpec denné zhodnotenie príslušného aktíva v logaritmickej forme.
Na začiatok si importujeme údaje. Vybrala som si dáta o cene akcií spoločnosti Apple a ETF’s, ktoré opisujú vývoj trhu zlata (GLD), energetického sektora (XLE) a (SPY), ktoré kopíruje trh S&P 500. Dáta sú za obdobie 1.1.2024-1.1.2025. Údaje sú stiahnuté priamo z internetu, z databázy YahooFinance. Tieto hodnoty predstavujú vývoj cien, na ktorom budeme následne analyzovať logaritmické výnosnosti a vzájomné vzťahy medzi výnosnosťami daných aktív.
## [1] "AAPL" "GLD" "XLE" "SPY"
V nasledujúcej časti vykonávame deskriptívnu štatistiku denných logaritmických výnosov štyroch finančných aktív, aby sme získali základný prehľad o ich rozdelení a volatilite.
| Statistic | AAPL_ret | GLD_ret | XLE_ret | SPY_ret | |
|---|---|---|---|---|---|
| Min. | Min. | -0.049366 | -0.036336 | -0.032761 | -0.030257 |
| 1st Qu. | 1st Qu. | -0.006736 | -0.004258 | -0.006372 | -0.003000 |
| Median | Median | 0.001595 | 0.001601 | 0.001543 | 0.001093 |
| Mean | Mean | 0.001193 | 0.000951 | 0.000043 | 0.000857 |
| 3rd Qu. | 3rd Qu. | 0.009288 | 0.007340 | 0.006793 | 0.005756 |
| Max. | Max. | 0.070131 | 0.022141 | 0.036906 | 0.024561 |
Rozpätie výnosov sa pohybuje od –4,94 % po +7,01 %, čo z aktív robí najvolatilnejšie. Priemerný denný výnos (0,12 %) aj medián (0,16 %) sú pozitívne a naznačujú mierny rastový trend, zatiaľ čo bežné denné pohyby (IQR) sa pohybujú do ±1 %.
Výnosy zlata kolíšu medzi –3,63 % a +2,21 %, čo je menej ako pri AAPL. Priemer (0,095 %) aj medián (0,16 %) sú mierne pozitívne. Nižší IQR potvrdzuje stabilnejší charakter zlata ako defenzívneho aktíva.
Rozpätie od –3,28 % do +3,69 % naznačuje výraznejšiu volatilitu typickú pre energetický sektor. Priemerný výnos je takmer nulový, čo odráža neutrálne dlhodobé smerovanie. Medián (0,15 %) je pozitívny, no variabilita je vyššia ako pri SPY či GLD.
S&P 500 má najnižšie rozpätie výnosov (–3,02 % až +2,45 %) aj najmenšie medzikvartilové rozpätie, čo potvrdzuje jeho stabilitu. Priemerný denný výnos (0,085 %) aj medián (0,11 %) zostávajú pozitívne a zodpovedajú širokému diverzifikovanému portfóliu.
Vytvoríme si graf, ktorý nám popisuje vývoj cien jednotlivých akcií za posledný rok. Pomocou tohto grafu si vieme graficky porovnať ich cenu.
Vidíme, že SPY (modrá línia) má najvyššiu a najstabilnejšiu cenu, zatiaľ čo XLE (fialová) zostáva na najnižšej úrovni. AAPL a GLD vykazujú podobný rastový trend, hoci so zreteľnými krátkodobými výkyvmi.
Z vývoja cien vypočítame logaritmické denné výnosy, ktoré lepšie vystihujú percentuálne zmeny. Na tieto výnosy vytvoríme boxplot, ktorý ukáže ich rozloženie, rozsah a prítomnosť extrémov (outliers).
Boxplot znázorňuje rozdelenie denných logaritmických výnosov jednotlivých aktív. Vidíme, že AAPL vykazuje najväčšiu variabilitu výnosov (teda vyššie riziko), zatiaľ čo SPY má najstabilnejšie rozdelenie s menším počtom extrémnych hodnôt.
Denné výnosy akciových titulov reagujú na široké spektrum faktorov, ktoré zahŕňajú celkový trhový sentiment, vývoj v jednotlivých sektoroch aj pohyby alternatívnych aktív. Technologické spoločnosti, medzi ktoré patrí aj Apple (AAPL), bývajú typicky veľmi citlivé na zmeny vo výkonnosti celého trhu, ale ich správanie môže byť ovplyvnené aj špecifickými segmentmi, ako sú komodity alebo odvetvové ETF. V tejto úlohe preto analyzujeme, ako sa denné logaritmické výnosy spoločnosti Apple vyvíjajú v závislosti od výnosov troch ďalších aktív: indexu S&P 500 reprezentovaného ETF SPY, zlata prostredníctvom ETF GLD a energetického sektora cez ETF XLE. Cieľom je zistiť, či zmeny v týchto aktívach dokážu štatisticky významne vysvetliť správanie sa výnosov Apple a či má najväčší vplyv práve celkový trh, ako by naznačovala ekonomická intuícia.
Naša pracovná hypotéza predpokladá, že všetky tri vysvetľujúce premenné – výnosy indexu SPY, výnosy zlata (GLD) a výnosy energetického sektora (XLE) – majú štatisticky významný vplyv na denné logaritmické výnosy spoločnosti Apple (AAPL). Očakávame pritom, že výnosy trhu reprezentované ETF SPY budú mať pozitívny vplyv, keďže Apple je súčasťou indexu S&P 500 a jeho cena spravidla rastie v súlade s celkovým trhovým sentimentom.
V prípade výnosov zlata predpokladáme, že vplyv môže byť buď mierne negatívny, alebo veľmi slabý, keďže zlato často funguje ako bezpečné aktívum a jeho výnosy sa môžu pohybovať opačne než akciové trhy. Pri energetickom sektore očakávame, že jeho výnosy budú mať kladný vplyv na výnosy Apple, keďže rast energetického sektora býva spojený s lepším makroekonomickým prostredím, vyššou ekonomickou aktivitou a celkovo pozitívnym sentimentom investorov.
Pracovná hypotéza teda tvrdí, že všetky tri koeficienty v regresnom modeli sú štatisticky významné, pričom odhadovaný koeficient pri SPY by mal byť kladný, koeficient pri XLE taktiež kladný a koeficient pri GLD mierne záporný alebo blízko nule. Spoločná nulová hypotéza tvrdí, že žiadna z vysvetľujúcich premenných nevysvetľuje správanie výnosov Apple, čo znamená, že všetky koeficienty sú rovné nule; túto hypotézu testujeme F-testom v rámci lineárneho regresného modelu.
Budeme testovať hypotézu
\(H_0:\) model je správne špecifikovaný (\(\gamma_2 = \gamma_3 = 0\))
oproti
\(H_1:\) model je nesprávne špecifikovaný (\(\gamma_2 \ne 0 \quad \text{alebo} \quad \gamma_3 \ne 0\))
V tejto časti odhadujeme lineárny regresný model, ktorého cieľom je vysvetliť denné logaritmické výnosy spoločnosti Apple (AAPL) pomocou výnosov troch ďalších finančných aktív: zlata (GLD), energetického sektora (XLE) a indexu S&P 500 reprezentovaného ETF SPY. Ide o najjednoduchší špecifikačný variant modelu, v ktorom predpokladáme lineárny vzťah medzi výnosmi Apple a uvedenými vysvetľujúcimi premennými, pričom koeficienty predstavujú okamžitú citlivosť výnosu Apple na malé zmeny v jednotlivých aktívach. Odhad slúži ako východiskový krok pre testovanie stanovených hypotéz aj pre následnú diagnostiku modelu. Pôvodný regresný model:
\[AAPL\_ret = \beta_0 + \beta_1 \cdot GLD\_ret + \beta_2 \cdot XLE\_ret + \beta_3 \cdot SPY\_ret + u\]
##
## Call:
## lm(formula = AAPL_ret ~ GLD_ret + XLE_ret + SPY_ret, data = ret_df)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.044288 -0.006673 -0.000362 0.005717 0.066928
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 0.0003073 0.0007477 0.411 0.6814
## GLD_ret 0.0028525 0.0818840 0.035 0.9722
## XLE_ret -0.1950403 0.0705065 -2.766 0.0061 **
## SPY_ret 1.0396059 0.1007431 10.319 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.01173 on 247 degrees of freedom
## Multiple R-squared: 0.3122, Adjusted R-squared: 0.3038
## F-statistic: 37.37 on 3 and 247 DF, p-value: < 2.2e-16
Výsledky ukazujú, že najvýznamnejším faktorom ovplyvňujúcim denný výnos Apple je index SPY, ktorý má kladný a vysoko štatisticky významný koeficient. To znamená, že pohyb celého trhu je kľúčovým determinantnom správania ceny Apple, čo je v súlade s očakávaniami, keďže Apple tvorí významnú časť indexu S&P 500. Koeficient pri GLD je veľmi malý a neštatisticky významný, čo naznačuje, že výnosy zlata nemajú systematický vplyv na výnosy Apple. Premenná XLE je štatisticky významná na hladine 1 % a jej koeficient má záporné znamienko, čo naznačuje, že v analyzovanom období sa výnosy energetického sektora pohybovali často opačným smerom ako výnosy Apple. Celková štatistická významnosť modelu je potvrdená F-testom a približne 31 % variability výnosov Apple je vysvetlených zahrnutými premennými.
Diagnostické grafy ukazujú, že model je dobre špecifikovaný. Reziduá sú rozložené rovnomerne okolo nuly, čo potvrdzuje absenciu výraznej systematickej chyby. Q-Q graf naznačuje len mierne odchýlky od normality na okrajoch rozdelenia. Graf Scale-Location potvrdzuje približne konštantnú varianciu rezíduí (homoskedasticitu) a graf Residuals vs Leverage neodhalil žiadne významné vplyvné pozorovania. Celkovo možno model považovať za stabilný a spoľahlivý.
##
## Jarque Bera Test
##
## data: residuals(model)
## X-squared = 279.24, df = 2, p-value < 2.2e-16
## rstudent unadjusted p-value Bonferroni p
## 2024-06-11 6.124176 3.5842e-09 8.9965e-07
## 2024-05-03 3.977017 9.1812e-05 2.3045e-02
## 2024-03-21 -3.891777 1.2819e-04 3.2175e-02
Výsledky testu odľahlých hodnôt (outlier test) ukazujú, že dni 2024-06-11, 2024-05-03 a 2024-03-21 predstavujú štatisticky významné odľahlé pozorovania, ktoré mali najväčší vplyv na odhady regresného modelu.
V tejto časti sa zameriavame na overenie prítomnosti heteroskedasticity v regresnom modeli. Heteroskedasticita predstavuje porušenie predpokladu konštantného rozptylu reziduí, čo môže viesť k nepresným odhadom smerodajných chýb a skresleným štatistickým záverom. Na jej identifikáciu využívame grafickú analýzu štvorcov reziduí vo vzťahu k vysvetľujúcim premenným.
Grafy zobrazujú závislosť štvorcov rezíduí od výnosov SPY_ret a XLE_ret s cieľom overiť prítomnosť heteroskedasticity. Fialová vyhladzovacia krivka je takmer vodorovná, čo naznačuje, že rozptyl rezíduí zostáva približne konštantný pri rôznych hodnotách oboch premenných. Nevidíme žiadny rozširujúci sa alebo zužujúci tvar, preto možno konštatovať, že v modeli sa heteroskedasticita nevyskytuje.
Tvar môjho pôvodného regresného modelu bol:
Lineárna regresia v základnom tvare
Tento model opisuje vzťah medzi dennými logaritmickými výnosmi akcie Apple a výnosmi zlata (GLD), energetického sektora (XLE) a indexu S&P 500 (SPY). Koeficienty pri jednotlivých premenných zachytávajú, ako citlivo reaguje výnos Apple na pohyby týchto trhových faktorov.
Rozšírený model použitý v RESET teste má tvar:
\[ AAPL\_ret = \beta_0 + \beta_1 GLD\_ret + \beta_2 XLE\_ret + \beta_3 SPY\_ret + \gamma_2 AAPL\_ret^2 + \gamma_3 AAPL\_ret^3 + u \]
RESET test rozširuje pôvodný regresný model o druhú a tretiu mocninu odhadnutých hodnôt závislej premennej. Tieto dodatočné členy testujú, či pôvodná špecifikácia modelu nezanedbala nelineárne vzťahy alebo interakcie, ktoré by mohli zlepšiť jeho vysvetľovaciu schopnosť. Ak sú koeficienty \(\gamma_2\) a \(\gamma_3\) štatisticky významné, znamená to, že pôvodný model bol nesprávne špecifikovaný.
##
## Call:
## lm(formula = AAPL_ret ~ GLD_ret + XLE_ret + SPY_ret, data = ret_df)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.044288 -0.006673 -0.000362 0.005717 0.066928
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 0.0003073 0.0007477 0.411 0.6814
## GLD_ret 0.0028525 0.0818840 0.035 0.9722
## XLE_ret -0.1950403 0.0705065 -2.766 0.0061 **
## SPY_ret 1.0396059 0.1007431 10.319 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.01173 on 247 degrees of freedom
## Multiple R-squared: 0.3122, Adjusted R-squared: 0.3038
## F-statistic: 37.37 on 3 and 247 DF, p-value: < 2.2e-16
##
## RESET test
##
## data: model
## RESET = 1.1337, df1 = 6, df2 = 241, p-value = 0.3433
Konštanta modelu nie je štatisticky významná, čo znamená, že pri nulových hodnotách všetkých vysvetľujúcich premenných sa očakávanýá výnosnosť akcie Apple výrazne nelíši od nuly.
Premenná GLD_ret nevykazuje štatisticky významný vplyv (p = 0.9722), čo naznačuje, že denné pohyby ceny zlata nie sú systematicky prepojené s výnosnosťami akcie Apple.
Premenná XLE_ret je štatisticky významná na 1% hladine (p = 0.0061) a jej koeficient je negatívny. To znamená, že rast energetického sektora je spojený s poklesom výnosností Apple, čo môže naznačovať sektorové presuny kapitálu alebo cyklické efekty v ekonomike.
Najvýraznejší vplyv má premenná SPY_ret, ktorá je vysoko štatisticky významná (p < 2e-16). Jej koeficient (1.0396) naznačuje, že Apple sa správa veľmi podobne ako širší trh reprezentovaný indexom S&P 500. To je konzistentné s tým, že Apple je veľkou súčasťou tohto trhu a jeho vývoj je s indexom úzko spätý.
Hodnota R² = 0.3122 a Adjusted R² = 0.3038 znamená, že model vysvetľuje približne 31 % variability denných výnosov Apple. V kontexte finančných časových radov, ktoré sú prirodzene veľmi volatilné a ovplyvnené veľkým množstvom náhodných faktorov, ide o bežnú a akceptovateľnú úroveň vysvetlenia.
Model ako celok je štatisticky významný (F-statistic = 37.37; p < 2.2e-16), čo znamená, že vysvetľujúce premenné spoločně významne ovplyvňujú výnosnosť Apple.
Cieľom RESET testu je overiť správnu špecifikáciu modelu, teda posúdiť, či pôvodný model nezanedbáva nelineárne vzťahy alebo iné dôležité funkčné väzby.
Výsledok testu je:
RESET = 1.1337
p-hodnota = 0.3433
Keďže p-hodnota je výrazne vyššia ako bežne používaná hladina významnosti 0.05, nezamietame nulovú hypotézu správnej špecifikácie modelu. To znamená, že nie je dôkaz o tom, že by model trpel závažnou chybnou špecifikáciou a jeho funkčná forma sa javí ako vhodná.
Grafická analýza vzťahu medzi vyrovnanými hodnotami náhodnej premennej a rezíduami:
raf Residuals vs. Fitted zobrazuje vzťah medzi vyrovnanými hodnotami modelu a jeho rezíduami. Body sú rozmiestnené relatívne náhodne okolo horizontálnej osi, čo naznačuje, že model nespôsobuje systematické chyby vo vysvetľovaní variácie výnosov Apple. Trendová čiara (červená) je takmer vodorovná, čo podporuje predpoklad, že vzťah medzi premennými je približne lineárny.
Viditeľné sú však jednotlivé odľahlé pozorovania (napr. 2024-05-03, 2024-06-11 či 2024-03-21), ktoré majú väčšie rezíduá než priemer. Tieto body môžu znižovať presnosť modelu, ale nepredstavujú jasný vzor, ktorý by naznačoval porušenie linearity alebo heteroskedasticitu. Celkovo graf nepreukazuje výrazne systematické problémy v špecifikácii modelu.
Táto analýza nám umožňuje preskúmať, či je vzťah medzi jednotlivými vysvetľujúcimi premennými a závislou premennou skutočne lineárny. Vychádzame z pôvodného modelu \[AAPL\_ret = \beta_0 + \beta_1 \cdot GLD\_ret + \beta_2 \cdot XLE\_ret + \beta_3 \cdot SPY\_ret + u\] Po odhadnutí tohto modelu vykresľujeme component + residual plots (C+R grafy), v ktorých sa na zvislej osi nachádza výraz
\[ \hat{\beta}_i x_i + e \]
a na vodorovnej osi hodnoty premenných x_i. Tieto grafy slúžia na identifikáciu prípadných nelineárnych vzťahov medzi závislou premennou a jednotlivými regresormi.
Krivka (ružová) je takmer vodorovná a drží sa veľmi blízko priamky lineárneho vzťahu (modrá čiara). Body sú rozptýlené náhodne a bez výrazného zakrivenia. To naznačuje, že medzi výnosmi Apple a cenou zlata neexistuje nelineárny vzťah a lineárna špecifikácia je postačujúca.
Pri tejto premennej sa nachádza najmiernejší náznak zakrivenia – krivka má jemný konkávny tvar. Tento odklon však nie je výrazný a je spôsobený najmä väčšou variabilitou rezíduí pri vyšších hodnotách XLE_ret. Aj napriek tomu krivka neukazuje na potrebu transformácie, keďže celkový priebeh zostáva z veľkej časti lineárny.
V tomto prípade pozorujeme jednoznačne najsilnejší lineárny vzťah. Obidve krivky sa nachádzajú takmer presne na sebe a majú stúpajúci tvar, čo potvrdzuje silnú lineárnu väzbu medzi výnosmi Apple a výnosmi širokého trhu reprezentovaného indexom S&P 500. Neexistuje dôvod na uvažovanie o transformácii tejto premennej.
C+R grafy nepreukazujú prítomnosť výraznej nelinearity v prípade žiadnej zo sledovaných premenných. Mierny náznak zakrivenia pri XLE_ret nie je dostatočne výrazný na to, aby odôvodnil transformáciu. Pre naše dáta je preto lineárna špecifikácia modelu adekvátna a transformácie premenných nie sú potrebné.
Hoci v našom prípade component + residual grafy ani RESET test nenaznačili prítomnosť výrazných nelineárnych vzťahov medzi vysvetľujúcimi premennými a výnosmi akcie Apple, pre účely pochopenia metodiky a jej praktického precvičenia sa v nasledujúcej časti pokúsime aplikovať rovnaké postupy, aké boli uvedené vo vzorovom príklade.
Cieľom teda nie je korigovať skutočnú chybu v špecifikácii modelu (keďže základný lineárny model vyhovuje), ale demonštrovať, ako možno pri potrebe nelineárne upraviť pôvodnú regresnú rovnicu, zavádzať kvadratické členy, dummy premenné či lineárne lomené funkcie a porovnávať modely pomocou ANOVA a RESET testov.
V našom prípade by rozšírený model mohol mať tvar: \[ AAPL\_ret = \beta_0 + \beta_1 GLD\_ret + \beta_2 XLE\_ret + \beta_3 SPY\_ret + \gamma_1 GLD\_ret^{2} + \gamma_2 XLE\_ret^{2} + \gamma_3 SPY\_ret^{2} + u \] Tento tvar modelu sme zvolili preto, aby sme umožnili zachytiť prípadné nelineárne vzťahy medzi výnosom akcie Apple a jednotlivými vysvetľujúcimi premennými. Zaradenie kvadratických členov rozširuje pôvodnú rovnicu o možnosť, že účinok premenných sa môže pri rôznych úrovniach ich hodnôt meniť a nemusí mať striktne lineárny priebeh. Vďaka tomu môžeme preskúmať, či takáto úprava vedie k zlepšeniu štatistických vlastností modelu.
V nadväznosti na uvedenú nelineárnu špecifikáciu sme rozšírili pôvodný lineárny model o kvadratické členy všetkých vysvetľujúcich premenných. Takto upravený model umožňuje preskúmať, či výkon regresie zlepší doplnenie nelineárnych efektov.
##
## Call:
## lm(formula = AAPL_ret ~ GLD_ret + XLE_ret + SPY_ret + I(GLD_ret^2) +
## I(XLE_ret^2) + I(SPY_ret^2), data = ret_df)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.045105 -0.007012 -0.000015 0.005256 0.065866
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 0.0015526 0.0009993 1.554 0.12155
## GLD_ret -0.0289654 0.0848839 -0.341 0.73322
## XLE_ret -0.2145706 0.0717309 -2.991 0.00306 **
## SPY_ret 1.0150168 0.1018409 9.967 < 2e-16 ***
## I(GLD_ret^2) -0.6260170 5.1560194 -0.121 0.90346
## I(XLE_ret^2) -4.8924614 4.1630691 -1.175 0.24106
## I(SPY_ret^2) -8.2685599 6.8904579 -1.200 0.23130
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.0117 on 244 degrees of freedom
## Multiple R-squared: 0.3248, Adjusted R-squared: 0.3082
## F-statistic: 19.56 on 6 and 244 DF, p-value: < 2.2e-16
##
## RESET test
##
## data: model_kvadr
## RESET = 0.054828, df1 = 2, df2 = 242, p-value = 0.9467
Po rozšírení základného modelu o kvadratické členy sa ukázalo, že žiadny z nich nie je štatisticky významný. Lineárne koeficienty si pritom zachovali rovnaké vlastnosti ako v pôvodnom modeli – najvyššiu významnosť má trhový faktor, kým ostatné premenné sa zásadne nemenia.
Upravený koeficient determinácie sa po pridaní kvadratických členov zvýšil len minimálne (zhruba o 0.004), čo predstavuje veľmi malý posun. ANOVA test naznačil, že rozdiel medzi modelmi nie je štatisticky významný, takže rozšírenie neprinieslo citeľné zlepšenie.
RESET test modifikovaného modelu má vysokú p-hodnotu, čo opäť potvrdzuje, že model neobsahuje chybnú špecifikáciu. Kvadratické členy teda nezachytili žiadnu dodatočnú nelinearitu, ktorá by bola z hľadiska týchto dát relevantná.
V ďalšom kroku sme sa pokúsili zachytiť prípadnú zmenu správania modelu pri odlišných podmienkach na trhu. Na to sme zaviedli jednoduchú dummy premennú, ktorá odlišuje dni s výraznejším pohybom trhu od bežných dní. Táto premenná nám umožňuje testovať, či sa vývoj závislej premennej líši medzi dvoma skupinami pozorovaní – buď posunom v autonómnom členovi, alebo zmenou sklonu pri jednej z vysvetľujúcich premenných. Odhadli sme preto dva modely: jeden s možným posunom celej rovnice a druhý s možnou zmenou sklonu. Nasledujúce výsledky ukazujú, či tieto úpravy prinášajú zlepšenie oproti pôvodnému lineárnemu modelu.
Tento model umožňuje, aby sa celý vzťah posunul nahor alebo nadol v dňoch, keď dummy premenná nadobúda hodnotu 1. Ide teda o test, či sa úroveň závislej premennej líši medzi dvoma skupinami pozorovaní.
\[ AAPL\_ret = \beta_0 + \beta_D DUM + \beta_1 GLD\_ret + \beta_2 XLE\_ret + \beta_3 SPY\_ret + u \]
V tomto prípade sa skúma, či je sklon regresnej priamky rozdielny v závislosti od hodnoty dummy premennej. Koeficient pri interakčnom členovi určuje, či sa reakcia závislej premennej na danej vysvetľujúcej premennnej mení medzi dvoma sledovanými stavmi. \[ AAPL\_ret = \beta_0 + \beta_1 GLD\_ret + \beta_2 XLE\_ret + \beta_3 SPY\_ret + \beta_{D} (DUM \cdot SPY\_ret) + u \]
Príklad zavedenia dummy premennej podľa veľkosti trhového pohybu (napr. SPY_ret väčší ako 1 %):
##
## Call:
## lm(formula = AAPL_ret ~ DUM + GLD_ret + XLE_ret + SPY_ret, data = ret_df)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.044874 -0.006895 0.000012 0.005504 0.066427
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 0.0006296 0.0007856 0.801 0.42370
## DUM -0.0038638 0.0029317 -1.318 0.18874
## GLD_ret -0.0045309 0.0819538 -0.055 0.95596
## XLE_ret -0.1971241 0.0704193 -2.799 0.00553 **
## SPY_ret 1.1209476 0.1180172 9.498 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.01172 on 246 degrees of freedom
## Multiple R-squared: 0.317, Adjusted R-squared: 0.3059
## F-statistic: 28.54 on 4 and 246 DF, p-value: < 2.2e-16
##
## Call:
## lm(formula = AAPL_ret ~ GLD_ret + XLE_ret + SPY_ret + I(DUM *
## SPY_ret), data = ret_df)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.044954 -0.006976 0.000349 0.005471 0.066416
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 0.0006418 0.0007833 0.819 0.41336
## GLD_ret -0.0106854 0.0822896 -0.130 0.89679
## XLE_ret -0.1926553 0.0703886 -2.737 0.00665 **
## SPY_ret 1.1314720 0.1199475 9.433 < 2e-16 ***
## I(DUM * SPY_ret) -0.2954226 0.2103348 -1.405 0.16142
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.01171 on 246 degrees of freedom
## Multiple R-squared: 0.3177, Adjusted R-squared: 0.3066
## F-statistic: 28.63 on 4 and 246 DF, p-value: < 2.2e-16
##
## RESET test
##
## data: modelD_sklon
## RESET = 0.73388, df1 = 2, df2 = 244, p-value = 0.4811
Po doplnení dummy premennej (DUM), ktorá oddeľuje dni s vyšším pohybom trhu od ostatných, sa ukázalo, že tento dodatočný člen nie je štatisticky významný. Jeho koeficient má pomerne vysokú p-hodnotu, takže nemožno tvrdiť, že by sa vývoj závislej premennej významne líšil medzi dvoma skupinami pozorovaní. Ostatné premenné si zachovali správanie podobné pôvodnému modelu – najvýraznejší vplyv má trhový faktor, kým ostatné zostávajú slabšie alebo nevýznamné. Hodnota upraveného koeficientu determinácie sa takmer nezmenila, čo naznačuje, že posun celej rovnice nepriniesol zlepšenie.
V druhom kroku sme skúmali, či sa môže meniť sklon regresnej priamky v závislosti od dummy premennej. Interakčný člen, ktorý by mal zachytávať rozdielne správanie v dňoch s vyšším trhovým pohybom, však nie je štatisticky významný. Samotné koeficienty základných premenných sa oproti prvému modelu takmer nezmenili a vysvetľovacia schopnosť modelu sa zvýšila len minimálne.
ANOVA porovnanie základného a rozšíreného modelu opäť nepreukázalo štatisticky významné zlepšenie. To znamená, že doplnenie tejto interakcie modelu nepomohlo zachytiť žiadny dôležitý dodatočný vzťah.
RESET test pre rozšírený model má vysokú p-hodnotu. Znamená to, že model neobsahuje chybnú špecifikáciu a doplnenie zlomu v sklone nie je potrebné. Výsledok je konzistentný s predchádzajúcimi zisteniami – lineárny model v našom prípade postačuje.
V tejto časti sa zameriavame na vizuálnu kontrolu prítomnosti autokorelácie pomocou grafického porovnania empirických a fitted hodnôt. Ak medzi týmito dvoma priebehmi vidíme systematické obdobia nad- alebo podhodnotenia modelu, môže to naznačovať prítomnosť časovej závislosti v reziduách. Nasledujúca vizualizácia nám umožní identifikovať, či model zachytáva dynamiku dát dostatočne dobre, alebo či zostáva v reziduách nejaká štruktúra, ktorá by mala byť ďalej testovaná formálnymi štatistickými testami.
Graf porovnáva empirické denné logaritmické výnosy akcie Apple, znázornené modrými bodmi, s fitted hodnotami modelu, ktoré sú zobrazené červenou spojnicou. Modré body vykazujú typickú volatilitu akciových výnosov, pričom sa pohybujú okolo nulovej osi s občasnými extrémnejšími pozitívnymi aj negatívnymi odchýlkami. Červená fitted čiara prebieha uprostred týchto bodov a zachytáva iba základný vzťah medzi výnosmi Apple a vysvetľujúcimi premennými modelu.
Z grafu je zrejmé, že fitted hodnoty nedokážu reprodukovať náhodné krátkodobé výkyvy vo výnosoch, pretože model predpokladá lineárnu štruktúru bez dynamických efektov. Napriek tomu je viditeľné, že fitted čiara sleduje všeobecný trend a drží sa v strede rozptylu empirických pozorovaní, čo naznačuje, že model približne vystihuje priemerné správanie výnosov Apple. Zároveň však rozdiely medzi modrými bodmi a červenou čiarou poukazujú na vysokú mieru nevysvetlenej variability, čo je pre denné akciové výnosy bežné.
Graf teda ukazuje, že lineárny model zachytáva základnú citlivosť AAPL na pohyby na trhu, no významná časť výkyvov zostáva náhodná alebo spôsobená faktormi, ktoré model neobsahuje.
Po vizuálnej kontrole fitted a empirických hodnôt je ďalším krokom formálna analýza toho, či reziduá vykazujú časovú závislosť. Autokorelačná funkcia (ACF) umožňuje preskúmať, či je chyba v jednom období štatisticky prepojená s chybami v predchádzajúcich obdobiach. Ak by sa v reziduách objavila výrazná autokorelácia, znamenalo by to porušenie predpokladu nezávislosti chýb, čo by mohlo skresľovať testovanie hypotéz v rámci regresného modelu. Preto vypočítavame a zobrazujeme ACF rezíduí pre prvé štyri oneskorenia, aby sme overili, či sa v chybách nenachádza systematická štruktúra.
ACF graf zobrazuje autokorelačné koeficienty rezíduí pre oneskorenia od 1 do 4. Všetky zobrazené hodnoty ležia v rámci modrých hraníc štatistickej nevýznamnosti, čo znamená, že žiadne z rezíduí nie sú výrazne prepojené so svojimi minulými hodnotami. Inými slovami, reziduá sa správajú ako biely šum a neobsahujú systematickú autokoreláciu. Tento výsledok je priaznivý, pretože potvrdzuje splnenie predpokladu nezávislosti chýb v lineárnom regresnom modeli.
Durbin–Watson test používame na overenie, či sa reziduá modelu nenaviazali jedno na druhé v čase. Ide o rýchly spôsob, ako zistiť, či sú chyby v modeli náhodné, alebo či sa v nich objavuje nejaký pravidelný vzor. Ak by reziduá boli autokorelované, znamenalo by to, že model nie je úplne správne špecifikovaný. Preto si test overíme aj formálne týmto príkazom.
##
## Durbin-Watson test
##
## data: model
## DW = 2.0414, p-value = 0.6275
## alternative hypothesis: true autocorrelation is greater than 0
V našom prípade Durbin–Watson štatistika nadobudla hodnotu približne 2.04, čo je veľmi blízko referenčnej hodnote 2 charakteristickej pre reziduá bez autokorelácie. P-hodnota testu je 0.6275, teda vysoko nad bežne používajúcimi hladinami významnosti, čo znamená, že nemáme dôvod zamietnuť nulovú hypotézu o absencii autokorelácie. Test teda potvrdzuje, že reziduá modelu neobsahujú štatisticky významnu autokoreláciu prvého rádu, čo je v súlade so závermi z vizuálnej a ACF analýzy.
Po vizuálnom preskúmaní rezíduí a po vykonaní Durbin–Watson testu dopĺňame analýzu aj o Breusch–Godfrey test, ktorý poskytuje robustnejšie overenie, či sa v reziduách nenachádza sériová korelácia zvoleného rádu. Keďže pracujeme s dennými finančnými časovými radmi, je vhodné overiť najmä autokoreláciu prvého rádu, ktorá by mohla naznačovať, že model nezachytil krátkodobú dynamiku vo vývoji výnosov. Breusch–Godfrey test umožňuje formálne overiť tento predpoklad priamo na reziduách nášho základného regresného modelu.
##
## Breusch-Godfrey test for serial correlation of order up to 1
##
## data: model
## LM test = 0.11285, df = 1, p-value = 0.7369
Výsledok testu ukazuje, že hodnota LM štatistiky je veľmi nízka (0.11285) a sprevádza ju vysoká p-hodnota (0.7369). Takýto výsledok naznačuje, že reziduá modelu neobsahujú žiadnu štatisticky významnú autokoreláciu prvého rádu. Nulová hypotéza o absencii sériovej korelácie preto nie je zamietnutá. Tento záver je v súlade s predchádzajúcimi zisteniami z ACF grafu aj z Durbin–Watson testu, čo posilňuje dôveru v to, že model pracuje s náhodnými a nezávislými reziduami. Na základe toho môžeme konštatovať, že model neporušuje predpoklad nezávislosti chýb a z tohto hľadiska je štatisticky špecifikovaný korektne.
V tejto časti sa zameriavame na posúdenie prítomnosti multikolinearity medzi vysvetľujúcimi premennými v regresnom modeli. Multikolinearita môže viesť k nestabilným odhadom parametrov a k zníženej interpretovateľnosti výsledkov. Na jej identifikáciu využívame korelačnú maticu, ktorá poskytuje prehľad o sile lineárnych vzťahov medzi jednotlivými premennými.
V tejto časti analyzujeme vzťahy medzi vysvetľujúcimi premennými použitými v regresnom modeli. Cieľom je overiť, či sa medzi nimi nevyskytujú silné lineárne väzby, ktoré by mohli naznačovať prítomnosť multikolinearity. Korelačná matica poskytuje rýchny prehľad o tom, do akej miery sa jednotlivé premenné navzájom pohybujú rovnakým smerom.
## GLD_ret XLE_ret SPY_ret
## GLD_ret 1.000 0.210 0.265
## XLE_ret 0.210 1.000 0.314
## SPY_ret 0.265 0.314 1.000
Z výsledkov je zrejmé, že korelácie medzi premennými GLD_ret, XLE_ret a SPY_ret sú relatívne nízke, pohybujú sa približne v intervale od 0.21 do 0.31. Takéto hodnoty nepredstavujú riziko výraznej multikolinearity. Žiadna z dvojíc nevykazuje vysokú koreláciu, ktorú by bolo potrebné ďalej riešiť (napríklad hodnoty nad 0.8 alebo 0.9). Pre regresný model to znamená, že vysvetľujúce premenné sú dostatočne samostatné a je možné nimi spoľahlivo odhadovať vplyv na závislú premennú.
Na obrázku môžeme taktiež vidieť koreláciu medzi jednotlivými premennými.
Vo všetkých dvojiciach pozorujeme len mierne lineárne vzťahy, bez výrazného smerovania bodov do jednej spoločnej línie. Body sú rozptýlené pomerne rovnomerne a neukazujú na silnú závislosť medzi premennými. Grafická analýza preto potvrdzuje výsledky korelačnej matice a naznačuje, že medzi vysvetľujúcimi premennými sa nevyskytuje závažná multikolinearita.
V tejto časti hodnotíme úroveň multikolinearity pomocou ukazovateľa VIF (Variance Inflation Factor). Tento ukazovateľ meria, do akej miery je variabilita odhadu regresného koeficientu zvýšená v dôsledku korelácie s ostatnými vysvetľujúcimi premennými. Nízke hodnoty VIF naznačujú, že premenné nie sú navzájom lineárne silno prepojené a že koeficienty modelu sú spoľahlivo identifikované.
## GLD_ret XLE_ret SPY_ret
## 1.096492 1.130832 1.162842
Hodnoty VIF sa pohybujú medzi 1.09 a 1.16, čo predstavuje veľmi nízku úroveň multikolinearity. Keďže za potenciálne problematické sa považujú hodnoty nad 5 (resp. nad 10 pri prísnejších kritériách), výsledky jednoznačne naznačujú, že model netrpí multikolinearitou. Všetky vysvetľujúce premenné sú dostatočne nezávislé a ich zaradenie do spoločného regresného modelu nepredstavuje problém.
V tejto časti hodnotíme multikolinearitu pomocou tzv. condition number (číselného indexu podmienky). Ide o diagnostiku založenú na vlastných hodnotách matice X’X, ktorá ukazuje, do akej miery je regresný model citlivý na malé zmeny v dátach. Vyššie hodnoty signalizujú väčšiu nestabilitu odhadov a možný problém s multikolinearitou. Ako orientačné pravidlo sa považujú za neškodné hodnoty pod 10, za mierne problematické hodnoty medzi 10–30 a za závažnú multikolinearitu hodnoty nad 30.
## [1] 1.747995
Vypočítaný condition number má hodnotu približne 1.75, čo je veľmi nízka hodnota. Takéto číslo jednoznačne naznačuje, že matica vysvetľujúcich premenných je dobre podmienená a model nie je citlivý na malé zmeny v dátach. Inými slovami, výsledok potvrdzuje absenciu multikolinearity, čo je v súlade s koreláciami aj s VIF analýzou.
Na doplnenie základných ukazovateľov multikolinearity využijeme aj analýzu vlastných hodnôt a indexov podmienenosti. Tento postup umožňuje získať presnejší obraz o tom, ako sú vysvetľujúce premenné rozložené v priestore a či sa určitá ich kombinácia nespráva problematicky. Ide o rozšírenú diagnostiku, ktorá poskytuje detailnejší pohľad na stabilitu regresného modelu.
V tabuľke vidíme štyri vlastné hodnoty, ktoré reprezentujú štyri ortogonálne komponenty priestoru vysvetľujúcich premenných. Pre každú z nich je vypočítaný condition index, ktorý ukazuje mieru potenciálneho numerického problému. Všetky indexy sa nachádzajú veľmi nízko, v rozsahu 1.00 až 1.53, čo je hlboko pod hranicami, ktoré by signalizovali akýkoľvek problém (za rizikové sa považujú hodnoty nad 10 a najmä nad 30).
Ďalší pohľad poskytujú záťaže (proporcie variancií) jednotlivých premenných v posledných stĺpcoch. Ak by existovala multikolinearita, viaceré premenné by vykazovali vysoké hodnoty v rovnakom riadku, typicky pri vysokom condition indexe. V tomto prípade však žiadna z premenných nevykazuje koncentrované zaťaženie pri žiadnom z indexov, čo potvrdzuje, že model je stabilný a nie je ovplyvnený vzájomnými lineárnymi väzbami medzi GLD_ret, XLE_ret a SPY_ret.
Výsledok tak poskytuje dodatočný dôkaz, že multikolinearita nie je v našom modeli prítomná — konzistentne s výsledkami korelácií, VIF aj základného condition number.
Na základe vykonaných diagnostických testov neboli v analyzovanom regresnom modeli identifikované známky heteroskedasticity, multikolinearity ani autokorelácie reziduí. Predpoklady klasického lineárneho regresného modelu sú teda splnené, čo umožňuje považovať odhady parametrov za spoľahlivé a štatistické závery za validné. Z tohto dôvodu ponechávame pôvodný špecifikovaný model bez potreby jeho ďalších úprav.
BANSAL, M. a kol. Stock Market Prediction with High Accuracy using Machine Learning Techniques. In Procedia Computer Science [online]. 2022, vol. 215 [cit. 2025-03-28]. Dostupné na internete: https://www.sciencedirect.com/science/article/pii/S1877050922020993?via%3Dihub ISSN 1877-0509.↩︎
NABIPOUR, M. a kol. Predicting stock market trends using machine learning and deep learning algorithms via continuous and binary data; a comparative analysis on the Tehran stock exchange. IEEE Access [online]. 2020, vol. 8 [cit. 2025-03-29]. Dostupné na internete: https://ieeexplore.ieee.org/document/9165760. ISSN 2169-3536.↩︎