1 Úvod

V tomto projekte analyzujem ekonomické ukazovatele z datasetu economics.csv, ktorý obsahuje časové rady ekonomických premenných v USA. Dáta začínajú v júli 1967 a končia v roku 2015, takže pokrývajú takmer 48 rokov ekonomického vývoja.

1.1 Popis premenných

  • X:
    Poradové číslo záznamu (index riadku) od 1 do 574.

  • date:
    Dátum záznamu vo formáte textu.

  • pce (Personal Consumption Expenditures):
    Výdavky domácností na spotrebu v príslušných jednotkách.
    Hodnoty sa pohybujú od približne 507 do 12 194.

  • pop (Population):
    Počet obyvateľov v čase, od cca 198 712 do 320 402.

  • psavert (Personal Saving Rate):
    Miera osobných úspor v percentách.
    Hodnoty sa pohybujú od 2.2 % do 17.3 %.

  • uempmed (Median Duration of Unemployment):
    Medián dĺžky nezamestnanosti.

  • unemploy (Number of Unemployed):
    Počet nezamestnaných ľudí v tisícoch. Hodnoty od 2 685 do 15 352.

2 Údaje a základná štatistika

Popisné štatistiky vybraných premenných
Statistic pce pop psavert uempmed unemploy
Min. 506.700 198712.0 2.200000 4.000000 2685.00
1st Qu. 1578.300 224896.0 6.400000 6.000000 6284.00
Median 3936.850 253060.0 8.400000 7.500000 7494.00
Mean 4820.093 257159.7 8.567247 8.608711 7771.31
3rd Qu. 7626.325 290290.8 11.100000 9.100000 8685.50
Max. 12193.800 320402.3 17.300000 25.200000 15352.00

Medzi spotrebou domácností (PCE) a nezamestnanosťou nevidíme jednoznačný vzťah, pretože hodnoty sa menia podľa ekonomických cyklov. Naopak, medzi populáciou a spotrebou je jasný a silný pozitívny vzťah. Pri porovnaní dĺžky nezamestnanosti a počtu nezamestnaných vidíme, že keď je nezamestnaných viac, ľudia si hľadajú prácu dlhšie, čo je bežné počas recesií.

3 Lineárna regresia

Výsledky lineárnej regresie: pce ~ unemploy
Premenná Odhad Štandardná chyba t-hodnota p-hodnota
(Intercept) -1609.188 364.472 -4.415 0
unemploy 0.827 0.044 18.630 0

V rámci analýzy som odhadla jednoduchý lineárny regresný model, v ktorom osobná spotreba závisí od počtu nezamestnaných osôb.

Na prvý pohľad by tieto výsledky naznačovali, že rast nezamestnanosti je spojený s rastom spotreby, čo však nie je v súlade s ekonomickou teóriou. Opačný smer vzťahu v tomto modeli pravdepodobne spôsobuje to, že obidve premenné majú dlhodobý rastúci trend – tzv. zdanlivú (spurious) koreláciu.

Získaný model teda zachytáva skôr spoločný vývoj v čase než skutočný ekonomický vzťah.

4 Anova

ANOVA - Model závislosti PCE od nezamestnanosti
Df Sum Sq Mean Sq F value Pr(>F)
1 2,737,430,278.50 2,737,430,278.50 347.07 6.773527e-61
572 4,511,507,885.59 7,887,251.55 NA NA

ANOVA potvrdzuje, že model je štatisticky významný, avšak táto významnosť je spôsobená spoločným trendom časových radov, nie kauzálnym ekonomickým vzťahom.

5 Heatmap

Celkovo graf potvrdzuje, že PCE má dlhodobý trend rastu s menšími mesačnými výkyvmi.

6 Test heteroskedasticity a robustné odhady

Breusch-Pagan Test
Test Statistic df p_value
Breusch-Pagan 16.097 1 0.000

6.1 Jarque bera test

Jarque-Bera Test na normalitu rezíduí
Test Statistic df p_value
Jarque-Bera 21.410 2 0.000

6.1.1 Interpretácia:

Breusch-Paganov test ukazuje, že v modeli je prítomná heteroskedasticita (p < 0.001). To znamená, že rozptyl rezíduí nie je konštantný.

Jarque-Bera test ukazuje, že rezíduá nemajú normálne rozdelenie (p < 0.001). Avšak Q–Q graf naznačuje, že odchýlky od normality sú mierne a sú spôsobené najmä extrémnymi hodnotami. Čo sa týka Scale-Location, tak pri nej platí, že ak je červená čiara rovná, variancia je konštantná, avšak moja čiara rovná nie je.

7 TEST RESET (Ramsey RESET test)

Ramsey RESET Test pre špecifikáciu modelu
Test Statistic df1 df2 p_value
RESET 1.322 2 570 0.267

7.1 Grafická analýza

RESET test nenaznačuje problém so špecifikáciou ani potrebu nelineárnych termínov, keďže LOESS krivka sa výrazne neodchyľuje od nuly. Model je však nevhodný, pretože reziduá vykazujú meniacu sa variabilitu a časovú štruktúru, čo naznačuje heteroskedasticitu a ignorovanie dynamiky v čase.

7.1.1 Component + Residual plot pre premennú unemploy

Ružová LOESS krivka naznačuje len mierne odchýlky od linearity, najmä v strednej časti dát, nejde však o jasnú nelinearitu. Diagonálne pásy skôr poukazujú na časovú alebo skupinovú štruktúru dát, takže model je približne lineárny, ale nedokáže úplne zachytiť ich zložitosť.

8 Nelineárna špecifikácia (ukážka, prečo nelineárne trendové modely nie sú vhodné)

Robustné koeficienty kvadratického modelu
Term Estimate StdError tValue pValue
(Intercept) 14,786.671 328.465 45.017 0.000
pop −0.175 0.002 −75.792 0.000
psavert 3.173 15.860 0.200 0.841
uempmed −22.673 2.798 −8.104 0.000
I(psavert^2) −1.009 0.754 −1.337 0.182
I(pop^2) 0.000 0.000 115.610 0.000
ANOVA porovnanie lineárneho a kvadratického modelu
Df Sum_Sq Mean_Sq F_value Pr_F
572 4,511,507,885.59 NA NA NA
568 12,063,267.55 4.00 NA NA
Ramsey RESET Test pre kvadratický model
Test Statistic df1 df2 pValue
RESET 75.198 2 566 0.000

Rozšírenie modelu o kvadratické členy ukázalo, že významný je iba kvadratický člen populácie. RESET test však naznačuje, že problém modelu nie je vo funkčnej forme, ale v tom, že model ignoruje časovú štruktúru dát.

8.1 Rozšírený RESET test

Robustné koeficienty rozšíreného modelu
Term Estimate StdError tValue pValue
(Intercept) 14,749.072 390.361 37.783 0.000
pop −0.175 0.003 −60.187 0.000
psavert 2.935 15.754 0.186 0.852
uempmed −25.230 9.782 −2.579 0.010
I(psavert^2) −0.979 0.741 −1.320 0.187
I(pop^2) 0.000 0.000 96.835 0.000
I(uempmed^2) 0.095 0.318 0.299 0.765
ANOVA porovnanie lineárneho a rozšíreného modelu
Df Sum_Sq Mean_Sq F_value Pr_F
572 4,511,507,885.59 NA NA NA
567 12,061,617.41 5.00 NA NA
Ramsey RESET Test pre rozšírený model
Test Statistic df1 df2 pValue
RESET 83.466 2 565 0.000

Z kvadratických členov je naďalej významný iba pop², zatiaľ čo psavert² aj uempmed² sú nevýznamné.

9 Diagnostika rezíduí — autokorelácia

Stĺpce v ACF sú hlboko nad modrými hranicami, čo znamená, že autokorelácia je silná a štatisticky významná.

PACF ukazuje, že najsilnejší problém je korelácia rezíduí s hodnotou lag-1, čo presne potvrdzuje, že v modeli chýba oneskorená premenná.

9.0.1 Ljung–Box test

Ljung-Box test rezíduí
Test Statistic df pValue
Ljung-Box 5,403.869 12 0.000

p-hodnota = 0.000 → veľmi silný dôkaz autokorelácie.

9.0.2 Durbin–Watson test (prvá kontrola autokorelácie)

Durbin-Watson test autokorelácie
Test Statistic pValue
Durbin-Watson 0.004 0.000

0.004 znamená extrémne silná pozitívna autokorelácia.

9.0.3 Breusch–Godfrey test (viacnásobná autokorelácia)

Breusch-Godfrey test autokorelácie
Test Statistic df pValue
Breusch-Godfrey 572.028 12 0.000

p-hodnota = 0.000 → viacnásobná autokorelácia je prítomná.

10 Robustné štandardné chyby — Newey–West

Koeficienty s Newey-West robustnými chybami (lag = 12)
Term Estimate StdError tValue pValue
(Intercept) −1,609.188 837.842 −1.921 0.055
unemploy 0.827 0.109 7.607 0.000

Po úprave v dátach, model stále hovorí, že nezamestnanosť má pozitívny a významný vzťah so spotrebou – čo je dôsledok trendu.

11 Alternatíva: dynamický model (lagy závislej premennej)

Koeficienty dynamického modelu s Newey-West chybami
Term Estimate StdError tValue pValue
(Intercept) 39.811 8.128 4.898 0.000
pce_lag1 1.000 0.001 1,304.519 0.000
unemploy 0.000 0.000 0.739 0.460
psavert −2.823 0.688 −4.105 0.000

Ljung-Box test rezíduí dynamického modelu
Test Statistic df pValue
Ljung-Box 32.551 12 0.001
Durbin-Watson test autokorelácie dynamického modelu
Test Statistic pValue
Durbin-Watson 2.041 0.643

Tento model pridáva do modelu aj jej predchádzajúcu hodnotu.

  • pce_lag1 = 1.000 (p < 0.001) Takmer celá dnešná spotreba sa dá vysvetliť tou včerajšou.
  • unemploy → nie je významný (p = 0.460) Po pridaní lags už nezamestnanosť nemá žiadny štatistický vplyv.
  • psavert = –2.823 (p < 0.001) Vyššia miera úspor znamená nižšiu spotrebu.

Zhrnutie:

  • Pôvodný model bol skreslený trendom a autokoreláciou.

  • Robustných chýb nič nezmenili.

  • Dynamický model ukazuje, že skutočný vzťah medzi nezamestnanosťou a spotrebou neexistuje.

  • Spotreba je vysvetlená vlastným minulým vývojom a mierou úspor.

12 Multikolinearita – VIF

VIF – Test multikolinearity (rozšírený model)
Variable VIF
pop 539.55
psavert 47.59
uempmed 42.31
I(psavert^2) 43.53
I(pop^2) 516.92
I(uempmed^2) 34.64

Model trpí extrémnou multikolinearitou medzi vysvetľujúcimi premennými, najmä medzi pop a pop².

13 Zdroje

Youssef, A. M. A. E. R. (2022). Detecting of multicollinearity, autocorrelation and heteroscedasticity in regression analysis. Advances, 3(3). https://www.sciencepg.com/article/10.11648/j.advances.20220303.24

Rámik, J., & Stoklasová, R. (2017). Statistické zpracování dat: Regresní analýza – multikolinearita, heteroskedasticita, autokorelace [PDF]. https://is.slu.cz/el/opf/zima2021/INMNPSTZ/um/prednasky/ramik.j_stoklasova.r-ver.1-statisticke_zpracovani_dat-vydani-2017.pdf