V tomto projekte analyzujem ekonomické ukazovatele z datasetu
economics.csv, ktorý obsahuje časové rady ekonomických
premenných v USA. Dáta začínajú v júli 1967 a končia v roku 2015, takže
pokrývajú takmer 48 rokov ekonomického vývoja.
X:
Poradové číslo záznamu (index riadku) od 1 do 574.
date:
Dátum záznamu vo formáte textu.
pce (Personal Consumption Expenditures):
Výdavky domácností na spotrebu v príslušných jednotkách.
Hodnoty sa pohybujú od približne 507 do 12 194.
pop (Population):
Počet obyvateľov v čase, od cca 198 712 do 320 402.
psavert (Personal Saving Rate):
Miera osobných úspor v percentách.
Hodnoty sa pohybujú od 2.2 % do 17.3 %.
uempmed (Median Duration of Unemployment):
Medián dĺžky nezamestnanosti.
unemploy (Number of Unemployed):
Počet nezamestnaných ľudí v tisícoch. Hodnoty od 2 685 do 15
352.
| Statistic | pce | pop | psavert | uempmed | unemploy |
|---|---|---|---|---|---|
| Min. | 506.700 | 198712.0 | 2.200000 | 4.000000 | 2685.00 |
| 1st Qu. | 1578.300 | 224896.0 | 6.400000 | 6.000000 | 6284.00 |
| Median | 3936.850 | 253060.0 | 8.400000 | 7.500000 | 7494.00 |
| Mean | 4820.093 | 257159.7 | 8.567247 | 8.608711 | 7771.31 |
| 3rd Qu. | 7626.325 | 290290.8 | 11.100000 | 9.100000 | 8685.50 |
| Max. | 12193.800 | 320402.3 | 17.300000 | 25.200000 | 15352.00 |
Medzi spotrebou domácností (PCE) a nezamestnanosťou nevidíme jednoznačný vzťah, pretože hodnoty sa menia podľa ekonomických cyklov. Naopak, medzi populáciou a spotrebou je jasný a silný pozitívny vzťah. Pri porovnaní dĺžky nezamestnanosti a počtu nezamestnaných vidíme, že keď je nezamestnaných viac, ľudia si hľadajú prácu dlhšie, čo je bežné počas recesií.
| Premenná | Odhad | Štandardná chyba | t-hodnota | p-hodnota |
|---|---|---|---|---|
| (Intercept) | -1609.188 | 364.472 | -4.415 | 0 |
| unemploy | 0.827 | 0.044 | 18.630 | 0 |
V rámci analýzy som odhadla jednoduchý lineárny regresný model, v ktorom osobná spotreba závisí od počtu nezamestnaných osôb.
Na prvý pohľad by tieto výsledky naznačovali, že rast nezamestnanosti je spojený s rastom spotreby, čo však nie je v súlade s ekonomickou teóriou. Opačný smer vzťahu v tomto modeli pravdepodobne spôsobuje to, že obidve premenné majú dlhodobý rastúci trend – tzv. zdanlivú (spurious) koreláciu.
Získaný model teda zachytáva skôr spoločný vývoj v čase než skutočný ekonomický vzťah.
| ANOVA - Model závislosti PCE od nezamestnanosti | ||||
| Df | Sum Sq | Mean Sq | F value | Pr(>F) |
|---|---|---|---|---|
| 1 | 2,737,430,278.50 | 2,737,430,278.50 | 347.07 | 6.773527e-61 |
| 572 | 4,511,507,885.59 | 7,887,251.55 | NA | NA |
ANOVA potvrdzuje, že model je štatisticky významný, avšak táto významnosť je spôsobená spoločným trendom časových radov, nie kauzálnym ekonomickým vzťahom.
Celkovo graf potvrdzuje, že PCE má dlhodobý trend rastu s menšími mesačnými výkyvmi.
| Breusch-Pagan Test | |||
| Test | Statistic | df | p_value |
|---|---|---|---|
| Breusch-Pagan | 16.097 | 1 | 0.000 |
| Jarque-Bera Test na normalitu rezíduí | |||
| Test | Statistic | df | p_value |
|---|---|---|---|
| Jarque-Bera | 21.410 | 2 | 0.000 |
Breusch-Paganov test ukazuje, že v modeli je prítomná heteroskedasticita (p < 0.001). To znamená, že rozptyl rezíduí nie je konštantný.
Jarque-Bera test ukazuje, že rezíduá nemajú normálne rozdelenie (p < 0.001). Avšak Q–Q graf naznačuje, že odchýlky od normality sú mierne a sú spôsobené najmä extrémnymi hodnotami. Čo sa týka Scale-Location, tak pri nej platí, že ak je červená čiara rovná, variancia je konštantná, avšak moja čiara rovná nie je.
| Ramsey RESET Test pre špecifikáciu modelu | ||||
| Test | Statistic | df1 | df2 | p_value |
|---|---|---|---|---|
| RESET | 1.322 | 2 | 570 | 0.267 |
RESET test nenaznačuje problém so špecifikáciou ani potrebu nelineárnych termínov, keďže LOESS krivka sa výrazne neodchyľuje od nuly. Model je však nevhodný, pretože reziduá vykazujú meniacu sa variabilitu a časovú štruktúru, čo naznačuje heteroskedasticitu a ignorovanie dynamiky v čase.
Ružová LOESS krivka naznačuje len mierne odchýlky od linearity, najmä v strednej časti dát, nejde však o jasnú nelinearitu. Diagonálne pásy skôr poukazujú na časovú alebo skupinovú štruktúru dát, takže model je približne lineárny, ale nedokáže úplne zachytiť ich zložitosť.
| Robustné koeficienty kvadratického modelu | ||||
| Term | Estimate | StdError | tValue | pValue |
|---|---|---|---|---|
| (Intercept) | 14,786.671 | 328.465 | 45.017 | 0.000 |
| pop | −0.175 | 0.002 | −75.792 | 0.000 |
| psavert | 3.173 | 15.860 | 0.200 | 0.841 |
| uempmed | −22.673 | 2.798 | −8.104 | 0.000 |
| I(psavert^2) | −1.009 | 0.754 | −1.337 | 0.182 |
| I(pop^2) | 0.000 | 0.000 | 115.610 | 0.000 |
| ANOVA porovnanie lineárneho a kvadratického modelu | ||||
| Df | Sum_Sq | Mean_Sq | F_value | Pr_F |
|---|---|---|---|---|
| 572 | 4,511,507,885.59 | NA | NA | NA |
| 568 | 12,063,267.55 | 4.00 | NA | NA |
| Ramsey RESET Test pre kvadratický model | ||||
| Test | Statistic | df1 | df2 | pValue |
|---|---|---|---|---|
| RESET | 75.198 | 2 | 566 | 0.000 |
Rozšírenie modelu o kvadratické členy ukázalo, že významný je iba kvadratický člen populácie. RESET test však naznačuje, že problém modelu nie je vo funkčnej forme, ale v tom, že model ignoruje časovú štruktúru dát.
| Robustné koeficienty rozšíreného modelu | ||||
| Term | Estimate | StdError | tValue | pValue |
|---|---|---|---|---|
| (Intercept) | 14,749.072 | 390.361 | 37.783 | 0.000 |
| pop | −0.175 | 0.003 | −60.187 | 0.000 |
| psavert | 2.935 | 15.754 | 0.186 | 0.852 |
| uempmed | −25.230 | 9.782 | −2.579 | 0.010 |
| I(psavert^2) | −0.979 | 0.741 | −1.320 | 0.187 |
| I(pop^2) | 0.000 | 0.000 | 96.835 | 0.000 |
| I(uempmed^2) | 0.095 | 0.318 | 0.299 | 0.765 |
| ANOVA porovnanie lineárneho a rozšíreného modelu | ||||
| Df | Sum_Sq | Mean_Sq | F_value | Pr_F |
|---|---|---|---|---|
| 572 | 4,511,507,885.59 | NA | NA | NA |
| 567 | 12,061,617.41 | 5.00 | NA | NA |
| Ramsey RESET Test pre rozšírený model | ||||
| Test | Statistic | df1 | df2 | pValue |
|---|---|---|---|---|
| RESET | 83.466 | 2 | 565 | 0.000 |
Z kvadratických členov je naďalej významný iba pop², zatiaľ čo psavert² aj uempmed² sú nevýznamné.
Stĺpce v ACF sú hlboko nad modrými hranicami, čo znamená, že autokorelácia je silná a štatisticky významná.
PACF ukazuje, že najsilnejší problém je korelácia rezíduí s hodnotou lag-1, čo presne potvrdzuje, že v modeli chýba oneskorená premenná.
| Ljung-Box test rezíduí | |||
| Test | Statistic | df | pValue |
|---|---|---|---|
| Ljung-Box | 5,403.869 | 12 | 0.000 |
p-hodnota = 0.000 → veľmi silný dôkaz autokorelácie.
| Durbin-Watson test autokorelácie | ||
| Test | Statistic | pValue |
|---|---|---|
| Durbin-Watson | 0.004 | 0.000 |
0.004 znamená extrémne silná pozitívna autokorelácia.
| Breusch-Godfrey test autokorelácie | |||
| Test | Statistic | df | pValue |
|---|---|---|---|
| Breusch-Godfrey | 572.028 | 12 | 0.000 |
p-hodnota = 0.000 → viacnásobná autokorelácia je prítomná.
| Koeficienty s Newey-West robustnými chybami (lag = 12) | ||||
| Term | Estimate | StdError | tValue | pValue |
|---|---|---|---|---|
| (Intercept) | −1,609.188 | 837.842 | −1.921 | 0.055 |
| unemploy | 0.827 | 0.109 | 7.607 | 0.000 |
Po úprave v dátach, model stále hovorí, že nezamestnanosť má pozitívny a významný vzťah so spotrebou – čo je dôsledok trendu.
| Koeficienty dynamického modelu s Newey-West chybami | ||||
| Term | Estimate | StdError | tValue | pValue |
|---|---|---|---|---|
| (Intercept) | 39.811 | 8.128 | 4.898 | 0.000 |
| pce_lag1 | 1.000 | 0.001 | 1,304.519 | 0.000 |
| unemploy | 0.000 | 0.000 | 0.739 | 0.460 |
| psavert | −2.823 | 0.688 | −4.105 | 0.000 |
| Ljung-Box test rezíduí dynamického modelu | |||
| Test | Statistic | df | pValue |
|---|---|---|---|
| Ljung-Box | 32.551 | 12 | 0.001 |
| Durbin-Watson test autokorelácie dynamického modelu | ||
| Test | Statistic | pValue |
|---|---|---|
| Durbin-Watson | 2.041 | 0.643 |
Tento model pridáva do modelu aj jej predchádzajúcu hodnotu.
Zhrnutie:
Pôvodný model bol skreslený trendom a autokoreláciou.
Robustných chýb nič nezmenili.
Dynamický model ukazuje, že skutočný vzťah medzi nezamestnanosťou a spotrebou neexistuje.
Spotreba je vysvetlená vlastným minulým vývojom a mierou úspor.
| VIF – Test multikolinearity (rozšírený model) | |
| Variable | VIF |
|---|---|
| pop | 539.55 |
| psavert | 47.59 |
| uempmed | 42.31 |
| I(psavert^2) | 43.53 |
| I(pop^2) | 516.92 |
| I(uempmed^2) | 34.64 |
Model trpí extrémnou multikolinearitou medzi vysvetľujúcimi premennými, najmä medzi pop a pop².
Youssef, A. M. A. E. R. (2022). Detecting of multicollinearity, autocorrelation and heteroscedasticity in regression analysis. Advances, 3(3). https://www.sciencepg.com/article/10.11648/j.advances.20220303.24
Rámik, J., & Stoklasová, R. (2017). Statistické zpracování dat: Regresní analýza – multikolinearita, heteroskedasticita, autokorelace [PDF]. https://is.slu.cz/el/opf/zima2021/INMNPSTZ/um/prednasky/ramik.j_stoklasova.r-ver.1-statisticke_zpracovani_dat-vydani-2017.pdf