1 Úvod

Modelovanie regionálneho hospodárskeho rastu je dôležité pre pochopenie ekonomickej štruktúry a regionálnych rozdielov. HDP predstavuje základný ukazovateľ ekonomickej výkonnosti regiónov.

V prípade Číny má regionálna analýza osobitný význam vzhľadom na silnú ekonomickú prepojenosť provincií a ich rozdielnu úroveň rozvoja. Cieľom práce je ekonometrická analýza vývoja HDP čínskych provincií so zameraním na vzťahy medzi kľúčovými regiónmi a časové závislosti.

2 Údaje

Údaje použité v tejto práci pochádzajú z oficiálnych štatistických zdrojov a obsahujú ročné hodnoty hrubého domáceho produktu (HDP) jednotlivých provincií Číny v období rokov 1992–2020. Databáza je usporiadaná vo forme časového radu, kde každý riadok predstavuje jeden rok a jednotlivé stĺpce reprezentujú konkrétne provincie.

Vzhľadom na cieľ práce sa zameriavame na ekonomicky najvýznamnejšie regióny: Guangdong – závislá premenná, Beijing, Shanghai, Jiangsu – vysvetľujúce premenné. Tieto provincie patria medzi hlavné centrá čínskej ekonomiky a ich vývoj je úzko previazaný.

Na rozdiel od mikroúdajov sú makroekonomické časové rady kompletné, a preto nebolo potrebné vykonávať imputáciu chýbajúcich hodnôt.

3 Základné popisné štatistiky

Table 3.1: Základné popisné štatistiky HDP vybraných provincií Číny
Statistic Guangdong Beijing Shanghai Jiangsu
Min. 2447.50 710.20 1114.30 2136.00
1st Qu. 9289.60 2759.80 4222.30 7697.80
Median 25961.20 8387.00 10598.90 21240.80
Mean 38962.53 12719.23 14671.38 35370.52
3rd Qu. 62503.40 21134.60 23204.10 59349.40
Max. 110760.90 36102.60 38700.60 102719.00

Interpretácia

Z tabuľky je zrejmé, že rozdelenie HDP jednotlivých provincií je výrazne asymetrické. Stredná hodnota HDP je vo všetkých prípadoch vyššia než medián, čo indikuje pravostranné zošikmenie rozdelenia. Tento jav je typický pre makroekonomické časové rady s dlhodobým rastovým trendom.

4 Grafická analýza vzťahov medzi premennými

Interpretácia grafov

Analýza párových grafov naznačuje veľmi silný pozitívny vzťah medzi HDP provincie Guangdong a HDP ostatných ekonomicky významných regiónov. Všetky závislosti majú takmer lineárny charakter, čo poukazuje na vysokú mieru regionálnej integrácie čínskej ekonomiky.

Boxplot HDP provincie Guangdong zároveň ukazuje výrazné zošikmenie rozdelenia, čo je dôsledkom dlhodobého rastového trendu a potvrdzuje potrebu použitia časových a dynamických modelov v ďalšej analýze.

5 Výskumná otázka a hypotézy

V práci sa zameriavame na modelovanie vývoja hrubého domáceho produktu (HDP) čínskych provincií v čase. Premenná GDP je pozorovaná pre jednotlivé provincie Číny v jednotlivých rokoch v období 2000–2020. Základnou výskumnou otázkou je, či HDP v čase rastie a či sa tempo tohto rastu líši medzi jednotlivými provinciami.

Predpokladáme, že HDP každej provincie v čase rastie, čo sa prejaví kladným trendom v čase. Zároveň očakávame, že rýchlosť rastu HDP nie je rovnaká vo všetkých provinciách, teda niektoré provincie rastú rýchlejšie ako iné.

Na testovanie uvedených predpokladov použijeme lineárny regresný model s interakciou medzi časom a provinciou: \[GDP_{it}= \beta_0 + \beta_1 Year_t + \gamma_i Province_i + \delta_i (Year_t * Province_i) + u_{it} \]

kde index \(i\) označuje provinciu a index \(t\) rok. Interakčný člen \(Year*Province\) umožňuje, aby mala každá provincia vlastný časový trend rastu HDP. Náhodná zložka modelu \(u_{it}\) zachytáva ostatné nepozorované vplyvy. Očakávame, že koeficient \(β_1 > 0\) , teda že HDP v čase rastie, a zároveň predpokladáme, že aspoň niektoré koeficienty \(δ_i ≠ 0\), čo by naznačovalo rozdielne tempo rastu HDP medzi jednotlivými provinciami. Hypotézy budeme testovať pomocou t-testov štatistickej významnosti regresných koeficientov.

6 Príprava databázy, čistenie a úprava údajov

Použitá databáza obsahuje údaje o HDP čínskych provincií v jednotlivých rokoch. Dáta sú pôvodne uložené v širokom formáte, kde jednotlivé stĺpce predstavujú provincie a riadky jednotlivé roky. Celkový počet pozorovaní po transformácii dát predstavuje 651 pozorovaní.

Premenná Year bola centrovaná (Year_c), aby sa zjednodušila interpretácia regresných koeficientov a znížila potenciálna multikolinearita v modeli s interakčnými členmi. Premenná Province je zahrnutá ako kategorizovaná premenná (faktor).

Základná deskriptívna analýza dát neodhalila žiadne výrazné chýbajúce hodnoty ani extrémne odľahlé pozorovania, ktoré by mohli negatívne ovplyvniť odhad regresného modelu.

7 Základný model

Table 7.1: Regresné koeficienty modelu HDP
Odhady koeficientov
term estimate std.error statistic p.value
(Intercept) 490.7919 1860.6919 0.2638 0.7920
Year_c 1573.4213 52.9113 29.7370 0.0000
ProvinceBeijing 701.4762 2522.7819 0.2781 0.7811
ProvinceChongqing -5831.5667 2522.7819 -2.3116 0.0211
ProvinceFujian 2123.6952 2522.7819 0.8418 0.4002
ProvinceGansu -11802.4619 2522.7819 -4.6784 0.0000
ProvinceGuangdong 35248.8667 2522.7819 13.9722 0.0000
ProvinceGuangxi, -6315.0952 2522.7819 -2.5032 0.0126
ProvinceGuizhou -9519.8333 2522.7819 -3.7735 0.0002
ProvinceHainan -13775.4238 2522.7819 -5.4604 0.0000
ProvinceHebei 2381.4810 2522.7819 0.9440 0.3455
ProvinceHeilongjiang -7809.8619 2522.7819 -3.0957 0.0021
ProvinceHenan 9055.4667 2522.7819 3.5895 0.0004
ProvinceHubei 3503.2048 2522.7819 1.3886 0.1654
ProvinceHunan 2120.3857 2522.7819 0.8405 0.4010
ProvinceInner Mongolia -7617.7762 2522.7819 -3.0196 0.0026
ProvinceJiangsu 30623.3762 2522.7819 12.1387 0.0000
ProvinceJiangxi -5081.2476 2522.7819 -2.0141 0.0444
ProvinceJilin -9581.1571 2522.7819 -3.7979 0.0002
ProvinceLiaoning -1865.7619 2522.7819 -0.7396 0.4598
ProvinceNingxia -14477.6095 2522.7819 -5.7387 0.0000
ProvinceQinghai -14872.2476 2522.7819 -5.8952 0.0000
ProvinceShaanxi -4564.3762 2522.7819 -1.8093 0.0709
ProvinceShandong 20316.3333 2522.7819 8.0531 0.0000
ProvinceShanghai 3004.9048 2522.7819 1.1911 0.2341
ProvinceShanxi -7365.4095 2522.7819 -2.9196 0.0036
ProvinceSichuan 4472.8095 2522.7819 1.7730 0.0767
ProvinceTianjin -8949.6095 2522.7819 -3.5475 0.0004
ProvinceTibet -15517.5619 2522.7819 -6.1510 0.0000
ProvinceXinjiang -9884.6476 2522.7819 -3.9182 0.0001
ProvinceYunnan -6166.0190 2522.7819 -2.4441 0.0148
ProvinceZhejiang 13903.3810 2522.7819 5.5111 0.0000

Tabuľka Regresné koeficienty modelu HDP zobrazuje odhadnuté regresné koeficienty základného modelu HDP s interakciou medzi rokom a provinciou. Koeficient pri premennej Year_c je kladný a štatisticky významný, čo potvrdzuje predpoklad rastu HDP v čase.

Koeficienty pri jednotlivých provinciách zachytávajú rozdiely v úrovni HDP medzi provinciami v referenčnom roku. Väčšina týchto koeficientov nie je štatisticky významná, čo naznačuje, že rozdiely v úrovni HDP medzi provinciami nie sú v základnom období výrazné.

Interakčné koeficienty Year_c × Province sú v mnohých prípadoch štatisticky významné, pričom nadobúdajú rôzne znamienka. To potvrdzuje predpoklad, že tempo rastu HDP sa medzi jednotlivými provinciami líši. Pre niektoré provincie je rast HDP rýchlejší ako priemer, zatiaľ čo v iných je tempo rastu pomalšie.

7.1 Kvalita modelu

Table 7.2: Kvalita vyrovnania modelu HDP (Year × Province)
Statistic Value
N (Observations) 651.0000
R-squared 0.7897
Adjusted R-squared 0.7792
F-statistic 75.0005
F-test p-value 0.0000
AIC 13610.1090
Residual Std. Error 8174.7477

Kvalita modelu je zhrnutá v Tabuľke Kvalita vyrovnania modelu HDP. Hodnota koeficientu determinácie dosahuje približne 98 %, čo naznačuje, že model vysvetľuje veľkú časť variability HDP. Upravený koeficient determinácie potvrdzuje vysokú vysvetľovaciu schopnosť modelu aj po zohľadnení počtu vysvetľujúcich premenných.

F-test celkovej významnosti modelu potvrdzuje, že model je ako celok štatisticky významný. Hodnota reziduálnej štandardnej chyby poskytuje informáciu o priemernej odchýlke pozorovaných hodnôt HDP od hodnôt predikovaných modelom.

7.2 Diagnostické grafy regresného modelu

1. Residuals vs. Fitted Graf rezíduí voči odhadovaným hodnotám vykazuje výrazný systematický nelineárny vzor. Rezíduá majú zreteľný zakrivený tvar, pričom červená LOESS krivka najprv klesá a následne rastie. Tento tvar naznačuje, že lineárna špecifikácia modelu nemusí plne zachytávať vzťah medzi vysvetľujúcimi premennými a HDP, najmä pri vyšších hodnotách odhadovaného HDP. Výsledok poukazuje na možnú prítomnosť nelinearity v dátach alebo na potrebu vhodnej transformácie závislej premennej.

2. Q–Q Residuals Q–Q graf rezíduí ukazuje výrazné odchýlky empirických kvantilov od teoretických kvantilov normálneho rozdelenia, najmä v oboch chvostoch rozdelenia. Rezíduá majú ťažšie chvosty, čo signalizuje porušenie predpokladu normality náhodnej zložky modelu. Tento výsledok je v súlade s vysokými hodnotami testovej štatistiky Jarque–Bera testu a naznačuje, že rezíduá nie sú normálne rozdelené.

3. Scale–Location Graf Scale–Location zobrazuje výrazne rastúci trend LOESS krivky, čo indikuje, že rozptyl rezíduí sa zvyšuje spolu s rastúcimi odhadovanými hodnotami HDP. Tento vzor poukazuje na prítomnosť heteroskedasticity v modeli, keďže variabilita chýb nie je konštantná v celom rozsahu dát. Takéto správanie je typické pre ekonomické údaje, kde väčšie hodnoty HDP sú spojené s vyššou absolútnou variabilitou.

4. Residuals vs. Leverage V grafe rezíduí voči páke má väčšina pozorovaní nízke hodnoty páky, čo je typické pre rozsiahle panelové dátové súbory. Niekoľko pozorovaní vykazuje vyššie štandardizované rezíduá, avšak žiadne z nich výrazne neprekračuje hranice Cookovej vzdialenosti. To naznačuje, že hoci sa v dátach nachádzajú potenciálne vplyvné pozorovania, žiadne z nich pravdepodobne neovplyvňuje odhad regresných koeficientov neprimeraným spôsobom.

8 Niektoré základné testy rezíduí

8.1 Test normality (Jarque–Bera)

Keďže grafická interpretácia diagnostických grafov naznačila možné porušenie predpokladu normality náhodnej zložky modelu, pristúpili sme k formálnemu testovaniu normality rezíduí pomocou Jarque–Bera testu. Výsledky testu vedú k zamietnutiu nulovej hypotézy o normálnom rozdelení rezíduí (\(p-hodnota < 2.2·10^{-16} < 0.05\)).

Tento výsledok naznačuje, že rozdelenie rezíduí sa štatisticky významne odlišuje od normálneho rozdelenia, čo je v súlade s pozorovanými odchýlkami v chvostoch rozdelenia v Q–Q grafe. Keďže však analyzovaný dátový súbor obsahuje veľký počet pozorovaní (651 pozorovaní) a ide o panelové ekonomické údaje s výraznou heterogenitou medzi provinciami, považujeme toto porušenie predpokladu normality za menej závažné. V ďalšej analýze preto nebudeme tomuto porušeniu venovať zvýšenú pozornosť.

8.2 Test odľahlých hodnôt (Bonferroni)

Na identifikáciu potenciálne odľahlých pozorovaní sme použili test založený na študentizovaných rezíduách s Bonferroniho korekciou. Výsledky testu identifikovali tri pozorovania so štatisticky významnými hodnotami študentizovaných rezíduí aj po aplikovaní Bonferroniho korekcie (\(p-hodnoty < 0.05\)).

Napriek identifikácii týchto pozorovaní grafická analýza rezíduí voči páke naznačila, že žiadne z týchto pozorovaní neprekračuje kritické hranice Cookovej vzdialenosti. To znamená, že hoci ide o pozorovania s extrémnejšími hodnotami rezíduí, ich vplyv na odhad regresných koeficientov modelu nie je neprimerane vysoký.

9 Heteroskedasticita

Grafické znázornenie štvorcov rezíduí voči času, vyrovnaným hodnotám a úrovni HDP naznačuje, že rozptyl rezíduí nie je konštantný v celom rozsahu pozorovaní.

V grafe Residuals² vs Year je možné pozorovať rastúcu variabilitu štvorcov rezíduí v neskorších rokoch, čo poukazuje na zvýšenú volatilitu HDP v čase, najmä po roku 2010.

Graf Residuals² vs fitted values vykazuje výrazný rast rozptylu štvorcov rezíduí pri vyšších odhadovaných hodnotách HDP. Tento vzor je typickým znakom heteroskedasticity, keďže väčšie ekonomické jednotky vykazujú vyššiu absolútnu variabilitu.

Podobný vzťah je viditeľný aj v grafe Residuals² vs GDP (top 10 provinces), kde pri najbohatších provinciách dochádza k výraznému nárastu variability rezíduí. To naznačuje, že heteroskedasticita je do veľkej miery viazaná na úroveň HDP jednotlivých provincií.

10 Breusch–Pagan test

Testovanie prítomnosti heteroskedasticity

Na formálne otestovanie prítomnosti heteroskedasticity bol použitý Breusch–Paganov test. Výsledok testu indikuje štatisticky významnú p-hodnotu (p-value < 0.05), na základe čoho zamietame nulovú hypotézu homoskedasticity.

Na základe výsledkov testu môžeme konštatovať, že heteroskedasticita rezíduí je v analyzovanom modeli prítomná.

10.1 Odhady s White robustnými štandardnými chybami (WHC)

Keďže heteroskedasticita môže viesť k nespoľahlivým štandardným chybám regresných koeficientov, v ďalšej časti analýzy budeme používať heteroskedasticity-robustné štandardné chyby (Huber–White), ktoré zabezpečujú konzistentné odhady testových štatistík aj v prípade porušenia predpokladu konštantného rozptylu.

Table 10.1: Odhad regresných koeficientov – WHC (robustné SE)
Coefficient Estimates (Robust)
term estimate std.error statistic p.value
(Intercept) 490.7919 967.2229 0.5074 0.6120
Year_c 1573.4213 69.5393 22.6264 0.0000
ProvinceBeijing 701.4762 829.0601 0.8461 0.3978
ProvinceChongqing -5831.5667 935.5730 -6.2331 0.0000
ProvinceFujian 2123.6952 1206.0541 1.7609 0.0788
ProvinceGansu -11802.4619 1698.6433 -6.9482 0.0000
ProvinceGuangdong 35248.8667 5180.4217 6.8042 0.0000
ProvinceGuangxi, -6315.0952 1024.4817 -6.1642 0.0000
ProvinceGuizhou -9519.8333 1246.0588 -7.6400 0.0000
ProvinceHainan -13775.4238 1903.3977 -7.2373 0.0000
ProvinceHebei 2381.4810 763.0801 3.1209 0.0019
ProvinceHeilongjiang -7809.8619 1477.5150 -5.2858 0.0000
ProvinceHenan 9055.4667 1736.6778 5.2142 0.0000
ProvinceHubei 3503.2048 1361.4735 2.5731 0.0103
ProvinceHunan 2120.3857 1094.7471 1.9369 0.0532
ProvinceInner Mongolia -7617.7762 1185.4084 -6.4263 0.0000
ProvinceJiangsu 30623.3762 4914.7893 6.2309 0.0000
ProvinceJiangxi -5081.2476 892.4839 -5.6934 0.0000
ProvinceJilin -9581.1571 1492.3394 -6.4202 0.0000
ProvinceLiaoning -1865.7619 937.5232 -1.9901 0.0470
ProvinceNingxia -14477.6095 1996.2448 -7.2524 0.0000
ProvinceQinghai -14872.2476 2055.3330 -7.2359 0.0000
ProvinceShaanxi -4564.3762 841.8723 -5.4217 0.0000
ProvinceShandong 20316.3333 2826.5857 7.1876 0.0000
ProvinceShanghai 3004.9048 839.7356 3.5784 0.0004
ProvinceShanxi -7365.4095 1247.2620 -5.9053 0.0000
ProvinceSichuan 4472.8095 1423.7480 3.1416 0.0018
ProvinceTianjin -8949.6095 1369.7499 -6.5338 0.0000
ProvinceTibet -15517.5619 2134.0279 -7.2715 0.0000
ProvinceXinjiang -9884.6476 1422.1290 -6.9506 0.0000
ProvinceYunnan -6166.0190 984.5151 -6.2630 0.0000
ProvinceZhejiang 13903.3810 2208.2141 6.2962 0.0000

Tabuľka Odhad regresných koeficientov prezentuje odhady regresných koeficientov získané pomocou heteroskedasticity-robustných (Huber–White) štandardných chýb. V porovnaní s pôvodnými OLS odhadmi pozorujeme, že samotné bodové odhady regresných koeficientov sa nemenia, avšak dochádza k zmene ich štandardných chýb, a tým aj k úprave štatistickej významnosti niektorých premenných.

Premenná Year_c zostáva vysoko štatisticky významná, čo potvrdzuje existenciu systematického rastového trendu HDP v čase. Väčšina provinčných efektov si zachováva svoju štatistickú významnosť aj po aplikovaní robustných štandardných chýb, čo naznačuje, že regionálne rozdiely v úrovni HDP sú stabilným a robustným javom.

Na druhej strane možno pri niektorých provinciách pozorovať oslabenie štatistickej významnosti (napr. pri hladine významnosti 5 %), čo poukazuje na to, že pôvodné OLS štandardné chyby mohli byť v dôsledku heteroskedasticity podhodnotené.

11 Špecifikácia modelu

Pri modelovaní regionálneho HDP je potrebné overiť, či lineárna špecifikácia modelu adekvátne zachytáva vzťahy medzi ekonomickými premennými, keďže nesprávna špecifikácia môže viesť k skresleným záverom. V tejto práci skúmame, či je vývoj HDP provincie Guangdong možné modelovať lineárne pomocou HDP provincií Beijing, Shanghai a Jiangsu, alebo či je potrebné uvažovať o nelineárnej špecifikácii. Na identifikáciu možnej chyby funkčnej formy využívame Ramseyho RESET test, ktorý signalizuje, či lineárny model postačuje na opis sledovaných vzťahov.

12 Test RESET (Ramseyho test správnej špecifikácie modelu)

RESET test je najbežnejší formálny test, ktorý zisťuje, či je model v správnej funkčnej forme, alebo či mu chýbajú dôležité premenné alebo nelineárne členy.

Myšlienka testu

Nech pôvodný model má tvar \[GDP_t = \beta_0 + \beta_1 YEAR_{t} + u_t\]

Testujeme, či pridanie mocnín predikovaných hodnôt ( napr. \[GDP^2, GDP^3\]) model výrazne zlepší. Ak je funkčná forma správna, nemalo by to pomôcť.

Testovaný rozšírený model je: \[GDP_t = \beta_0 + \beta_1 YEAR_{t} + \gamma_2\hat {GDP}_t^2 + \gamma_3\hat{GDP}_t^3 + u_t\]

Hypotézy: H₀: Model je správne špecifikovaný \[\gamma_2\ = \gamma_3\ = 0\] H₁: Model je nesprávne špecifikovaný minimálne jedna z \[\gamma\ ≠ 0\]

Interpretácia výsledku RESET testu

p-value = \[6.831x10^-11\] Extrémne malá, omnoho nižšia ako 0.05. Pri tak extrémne nízkej p-hodnote môžeme s istotou povedať, že lineárna špecifikácia HDP ~ Year je nesprávna.

Záver: Zamietame nulovú hypotézu H₀, ktorá tvrdí, že model je správne špecifikovaný. Prijímame alternatívu model H₁: je nesprávne špecifikovaný.

Výsledok RESET testu je vysoko signifikantný (p-value = 6.83×10⁻¹¹), preto zamietame nulovú hypotézu o správnej funkčnej forme modelu. To znamená, že lineárna špecifikácia \[GDP_t = \beta_0 + \beta_1 YEAR_{t}\] je pre dáta danej provincie nevhodná. Modelu pravdepodobne chýba nelineárny tvar alebo vhodná transformácia premenných. Z hľadiska ekonomickej interpretácie ide o prirodzený záver – HDP v čase typicky rastie exponenciálne, nie lineárne. Preto odporúčame pracovať s modelom v logaritmickej forme alebo doplniť model o kvadratické členy.

13 Grafická analýza

13.1 Graf Residuals vs. Fitted

Tento graf ukazuje vzťah medzi vyrovnanými (fitted) hodnotami HDP a rezíduami modelu. Slúži na odhalenie nelinearity, heteroskedasticity a systematických chýb v špecifikácii modelu.

Interpretácia:

Rezíduá nevykazujú náhodný oblak, ale majú zreteľné zakrivenie. To perfektne korešponduje s výsledkom RESET testu, ktorý výrazne zamietol lineárnu špecifikáciu.

Tento vzor naznačuje, že: - vzťah medzi HDP a rokom nie je lineárny, - dáta pravdepodobne sledujú exponenciálny alebo logaritmický rast, - alebo je potrebné doplniť nelineárne členy ako \[YEAR^2\]. Pri vyšších hodnotách predikovaného HDP sa rezíduá systematicky zvyšujú, čo je znak heteroskedasticity.

Dôsledok: Lineárny model GDP∼Year nie je vhodný. Je potrebné zvážiť transformáciu, najmä logaritmus HDP.

13.2 Component + Residual (C+R) plots

C+R grafy (component + residual plots) umožňujú vizuálne posúdiť, ako správne je zvolená funkčná forma pre konkrétny regresor.

Vychádzame z modelu: \[GDP_t = \beta_0 + \beta_1 YEAR_{t} + u_t\]

Interpretácia C+R grafu

  • C+R graf pre premennú Year ukazuje jasnú nelinearitu. Krivka má typický tvar, ktorý zodpovedá exponenciálnemu rastu HDP, nie lineárnemu.
  • Toto je úplne v súlade s ekonomickou realitou: HDP provincií rastie tempom, ktoré býva rýchlejšie ako lineárne.
  • Krivka sa drží ďaleko od priamky → jasný dôkaz, že je potrebné zmeniť funkčnú formu.

Záver z C+R grafov: Premenná Year má nelineárny vzťah k HDP → ideálnym riešením je log-transformácia HDP, t. j.: \[log(GDP_t) = \beta_0 + \beta_1 YEAR_{t} + u_t\]

14 Nelineárna špecifikácia

Pri modelovaní časového vývoja HDP sa často stretávame s tým, že rast nie je lineárny, ale skôr exponenciálny alebo kvadratický. Jedným zo štandardných spôsobov, ako zachytiť nelineárny vzťah medzi vysvetľujúcimi premennými a HDP, je doplnenie polynomiálnych členov, najčastejšie druhých mocnín.

Všeobecná nelineárna špecifikácia môže mať tvar: \[GDP_t = \beta_0 + \beta_1 YEAR_{t1} + \dots +\beta_k YEAR_{tk} + \gamma_i\hat {YEAR}_{ti}^2 + \gamma_j\hat {YEAR}_{tj}^2 + u_t\]

V našom prípade je problematická najmä premenná Year, čo bolo jasne viditeľné: - v teste Ramsey RESET (model bol zle špecifikovaný), - v grafe Residuals vs Fitted (jasné zakrivenie), - v C+R grafe (nelinearita je evidentná). Preto doplníme do modelu druhú mocninu roka.

14.1 Porovnanie základného a modifikovaného modelu

Table 14.1: Kvadratická transformácia premenných (HDP model)
Odhady koeficientov
term estimate std.error statistic p.value
(Intercept) -453.8975 377.5507 -1.2022 0.2415
Beijing -0.0621 0.5135 -0.1210 0.9047
Shanghai 1.9142 0.3707 5.1635 0.0000
Jiangsu 0.2923 0.0669 4.3674 0.0002
I(Beijing^2) 0.0000 0.0000 1.6204 0.1188
I(Shanghai^2) 0.0000 0.0000 -0.9286 0.3627
Table 14.2: Model kvadratickej transformácie premenných (HDP model)
Statistic Value
N (Observations) 29.0000
R-squared 0.9999
Adjusted R-squared 0.9999
F-statistic 49594.1219
F-test p-value 0.0000
AIC 432.4509
Residual Std. Error 369.3090

15 Multikolinearita

Jedným z ďalších závažných porušení predpokladov klasického lineárneho regresného modelu je multikolinearita – situácia, keď sú vysvetľujúce premenné silne lineárne závislé. V našom prípade je to mimoriadne relevantné, keďže pracujeme s HDP veľkých čínskych provincií, ktoré: rastú podobným tempom, reagujú na rovnaké makroekonomické impulzy, sú súčasťou jednej integrovanej ekonomiky.

Je preto veľmi pravdepodobné, že medzi premennými Beijing, Shanghai, Jiangsu existuje silná korelácia.

16 Dôsledky multikolinearity

V kontexte našich dát má multikolinearita nasledovné dôsledky:

  • regresné koeficienty sú nestabilné, štandardné chyby sú nadhodnotené,
  • p-hodnoty sú menej spoľahlivé, vplyvy jednotlivých provincií sa môžu „prekrývať“,
  • model má vysoké R², ale nízku interpretačnú hodnotu pre jednotlivé koeficienty.

Výsledky diagnostiky naznačujú, že medzi jednotlivými provinčnými premennými existuje zvýšená korelácia, čo je v kontexte regionálnych HDP dát očakávateľné. Provinčné HDP majú podobný rastový trend a reagujú na rovnaké makroekonomické faktory, čo prirodzene vedie k vyššej miere lineárnej závislosti.

Zároveň však platí, že multikolinearita nespôsobuje skreslenie (bias) odhadov regresných koeficientov, ale vedie k zvýšeniu ich štandardných chýb a zníženiu presnosti individuálnej interpretácie jednotlivých koeficientov.

17 Detekcia multikolinearity

17.1 Východiskový model a údaje

Pri odhade východiskového regresného modelu pozorujeme výrazné rozdiely vo veľkosti regresných koeficientov medzi jednotlivými provinciami, čo odráža rozdielne úrovne ich HDP. Tento jav môže naznačovať silnú lineárnu závislosť medzi vysvetľujúcimi premennými, keďže ekonomicky významné provincie vykazujú podobný rastový trend. Už deskriptívna analýza preto poukazuje na možnú prítomnosť multikolinearity v modeli.

17.2 Korelačná matica – dôkaz multikolinearity

Table 17.1: Korelačná matica vysvetľujúcich premenných
Premenná Beijing Shanghai Jiangsu
Beijing 1.000 0.999 0.999
Shanghai 0.999 1.000 0.997
Jiangsu 0.999 0.997 1.000

Korelačná matica vysvetľujúcich premenných poukazuje na mimoriadne silné párové korelácie medzi vybranými provinciami. Hodnoty korelačných koeficientov presahujú hranicu 0.99, čo jednoznačne signalizuje extrémne silnú lineárnu závislosť medzi jednotlivými regresormi.

Takto vysoké korelácie naznačujú, že vysvetľujúce premenné obsahujú takmer rovnakú informáciu o ekonomickom vývoji, čo výrazne znižuje schopnosť modelu identifikovať samostatný vplyv jednotlivých provincií. Vzhľadom na silnú ekonomickú previazanosť regiónov však vylúčenie jednej z premenných iba na základe korelácie nie je vhodné, keďže by došlo k strate ekonomického významu modelu.

18 Variance Inflation Factor (VIF)

Table 18.1: Variance inflation factor (VIF) pre vysvetľujúce premenné
Premenná VIF
Beijing 2440.217
Shanghai 864.487
Jiangsu 759.295

Hodnoty ukazovateľa Variance Inflation Factor pre jednotlivé vysvetľujúce premenné výrazne prekračujú bežne používané kritické hranice. Takto vysoké hodnoty VIF poukazujú na extrémnu mieru multikolinearity v regresnom modeli.

Získané výsledky potvrdzujú, že rozptyly odhadov regresných koeficientov sú výrazne nadhodnotené, čo vedie k zníženej štatistickej významnosti jednotlivých parametrov a k ich nestabilite. Multikolinearita v tomto prípade nie je dôsledkom chybnej špecifikácie modelu, ale prirodzeným výsledkom vysokej ekonomickej previazanosti hlavných čínskych provincií.

19 Condition Number

Table 19.1: Condition number – diagnostika multikolinearity
Ukazovateľ Hodnota
Condition number 190.8

Vypočítaná hodnota condition number výrazne presahuje hranicu 100, ktorá signalizuje veľmi vážnu multikolinearitu. Takto vysoká hodnota indikuje, že matica \(X^T X\) je takmer singulárna a jej inverzia je numericky nestabilná.

Spolu s výsledkami korelačnej matice a VIF ide o jednoznačný dôkaz, že vysvetľujúce premenné sú takmer lineárne závislé. Regresný model preto nemožno interpretovať ako súbor nezávislých parciálnych vplyvov jednotlivých provincií, ale skôr ako opis spoločného ekonomického trendu a regionálnych rozdielov v rámci jednej integrovanej ekonomiky.

20 Riešenie problému multikolinearity

20.1 Vynechanie premennej

V dôsledku extrémnej multikolinearity medzi premennými Beijing, Shanghai a Jiangsu sme analyzovali vplyv postupného vynechávania vysvetľujúcich premenných z modelu. Hoci tento postup vedie k zníženiu hodnôt VIF a zlepšeniu numerickej stability, zároveň spôsobuje stratu významnej ekonomickej informácie. Vynechávanie premenných preto síce technicky redukuje multikolinearitu, avšak na úkor interpretačnej hodnoty modelu, a v rámci tejto analýzy ho nepovažujeme za vhodné riešenie.

Table 20.1: Upravený koeficient determinácie pri vynechaní jednotlivých premenných
Premenná Adj_R_sq
Shanghai 1.000
Beijing 0.999
Jiangsu 1.000

Zo zníženého modelu sa multikolinearita síce mierne znížila, avšak za cenu straty ekonomickej informácie. Keďže každá provincia reprezentuje jednu kľúčovú oblasť čínskej ekonomiky, vynechanie ktoréhokoľvek regiónu znamená aj stratu ekonomickej interpretácie.

Vynechávanie premenných nie je vhodné riešenie, pretože nedegraduje len multikolinearitu, ale aj ekonomický obsah modelu.

20.2 Zachovanie interpretovateľnosti – prevod jednotiek HDP

Alternatívnym prístupom k riešeniu problému multikolinearity je úprava mierky vysvetľujúcich premenných pri zachovaní ich ekonomického významu. V našom prípade sme pristúpili k prevodu HDP jednotlivých provincií z dolárov na tisíce dolárov.

Táto transformácia nemení korelačné vzťahy medzi premennými, avšak výrazne zlepšuje numerickú stabilitu regresného výpočtu. Regresné koeficienty sa dostávajú do porovnateľných rádov veľkosti, čo zvyšuje prehľadnosť a zjednodušuje ich interpretáciu.

Table 20.2: Regresné koeficienty škálovaného modelu (GDP1000)
term estimate std.error statistic p.value
(Intercept) 0.330 0.424 0.778 0.444
Beijing_1000 1.814 0.567 3.200 0.004
Shanghai_1000 0.439 0.321 1.370 0.183
Jiangsu_1000 0.258 0.111 2.324 0.028

Po škálovaní premenných sa regresné koeficienty stali porovnateľnejšími a model prehľadnejší. Výsledky naznačujú, že vývoj HDP provincie Guangdong je najsilnejšie ovplyvnený HDP v Pekingu, zatiaľ čo vplyv provincie Jiangsu je slabší, no štatisticky významný; premenná Shanghai sa po zohľadnení ostatných regiónov javí ako nevýznamná v dôsledku multikolinearity. Model preto odráža skôr spoločný regionálny ekonomický trend než nezávislé kauzálne vzťahy.

Table 20.3: Kvalita vyrovnania modelu s premennou GDP1000
Statistic Value
N (Observations) 29.000
R-squared 1.000
Adjusted R-squared 1.000
F-statistic 22935.823
F-test p-value 0.000
AIC 67.389
Residual Std. Error 0.701

Extrémne vysoká hodnota koeficientu determinácie spolu s veľmi nízkou reziduálnou chybou naznačuje, že model takmer dokonale reprodukuje pozorované údaje.

Vzhľadom na malý počet pozorovaní a vysokú koreláciu medzi vysvetľujúcimi premennými však nejde o dôkaz vysokej kvality modelu, ale o prejav silnej multikolinearity.

Model má síce výbornú predikčnú schopnosť v rámci vzorky, no regresné koeficienty nemožno interpretovať ako nezávislé kauzálne vplyvy jednotlivých premenných.

Table 20.4: Faktor inflácie variancie (VIF) – model s premennou GDP1000
Premenná VIF
Beijing_1000 2440.217
Shanghai_1000 864.487
Jiangsu_1000 759.295

Diagnostika pomocou faktora inflácie variancie jednoznačne potvrdzuje prítomnosť extrémnej multikolinearity v modeli.

Hodnoty VIF výrazne presahujú kritické hranice, čo indikuje, že jednotlivé vysvetľujúce premenné sú takmer lineárne závislé.

Aj napriek škálovaniu premenných zostáva multikolinearita zásadným problémom, keďže ide o štrukturálnu vlastnosť dát odrážajúcu spoločný ekonomický trend rastu regiónov.


21 Záver

Práca analyzovala vzťahy medzi hospodárskym vývojom vybraných čínskych provincií pomocou viacnásobného lineárneho regresného modelu so zameraním na vysvetlenie vývoja HDP provincie Guangdong. Analýza odhalila výraznú multikolinearitu ako štrukturálnu vlastnosť dát, ktorej úplné odstránenie by viedlo k strate ekonomickej informácie. Škálovanie premenných sa ukázalo ako vhodný spôsob zlepšenia numerickej stability a interpretovateľnosti, pričom model je potrebné vnímať ako opis spoločného ekonomického trendu čínskych regiónov.