Modelovanie regionálneho hospodárskeho rastu je dôležité pre pochopenie ekonomickej štruktúry a regionálnych rozdielov. HDP predstavuje základný ukazovateľ ekonomickej výkonnosti regiónov.
V prípade Číny má regionálna analýza osobitný význam vzhľadom na silnú ekonomickú prepojenosť provincií a ich rozdielnu úroveň rozvoja. Cieľom práce je ekonometrická analýza vývoja HDP čínskych provincií so zameraním na vzťahy medzi kľúčovými regiónmi a časové závislosti.
Údaje použité v tejto práci pochádzajú z oficiálnych štatistických zdrojov a obsahujú ročné hodnoty hrubého domáceho produktu (HDP) jednotlivých provincií Číny v období rokov 1992–2020. Databáza je usporiadaná vo forme časového radu, kde každý riadok predstavuje jeden rok a jednotlivé stĺpce reprezentujú konkrétne provincie.
Vzhľadom na cieľ práce sa zameriavame na ekonomicky najvýznamnejšie regióny: Guangdong – závislá premenná, Beijing, Shanghai, Jiangsu – vysvetľujúce premenné. Tieto provincie patria medzi hlavné centrá čínskej ekonomiky a ich vývoj je úzko previazaný.
Na rozdiel od mikroúdajov sú makroekonomické časové rady kompletné, a preto nebolo potrebné vykonávať imputáciu chýbajúcich hodnôt.
| Statistic | Guangdong | Beijing | Shanghai | Jiangsu |
|---|---|---|---|---|
| Min. | 2447.50 | 710.20 | 1114.30 | 2136.00 |
| 1st Qu. | 9289.60 | 2759.80 | 4222.30 | 7697.80 |
| Median | 25961.20 | 8387.00 | 10598.90 | 21240.80 |
| Mean | 38962.53 | 12719.23 | 14671.38 | 35370.52 |
| 3rd Qu. | 62503.40 | 21134.60 | 23204.10 | 59349.40 |
| Max. | 110760.90 | 36102.60 | 38700.60 | 102719.00 |
Interpretácia
Z tabuľky je zrejmé, že rozdelenie HDP jednotlivých provincií je výrazne asymetrické. Stredná hodnota HDP je vo všetkých prípadoch vyššia než medián, čo indikuje pravostranné zošikmenie rozdelenia. Tento jav je typický pre makroekonomické časové rady s dlhodobým rastovým trendom.
Interpretácia grafov
Analýza párových grafov naznačuje veľmi silný pozitívny vzťah medzi HDP provincie Guangdong a HDP ostatných ekonomicky významných regiónov. Všetky závislosti majú takmer lineárny charakter, čo poukazuje na vysokú mieru regionálnej integrácie čínskej ekonomiky.
Boxplot HDP provincie Guangdong zároveň ukazuje výrazné zošikmenie rozdelenia, čo je dôsledkom dlhodobého rastového trendu a potvrdzuje potrebu použitia časových a dynamických modelov v ďalšej analýze.
V práci sa zameriavame na modelovanie vývoja hrubého domáceho produktu (HDP) čínskych provincií v čase. Premenná GDP je pozorovaná pre jednotlivé provincie Číny v jednotlivých rokoch v období 2000–2020. Základnou výskumnou otázkou je, či HDP v čase rastie a či sa tempo tohto rastu líši medzi jednotlivými provinciami.
Predpokladáme, že HDP každej provincie v čase rastie, čo sa prejaví kladným trendom v čase. Zároveň očakávame, že rýchlosť rastu HDP nie je rovnaká vo všetkých provinciách, teda niektoré provincie rastú rýchlejšie ako iné.
Na testovanie uvedených predpokladov použijeme lineárny regresný model s interakciou medzi časom a provinciou: \[GDP_{it}= \beta_0 + \beta_1 Year_t + \gamma_i Province_i + \delta_i (Year_t * Province_i) + u_{it} \]
kde index \(i\) označuje provinciu a index \(t\) rok. Interakčný člen \(Year*Province\) umožňuje, aby mala každá provincia vlastný časový trend rastu HDP. Náhodná zložka modelu \(u_{it}\) zachytáva ostatné nepozorované vplyvy. Očakávame, že koeficient \(β_1 > 0\) , teda že HDP v čase rastie, a zároveň predpokladáme, že aspoň niektoré koeficienty \(δ_i ≠ 0\), čo by naznačovalo rozdielne tempo rastu HDP medzi jednotlivými provinciami. Hypotézy budeme testovať pomocou t-testov štatistickej významnosti regresných koeficientov.
Použitá databáza obsahuje údaje o HDP čínskych provincií v jednotlivých rokoch. Dáta sú pôvodne uložené v širokom formáte, kde jednotlivé stĺpce predstavujú provincie a riadky jednotlivé roky. Celkový počet pozorovaní po transformácii dát predstavuje 651 pozorovaní.
Premenná Year bola centrovaná (Year_c), aby sa zjednodušila interpretácia regresných koeficientov a znížila potenciálna multikolinearita v modeli s interakčnými členmi. Premenná Province je zahrnutá ako kategorizovaná premenná (faktor).
Základná deskriptívna analýza dát neodhalila žiadne výrazné chýbajúce hodnoty ani extrémne odľahlé pozorovania, ktoré by mohli negatívne ovplyvniť odhad regresného modelu.
|
Odhady koeficientov
|
||||
|---|---|---|---|---|
| term | estimate | std.error | statistic | p.value |
| (Intercept) | 490.7919 | 1860.6919 | 0.2638 | 0.7920 |
| Year_c | 1573.4213 | 52.9113 | 29.7370 | 0.0000 |
| ProvinceBeijing | 701.4762 | 2522.7819 | 0.2781 | 0.7811 |
| ProvinceChongqing | -5831.5667 | 2522.7819 | -2.3116 | 0.0211 |
| ProvinceFujian | 2123.6952 | 2522.7819 | 0.8418 | 0.4002 |
| ProvinceGansu | -11802.4619 | 2522.7819 | -4.6784 | 0.0000 |
| ProvinceGuangdong | 35248.8667 | 2522.7819 | 13.9722 | 0.0000 |
| ProvinceGuangxi, | -6315.0952 | 2522.7819 | -2.5032 | 0.0126 |
| ProvinceGuizhou | -9519.8333 | 2522.7819 | -3.7735 | 0.0002 |
| ProvinceHainan | -13775.4238 | 2522.7819 | -5.4604 | 0.0000 |
| ProvinceHebei | 2381.4810 | 2522.7819 | 0.9440 | 0.3455 |
| ProvinceHeilongjiang | -7809.8619 | 2522.7819 | -3.0957 | 0.0021 |
| ProvinceHenan | 9055.4667 | 2522.7819 | 3.5895 | 0.0004 |
| ProvinceHubei | 3503.2048 | 2522.7819 | 1.3886 | 0.1654 |
| ProvinceHunan | 2120.3857 | 2522.7819 | 0.8405 | 0.4010 |
| ProvinceInner Mongolia | -7617.7762 | 2522.7819 | -3.0196 | 0.0026 |
| ProvinceJiangsu | 30623.3762 | 2522.7819 | 12.1387 | 0.0000 |
| ProvinceJiangxi | -5081.2476 | 2522.7819 | -2.0141 | 0.0444 |
| ProvinceJilin | -9581.1571 | 2522.7819 | -3.7979 | 0.0002 |
| ProvinceLiaoning | -1865.7619 | 2522.7819 | -0.7396 | 0.4598 |
| ProvinceNingxia | -14477.6095 | 2522.7819 | -5.7387 | 0.0000 |
| ProvinceQinghai | -14872.2476 | 2522.7819 | -5.8952 | 0.0000 |
| ProvinceShaanxi | -4564.3762 | 2522.7819 | -1.8093 | 0.0709 |
| ProvinceShandong | 20316.3333 | 2522.7819 | 8.0531 | 0.0000 |
| ProvinceShanghai | 3004.9048 | 2522.7819 | 1.1911 | 0.2341 |
| ProvinceShanxi | -7365.4095 | 2522.7819 | -2.9196 | 0.0036 |
| ProvinceSichuan | 4472.8095 | 2522.7819 | 1.7730 | 0.0767 |
| ProvinceTianjin | -8949.6095 | 2522.7819 | -3.5475 | 0.0004 |
| ProvinceTibet | -15517.5619 | 2522.7819 | -6.1510 | 0.0000 |
| ProvinceXinjiang | -9884.6476 | 2522.7819 | -3.9182 | 0.0001 |
| ProvinceYunnan | -6166.0190 | 2522.7819 | -2.4441 | 0.0148 |
| ProvinceZhejiang | 13903.3810 | 2522.7819 | 5.5111 | 0.0000 |
Tabuľka Regresné koeficienty modelu HDP zobrazuje odhadnuté regresné koeficienty základného modelu HDP s interakciou medzi rokom a provinciou. Koeficient pri premennej Year_c je kladný a štatisticky významný, čo potvrdzuje predpoklad rastu HDP v čase.
Koeficienty pri jednotlivých provinciách zachytávajú rozdiely v úrovni HDP medzi provinciami v referenčnom roku. Väčšina týchto koeficientov nie je štatisticky významná, čo naznačuje, že rozdiely v úrovni HDP medzi provinciami nie sú v základnom období výrazné.
Interakčné koeficienty Year_c × Province sú v mnohých prípadoch štatisticky významné, pričom nadobúdajú rôzne znamienka. To potvrdzuje predpoklad, že tempo rastu HDP sa medzi jednotlivými provinciami líši. Pre niektoré provincie je rast HDP rýchlejší ako priemer, zatiaľ čo v iných je tempo rastu pomalšie.
| Statistic | Value |
|---|---|
| N (Observations) | 651.0000 |
| R-squared | 0.7897 |
| Adjusted R-squared | 0.7792 |
| F-statistic | 75.0005 |
| F-test p-value | 0.0000 |
| AIC | 13610.1090 |
| Residual Std. Error | 8174.7477 |
Kvalita modelu je zhrnutá v Tabuľke Kvalita vyrovnania modelu HDP. Hodnota koeficientu determinácie dosahuje približne 98 %, čo naznačuje, že model vysvetľuje veľkú časť variability HDP. Upravený koeficient determinácie potvrdzuje vysokú vysvetľovaciu schopnosť modelu aj po zohľadnení počtu vysvetľujúcich premenných.
F-test celkovej významnosti modelu potvrdzuje, že model je ako celok štatisticky významný. Hodnota reziduálnej štandardnej chyby poskytuje informáciu o priemernej odchýlke pozorovaných hodnôt HDP od hodnôt predikovaných modelom.
1. Residuals vs. Fitted Graf rezíduí voči odhadovaným hodnotám vykazuje výrazný systematický nelineárny vzor. Rezíduá majú zreteľný zakrivený tvar, pričom červená LOESS krivka najprv klesá a následne rastie. Tento tvar naznačuje, že lineárna špecifikácia modelu nemusí plne zachytávať vzťah medzi vysvetľujúcimi premennými a HDP, najmä pri vyšších hodnotách odhadovaného HDP. Výsledok poukazuje na možnú prítomnosť nelinearity v dátach alebo na potrebu vhodnej transformácie závislej premennej.
2. Q–Q Residuals Q–Q graf rezíduí ukazuje výrazné odchýlky empirických kvantilov od teoretických kvantilov normálneho rozdelenia, najmä v oboch chvostoch rozdelenia. Rezíduá majú ťažšie chvosty, čo signalizuje porušenie predpokladu normality náhodnej zložky modelu. Tento výsledok je v súlade s vysokými hodnotami testovej štatistiky Jarque–Bera testu a naznačuje, že rezíduá nie sú normálne rozdelené.
3. Scale–Location Graf Scale–Location zobrazuje výrazne rastúci trend LOESS krivky, čo indikuje, že rozptyl rezíduí sa zvyšuje spolu s rastúcimi odhadovanými hodnotami HDP. Tento vzor poukazuje na prítomnosť heteroskedasticity v modeli, keďže variabilita chýb nie je konštantná v celom rozsahu dát. Takéto správanie je typické pre ekonomické údaje, kde väčšie hodnoty HDP sú spojené s vyššou absolútnou variabilitou.
4. Residuals vs. Leverage V grafe rezíduí voči páke má väčšina pozorovaní nízke hodnoty páky, čo je typické pre rozsiahle panelové dátové súbory. Niekoľko pozorovaní vykazuje vyššie štandardizované rezíduá, avšak žiadne z nich výrazne neprekračuje hranice Cookovej vzdialenosti. To naznačuje, že hoci sa v dátach nachádzajú potenciálne vplyvné pozorovania, žiadne z nich pravdepodobne neovplyvňuje odhad regresných koeficientov neprimeraným spôsobom.
Keďže grafická interpretácia diagnostických grafov naznačila možné porušenie predpokladu normality náhodnej zložky modelu, pristúpili sme k formálnemu testovaniu normality rezíduí pomocou Jarque–Bera testu. Výsledky testu vedú k zamietnutiu nulovej hypotézy o normálnom rozdelení rezíduí (\(p-hodnota < 2.2·10^{-16} < 0.05\)).
Tento výsledok naznačuje, že rozdelenie rezíduí sa štatisticky významne odlišuje od normálneho rozdelenia, čo je v súlade s pozorovanými odchýlkami v chvostoch rozdelenia v Q–Q grafe. Keďže však analyzovaný dátový súbor obsahuje veľký počet pozorovaní (651 pozorovaní) a ide o panelové ekonomické údaje s výraznou heterogenitou medzi provinciami, považujeme toto porušenie predpokladu normality za menej závažné. V ďalšej analýze preto nebudeme tomuto porušeniu venovať zvýšenú pozornosť.
Na identifikáciu potenciálne odľahlých pozorovaní sme použili test založený na študentizovaných rezíduách s Bonferroniho korekciou. Výsledky testu identifikovali tri pozorovania so štatisticky významnými hodnotami študentizovaných rezíduí aj po aplikovaní Bonferroniho korekcie (\(p-hodnoty < 0.05\)).
Napriek identifikácii týchto pozorovaní grafická analýza rezíduí voči páke naznačila, že žiadne z týchto pozorovaní neprekračuje kritické hranice Cookovej vzdialenosti. To znamená, že hoci ide o pozorovania s extrémnejšími hodnotami rezíduí, ich vplyv na odhad regresných koeficientov modelu nie je neprimerane vysoký.
Grafické znázornenie štvorcov rezíduí voči času, vyrovnaným hodnotám a úrovni HDP naznačuje, že rozptyl rezíduí nie je konštantný v celom rozsahu pozorovaní.
V grafe Residuals² vs Year je možné pozorovať rastúcu variabilitu štvorcov rezíduí v neskorších rokoch, čo poukazuje na zvýšenú volatilitu HDP v čase, najmä po roku 2010.
Graf Residuals² vs fitted values vykazuje výrazný rast rozptylu štvorcov rezíduí pri vyšších odhadovaných hodnotách HDP. Tento vzor je typickým znakom heteroskedasticity, keďže väčšie ekonomické jednotky vykazujú vyššiu absolútnu variabilitu.
Podobný vzťah je viditeľný aj v grafe Residuals² vs GDP (top 10 provinces), kde pri najbohatších provinciách dochádza k výraznému nárastu variability rezíduí. To naznačuje, že heteroskedasticita je do veľkej miery viazaná na úroveň HDP jednotlivých provincií.
Testovanie prítomnosti heteroskedasticity
Na formálne otestovanie prítomnosti heteroskedasticity bol použitý Breusch–Paganov test. Výsledok testu indikuje štatisticky významnú p-hodnotu (p-value < 0.05), na základe čoho zamietame nulovú hypotézu homoskedasticity.
Na základe výsledkov testu môžeme konštatovať, že heteroskedasticita rezíduí je v analyzovanom modeli prítomná.
Keďže heteroskedasticita môže viesť k nespoľahlivým štandardným chybám regresných koeficientov, v ďalšej časti analýzy budeme používať heteroskedasticity-robustné štandardné chyby (Huber–White), ktoré zabezpečujú konzistentné odhady testových štatistík aj v prípade porušenia predpokladu konštantného rozptylu.
|
Coefficient Estimates (Robust)
|
||||
|---|---|---|---|---|
| term | estimate | std.error | statistic | p.value |
| (Intercept) | 490.7919 | 967.2229 | 0.5074 | 0.6120 |
| Year_c | 1573.4213 | 69.5393 | 22.6264 | 0.0000 |
| ProvinceBeijing | 701.4762 | 829.0601 | 0.8461 | 0.3978 |
| ProvinceChongqing | -5831.5667 | 935.5730 | -6.2331 | 0.0000 |
| ProvinceFujian | 2123.6952 | 1206.0541 | 1.7609 | 0.0788 |
| ProvinceGansu | -11802.4619 | 1698.6433 | -6.9482 | 0.0000 |
| ProvinceGuangdong | 35248.8667 | 5180.4217 | 6.8042 | 0.0000 |
| ProvinceGuangxi, | -6315.0952 | 1024.4817 | -6.1642 | 0.0000 |
| ProvinceGuizhou | -9519.8333 | 1246.0588 | -7.6400 | 0.0000 |
| ProvinceHainan | -13775.4238 | 1903.3977 | -7.2373 | 0.0000 |
| ProvinceHebei | 2381.4810 | 763.0801 | 3.1209 | 0.0019 |
| ProvinceHeilongjiang | -7809.8619 | 1477.5150 | -5.2858 | 0.0000 |
| ProvinceHenan | 9055.4667 | 1736.6778 | 5.2142 | 0.0000 |
| ProvinceHubei | 3503.2048 | 1361.4735 | 2.5731 | 0.0103 |
| ProvinceHunan | 2120.3857 | 1094.7471 | 1.9369 | 0.0532 |
| ProvinceInner Mongolia | -7617.7762 | 1185.4084 | -6.4263 | 0.0000 |
| ProvinceJiangsu | 30623.3762 | 4914.7893 | 6.2309 | 0.0000 |
| ProvinceJiangxi | -5081.2476 | 892.4839 | -5.6934 | 0.0000 |
| ProvinceJilin | -9581.1571 | 1492.3394 | -6.4202 | 0.0000 |
| ProvinceLiaoning | -1865.7619 | 937.5232 | -1.9901 | 0.0470 |
| ProvinceNingxia | -14477.6095 | 1996.2448 | -7.2524 | 0.0000 |
| ProvinceQinghai | -14872.2476 | 2055.3330 | -7.2359 | 0.0000 |
| ProvinceShaanxi | -4564.3762 | 841.8723 | -5.4217 | 0.0000 |
| ProvinceShandong | 20316.3333 | 2826.5857 | 7.1876 | 0.0000 |
| ProvinceShanghai | 3004.9048 | 839.7356 | 3.5784 | 0.0004 |
| ProvinceShanxi | -7365.4095 | 1247.2620 | -5.9053 | 0.0000 |
| ProvinceSichuan | 4472.8095 | 1423.7480 | 3.1416 | 0.0018 |
| ProvinceTianjin | -8949.6095 | 1369.7499 | -6.5338 | 0.0000 |
| ProvinceTibet | -15517.5619 | 2134.0279 | -7.2715 | 0.0000 |
| ProvinceXinjiang | -9884.6476 | 1422.1290 | -6.9506 | 0.0000 |
| ProvinceYunnan | -6166.0190 | 984.5151 | -6.2630 | 0.0000 |
| ProvinceZhejiang | 13903.3810 | 2208.2141 | 6.2962 | 0.0000 |
Tabuľka Odhad regresných koeficientov prezentuje odhady regresných koeficientov získané pomocou heteroskedasticity-robustných (Huber–White) štandardných chýb. V porovnaní s pôvodnými OLS odhadmi pozorujeme, že samotné bodové odhady regresných koeficientov sa nemenia, avšak dochádza k zmene ich štandardných chýb, a tým aj k úprave štatistickej významnosti niektorých premenných.
Premenná Year_c zostáva vysoko štatisticky významná, čo potvrdzuje existenciu systematického rastového trendu HDP v čase. Väčšina provinčných efektov si zachováva svoju štatistickú významnosť aj po aplikovaní robustných štandardných chýb, čo naznačuje, že regionálne rozdiely v úrovni HDP sú stabilným a robustným javom.
Na druhej strane možno pri niektorých provinciách pozorovať oslabenie štatistickej významnosti (napr. pri hladine významnosti 5 %), čo poukazuje na to, že pôvodné OLS štandardné chyby mohli byť v dôsledku heteroskedasticity podhodnotené.
Pri modelovaní regionálneho HDP je potrebné overiť, či lineárna špecifikácia modelu adekvátne zachytáva vzťahy medzi ekonomickými premennými, keďže nesprávna špecifikácia môže viesť k skresleným záverom. V tejto práci skúmame, či je vývoj HDP provincie Guangdong možné modelovať lineárne pomocou HDP provincií Beijing, Shanghai a Jiangsu, alebo či je potrebné uvažovať o nelineárnej špecifikácii. Na identifikáciu možnej chyby funkčnej formy využívame Ramseyho RESET test, ktorý signalizuje, či lineárny model postačuje na opis sledovaných vzťahov.
RESET test je najbežnejší formálny test, ktorý zisťuje, či je model v správnej funkčnej forme, alebo či mu chýbajú dôležité premenné alebo nelineárne členy.
Myšlienka testu
Nech pôvodný model má tvar \[GDP_t = \beta_0 + \beta_1 YEAR_{t} + u_t\]
Testujeme, či pridanie mocnín predikovaných hodnôt ( napr. \[GDP^2, GDP^3\]) model výrazne zlepší. Ak je funkčná forma správna, nemalo by to pomôcť.
Testovaný rozšírený model je: \[GDP_t = \beta_0 + \beta_1 YEAR_{t} + \gamma_2\hat {GDP}_t^2 + \gamma_3\hat{GDP}_t^3 + u_t\]
Hypotézy: H₀: Model je správne špecifikovaný \[\gamma_2\ = \gamma_3\ = 0\] H₁: Model je nesprávne špecifikovaný minimálne jedna z \[\gamma\ ≠ 0\]
Interpretácia výsledku RESET testu
p-value = \[6.831x10^-11\] Extrémne malá, omnoho nižšia ako 0.05. Pri tak extrémne nízkej p-hodnote môžeme s istotou povedať, že lineárna špecifikácia HDP ~ Year je nesprávna.
Záver: Zamietame nulovú hypotézu H₀, ktorá tvrdí, že model je správne špecifikovaný. Prijímame alternatívu model H₁: je nesprávne špecifikovaný.
Výsledok RESET testu je vysoko signifikantný (p-value = 6.83×10⁻¹¹), preto zamietame nulovú hypotézu o správnej funkčnej forme modelu. To znamená, že lineárna špecifikácia \[GDP_t = \beta_0 + \beta_1 YEAR_{t}\] je pre dáta danej provincie nevhodná. Modelu pravdepodobne chýba nelineárny tvar alebo vhodná transformácia premenných. Z hľadiska ekonomickej interpretácie ide o prirodzený záver – HDP v čase typicky rastie exponenciálne, nie lineárne. Preto odporúčame pracovať s modelom v logaritmickej forme alebo doplniť model o kvadratické členy.
Tento graf ukazuje vzťah medzi vyrovnanými (fitted) hodnotami HDP a rezíduami modelu. Slúži na odhalenie nelinearity, heteroskedasticity a systematických chýb v špecifikácii modelu.
Interpretácia:
Rezíduá nevykazujú náhodný oblak, ale majú zreteľné zakrivenie. To perfektne korešponduje s výsledkom RESET testu, ktorý výrazne zamietol lineárnu špecifikáciu.
Tento vzor naznačuje, že: - vzťah medzi HDP a rokom nie je lineárny, - dáta pravdepodobne sledujú exponenciálny alebo logaritmický rast, - alebo je potrebné doplniť nelineárne členy ako \[YEAR^2\]. Pri vyšších hodnotách predikovaného HDP sa rezíduá systematicky zvyšujú, čo je znak heteroskedasticity.
Dôsledok: Lineárny model GDP∼Year nie je vhodný. Je potrebné zvážiť transformáciu, najmä logaritmus HDP.
C+R grafy (component + residual plots) umožňujú vizuálne posúdiť, ako správne je zvolená funkčná forma pre konkrétny regresor.
Vychádzame z modelu:
\[GDP_t = \beta_0 + \beta_1 YEAR_{t} + u_t\]
Interpretácia C+R grafu
Záver z C+R grafov: Premenná Year má nelineárny vzťah k HDP → ideálnym riešením je log-transformácia HDP, t. j.: \[log(GDP_t) = \beta_0 + \beta_1 YEAR_{t} + u_t\]
Pri modelovaní časového vývoja HDP sa často stretávame s tým, že rast nie je lineárny, ale skôr exponenciálny alebo kvadratický. Jedným zo štandardných spôsobov, ako zachytiť nelineárny vzťah medzi vysvetľujúcimi premennými a HDP, je doplnenie polynomiálnych členov, najčastejšie druhých mocnín.
Všeobecná nelineárna špecifikácia môže mať tvar: \[GDP_t = \beta_0 + \beta_1 YEAR_{t1} + \dots +\beta_k YEAR_{tk} + \gamma_i\hat {YEAR}_{ti}^2 + \gamma_j\hat {YEAR}_{tj}^2 + u_t\]
V našom prípade je problematická najmä premenná Year, čo bolo jasne viditeľné: - v teste Ramsey RESET (model bol zle špecifikovaný), - v grafe Residuals vs Fitted (jasné zakrivenie), - v C+R grafe (nelinearita je evidentná). Preto doplníme do modelu druhú mocninu roka.
|
Odhady koeficientov
|
||||
|---|---|---|---|---|
| term | estimate | std.error | statistic | p.value |
| (Intercept) | -453.8975 | 377.5507 | -1.2022 | 0.2415 |
| Beijing | -0.0621 | 0.5135 | -0.1210 | 0.9047 |
| Shanghai | 1.9142 | 0.3707 | 5.1635 | 0.0000 |
| Jiangsu | 0.2923 | 0.0669 | 4.3674 | 0.0002 |
| I(Beijing^2) | 0.0000 | 0.0000 | 1.6204 | 0.1188 |
| I(Shanghai^2) | 0.0000 | 0.0000 | -0.9286 | 0.3627 |
| Statistic | Value |
|---|---|
| N (Observations) | 29.0000 |
| R-squared | 0.9999 |
| Adjusted R-squared | 0.9999 |
| F-statistic | 49594.1219 |
| F-test p-value | 0.0000 |
| AIC | 432.4509 |
| Residual Std. Error | 369.3090 |
Jedným z ďalších závažných porušení predpokladov klasického lineárneho regresného modelu je multikolinearita – situácia, keď sú vysvetľujúce premenné silne lineárne závislé. V našom prípade je to mimoriadne relevantné, keďže pracujeme s HDP veľkých čínskych provincií, ktoré: rastú podobným tempom, reagujú na rovnaké makroekonomické impulzy, sú súčasťou jednej integrovanej ekonomiky.
Je preto veľmi pravdepodobné, že medzi premennými Beijing, Shanghai, Jiangsu existuje silná korelácia.
V kontexte našich dát má multikolinearita nasledovné dôsledky:
Výsledky diagnostiky naznačujú, že medzi jednotlivými provinčnými premennými existuje zvýšená korelácia, čo je v kontexte regionálnych HDP dát očakávateľné. Provinčné HDP majú podobný rastový trend a reagujú na rovnaké makroekonomické faktory, čo prirodzene vedie k vyššej miere lineárnej závislosti.
Zároveň však platí, že multikolinearita nespôsobuje skreslenie (bias) odhadov regresných koeficientov, ale vedie k zvýšeniu ich štandardných chýb a zníženiu presnosti individuálnej interpretácie jednotlivých koeficientov.
Pri odhade východiskového regresného modelu pozorujeme výrazné rozdiely vo veľkosti regresných koeficientov medzi jednotlivými provinciami, čo odráža rozdielne úrovne ich HDP. Tento jav môže naznačovať silnú lineárnu závislosť medzi vysvetľujúcimi premennými, keďže ekonomicky významné provincie vykazujú podobný rastový trend. Už deskriptívna analýza preto poukazuje na možnú prítomnosť multikolinearity v modeli.
| Premenná | Beijing | Shanghai | Jiangsu |
|---|---|---|---|
| Beijing | 1.000 | 0.999 | 0.999 |
| Shanghai | 0.999 | 1.000 | 0.997 |
| Jiangsu | 0.999 | 0.997 | 1.000 |
Korelačná matica vysvetľujúcich premenných poukazuje na mimoriadne silné párové korelácie medzi vybranými provinciami. Hodnoty korelačných koeficientov presahujú hranicu 0.99, čo jednoznačne signalizuje extrémne silnú lineárnu závislosť medzi jednotlivými regresormi.
Takto vysoké korelácie naznačujú, že vysvetľujúce premenné obsahujú takmer rovnakú informáciu o ekonomickom vývoji, čo výrazne znižuje schopnosť modelu identifikovať samostatný vplyv jednotlivých provincií. Vzhľadom na silnú ekonomickú previazanosť regiónov však vylúčenie jednej z premenných iba na základe korelácie nie je vhodné, keďže by došlo k strate ekonomického významu modelu.
| Premenná | VIF |
|---|---|
| Beijing | 2440.217 |
| Shanghai | 864.487 |
| Jiangsu | 759.295 |
Hodnoty ukazovateľa Variance Inflation Factor pre jednotlivé vysvetľujúce premenné výrazne prekračujú bežne používané kritické hranice. Takto vysoké hodnoty VIF poukazujú na extrémnu mieru multikolinearity v regresnom modeli.
Získané výsledky potvrdzujú, že rozptyly odhadov regresných koeficientov sú výrazne nadhodnotené, čo vedie k zníženej štatistickej významnosti jednotlivých parametrov a k ich nestabilite. Multikolinearita v tomto prípade nie je dôsledkom chybnej špecifikácie modelu, ale prirodzeným výsledkom vysokej ekonomickej previazanosti hlavných čínskych provincií.
| Ukazovateľ | Hodnota |
|---|---|
| Condition number | 190.8 |
Vypočítaná hodnota condition number výrazne presahuje hranicu 100, ktorá signalizuje veľmi vážnu multikolinearitu. Takto vysoká hodnota indikuje, že matica \(X^T X\) je takmer singulárna a jej inverzia je numericky nestabilná.
Spolu s výsledkami korelačnej matice a VIF ide o jednoznačný dôkaz, že vysvetľujúce premenné sú takmer lineárne závislé. Regresný model preto nemožno interpretovať ako súbor nezávislých parciálnych vplyvov jednotlivých provincií, ale skôr ako opis spoločného ekonomického trendu a regionálnych rozdielov v rámci jednej integrovanej ekonomiky.
V dôsledku extrémnej multikolinearity medzi premennými Beijing, Shanghai a Jiangsu sme analyzovali vplyv postupného vynechávania vysvetľujúcich premenných z modelu. Hoci tento postup vedie k zníženiu hodnôt VIF a zlepšeniu numerickej stability, zároveň spôsobuje stratu významnej ekonomickej informácie. Vynechávanie premenných preto síce technicky redukuje multikolinearitu, avšak na úkor interpretačnej hodnoty modelu, a v rámci tejto analýzy ho nepovažujeme za vhodné riešenie.
| Premenná | Adj_R_sq |
|---|---|
| Shanghai | 1.000 |
| Beijing | 0.999 |
| Jiangsu | 1.000 |
Zo zníženého modelu sa multikolinearita síce mierne znížila, avšak za cenu straty ekonomickej informácie. Keďže každá provincia reprezentuje jednu kľúčovú oblasť čínskej ekonomiky, vynechanie ktoréhokoľvek regiónu znamená aj stratu ekonomickej interpretácie.
Vynechávanie premenných nie je vhodné riešenie, pretože nedegraduje len multikolinearitu, ale aj ekonomický obsah modelu.
Alternatívnym prístupom k riešeniu problému multikolinearity je úprava mierky vysvetľujúcich premenných pri zachovaní ich ekonomického významu. V našom prípade sme pristúpili k prevodu HDP jednotlivých provincií z dolárov na tisíce dolárov.
Táto transformácia nemení korelačné vzťahy medzi premennými, avšak výrazne zlepšuje numerickú stabilitu regresného výpočtu. Regresné koeficienty sa dostávajú do porovnateľných rádov veľkosti, čo zvyšuje prehľadnosť a zjednodušuje ich interpretáciu.
| term | estimate | std.error | statistic | p.value |
|---|---|---|---|---|
| (Intercept) | 0.330 | 0.424 | 0.778 | 0.444 |
| Beijing_1000 | 1.814 | 0.567 | 3.200 | 0.004 |
| Shanghai_1000 | 0.439 | 0.321 | 1.370 | 0.183 |
| Jiangsu_1000 | 0.258 | 0.111 | 2.324 | 0.028 |
Po škálovaní premenných sa regresné koeficienty stali porovnateľnejšími a model prehľadnejší. Výsledky naznačujú, že vývoj HDP provincie Guangdong je najsilnejšie ovplyvnený HDP v Pekingu, zatiaľ čo vplyv provincie Jiangsu je slabší, no štatisticky významný; premenná Shanghai sa po zohľadnení ostatných regiónov javí ako nevýznamná v dôsledku multikolinearity. Model preto odráža skôr spoločný regionálny ekonomický trend než nezávislé kauzálne vzťahy.
| Statistic | Value |
|---|---|
| N (Observations) | 29.000 |
| R-squared | 1.000 |
| Adjusted R-squared | 1.000 |
| F-statistic | 22935.823 |
| F-test p-value | 0.000 |
| AIC | 67.389 |
| Residual Std. Error | 0.701 |
Extrémne vysoká hodnota koeficientu determinácie spolu s veľmi nízkou reziduálnou chybou naznačuje, že model takmer dokonale reprodukuje pozorované údaje.
Vzhľadom na malý počet pozorovaní a vysokú koreláciu medzi vysvetľujúcimi premennými však nejde o dôkaz vysokej kvality modelu, ale o prejav silnej multikolinearity.
Model má síce výbornú predikčnú schopnosť v rámci vzorky, no regresné koeficienty nemožno interpretovať ako nezávislé kauzálne vplyvy jednotlivých premenných.
| Premenná | VIF |
|---|---|
| Beijing_1000 | 2440.217 |
| Shanghai_1000 | 864.487 |
| Jiangsu_1000 | 759.295 |
Diagnostika pomocou faktora inflácie variancie jednoznačne potvrdzuje prítomnosť extrémnej multikolinearity v modeli.
Hodnoty VIF výrazne presahujú kritické hranice, čo indikuje, že jednotlivé vysvetľujúce premenné sú takmer lineárne závislé.
Aj napriek škálovaniu premenných zostáva multikolinearita zásadným problémom, keďže ide o štrukturálnu vlastnosť dát odrážajúcu spoločný ekonomický trend rastu regiónov.
Práca analyzovala vzťahy medzi hospodárskym vývojom vybraných čínskych provincií pomocou viacnásobného lineárneho regresného modelu so zameraním na vysvetlenie vývoja HDP provincie Guangdong. Analýza odhalila výraznú multikolinearitu ako štrukturálnu vlastnosť dát, ktorej úplné odstránenie by viedlo k strate ekonomickej informácie. Škálovanie premenných sa ukázalo ako vhodný spôsob zlepšenia numerickej stability a interpretovateľnosti, pričom model je potrebné vnímať ako opis spoločného ekonomického trendu čínskych regiónov.