Knižnice

library(zoo)
## 
## Attaching package: 'zoo'
## The following objects are masked from 'package:base':
## 
##     as.Date, as.Date.numeric
library(tseries)
## Registered S3 method overwritten by 'quantmod':
##   method            from
##   as.zoo.data.frame zoo
library(lmtest)
library(sandwich)
library(car)
## Loading required package: carData
rm(list=ls())

1. Úvod a údaje

V tejto časti práce sa zameriam na modelovanie vývoja HDP vybranej provincie Číny v čase a jeho porovnanie s inými regiónmi. Ako referenčný región budem používať provinciu:Guangdong (najvýkonnejšia provincia Číny z hľadiska HDP)

Budem analyzovať vývoj HDP provincie Guangdong v závislosti od: času (Year), vývoja HDP v iných ekonomicky významných provinciách (napr. Beijing, Shanghai, Jiangsu), regionálnych rozdielov medzi pobrežnými a vnútrozemskými oblasťami.

Pracovné hypotézy: Formulujem nasledovné hypotézy: H1: HDP provincie Guangdong má v sledovanom období rastúci trend. H2: Medzi HDP Guangdongu a pobrežných provincií existuje silná pozitívna korelácia. H3: Regionálne rozdiely medzi východnou a západnou Čínou sa v čase zväčšujú. H4: Tempo rastu HDP je v pobrežných regiónoch vyššie ako vo vnútrozemí.

Tieto hypotézy budem v ďalších kapitolách testovať pomocou: regresnej analýzy, korelačných testov, analýzy trendu, testov stacionarity.

Príprava databázy, úprava údajov

# nacitanie udajov
chinaGDP <- read.csv2("Chinas GDP in Province En.csv", header = TRUE, sep = ",", dec = ".") 

# nastavenie rokov ako rownames
rownames(chinaGDP) <- chinaGDP[,1]
chinaGDP <- chinaGDP[,-1]

# zoradenie podla rokov
chinaGDP <- chinaGDP[order(as.numeric(rownames(chinaGDP))), ]

# nahlad dat
head(chinaGDP)

Pre ďalšiu analýzu vyberieme jednu provinciu – Guangdong.

# vyber provincie Guangdong
GDP_Guangdong <- chinaGDP$Guangdong

# vytvorenie casoveho radu
GDP_ts <- ts(GDP_Guangdong, start = 1992, frequency = 1)

GDP_ts
## Time Series:
## Start = 1992 
## End = 2020 
## Frequency = 1 
##  [1]   2447.5   3469.3   4619.0   5940.3   6848.2   7793.0   8555.3   9289.6
##  [9]  10810.2  12126.6  13601.9  15979.8  18658.3  21963.0  25961.2  31742.6
## [17]  36704.2  39464.7  45944.6  53072.8  57007.7  62503.4  68173.0  74732.4
## [25]  82163.2  91648.7  99945.2 107986.9 110760.9
# prehladove zobrazenie prvych a poslednych rokov
head(GDP_Guangdong)
## [1] 2447.5 3469.3 4619.0 5940.3 6848.2 7793.0
tail(GDP_Guangdong)
## [1]  74732.4  82163.2  91648.7  99945.2 107986.9 110760.9
plot(GDP_ts,
     main = "Vývoj HDP provincie Guangdong (1992–2020)",
     xlab = "Rok",
     ylab = "HDP",
     col = "blue",
     lwd = 2)

Lineárna regresia v základnom tvare

Lineárny regresný model

V tejto časti budem analyzovať vývoj HDP provincie Guangdong pomocou lineárneho regresného modelu, kde závislou premennou je HDP provincie Guangdong a vysvetľujúcimi premennýmiHDP vybraných ekonomicky významných provincií.

Ako vysvetľujúce premenné zvolíme: Beijing, Shanghai, Jiangsu

Cieľom je preskúmať, či existuje štatisticky významný vzťah medzi ekonomickým vývojom Guangdongu a ostatnými kľúčovými regiónmi.

Model má tvar:

\[GDP_{Guangdong,t} = \beta_0 + \beta_1 GDP_{Beijing,t} + \beta_2 GDP_{Shanghai,t} + \beta_3 GDP_{Jiangsu,t} + e_t\]

library(ggplot2)

# vytvorenie dat pre regresiu
regData <- data.frame(
  Guangdong = chinaGDP$Guangdong,
  Beijing = chinaGDP$Beijing,
  Shanghai = chinaGDP$Shanghai,
  Jiangsu = chinaGDP$Jiangsu
)

# linearna regresia
model <- lm(Guangdong ~ Beijing + Shanghai + Jiangsu, data = regData)

# vysledok
summary(model)
## 
## Call:
## lm(formula = Guangdong ~ Beijing + Shanghai + Jiangsu, data = regData)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -1652.60  -216.40    87.11   287.86  1468.64 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)   
## (Intercept) 329.7463   423.8004   0.778  0.44383   
## Beijing       1.8140     0.5669   3.200  0.00372 **
## Shanghai      0.4392     0.3206   1.370  0.18291   
## Jiangsu       0.2578     0.1109   2.324  0.02854 * 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 701 on 25 degrees of freedom
## Multiple R-squared:  0.9996, Adjusted R-squared:  0.9996 
## F-statistic: 2.294e+04 on 3 and 25 DF,  p-value: < 2.2e-16

Interpretácia

Odhadovaný model má tvar:

\[GDP_{Guangdong,t} = 329.75 + 1.81 * GDP_{Beijing,t} + 0.44 * GDP_{Shanghai,t} + 0.26 * GDP_{Jiangsu,t}\] Štatistická významnosť modelu ako celku Hodnota testovacej štatistiky F je: \[F=22940 (p-value < 2,2 * 10^{-16})\] To znamená, že regresný model je ako celok štatisticky významný. Minimálne jedna z vysvetľujúcich premenných má štatisticky významný vplyv na HDP provincie Guangdong.

Koeficient determinácie \[R^2=0,9996\] Tento výsledok znamená: Až 99,96 % variability HDP provincie Guangdong je vysvetlených HDP provincií Beijing, Shanghai a Jiangsu. Model má teda extrémne vysokú vysvetľovaciu schopnosť. Zároveň je potrebné dodať: Takto vysoké R^2 je typické pre ekonomické časové rady, ktoré majú rastúci trend. Existuje preto riziko tzv. falošnej regresie (spurious regression), ktorú je vhodné testovať pomocou testov stacionarity (ADF test).

Konštanta \[\beta_0=329.75, (p=0.44)\] Konštanta nie je štatisticky významná, čo znamená: Neexistuje dôkaz, že by Guangdong mal „autonómne HDP“ pri nulových hodnotách ostatných regiónov. V kontexte reálnych ekonomických dát to však nie je problém, keďže nulové HDP nemá ekonomický význam.

Beijing \[\beta_{Beijing}=1.81, (p=0.0037)\] Parameter je kladný, štatisticky významný na 1 % hladine významnosti. Interpretácia: Zvýšenie HDP v Pekingu o 1 jednotku je spojené so zvýšením HDP provincie Guangdong v priemere o 1,81 jednotky, za predpokladu nemennosti ostatných provincií. Ekonomicky to znamená: Ekonomika Pekingu má silný vplyv na Guangdong – rast centra krajiny sa premieňa aj do rastu regiónov.

Shanghai \[\beta_{Shanghai}=0.44, (p=0.183)\] Koeficient nie je štatisticky významný. To znamená - Nie je možné potvrdiť významný vplyv Šanghaja na HDP Guangdongu po zohľadnení ostatných regiónov. Možné vysvetlenie - silná multikolinearita (Shanghai a Beijing sú silne korelované), ich vplyvy sa „prekrývajú“.

Autokorelácia rezíduí

V tejto časti budem testovať jeden z kľúčových predpokladov klasického lineárneho regresného modelu, a to nezávislosť rezíduí v čase. Keďže analyzujem časové rady, existuje vysoké riziko, že chyba v jednom období závisí od chyby v období predchádzajúcom, čo označujeme ako autokorelácia rezíduí.

Detekcia autokorelácie

Grafické porovnanie skutočných a odhadnutých hodnôt Najprv zobrazíme vývoj skutočných a odhadnutých hodnôt HDP provincie Guangdong:

library(ggplot2)

# pridanie fitted values
regData$Year <- as.numeric(rownames(chinaGDP))
regData$fitted <- fitted(model)

ggplot(regData, aes(x = Year, y = Guangdong)) +
  geom_point(color = "steelblue", size = 2) +
  geom_line(aes(y = fitted), color = "red", linewidth = 1) +
  labs(
    title = "HDP provincie Guangdong: skutočné vs. odhadnuté hodnoty",
    x = "Rok",
    y = "HDP"
  ) +
  theme_minimal()

Interpretácia

Z grafu „HDP provincie Guangdong: skutočné vs. odhadnuté hodnoty“ vidíme, že regresná krivka síce veľmi dobre kopíruje trend skutočných hodnôt, ale v určitých obdobiach sa skutočné hodnoty systematicky nachádzajú: - nad regresnou krivkou alebo - pod regresnou krivkou. Najvýraznejšie je to viditeľné po roku 2008 (globálna finančná kríza) a po roku 2015 (spomalenie čínskej ekonomiky). Takéto kompaktné úseky rezíduí s rovnakým znamienkom sú typickým príznakom pozitívnej autokorelácie. Model nezachytáva všetky dynamické zmeny v ekonomike a časová štruktúra chýb nie je náhodná.

Uloženie rezíduí

res <- residuals(model)

Autokorelačná funkcia

acf(res, lag.max = 6, main = "ACF graf rezíduí – HDP Guangdong")

Interpretácia

Na ACF grafe vidíme výrazne kladnú hodnotu autokorelácie pri prvom oneskorení (lag = 1), táto hodnota presahuje 95 % interval spoľahlivosti, ostatné oneskorenia už vykazujú nižšie korelácie, ktoré postupne klesajú a menia znamienko. Rezíduá majú silnú pozitívnu autokoreláciu prvého rádu. To znamená, že chyba v jednom roku je výrazne závislá od chyby z predchádzajúceho roka. Tvar ACF (postupný pokles hodnôt) je charakteristický pre proces typu AR(1).

Durbin–Watsonov test

library(lmtest)
dwtest(model)
## 
##  Durbin-Watson test
## 
## data:  model
## DW = 0.63018, p-value = 2.594e-07
## alternative hypothesis: true autocorrelation is greater than 0

Výpočet odhadu autokorelácie \[p=1-DW/2=1-0.63/2≈0.685\]

Interpretácia

DW blízke 0 → silná pozitívna autokorelácia p-hodnota ≪ 0.05 → zamietame nulovú hypotézu o neexistencii autokorelácie Autokorelácia má približne hodnotu 0.69, čo je veľmi silná závislosť.

V modeli sa nachádza výrazná pozitívna autokorelácia rezíduí prvého rádu. Predpoklad nezávislosti chýb je jasne porušený.

Breusch–Godfreyov test (BG test)

Hypotézy: H0 : ρ1 = 0 (žiadna autokorelácia prvého rádu) H1 : ρ2 nie je 0 (prítomná autokorelácia)

library(lmtest)
bgtest(model, order = 1)
## 
##  Breusch-Godfrey test for serial correlation of order up to 1
## 
## data:  model
## LM test = 13.342, df = 1, p-value = 0.0002596

Interpretácia

Keďže p-value = 0.0002596 < 0.01, zamietame nulovú hypotézu už na 1 % hladine významnosti. Breusch–Godfreyov test jednoznačne potvrdzuje prítomnosť sériovej autokorelácie rezíduí prvého rádu v regresnom modeli HDP provincie Guangdong.

Vysoká hodnota testovej štatistiky LM = 13.342, znamená, že vysvetľujúce premenné spolu s oneskoreným rezíduom významne vysvetľujú reziduálnu zložku v čase.

Koyckova štruktúra

library(dplyr)
## 
## Attaching package: 'dplyr'
## The following object is masked from 'package:car':
## 
##     recode
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
regData_dyn <- regData %>%
  arrange(Year) %>%
  mutate(Guangdong_lag1 = lag(Guangdong))

model_koyck <- lm(Guangdong ~ Beijing + Shanghai + Jiangsu + Guangdong_lag1,
                  data = regData_dyn)

summary(model_koyck)
## 
## Call:
## lm(formula = Guangdong ~ Beijing + Shanghai + Jiangsu + Guangdong_lag1, 
##     data = regData_dyn)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -1105.80  -184.11    -8.14   315.57  1189.53 
## 
## Coefficients:
##                 Estimate Std. Error t value Pr(>|t|)    
## (Intercept)    -73.44903  407.12029  -0.180 0.858410    
## Beijing          0.81392    0.55240   1.473 0.154194    
## Shanghai         0.82894    0.30269   2.739 0.011707 *  
## Jiangsu          0.20595    0.09156   2.249 0.034364 *  
## Guangdong_lag1   0.26228    0.06903   3.800 0.000924 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 571.5 on 23 degrees of freedom
##   (1 observation deleted due to missingness)
## Multiple R-squared:  0.9998, Adjusted R-squared:  0.9997 
## F-statistic: 2.482e+04 on 4 and 23 DF,  p-value: < 2.2e-16

Test autokorelácie v dynamickom modeli

library(lmtest)
dwtest(model_koyck)
## 
##  Durbin-Watson test
## 
## data:  model_koyck
## DW = 1.4167, p-value = 0.009389
## alternative hypothesis: true autocorrelation is greater than 0

Interpretácia

Približne 26,2 % HDP Guangdongu z predchádzajúceho roka sa prenáša do aktuálneho obdobia. Ekonomicky to znamená - Rast v jednom roku má pretrvávajúci vplyv aj v ďalších rokoch – ekonomika má zotrvačnosť. Rast HDP v Šanghaji má štatisticky významný a silný okamžitý vplyv na Guangdong. Jiangsu má miernejší, ale stále významný vplyv. V dynamickom modeli sa vplyv Pekingu už nejaví ako štatisticky významný. Jeho vplyv je sprostredkovaný cez celkovú ekonomickú dynamiku (oneskorené HDP Guangdongu a ďalšie provincie).

Koyckova transformácia umožnila identifikovať zotrvačný charakter rastu HDP provincie Guangdong. Významný parameter λ potvrdzuje, že ekonomika reaguje postupne a nie okamžite. Dlhodobý efekt rastu iných provincií je väčší než ich krátkodobý efekt, čo je typické pre regionálne prepojené ekonomiky.

Robustné štandardné chyby (Newey–West)

library(sandwich)
library(lmtest)

coeftest(model, vcov = NeweyWest(model))
## 
## t test of coefficients:
## 
##               Estimate Std. Error t value Pr(>|t|)   
## (Intercept) 329.746306 601.997322  0.5478 0.588719   
## Beijing       1.813993   0.579735  3.1290 0.004420 **
## Shanghai      0.439154   0.481047  0.9129 0.370009   
## Jiangsu       0.257763   0.078248  3.2942 0.002947 **
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Interpretácia

Beijing Koeficient 1.81 zostáva štatisticky významný aj po robustnej korekcii. Zvýšenie HDP v Pekingu o jednu jednotku je spojené s rastom HDP provincie Guangdong v priemere o približne 1.8 jednotky, aj po zohľadnení časovej závislosti rezíduí.

Jiangsu Jiangsu ostáva štatisticky významný. Ekonomický rast provincie Jiangsu má stabilný a významný vplyv na HDP Guangdongu.

Shanghai Shanghai nie je štatisticky významný ani po korekcii. Po zohľadnení autokorelácie sa vplyv Šanghaja nepreukázal ako nezávislý determinant rastu Guangdongu.

Aj po odstránení skreslenia spôsobeného autokoreláciou zostávajú Beijing a Jiangsu štatisticky významné, čo potvrdzuje, že pôvodné výsledky neboli len dôsledkom trendu. Naopak, vplyv Šanghaja sa ukázal ako štatisticky nevýznamný, čo naznačuje, že jeho význam v statickej regresii bol nadhodnotený v dôsledku porušenia predpokladov klasického modelu.