Cointegration

Hai chuỗi thời gian đồng tích hợp (Cointegrated Time Series) ngụ ý rằng tồn tại một số nguyên nhân gốc (underlying forces) làm cho hai chuỗi thời gian có xu hướng biến động tương đồng nhau về dài hạn ngay cả khi nếu nhìn riêng lẻ thì chúng là các bước đi ngẫu nhiên (random walks).

Hamilton (1994) đưa ra mô tả về chuỗi đồng tích hợp như sau:

\[ x_{t} = x_{t - 1} + u_{t}\] \[ y_{t} = \gamma*x_{t} + v_{t}\]

Trong đó \(u_{t}\)\(v_{t}\) tuân theo N(0, 1).

Chúng ta có thể mô phỏng và hình ảnh hóa chuỗi đồng tích hợp như sau:

# A function for black theme: 
my_theme <- function(...) {
  theme(
    axis.line = element_blank(),  
    axis.text.x = element_text(color = "white", lineheight = 0.9),  
    axis.text.y = element_text(color = "white", lineheight = 0.9),  
    axis.ticks = element_line(color = "white", size  =  0.2),  
    axis.title.x = element_text(color = "white", margin = margin(0, 10, 0, 0)),  
    axis.title.y = element_text(color = "white", angle = 90, margin = margin(0, 10, 0, 0)),  
    axis.ticks.length = unit(0.3, "lines"),   
    legend.background = element_rect(color = NA, fill = "gray10"),  
    legend.key = element_rect(color = "white",  fill = "gray10"),  
    legend.key.size = unit(1.2, "lines"),  
    legend.key.height = NULL,  
    legend.key.width = NULL,      
    legend.text = element_text(color = "white"),  
    legend.title = element_text(face = "bold", hjust = 0, color = "white"),  
    legend.text.align = NULL,  
    legend.title.align = NULL,  
    legend.direction = "vertical",  
    legend.box = NULL, 
    panel.background = element_rect(fill = "gray10", color  =  NA),  
    panel.border = element_blank(),
    panel.grid.major = element_line(color = "grey35"),  
    panel.grid.minor = element_line(color = "grey20"),  
    panel.spacing = unit(0.5, "lines"),   
    strip.background = element_rect(fill = "grey30", color = "grey10"),  
    strip.text.x = element_text(color = "white"),  
    strip.text.y = element_text(color = "white", angle = -90),  
    plot.background = element_rect(color = "gray10", fill = "gray10"),  
    plot.title = element_text(color = "white", hjust = 0, lineheight = 1.25,
                              margin = margin(2, 2, 2, 2)),  
    plot.subtitle = element_text(color = "white", hjust = 0, margin = margin(2, 2, 2, 2)),  
    plot.caption = element_text(color = "white", hjust = 0),  
    plot.margin = unit(rep(1, 4), "lines"))
  
}

# Load some packages: 
library(tidyverse)
library(magrittr)

# Simulate two Cointegrated Time Series as proposed by Hamilton (1994): 
gamma <- 0.7

set.seed(29)
x <- rnorm(1000) %>% cumsum()
y <- gamma*x + rnorm(1000)

df <- data_frame(return = c(x, y), 
                 series = c(rep("X", 1000), rep("Y", 1000)), 
                 time = rep(1:1000, length.out = 2000))

# Visualize time series: 
df %>% 
  ggplot(aes(time, return, color = series)) + 
  geom_line() + 
  my_theme() + 
  scale_color_manual(values = c("cyan", "purple")) + 
  labs(x = NULL, y = NULL, 
       title = "Figure 1: An Example of Nonstationary/Cointegrated Time Series\nas proposed by Hamilton (1994)") 

Augmented Dickey Fuller Test

Từ hình 1 chúng ta có thể thấy hai chuỗi X và Y là các bước đi ngẫu nhiên. Chúng ta có thể kiểm định tính dừng (Stationary) của hai chuỗi này bằng kiểm định Augmented Dickey Fuller (ADF) test (1979):

## 
## ############################################### 
## # Augmented Dickey-Fuller Test Unit Root Test # 
## ############################################### 
## 
## Test regression none 
## 
## 
## Call:
## lm(formula = z.diff ~ z.lag.1 - 1 + z.diff.lag)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -3.2099 -0.7456 -0.0267  0.7259  3.1153 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)
## z.lag.1     0.0005076  0.0012061   0.421    0.674
## z.diff.lag -0.0207229  0.0317421  -0.653    0.514
## 
## Residual standard error: 1.072 on 996 degrees of freedom
## Multiple R-squared:  0.0005804,  Adjusted R-squared:  -0.001426 
## F-statistic: 0.2892 on 2 and 996 DF,  p-value: 0.7489
## 
## 
## Value of test-statistic is: 0.4209 
## 
## Critical values for test statistics: 
##       1pct  5pct 10pct
## tau1 -2.58 -1.95 -1.62
## 
## ############################################### 
## # Augmented Dickey-Fuller Test Unit Root Test # 
## ############################################### 
## 
## Test regression none 
## 
## 
## Call:
## lm(formula = z.diff ~ z.lag.1 - 1 + z.diff.lag)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -4.9905 -1.0595  0.0282  0.9996  4.0732 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## z.lag.1    -0.0005597  0.0024185  -0.231    0.817    
## z.diff.lag -0.4030040  0.0290357 -13.880   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.508 on 996 degrees of freedom
## Multiple R-squared:  0.1628, Adjusted R-squared:  0.1611 
## F-statistic: 96.81 on 2 and 996 DF,  p-value: < 2.2e-16
## 
## 
## Value of test-statistic is: -0.2314 
## 
## Critical values for test statistics: 
##       1pct  5pct 10pct
## tau1 -2.58 -1.95 -1.62

Các Test-statistics thu được lần lượt là 0.4209 và -0.2314 đều lớn hơn các Critical values tại tất cả các ngưỡng 1%, 5% và 10% nên chúng ta có thể nói rằng có bằng chứng thống kê cho thấy các chuỗi là không dừng.

Kế tiếp chúng ta xét chuỗi thời gian Z như sau:

\[ z_{t} = y_{t} - \gamma*x_{t} \]

Rồi kiểm định tính dừng cho chuỗi này bằng ADF Test:

## 
## ############################################### 
## # Augmented Dickey-Fuller Test Unit Root Test # 
## ############################################### 
## 
## Test regression none 
## 
## 
## Call:
## lm(formula = z.diff ~ z.lag.1 - 1 + z.diff.lag)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -3.2414 -0.7083 -0.0490  0.7102  3.0251 
## 
## Coefficients:
##            Estimate Std. Error t value Pr(>|t|)    
## z.lag.1    -0.94392    0.04419 -21.358   <2e-16 ***
## z.diff.lag -0.02848    0.03170  -0.898    0.369    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.037 on 996 degrees of freedom
## Multiple R-squared:  0.4859, Adjusted R-squared:  0.4849 
## F-statistic: 470.7 on 2 and 996 DF,  p-value: < 2.2e-16
## 
## 
## Value of test-statistic is: -21.3583 
## 
## Critical values for test statistics: 
##       1pct  5pct 10pct
## tau1 -2.58 -1.95 -1.62

Giá trị của Test-statistic là -21.3583 nhỏ hơn các Critical values tại tất cả các ngưỡng nên chúng ta có bằng chứng thống kê đủ mạnh để chấp nhận giả thuyết rằng chuỗi Z là dừng (Stationary).

Chúng ta có thể hình ảnh hóa chuỗi dừng Z này:

Chuỗi Z là dừng nên chúng ta có thể thấy rằng phân phối của chuỗi này có dạng hình chuông đối xứng:

Engle-Granger Method

Trong thực tế chúng ta không biết trước \(\gamma\) và chúng ta buộc phải ước lượng giá trị này bằng cách thực hiện hồi quy OLS (không có hệ số chặn) Y theo X rồi áp dụng kiểm định ADF cho phần dư. Cách thức này được mô tả trong các giáo trình Financial Econometrics là phương pháp kiểm định đồng tích hợp Engle-Granger (Engle-Granger method of testing cointegration).

Chúng ta thực hiện kiểm định Engle-Granger như sau:

## 
## Call:
## lm(formula = Y ~ X - 1, data = .)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -3.2121 -0.7075 -0.0430  0.7237  3.0939 
## 
## Coefficients:
##   Estimate Std. Error t value Pr(>|t|)    
## X 0.700745   0.001163   602.7   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.036 on 999 degrees of freedom
## Multiple R-squared:  0.9973, Adjusted R-squared:  0.9973 
## F-statistic: 3.633e+05 on 1 and 999 DF,  p-value: < 2.2e-16
## 
## ############################################### 
## # Augmented Dickey-Fuller Test Unit Root Test # 
## ############################################### 
## 
## Test regression none 
## 
## 
## Call:
## lm(formula = z.diff ~ z.lag.1 - 1 + z.diff.lag)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -3.2444 -0.6954 -0.0301  0.7329  3.0494 
## 
## Coefficients:
##            Estimate Std. Error t value Pr(>|t|)    
## z.lag.1    -0.94471    0.04421 -21.370   <2e-16 ***
## z.diff.lag -0.02807    0.03170  -0.886    0.376    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.036 on 996 degrees of freedom
## Multiple R-squared:  0.4861, Adjusted R-squared:  0.485 
## F-statistic:   471 on 2 and 996 DF,  p-value: < 2.2e-16
## 
## 
## Value of test-statistic is: -21.3698 
## 
## Critical values for test statistics: 
##       1pct  5pct 10pct
## tau1 -2.58 -1.95 -1.62

Giá trị của test này (là -21.3698) không khác biệt nhiều so với giá trị trước đó (-21.3583).

Economic Intuition behind Cointegrated Time Series

Các chuỗi đồng tích hợp (Cointegrated Time Series) ngụ ý rằng, ví dụ, cổ phiếu của các công ti trong cùng một ngành (như năng lượng) nên có xu hướng biến động tương tự như nhau về dài hạn hoặc spot price và forward price của một tài sản tài chính nên có biến thiên tương tự nhau.

References

  1. Dickey, D. A.; Fuller, W. A. (1979). “Distribution of the Estimators for Autoregressive Time Series with a Unit Root”. Journal of the American Statistical Association. 74 (366): 427–431.

  2. Hamilton, James D. (1994). Time Series Analysis, Princetown, New Jersey.

