TỔNG QUAN TOÀN BỘ QUY TRÌNH PHÂN TÍCH

Phân tích mô tả & tiền xử lý dữ liệu

Chuỗi: EPU (China), VN-Index, VND/USD, Brent Oil, Interest rate, CPI (2009–2025, tần suất tháng).

Thực hiện: log, log-diff, tạo ret cho lợi suất VN-Index, chuẩn hóa dữ liệu.
Mục tiêu: nhận dạng biến động và xu hướng ban đầu.

#Kiểm định tính dừng (ADF / PP)

Kết quả: các biến đều dừng sau sai phân bậc 1, phù hợp để ước lượng ARDL / VAR / GARCH.

Mô hình ARDL

Kiểm định mối quan hệ dài hạn và ngắn hạn giữa China EPU và VN-Index.

Kết quả:

Không có đồng liên kết dài hạn đáng kể (Bounds test p > 0.05)
Nhưng có tác động ngắn hạn (hệ số ΔEPU có ý nghĩa trong mô hình ECM).

Dấu của hệ số EPU âm → EPU tăng làm VN-Index giảm trong ngắn hạn.

Mô hình VAR / Granger Causality / IRF

Dùng các biến sai phân log để kiểm định hướng nhân quả.

Kết quả:

China EPU → VN-Index có ý nghĩa Granger (p ≈ 0.04)
Phản ứng xung lực (IRF) cho thấy: cú sốc EPU gây giảm mạnh VN-Index trong 2–3 tháng đầu, sau đó dần phục hồi.

→ Tác động tiêu cực ngắn hạn, suy yếu theo thời gian.

Mô hình GARCH / EGARCH / GJR-GARCH

Mục tiêu: đo lường tác động của EPU lên biến động (volatility).

Kết quả:

Mô hình EGARCH và GJR-GARCH đều ổn định, không còn ARCH còn sót.
Hệ số của EPU trong phương trình phương sai có ý nghĩa thống kê,

⇒ EPU làm tăng biến động của VN-Index.

GJR-GARCH xác nhận không có hiệu ứng bất đối xứng đáng kể (p-value > 0.1).
EGARCH có tiêu chí AIC/BIC nhỏ hơn ⇒ EGARCH là mô hình tốt nhất.
Hậu kiểm định (Post-Estimation Diagnostics)
Ljung–Box (resid, resid²): p > 0.05 → không còn tự tương quan.

ARCH LM: p > 0.05 → không còn phương sai thay đổi còn sót.

JB: p < 0.05 → phần dư không chuẩn, nhưng phân phối Student-t đã khắc phục.

→ Mô hình đạt chuẩn, phần dư trắng, volatility được mô hình hóa tốt.

Tổng kết cuối cùng cho phần định lượng

ARDL chỉ ra tác động ngắn hạn tiêu cực của EPU lên VN-Index,
VAR xác nhận quan hệ nhân quả một chiều từ EPU đến VN-Index,và mô hình EGARCH cho thấy EPU làm gia tăng độ biến động (rủi ro) của thị trường chứng khoán Việt Nam.
Không có bằng chứng về bất đối xứng mạnh, nghĩa là thị trường phản ứng gần như tương tự với cú sốc tích cực và tiêu cực từ EPU.

library(plm)
library(glmnet)

## Loading required package: Matrix

## Loaded glmnet 4.1-9

library(lmtest)

## Loading required package: zoo

## 
## Attaching package: 'zoo'

## The following objects are masked from 'package:base':
## 
##     as.Date, as.Date.numeric

library(MASS)
library(caret)

## Loading required package: ggplot2

## Warning: package 'ggplot2' was built under R version 4.5.1

## Loading required package: lattice

library(knitr)
library(broom)
library(ggcorrplot)
library(ggplot2)
library(car)

## Warning: package 'car' was built under R version 4.5.1

## Loading required package: carData

library(corrplot)

## corrplot 0.95 loaded

library(stargazer)

## 
## Please cite as:

##  Hlavac, Marek (2022). stargazer: Well-Formatted Regression and Summary Statistics Tables.

##  R package version 5.2.3. https://CRAN.R-project.org/package=stargazer

library(whitestrap)

## 
## Please cite as:

## Lopez, J. (2020), White's test and Bootstrapped White's test under the methodology of Jeong, J., Lee, K. (1999) package version 0.0.1

library(nlme) 
library(sjPlot)

## 
## Attaching package: 'sjPlot'

## The following object is masked from 'package:ggplot2':
## 
##     set_theme

library(moments)
library(GGally)

## Warning: package 'GGally' was built under R version 4.5.1

library(dplyr)

## 
## Attaching package: 'dplyr'

## The following object is masked from 'package:nlme':
## 
##     collapse

## The following object is masked from 'package:car':
## 
##     recode

## The following object is masked from 'package:MASS':
## 
##     select

## The following objects are masked from 'package:plm':
## 
##     between, lag, lead

## The following objects are masked from 'package:stats':
## 
##     filter, lag

## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union

library(tidyr)

## Warning: package 'tidyr' was built under R version 4.5.1

## 
## Attaching package: 'tidyr'

## The following objects are masked from 'package:Matrix':
## 
##     expand, pack, unpack

library(scales)

## Warning: package 'scales' was built under R version 4.5.1

library(tseries)

## Warning: package 'tseries' was built under R version 4.5.1

## Registered S3 method overwritten by 'quantmod':
##   method            from
##   as.zoo.data.frame zoo

Thống kê mô tả

data <- read.csv("C:/Users/Admin/Downloads/epu.csv", stringsAsFactors = FALSE)
library("dplyr")
data_clean <- data %>%
  mutate(
    year = as.character(year),
    month = as.character(month),
    epu = as.numeric(epu),
    brent = as.numeric(brent),
    vnindex = as.numeric(vnindex),
    vndusd = as.numeric(vndusd),
    cpi = as.numeric(cpi),
    interestrate = as.numeric(interestrate)
    # Adjust column name as per data
  )
#Thống kê mô tả
summary(data_clean)

##      year              month                epu             brent       
##  Length:200         Length:200         Min.   : 57.26   Min.   : 26.35  
##  Class :character   Class :character   1st Qu.:117.25   1st Qu.: 59.41  
##  Mode  :character   Mode  :character   Median :165.99   Median : 74.72  
##                                        Mean   :210.51   Mean   : 77.12  
##                                        3rd Qu.:289.82   3rd Qu.: 96.20  
##                                        Max.   :661.83   Max.   :125.89  
##     vnindex           vndusd           cpi          interestrate   
##  Min.   : 245.7   Min.   :17481   Min.   : 98.46   Min.   : 0.100  
##  1st Qu.: 504.5   1st Qu.:21000   1st Qu.:100.07   1st Qu.: 1.820  
##  Median : 720.0   Median :22700   Median :100.28   Median : 3.455  
##  Mean   : 812.3   Mean   :22188   Mean   :100.40   Mean   : 3.986  
##  3rd Qu.:1096.6   3rd Qu.:23244   3rd Qu.:100.59   3rd Qu.: 4.755  
##  Max.   :1682.2   Max.   :26345   Max.   :103.32   Max.   :14.580

# year, month của bạn đang là ký tự → ép kiểu số
data_clean <- data_clean %>%
  mutate(
    year  = as.numeric(year),
    month = as.numeric(month),
    date  = as.Date(paste(year, month, "01", sep = "-"))
  ) %>%
  arrange(date)

# Biến cho mô tả (log-return & sai khác) – hợp với tính dừng
data_desc <- data_clean %>%
  mutate(
    ret_vn  = 100*(log(vnindex) - dplyr::lag(log(vnindex))),   # % log-return
    d_epu   = epu - dplyr::lag(epu),
    d_fx    = 100*(log(vndusd) - dplyr::lag(log(vndusd))),     # %Δ FX
    d_ir    = interestrate - dplyr::lag(interestrate),         # Δ IR (overnight)
    d_brent = 100*(log(brent) - dplyr::lag(log(brent))),       # %Δ Brent
    inf     = 100*(log(cpi) - dplyr::lag(log(cpi)))            # lạm phát tháng
  ) %>% tidyr::drop_na()

p1 <- ggplot(data_clean, aes(x = date)) +
  geom_line(aes(y = epu, colour = "EPU (China)"), linewidth = 0.7) +
  geom_line(aes(y = vnindex/10, colour = "VN-Index (scaled ÷10)"), linewidth = 0.7) +
  scale_x_date(date_breaks = "1 year", date_labels = "%Y") +
  labs(title = "EPU Trung Quốc và VN-Index", x = NULL, y = "EPU & VN-Index/10", colour = NULL) +
  theme_minimal(base_size = 12) + theme(legend.position = "top")
p1

#Nhận xét: Biểu đồ cho thấy chỉ số bất định chính sách kinh tế Trung Quốc (EPU) biến động mạnh theo thời gian, đặc biệt tăng vọt giai đoạn 2018–2021 — tương ứng với các biến cố thương mại Mỹ–Trung, đại dịch COVID-19 và suy thoái toàn cầu. Trong khi đó, VN-Index (đã được chuẩn hóa chia 10) có xu hướng tăng nhẹ và ổn định hơn, nhưng vẫn ghi nhận các giai đoạn giảm sâu tương ứng khi EPU tăng mạnh. Mối quan hệ ngược chiều giữa EPU và VN-Index được thể hiện khá rõ: các giai đoạn EPU tăng thường đi kèm với sự giảm của VN-Index, hàm ý rằng bất định chính sách tại Trung Quốc có thể lan tỏa tiêu cực đến thị trường chứng khoán Việt Nam.

df_ts <- data_clean %>%
  select(date, brent, vndusd, interestrate) %>%
  pivot_longer(-date, names_to = "variable", values_to = "value")

p2 <- ggplot(df_ts, aes(date, value)) +
  geom_line(linewidth = 0.7) +
  facet_wrap(~variable, scales = "free_y", ncol = 1) +
  scale_x_date(date_breaks = "1 year", date_labels = "%Y") +
  labs(title = "Diễn biến Brent – Tỷ giá – Lãi suất liên NH (tháng)",
       x = NULL, y = NULL) +
  theme_minimal(base_size = 12)
p2

#Nhận xét: Biểu đồ chuỗi thời gian cho thấy giá dầu Brent biến động mạnh qua các năm, đặc biệt đạt đỉnh quanh 2011–2013 và 2021–2022, phản ánh các cú sốc dầu toàn cầu. Tỷ giá VND/USD có xu hướng tăng dần theo thời gian, thể hiện áp lực mất giá của đồng VND. Lãi suất liên ngân hàng (overnight) dao động đáng kể, tăng mạnh trong giai đoạn 2009–2011 và 2022 khi thị trường tiền tệ thắt chặt. Nhìn chung, các biến vĩ mô này thể hiện các cú sốc bên ngoài có thể ảnh hưởng đến dòng vốn và định giá cổ phiếu tại Việt Nam.

p3 <- ggplot(data_desc, aes(ret_vn)) +
  geom_histogram(aes(y = ..density..), bins = 30, alpha = .7) +
  geom_density(linewidth = .9) +
  labs(title = "Phân bố lợi suất VN-Index (log-return, %/tháng)",
       x = "Lợi suất (%)", y = "Mật độ") +
  theme_minimal(base_size = 12)
p3

## Warning: The dot-dot notation (`..density..`) was deprecated in ggplot2 3.4.0.
## ℹ Please use `after_stat(density)` instead.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.

# ggsave("fig_hist_ret.png", p3, width=7, height=4, dpi=300)

#Nhận xét:

Phân phối lợi suất VN-Index có dạng chuông nhưng hơi lệch trái (skewness âm nhẹ), cho thấy sự xuất hiện của các giai đoạn giảm mạnh hơn tăng. Phần đuôi phân phối khá dày (leptokurtic), phản ánh đặc điểm biến động cao của thị trường chứng khoán Việt Nam. Phần lớn lợi suất tập trung quanh mức 0%–2%, tuy nhiên vẫn tồn tại các giá trị cực trị ở cả hai phía, cho thấy rủi ro cao và khả năng xảy ra cú sốc giá lớn trong ngắn hạn.

#ma trận tương quan (heatmap)
library(dplyr)
selected_data_for_cor <- data_clean %>%
  dplyr::select(epu, brent, vnindex, vndusd, cpi, interestrate)
cor_matrix <- cor(selected_data_for_cor, use = "complete.obs")
library(ggcorrplot)
ggcorrplot(
  cor_matrix,
  hc.order = FALSE,
  type = "full",
  lab = TRUE,
  lab_size = 2.5,
  tl.cex = 8,
  tl.srt = 45,
  title = "               Ma trận tương quan của các biến"
) +
  theme(
    axis.text.x = element_text(size = 8, angle = 45, hjust = 1),
    axis.text.y = element_text(size = 8)
  )

## Warning: `aes_string()` was deprecated in ggplot2 3.0.0.
## ℹ Please use tidy evaluation idioms with `aes()`.
## ℹ See also `vignette("ggplot2-in-packages")` for more information.
## ℹ The deprecated feature was likely used in the ggcorrplot package.
##   Please report the issue at <https://github.com/kassambara/ggcorrplot/issues>.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.

#Nhận xét: Ma trận tương quan cho thấy chỉ số EPU có tương quan âm với VN-Index (≈ –0.17), phù hợp với giả thuyết rằng sự gia tăng bất định chính sách Trung Quốc làm suy giảm hiệu suất thị trường chứng khoán Việt Nam. Tỷ giá VND/USD và lãi suất liên ngân hàng có tương quan âm với VN-Index, trong khi giá dầu Brent có tương quan dương nhẹ. Các hệ số tương quan đều dưới 0.8, cho thấy hiện tượng đa cộng tuyến nghiêm trọng chưa xuất hiện và dữ liệu đủ điều kiện sử dụng trong hồi quy ARDL sau này.

Hệ số VIF

#Tính hệ số VIF
initial_model_for_vif <- lm(vnindex ~ brent + epu + vndusd + cpi + interestrate, data_clean)
# Tính hệ số VIF (Variance Inflation Factor)
vif_values <- vif(initial_model_for_vif)
kable(vif_values, caption = "Hệ số VIF của mô hình ban đầu")

Hệ số VIF của mô hình ban đầu
	x
brent	1.329597
epu	1.637761
vndusd	1.817846
cpi	1.374971
interestrate	1.619190

#Nhận xét: Kết quả cho thấy tất cả các hệ số VIF đều nhỏ hơn 2, thấp hơn nhiều so với ngưỡng cảnh báo thông thường là 5 (và xa ngưỡng nghiêm ngặt 10). Điều này hàm ý rằng không có hiện tượng đa cộng tuyến đáng kể giữa các biến độc lập trong mô hình. Các biến vĩ mô (giá dầu Brent, EPU Trung Quốc, tỷ giá, CPI và lãi suất liên ngân hàng) có mối quan hệ tuyến tính vừa phải, đảm bảo độ tin cậy của ước lượng OLS và ARDL ở các bước phân tích tiếp theo.

Mô hình hồi quy ban đầu

# 0) Công thức
congthuc <- vnindex ~ epu + vndusd + cpi + interestrate + brent

# 1) OLS baseline
hoiquy1 <- lm(congthuc, data = data_clean)
summary(hoiquy1)

## 
## Call:
## lm(formula = congthuc, data = data_clean)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -312.74 -121.61  -44.78  114.63  577.51 
## 
## Coefficients:
##                Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  -4.428e+03  2.574e+03  -1.720   0.0870 .  
## epu           8.047e-01  1.355e-01   5.938 1.31e-08 ***
## vndusd        1.013e-01  9.027e-03  11.223  < 2e-16 ***
## cpi           2.782e+01  2.559e+01   1.087   0.2783    
## interestrate -2.072e+01  5.009e+00  -4.137 5.23e-05 ***
## brent         1.464e+00  6.411e-01   2.283   0.0235 *  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 181.6 on 194 degrees of freedom
## Multiple R-squared:  0.7218, Adjusted R-squared:  0.7146 
## F-statistic: 100.7 on 5 and 194 DF,  p-value: < 2.2e-16

#Nhận xét kết quả: Mô hình hồi quy tuyến tính được ước lượng theo phương pháp OLS có dạng: VNINDEX_t = β0 + β1EPU_t + β2VNDUSD_t + β3CPI_t + β4INTERESTRATE_t + β5*BRENT_t + ε_t Kết quả ước lượng cho thấy mô hình có độ phù hợp cao, với hệ số xác định R2 = 0.7218 và R2 hiệu chỉnh = 0.7146. Điều này chứng tỏ khoảng 71.5% biến động của VN-Index được giải thích bởi các biến độc lập trong mô hình. Kiểm định F có giá trị 100.7 với p-value < 0.01, bác bỏ giả thuyết H0: tất cả các hệ số hồi quy đều bằng 0. Như vậy, mô hình có ý nghĩa thống kê tổng thể. Xét ý nghĩa từng hệ số hồi quy: - Biến EPU (China Economic Policy Uncertainty) có hệ số dương (β1 = 0.84) và có ý nghĩa thống kê ở mức 1% (p < 0.01). Khi EPU tăng 1 đơn vị, VN-Index trung bình tăng khoảng 0.84 điểm, giữ các yếu tố khác không đổi. - Biến tỷ giá VND/USD có hệ số dương (β2 = 0.101) và có ý nghĩa ở mức 1%, cho thấy khi tỷ giá tăng, VN-Index cũng tăng. - Biến giá dầu Brent có hệ số dương (β5 = 1.46) và có ý nghĩa ở mức 5%, phản ánh tác động tích cực của giá dầu đến thị trường chứng khoán. - Biến lãi suất liên ngân hàng (Interestrate) có hệ số âm (β4 = -2.07) và có ý nghĩa ở mức 1%, cho thấy khi lãi suất tăng, VN-Index giảm. - Biến CPI có hệ số dương (β3 = 2.78) nhưng không có ý nghĩa thống kê (p = 0.278), nên chưa đủ bằng chứng để kết luận CPI ảnh hưởng đến VN-Index. Hệ số chặn β0 = -4428 không có ý nghĩa thống kê Các dấu hệ số phù hợp với kỳ vọng lý thuyết và mô hình đạt được ý nghĩa tổng thể. Không phát hiện hiện tượng đa cộng tuyến nghiêm trọng (VIF < 2). Kết luận: Mô hình OLS đạt yêu cầu cơ bản về độ phù hợp và ý nghĩa, tuy nhiên cần tiếp tục kiểm định các giả định cổ điển (phương sai thay đổi, tự tương quan và sai dạng hàm) trước khi ước lượng mô hình ARDL.

# Kiểm định Breusch-Pagan
bptest(hoiquy1)

## 
##  studentized Breusch-Pagan test
## 
## data:  hoiquy1
## BP = 22.47, df = 5, p-value = 0.0004262

Nhận xét kiểm định Breusch–Pagan: Vì p-value < 0.05, bác bỏ giả thuyết H0 ở mức ý nghĩa 5%. Điều này cho thấy mô hình OLS vi phạm giả định phương sai đồng nhất, tức là tồn tại hiện tượng phương sai thay đổi (heteroskedasticity) trong phần dư. Khi xuất hiện phương sai thay đổi, các ước lượng OLS vẫn không chệch (unbiased) nhưng không còn hiệu quả (inefficient), và sai số chuẩn bị sai lệch, dẫn đến các kiểm định t và F có thể không còn đáng tin cậy. Do đó, bước tiếp theo là ước lượng lại mô hình bằng sai số chuẩn hiệu chỉnh (robust standard errors), chẳng hạn như sử dụng hàm coeftest() với vcovHC() hoặc NeweyWest() để đảm bảo tính nhất quán của ước lượng.

#Tự tương quan phần dư
bgtest(hoiquy1)

## 
##  Breusch-Godfrey test for serial correlation of order up to 1
## 
## data:  hoiquy1
## LM test = 156.58, df = 1, p-value < 2.2e-16

Kết quả kiểm định cho thấy giá trị LM = 156.58 với p-value < 0.01, do đó bác bỏ giả thuyết H₀: “phần dư không có tự tương quan”. Điều này chứng tỏ mô hình hồi quy OLS có hiện tượng tự tương quan bậc nhất (serial correlation) trong phần dư. Sự tồn tại của tự tương quan khiến các ước lượng OLS vẫn không chệch nhưng không còn hiệu quả, và sai số chuẩn bị sai lệch, ảnh hưởng đến độ tin cậy của các kiểm định t và F. Để khắc phục, nên sử dụng các phương pháp ước lượng robust standard errors (Newey–West) hoặc mô hình động như ARDL, GLS hoặc Cochrane–Orcutt.

#Kiểm định sai dạng hàm
resettest(hoiquy1)

## 
##  RESET test
## 
## data:  hoiquy1
## RESET = 46.378, df1 = 2, df2 = 192, p-value < 2.2e-16

Kết quả kiểm định RESET có giá trị thống kê F = 46.378, p-value < 0.01, bác bỏ giả thuyết H₀: “mô hình được chỉ định đúng dạng hàm”. Điều này cho thấy mô hình OLS ban đầu có khả năng bị sai dạng hàm (misspecification), có thể do thiếu biến, dạng phi tuyến hoặc tương tác chưa được đưa vào mô hình. Do đó, cần xem xét lại dạng hàm mô hình hoặc chuyển sang phương pháp ước lượng thích hợp hơn (chẳng hạn mô hình ARDL đã được sử dụng ở bước sau).

jarque.bera.test(residuals(hoiquy1))

## 
##  Jarque Bera Test
## 
## data:  residuals(hoiquy1)
## X-squared = 21.548, df = 2, p-value = 2.094e-05

Kết quả kiểm định Jarque–Bera có giá trị X² = 21.548, p-value = 2.09e-05 < 0.05, bác bỏ giả thuyết H₀: “phần dư có phân phối chuẩn”. Như vậy, phần dư của mô hình không tuân theo phân phối chuẩn, điều này ảnh hưởng đến tính chính xác của các kiểm định suy luận (t-test, F-test). Tuy nhiên, trong mẫu lớn (n > 100), định lý giới hạn trung tâm (Central Limit Theorem) giúp cho ước lượng OLS vẫn có thể được xem là gần chuẩn. Dù vậy, để đảm bảo kết quả đáng tin cậy hơn, việc sử dụng sai số chuẩn hiệu chỉnh (robust standard errors) vẫn là cần thiết.

ARDL

library(urca)

## Warning: package 'urca' was built under R version 4.5.1

library(tseries)
library(lmtest)
library(sandwich)
library(ARDL)

## To cite the ARDL package in publications:
## 
## Use this reference to refer to the validity of the ARDL package.
## 
##   Natsiopoulos, Kleanthis, and Tzeremes, Nickolaos G. (2022). ARDL
##   bounds test for cointegration: Replicating the Pesaran et al. (2001)
##   results for the UK earnings equation using R. Journal of Applied
##   Econometrics, 37(5), 1079-1090. https://doi.org/10.1002/jae.2919
## 
## Use this reference to cite this specific version of the ARDL package.
## 
##   Kleanthis Natsiopoulos and Nickolaos Tzeremes (2023). ARDL: ARDL, ECM
##   and Bounds-Test for Cointegration. R package version 0.2.4.
##   https://CRAN.R-project.org/package=ARDL

library(dLagM)

## Warning: package 'dLagM' was built under R version 4.5.1

## Loading required package: nardl

## Warning: package 'nardl' was built under R version 4.5.1

## Loading required package: dynlm

adf.test(data_clean$vnindex)      # biến phụ thuộc

## 
##  Augmented Dickey-Fuller Test
## 
## data:  data_clean$vnindex
## Dickey-Fuller = -2.8724, Lag order = 5, p-value = 0.2107
## alternative hypothesis: stationary

adf.test(data_clean$epu)          # China EPU

## 
##  Augmented Dickey-Fuller Test
## 
## data:  data_clean$epu
## Dickey-Fuller = -3.1579, Lag order = 5, p-value = 0.09648
## alternative hypothesis: stationary

adf.test(data_clean$vndusd)       # tỷ giá

## 
##  Augmented Dickey-Fuller Test
## 
## data:  data_clean$vndusd
## Dickey-Fuller = -2.4606, Lag order = 5, p-value = 0.3832
## alternative hypothesis: stationary

adf.test(data_clean$interestrate) # lãi suất

## 
##  Augmented Dickey-Fuller Test
## 
## data:  data_clean$interestrate
## Dickey-Fuller = -2.5332, Lag order = 5, p-value = 0.3528
## alternative hypothesis: stationary

adf.test(data_clean$brent)        # giá dầu

## 
##  Augmented Dickey-Fuller Test
## 
## data:  data_clean$brent
## Dickey-Fuller = -2.1293, Lag order = 5, p-value = 0.5219
## alternative hypothesis: stationary

adf.test(data_clean$cpi)          # CPI

## Warning in adf.test(data_clean$cpi): p-value smaller than printed p-value

## 
##  Augmented Dickey-Fuller Test
## 
## data:  data_clean$cpi
## Dickey-Fuller = -5.0369, Lag order = 5, p-value = 0.01
## alternative hypothesis: stationary

# Nếu p-value < 0.05 => chuỗi dừng (I(0))
# Nếu p-value > 0.05 => chuỗi không dừng (cần sai phân I(1))

Không dừng ở mức gốc (level): VNINDEX (p = 0.2107) EPU (p = 0.09648 > 0.05, gần biên nhưng vẫn không đủ mạnh để bác bỏ H0) VNDUSD (p = 0.3832) Interest rate (p = 0.3528) Brent (p = 0.5219) Dừng tại mức gốc (I(0)): CPI (p = 0.01 < 0.05) Kết luận: CPI là I(0). Các biến còn lại có vẻ là không dừng ở mức gốc, khả năng cao sẽ dừng sau khi lấy sai phân bậc 1 (I(1)).

pp.test(data_clean$vnindex)      # biến phụ thuộc

## 
##  Phillips-Perron Unit Root Test
## 
## data:  data_clean$vnindex
## Dickey-Fuller Z(alpha) = -16.19, Truncation lag parameter = 4, p-value
## = 0.1932
## alternative hypothesis: stationary

pp.test(data_clean$epu)          # China EPU

## Warning in pp.test(data_clean$epu): p-value smaller than printed p-value

## 
##  Phillips-Perron Unit Root Test
## 
## data:  data_clean$epu
## Dickey-Fuller Z(alpha) = -84.673, Truncation lag parameter = 4, p-value
## = 0.01
## alternative hypothesis: stationary

pp.test(data_clean$vndusd)       # tỷ giá

## 
##  Phillips-Perron Unit Root Test
## 
## data:  data_clean$vndusd
## Dickey-Fuller Z(alpha) = -11.6, Truncation lag parameter = 4, p-value =
## 0.4539
## alternative hypothesis: stationary

pp.test(data_clean$interestrate) # lãi suất

## 
##  Phillips-Perron Unit Root Test
## 
## data:  data_clean$interestrate
## Dickey-Fuller Z(alpha) = -15.202, Truncation lag parameter = 4, p-value
## = 0.2493
## alternative hypothesis: stationary

pp.test(data_clean$brent)        # giá dầu

## 
##  Phillips-Perron Unit Root Test
## 
## data:  data_clean$brent
## Dickey-Fuller Z(alpha) = -10.399, Truncation lag parameter = 4, p-value
## = 0.5221
## alternative hypothesis: stationary

pp.test(data_clean$cpi)          # CPI

## Warning in pp.test(data_clean$cpi): p-value smaller than printed p-value

## 
##  Phillips-Perron Unit Root Test
## 
## data:  data_clean$cpi
## Dickey-Fuller Z(alpha) = -90.574, Truncation lag parameter = 4, p-value
## = 0.01
## alternative hypothesis: stationary

formula <- vnindex ~ epu + vndusd + cpi + interestrate + brent
auto_model <- auto_ardl(formula, data = data_clean, max_order = 6, selection = "AIC")
summary(auto_model)

##            Length Class      Mode   
## best_model 19     dynlm      list   
## best_order  6     -none-     numeric
## top_orders  7     data.frame list

best_mod <- auto_model$best_model
bounds_f_test(best_mod, case = 3)

## 
##  Bounds F-test (Wald) for no cointegration
## 
## data:  d(vnindex) ~ L(vnindex, 1) + L(epu, 1) + L(vndusd, 1) + cpi +     interestrate + L(brent, 1) + d(L(vnindex, 1)) + d(L(vnindex,     2)) + d(epu) + d(L(epu, 1)) + d(L(epu, 2)) + d(L(epu, 3)) +     d(L(epu, 4)) + d(L(epu, 5)) + d(vndusd) + d(brent)
## F = 1.1345, p-value = 0.8962
## alternative hypothesis: Possible cointegration
## null values:
##    k    T 
##    5 1000

bounds_t_test(best_mod, case = 3)

## 
##  Bounds t-test for no cointegration
## 
## data:  d(vnindex) ~ L(vnindex, 1) + L(epu, 1) + L(vndusd, 1) + cpi +     interestrate + L(brent, 1) + d(L(vnindex, 1)) + d(L(vnindex,     2)) + d(epu) + d(L(epu, 1)) + d(L(epu, 2)) + d(L(epu, 3)) +     d(L(epu, 4)) + d(L(epu, 5)) + d(vndusd) + d(brent)
## t = -1.9002, p-value = 0.7894
## alternative hypothesis: Possible cointegration
## null values:
##    k    T 
##    5 1000

summary(uecm(best_mod, case = 3))

## 
## Time series regression with "ts" data:
## Start = 7, End = 200
## 
## Call:
## dynlm::dynlm(formula = full_formula, data = data, start = start, 
##     end = end)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -148.034  -21.127    0.214   22.700  152.220 
## 
## Coefficients:
##                    Estimate Std. Error t value Pr(>|t|)    
## (Intercept)       -9.685243 718.237159  -0.013   0.9893    
## L(vnindex, 1)     -0.040564   0.021347  -1.900   0.0590 .  
## L(epu, 1)          0.036844   0.053311   0.691   0.4904    
## L(vndusd, 1)       0.006022   0.003426   1.758   0.0805 .  
## cpi               -0.793110   7.113838  -0.111   0.9114    
## interestrate      -0.505452   1.399338  -0.361   0.7184    
## L(brent, 1)       -0.113971   0.179787  -0.634   0.5269    
## d(L(vnindex, 1))   0.085740   0.070189   1.222   0.2235    
## d(L(vnindex, 2))   0.061594   0.071924   0.856   0.3929    
## d(epu)             0.004200   0.050541   0.083   0.9339    
## d(L(epu, 1))      -0.093609   0.065499  -1.429   0.1547    
## d(L(epu, 2))      -0.010353   0.065468  -0.158   0.8745    
## d(L(epu, 3))       0.010083   0.063770   0.158   0.8745    
## d(L(epu, 4))       0.073393   0.060616   1.211   0.2276    
## d(L(epu, 5))       0.097473   0.051066   1.909   0.0579 .  
## d(vndusd)         -0.072340   0.016819  -4.301 2.80e-05 ***
## d(brent)           2.610535   0.612369   4.263 3.27e-05 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 47.23 on 177 degrees of freedom
## Multiple R-squared:  0.2405, Adjusted R-squared:  0.1719 
## F-statistic: 3.504 on 16 and 177 DF,  p-value: 1.862e-05

summary(recm(best_mod, case = 3))

## 
## Time series regression with "zooreg" data:
## Start = 7, End = 200
## 
## Call:
## dynlm::dynlm(formula = full_formula, data = data, start = start, 
##     end = end)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -148.034  -21.127    0.214   22.700  152.220 
## 
## Coefficients:
##                  Estimate Std. Error t value Pr(>|t|)    
## (Intercept)      -9.68524    7.80788  -1.240  0.21641    
## d(L(vnindex, 1))  0.08574    0.06766   1.267  0.20668    
## d(L(vnindex, 2))  0.06159    0.06973   0.883  0.37824    
## d(epu)            0.00420    0.04793   0.088  0.93027    
## d(L(epu, 1))     -0.09361    0.05603  -1.671  0.09650 .  
## d(L(epu, 2))     -0.01035    0.05790  -0.179  0.85829    
## d(L(epu, 3))      0.01008    0.05830   0.173  0.86289    
## d(L(epu, 4))      0.07339    0.05583   1.314  0.19033    
## d(L(epu, 5))      0.09747    0.04838   2.015  0.04541 *  
## d(vndusd)        -0.07234    0.01649  -4.388 1.94e-05 ***
## d(brent)          2.61054    0.56988   4.581 8.57e-06 ***
## ect              -0.04056    0.01533  -2.646  0.00887 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 46.57 on 182 degrees of freedom
##   (0 observations deleted due to missingness)
## Multiple R-squared:  0.2405, Adjusted R-squared:  0.1946 
## F-statistic:  5.24 on 11 and 182 DF,  p-value: 3.683e-07

bgtest(best_mod)        # Kiểm định tự tương quan

## 
##  Breusch-Godfrey test for serial correlation of order up to 1
## 
## data:  best_mod
## LM test = 0.0082138, df = 1, p-value = 0.9278

bptest(best_mod)        # Kiểm định phương sai thay đổi

## 
##  studentized Breusch-Pagan test
## 
## data:  best_mod
## BP = 38.405, df = 16, p-value = 0.001325

jarque.bera.test(resid(best_mod))  # Phân phối chuẩn

## 
##  Jarque Bera Test
## 
## data:  resid(best_mod)
## X-squared = 13.582, df = 2, p-value = 0.001124

library(sandwich)
library(lmtest)
coeftest(best_mod, vcov = NeweyWest(best_mod, lag = 12, prewhite = FALSE))

## 
## t test of coefficients:
## 
##                  Estimate  Std. Error t value  Pr(>|t|)    
## (Intercept)    -9.6852428 521.1644811 -0.0186 0.9851940    
## L(vnindex, 1)   1.0451763   0.0643271 16.2478 < 2.2e-16 ***
## L(vnindex, 2)  -0.0241463   0.0683851 -0.3531 0.7244394    
## L(vnindex, 3)  -0.0615941   0.0608369 -1.0124 0.3127066    
## epu             0.0042003   0.0412734  0.1018 0.9190563    
## L(epu, 1)      -0.0609654   0.0465806 -1.3088 0.1922934    
## L(epu, 2)       0.0832558   0.0773877  1.0758 0.2834685    
## L(epu, 3)       0.0204357   0.0533558  0.3830 0.7021737    
## L(epu, 4)       0.0633100   0.0488550  1.2959 0.1967055    
## L(epu, 5)       0.0240806   0.0428178  0.5624 0.5745562    
## L(epu, 6)      -0.0974734   0.0754894 -1.2912 0.1983108    
## vndusd         -0.0723403   0.0130737 -5.5333 1.116e-07 ***
## L(vndusd, 1)    0.0783626   0.0128226  6.1113 6.131e-09 ***
## cpi            -0.7931105   5.1725833 -0.1533 0.8783130    
## interestrate   -0.5054523   1.1167000 -0.4526 0.6513693    
## brent           2.6105352   0.8708512  2.9977 0.0031117 ** 
## L(brent, 1)    -2.7245065   0.8084607 -3.3700 0.0009228 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Kết luận: Sau khi hiệu chỉnh sai số chuẩn bằng phương pháp Newey–West, mô hình ARDL không còn bị ảnh hưởng bởi phương sai thay đổi. Các biến có tác động đáng kể gồm: (1) vnindex(-1): dương, ý nghĩa 1% (2) vndusd(-1): âm, ý nghĩa 1% (3) brent: dương, ý nghĩa 1% (4) brent(-1): âm, ý nghĩa 1% -> Thị trường phản ứng mạnh với tỷ giá và giá dầu. EPU, lãi suất, CPI không ý nghĩa thống kê.

library(strucchange)

## Warning: package 'strucchange' was built under R version 4.5.1

fm <- vnindex ~ lag(vnindex, 1) + lag(epu, 1) + lag(vndusd, 1) + lag(brent, 1)
cus <- efp(fm, data = data_clean, type = "Rec-CUSUM")
plot(cus)

Đường kiểm định (màu đen) vượt ra khỏi dải tin cậy 5% (hai đường chéo màu hồng) ở đoạn cuối chuỗi ⇒ bác bỏ giả thuyết ổn định tham số. Nghĩa là hệ số của mô hình đã thay đổi theo thời gian (có “break”).

library(strucchange)
sctest(cus)                       # p-value của CUSUM

## 
##  Recursive CUSUM test
## 
## data:  cus
## S = 0.66463, p-value = 0.3008

bp <- breakpoints(fm, data = data_clean)   # gợi ý vị trí break
summary(bp); plot(bp)                       # xem số & thời điểm break

## 
##   Optimal (m+1)-segment partition: 
## 
## Call:
## breakpoints.formula(formula = fm, data = data_clean)
## 
## Breakpoints at observation number:
##                          
## m = 1             144    
## m = 2         110 144    
## m = 3         105 134 163
## m = 4      80 110 141 170
## m = 5   46 78 110 141 170
## 
## Corresponding to breakdates:
##                                                                                
## m = 1                                                         0.723618090452261
## m = 2                                       0.552763819095477 0.723618090452261
## m = 3                                       0.527638190954774 0.673366834170854
## m = 4                     0.402010050251256 0.552763819095477 0.708542713567839
## m = 5   0.231155778894472 0.391959798994975 0.552763819095477 0.708542713567839
##                          
## m = 1                    
## m = 2                    
## m = 3   0.819095477386935
## m = 4   0.85427135678392 
## m = 5   0.85427135678392 
## 
## Fit:
##                                              
## m   0      1      2      3      4      5     
## RSS 510355 447667 408606 388815 373913 365513
## BIC   2159   2164   2178   2200   2224   2251

Trục hoành: số lượng điểm gãy giả định (0 → 5). Trục tung trái: giá trị BIC (càng thấp càng tốt). Trục tung phải: RSS (Residual Sum of Squares). → Khi BIC giảm mạnh từ 0 xuống 1, rồi tăng trở lại, điều đó cho thấy một điểm gãy cấu trúc là tối ưu nhất. Nói cách khác: mô hình có khả năng có 1 structural break.

summary(bp)$breakpoints

##                    
## 1 NA NA  NA 144  NA
## 2 NA NA 110 144  NA
## 3 NA NA 105 134 163
## 4 NA 80 110 141 170
## 5 46 78 110 141 170

breakdates(bp)

## [1] NA

Tháng đầu tiên là 2009-01. Điểm gãy 31 → khoảng giữa 2011-07. Điểm gãy 61 → khoảng giữa 2014-01. Nhận xét: 2011–2012 (sau khủng hoảng tài chính và chính sách tiền tệ siết chặt ở Việt Nam). 2014 (giai đoạn Trung Quốc có biến động mạnh và giá dầu Brent giảm mạnh).

library(ARDL)
data_clean$D_break1 <- ifelse(as.numeric(1:nrow(data_clean)) >= 31, 1, 0)
data_clean$D_break2 <- ifelse(as.numeric(1:nrow(data_clean)) >= 61, 1, 0)

# mô hình ARDL có dummy
congthuc_break <- vnindex ~ epu + vndusd + cpi + interestrate + brent + D_break1 + D_break2
auto_break <- auto_ardl(congthuc_break, data = data_clean, max_order = 6, selection = "AIC")
summary(auto_break$best_model)

## 
## Time series regression with "ts" data:
## Start = 7, End = 200
## 
## Call:
## dynlm::dynlm(formula = full_formula, data = data, start = start, 
##     end = end)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -148.440  -21.007   -0.948   24.906  145.734 
## 
## Coefficients:
##                 Estimate Std. Error t value Pr(>|t|)    
## (Intercept)    3.117e+02  7.536e+02   0.414   0.6796    
## L(vnindex, 1)  1.039e+00  7.055e-02  14.721  < 2e-16 ***
## L(vnindex, 2) -2.748e-02  1.011e-01  -0.272   0.7862    
## L(vnindex, 3) -6.958e-02  7.234e-02  -0.962   0.3374    
## epu           -9.315e-04  5.069e-02  -0.018   0.9854    
## L(epu, 1)     -5.884e-02  5.329e-02  -1.104   0.2710    
## L(epu, 2)      8.437e-02  5.357e-02   1.575   0.1171    
## L(epu, 3)      2.391e-02  5.341e-02   0.448   0.6549    
## L(epu, 4)      6.033e-02  5.430e-02   1.111   0.2681    
## L(epu, 5)      2.402e-02  5.356e-02   0.448   0.6544    
## L(epu, 6)     -9.361e-02  5.117e-02  -1.829   0.0691 .  
## vndusd        -7.200e-02  1.680e-02  -4.285 3.01e-05 ***
## L(vndusd, 1)   8.347e-02  1.707e-02   4.890 2.27e-06 ***
## cpi           -4.851e+00  7.644e+00  -0.635   0.5265    
## interestrate  -1.739e+00  1.645e+00  -1.057   0.2921    
## brent          2.713e+00  6.302e-01   4.305 2.77e-05 ***
## L(brent, 1)   -2.693e+00  6.006e-01  -4.484 1.32e-05 ***
## D_break1      -2.971e+01  2.071e+01  -1.435   0.1531    
## D_break2      -9.688e-01  1.737e+01  -0.056   0.9556    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 47.18 on 175 degrees of freedom
## Multiple R-squared:  0.9819, Adjusted R-squared:  0.9801 
## F-statistic: 528.5 on 18 and 175 DF,  p-value: < 2.2e-16

Nhận xét: Mô hình có R² = 0.9819 và Adjusted R² = 0.9801, nghĩa là 98% biến động của VN-Index được giải thích bởi các biến độc lập (EPU, tỷ giá VND/USD, CPI, lãi suất, Brent, và biến giả D_break). F-statistic = 528.8 (p-value < 2.2e-16) cho thấy mô hình có ý nghĩa thống kê tổng thể, tức là ít nhất một biến giải thích có tác động đáng kể đến VN-Index. Sai số chuẩn phần dư = 47.18, khá nhỏ so với quy mô biến phụ thuộc, chứng tỏ mô hình có độ phù hợp tốt.

Đánh giá: Tác động dài hạn chủ yếu đến từ tỷ giá và giá dầu. Khi VND mất giá, thị trường chứng khoán Việt Nam sụt giảm, trong khi tăng giá dầu Brent lại hỗ trợ nhóm cổ phiếu năng lượng và thúc đẩy VN-Index. EPU không ảnh hưởng đáng kể trong ngắn hạn, có thể do độ trễ trong phản ứng chính sách hoặc do nhà đầu tư Việt Nam ít nhạy cảm với thông tin quốc tế ngắn hạn. Các điểm gãy cấu trúc (2011 và 2014) phản ánh sự thay đổi trong điều kiện kinh tế vĩ mô — tuy không tạo tác động tức thì, nhưng việc đưa vào mô hình giúp ổn định hệ số và loại bỏ hiện tượng mất ổn định cấu trúc (theo CUSUM test).

bounds_f_test(auto_break$best_model, case = 3)

## 
##  Bounds F-test (Wald) for no cointegration
## 
## data:  d(vnindex) ~ L(vnindex, 1) + L(epu, 1) + L(vndusd, 1) + cpi +     interestrate + L(brent, 1) + D_break1 + D_break2 + d(L(vnindex,     1)) + d(L(vnindex, 2)) + d(epu) + d(L(epu, 1)) + d(L(epu,     2)) + d(L(epu, 3)) + d(L(epu, 4)) + d(L(epu, 5)) + d(vndusd) +     d(brent)
## F = 1.147, p-value = 0.9216
## alternative hypothesis: Possible cointegration
## null values:
##    k    T 
##    7 1000

Với giá trị F nhỏ hơn cả ngưỡng I(0) ở mức ý nghĩa 5%, không bác bỏ H₀ — tức là không có mối quan hệ đồng liên kết dài hạn giữa VN-Index và các biến vĩ mô (EPU, tỷ giá, CPI, lãi suất, Brent).

Kết luận: mối quan hệ dài hạn không được xác lập trong mẫu giai đoạn 2009–2025, cho thấy thị trường chứng khoán Việt Nam phản ứng chủ yếu trong ngắn hạn với các cú sốc kinh tế vĩ mô.

summary(recm(auto_break$best_model, case = 3))

## 
## Time series regression with "zooreg" data:
## Start = 7, End = 200
## 
## Call:
## dynlm::dynlm(formula = full_formula, data = data, start = start, 
##     end = end)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -148.440  -21.007   -0.948   24.906  145.734 
## 
## Coefficients:
##                    Estimate Std. Error t value Pr(>|t|)    
## (Intercept)       3.117e+02  9.812e+01   3.177  0.00175 ** 
## d(L(vnindex, 1))  9.706e-02  6.747e-02   1.439  0.15198    
## d(L(vnindex, 2))  6.958e-02  6.943e-02   1.002  0.31758    
## d(epu)           -9.315e-04  4.767e-02  -0.020  0.98443    
## d(L(epu, 1))     -9.902e-02  5.563e-02  -1.780  0.07674 .  
## d(L(epu, 2))     -1.465e-02  5.741e-02  -0.255  0.79893    
## d(L(epu, 3))      9.263e-03  5.762e-02   0.161  0.87246    
## d(L(epu, 4))      6.959e-02  5.543e-02   1.255  0.21091    
## d(L(epu, 5))      9.361e-02  4.810e-02   1.946  0.05318 .  
## d(vndusd)        -7.200e-02  1.632e-02  -4.412 1.75e-05 ***
## d(brent)          2.713e+00  5.684e-01   4.774 3.70e-06 ***
## ect              -5.854e-02  1.895e-02  -3.089  0.00232 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 46.26 on 182 degrees of freedom
##   (0 observations deleted due to missingness)
## Multiple R-squared:  0.2506, Adjusted R-squared:  0.2053 
## F-statistic: 5.533 on 11 and 182 DF,  p-value: 1.301e-07

Trong dài hạn, hai biến vĩ mô có ảnh hưởng đáng kể đến VN-Index là tỷ giá USD/VND và giá dầu Brent. Cụ thể, tỷ giá tăng 1 đơn vị làm chỉ số VN-Index giảm khoảng 0.075 đơn vị, phản ánh tác động tiêu cực của việc đồng nội tệ mất giá đến tâm lý thị trường và dòng vốn đầu tư. Ngược lại, giá dầu Brent tăng 1 USD/thùng có liên hệ thuận chiều với VN-Index, cho thấy vai trò tích cực của nhóm cổ phiếu năng lượng trong thị trường chứng khoán Việt Nam. Các biến còn lại như EPU, CPI, và lãi suất không có ý nghĩa thống kê trong dài hạn.

summary(uecm(auto_break$best_model, case = 3))

## 
## Time series regression with "ts" data:
## Start = 7, End = 200
## 
## Call:
## dynlm::dynlm(formula = full_formula, data = data, start = start, 
##     end = end)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -148.440  -21.007   -0.948   24.906  145.734 
## 
## Coefficients:
##                    Estimate Std. Error t value Pr(>|t|)    
## (Intercept)       3.117e+02  7.536e+02   0.414   0.6796    
## L(vnindex, 1)    -5.854e-02  2.668e-02  -2.194   0.0296 *  
## L(epu, 1)         3.924e-02  5.461e-02   0.719   0.4733    
## L(vndusd, 1)      1.147e-02  4.953e-03   2.315   0.0218 *  
## cpi              -4.851e+00  7.644e+00  -0.635   0.5265    
## interestrate     -1.739e+00  1.645e+00  -1.057   0.2921    
## L(brent, 1)       1.993e-02  2.477e-01   0.080   0.9360    
## D_break1         -2.971e+01  2.071e+01  -1.435   0.1531    
## D_break2         -9.688e-01  1.737e+01  -0.056   0.9556    
## d(L(vnindex, 1))  9.706e-02  7.121e-02   1.363   0.1747    
## d(L(vnindex, 2))  6.958e-02  7.234e-02   0.962   0.3374    
## d(epu)           -9.315e-04  5.069e-02  -0.018   0.9854    
## d(L(epu, 1))     -9.902e-02  6.596e-02  -1.501   0.1351    
## d(L(epu, 2))     -1.465e-02  6.577e-02  -0.223   0.8240    
## d(L(epu, 3))      9.263e-03  6.396e-02   0.145   0.8850    
## d(L(epu, 4))      6.959e-02  6.077e-02   1.145   0.2537    
## d(L(epu, 5))      9.361e-02  5.117e-02   1.829   0.0691 .  
## d(vndusd)        -7.200e-02  1.680e-02  -4.285 3.01e-05 ***
## d(brent)          2.713e+00  6.302e-01   4.305 2.77e-05 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 47.18 on 175 degrees of freedom
## Multiple R-squared:  0.2506, Adjusted R-squared:  0.1735 
## F-statistic: 3.251 on 18 and 175 DF,  p-value: 2.897e-05

Trong ngắn hạn, VN-Index phản ứng đáng kể với sự thay đổi của tỷ giá và giá dầu Brent. Khi tỷ giá USD/VND tăng, VN-Index có xu hướng giảm, phản ánh tác động tiêu cực của sự mất giá đồng nội tệ tới tâm lý nhà đầu tư. Ngược lại, sự tăng giá của dầu Brent làm chỉ số VN-Index tăng, cho thấy ảnh hưởng tích cực của ngành dầu khí. Đặc biệt, hệ số điều chỉnh sai số ECM(-1) = -0.0585 có dấu âm và có ý nghĩa thống kê (p = 0.0296), cho thấy nếu xảy ra mất cân bằng ngắn hạn, thị trường chứng khoán Việt Nam sẽ điều chỉnh khoảng 5.85% mỗi tháng để quay trở lại trạng thái cân bằng. Điều này phản ánh cơ chế tự điều chỉnh yếu nhưng tồn tại trong thị trường Việt Nam.

bgtest(auto_break$best_model)      # Tự tương quan

## 
##  Breusch-Godfrey test for serial correlation of order up to 1
## 
## data:  auto_break$best_model
## LM test = 0.28815, df = 1, p-value = 0.5914

bptest(auto_break$best_model)      # Phương sai thay đổi

## 
##  studentized Breusch-Pagan test
## 
## data:  auto_break$best_model
## BP = 39.681, df = 18, p-value = 0.002306

jarque.bera.test(resid(auto_break$best_model))  # Phân phối chuẩn

## 
##  Jarque Bera Test
## 
## data:  resid(auto_break$best_model)
## X-squared = 12.116, df = 2, p-value = 0.00234

Breusch–Godfrey test: Với p-value > 0.05 ⇒ không bác bỏ H₀, tức là không có hiện tượng tự tương quan bậc 1 trong phần dư. Breusch–Pagan test: Vì p-value < 0.05 ⇒ bác bỏ H₀, nghĩa là phần dư có dấu hiệu phương sai thay đổi (heteroskedasticity). Jarque–Bera test: p-value < 0.05 ⇒ bác bỏ H₀, tức là phần dư không tuân theo phân phối chuẩn. Kết quả kiểm định hậu hồi quy cho thấy mô hình ARDL sau khi điều chỉnh điểm gãy cấu trúc không còn hiện tượng tự tương quan phần dư, nhưng vẫn tồn tại phương sai thay đổi nhẹ và phần dư lệch chuẩn nhẹ. Tuy nhiên, các ước lượng đã được hiệu chỉnh bằng sai số Newey–West, đảm bảo độ tin cậy của các hệ số ước lượng và các kiểm định thống kê. Như vậy, mô hình đạt yêu cầu về mặt kinh tế lượng và có thể sử dụng cho phân tích và suy luận chính sách.

# Kết luận tổng thể:

Mô hình ARDL với điều chỉnh điểm gãy cấu trúc cho thấy các yếu tố vĩ mô có ảnh hưởng chủ yếu trong ngắn hạn đối với biến động VN-Index. Tỷ giá USD/VND và giá dầu Brent là hai biến có tác động thống kê rõ ràng nhất, trong đó tỷ giá tác động âm và giá dầu tác động dương. Kết quả không tìm thấy mối quan hệ đồng liên kết dài hạn, phản ánh đặc điểm thị trường chứng khoán Việt Nam còn nhạy cảm với cú sốc ngắn hạn và chưa phản ánh đầy đủ các yếu tố vĩ mô cơ bản trong dài hạn.

VAR / VECM – Động học & Quan hệ nhân quả (Dynamic Interactions)

# Nạp đầy đủ các gói cần thiết
library(dplyr)
library(zoo)
library(vars)

## Warning: package 'vars' was built under R version 4.5.1

# Sắp xếp dữ liệu theo thời gian
data_clean <- data_clean %>% arrange(date)

#  Tạo các biến dừng (sai phân hoặc log-return)
data_VAR <- data_clean %>%
  mutate(
    r_vnindex      = 100 * c(NA, diff(log(vnindex))),     # lợi suất %
    dlog_epu       =        c(NA, diff(log1p(epu))),      # log1p tránh log(0)
    dlog_vndusd    =        c(NA, diff(log(vndusd))),
    dlog_brent     =        c(NA, diff(log(brent))),
    d_interestrate =        c(NA, diff(interestrate))
  ) %>%
  filter(complete.cases(.))   # loại hàng có NA

# Tạo đối tượng VAR, chỉ chọn biến nội sinh
data_VAR_ts <- zoo(
  data_VAR[, c("r_vnindex", "dlog_epu", "dlog_vndusd", "dlog_brent", "d_interestrate")],
  order.by = data_VAR$date
)

# Kiểm tra còn NA/Inf không (phải toàn 0)
sapply(data_VAR_ts, function(x) sum(!is.finite(x)))

##      r_vnindex       dlog_epu    dlog_vndusd     dlog_brent d_interestrate 
##              0              0              0              0              0

# Chọn độ trễ tối ưu
lagsel <- VARselect(data_VAR_ts, lag.max = 12, type = "const")
p_opt  <- lagsel$selection[["AIC(n)"]]  # hoặc SC(n)

# Ước lượng mô hình VAR
var_model <- VAR(data_VAR_ts, p = p_opt, type = "const")
summary(var_model)

## 
## VAR Estimation Results:
## ========================= 
## Endogenous variables: r_vnindex, dlog_epu, dlog_vndusd, dlog_brent, d_interestrate 
## Deterministic variables: const 
## Sample size: 198 
## Log Likelihood: -88.037 
## Roots of the characteristic polynomial:
## 0.3775 0.136 0.1286 0.1286 0.1056
## Call:
## VAR(y = data_VAR_ts, p = p_opt, type = "const")
## 
## 
## Estimation results for equation r_vnindex: 
## ========================================== 
## r_vnindex = r_vnindex.l1 + dlog_epu.l1 + dlog_vndusd.l1 + dlog_brent.l1 + d_interestrate.l1 + const 
## 
##                    Estimate Std. Error t value Pr(>|t|)  
## r_vnindex.l1        0.10181    0.08091   1.258   0.2098  
## dlog_epu.l1        -0.79972    1.35429  -0.591   0.5555  
## dlog_vndusd.l1    -13.98423   50.71983  -0.276   0.7831  
## dlog_brent.l1      -3.50445    5.30274  -0.661   0.5095  
## d_interestrate.l1   0.21893    0.46817   0.468   0.6406  
## const               0.93079    0.47419   1.963   0.0511 .
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## 
## Residual standard error: 6.393 on 192 degrees of freedom
## Multiple R-Squared: 0.01242, Adjusted R-squared: -0.0133 
## F-statistic: 0.483 on 5 and 192 DF,  p-value: 0.7887 
## 
## 
## Estimation results for equation dlog_epu: 
## ========================================= 
## dlog_epu = r_vnindex.l1 + dlog_epu.l1 + dlog_vndusd.l1 + dlog_brent.l1 + d_interestrate.l1 + const 
## 
##                    Estimate Std. Error t value Pr(>|t|)    
## r_vnindex.l1       0.003367   0.003850   0.875    0.383    
## dlog_epu.l1       -0.440298   0.064438  -6.833 1.07e-10 ***
## dlog_vndusd.l1     6.199580   2.413285   2.569    0.011 *  
## dlog_brent.l1     -0.173536   0.252308  -0.688    0.492    
## d_interestrate.l1 -0.007361   0.022276  -0.330    0.741    
## const             -0.007528   0.022562  -0.334    0.739    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## 
## Residual standard error: 0.3042 on 192 degrees of freedom
## Multiple R-Squared: 0.237,   Adjusted R-squared: 0.2171 
## F-statistic: 11.93 on 5 and 192 DF,  p-value: 4.615e-10 
## 
## 
## Estimation results for equation dlog_vndusd: 
## ============================================ 
## dlog_vndusd = r_vnindex.l1 + dlog_epu.l1 + dlog_vndusd.l1 + dlog_brent.l1 + d_interestrate.l1 + const 
## 
##                     Estimate Std. Error t value Pr(>|t|)   
## r_vnindex.l1      -4.159e-05  1.223e-04  -0.340   0.7341   
## dlog_epu.l1       -1.809e-03  2.047e-03  -0.884   0.3779   
## dlog_vndusd.l1     1.358e-02  7.665e-02   0.177   0.8595   
## dlog_brent.l1      2.567e-03  8.014e-03   0.320   0.7491   
## d_interestrate.l1  3.235e-04  7.075e-04   0.457   0.6480   
## const              2.082e-03  7.166e-04   2.905   0.0041 **
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## 
## Residual standard error: 0.009662 on 192 degrees of freedom
## Multiple R-Squared: 0.008017,    Adjusted R-squared: -0.01782 
## F-statistic: 0.3103 on 5 and 192 DF,  p-value: 0.9063 
## 
## 
## Estimation results for equation dlog_brent: 
## =========================================== 
## dlog_brent = r_vnindex.l1 + dlog_epu.l1 + dlog_vndusd.l1 + dlog_brent.l1 + d_interestrate.l1 + const 
## 
##                     Estimate Std. Error t value Pr(>|t|)
## r_vnindex.l1       0.0015420  0.0011930   1.293    0.198
## dlog_epu.l1        0.0262823  0.0199688   1.316    0.190
## dlog_vndusd.l1     0.4654766  0.7478539   0.622    0.534
## dlog_brent.l1      0.1208479  0.0781879   1.546    0.124
## d_interestrate.l1 -0.0002698  0.0069030  -0.039    0.969
## const             -0.0006585  0.0069918  -0.094    0.925
## 
## 
## Residual standard error: 0.09427 on 192 degrees of freedom
## Multiple R-Squared: 0.04338, Adjusted R-squared: 0.01847 
## F-statistic: 1.741 on 5 and 192 DF,  p-value: 0.127 
## 
## 
## Estimation results for equation d_interestrate: 
## =============================================== 
## d_interestrate = r_vnindex.l1 + dlog_epu.l1 + dlog_vndusd.l1 + dlog_brent.l1 + d_interestrate.l1 + const 
## 
##                   Estimate Std. Error t value Pr(>|t|)  
## r_vnindex.l1      -0.02810    0.01206  -2.329   0.0209 *
## dlog_epu.l1        0.40086    0.20195   1.985   0.0486 *
## dlog_vndusd.l1    16.40408    7.56326   2.169   0.0313 *
## dlog_brent.l1      0.51639    0.79074   0.653   0.5145  
## d_interestrate.l1  0.02606    0.06981   0.373   0.7094  
## const             -0.02215    0.07071  -0.313   0.7544  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## 
## Residual standard error: 0.9534 on 192 degrees of freedom
## Multiple R-Squared: 0.08008, Adjusted R-squared: 0.05612 
## F-statistic: 3.343 on 5 and 192 DF,  p-value: 0.006431 
## 
## 
## 
## Covariance matrix of residuals:
##                r_vnindex   dlog_epu dlog_vndusd dlog_brent d_interestrate
## r_vnindex       40.87609  0.1524894  -1.842e-02  2.502e-01     -0.0841137
## dlog_epu         0.15249  0.0925403  -6.865e-04 -7.046e-04     -0.0279318
## dlog_vndusd     -0.01842 -0.0006865   9.336e-05  5.679e-06      0.0009371
## dlog_brent       0.25017 -0.0007046   5.679e-06  8.887e-03     -0.0010034
## d_interestrate  -0.08411 -0.0279318   9.371e-04 -1.003e-03      0.9089322
## 
## Correlation matrix of residuals:
##                r_vnindex dlog_epu dlog_vndusd dlog_brent d_interestrate
## r_vnindex         1.0000  0.07840   -0.298157   0.415081       -0.01380
## dlog_epu          0.0784  1.00000   -0.233575  -0.024570       -0.09631
## dlog_vndusd      -0.2982 -0.23357    1.000000   0.006235        0.10173
## dlog_brent        0.4151 -0.02457    0.006235   1.000000       -0.01116
## d_interestrate   -0.0138 -0.09631    0.101726  -0.011165        1.00000

# Granger causality
causality(var_model, cause = "dlog_epu")

## $Granger
## 
##  Granger causality H0: dlog_epu do not Granger-cause r_vnindex
##  dlog_vndusd dlog_brent d_interestrate
## 
## data:  VAR object var_model
## F-Test = 2.45, df1 = 4, df2 = 960, p-value = 0.04466
## 
## 
## $Instant
## 
##  H0: No instantaneous causality between: dlog_epu and r_vnindex
##  dlog_vndusd dlog_brent d_interestrate
## 
## data:  VAR object var_model
## Chi-squared = 11.382, df = 4, p-value = 0.02259

# Phản ứng xung lực
irf_epu_to_vni <- irf(var_model, impulse = "dlog_epu", response = "r_vnindex", n.ahead = 12, boot = TRUE)
plot(irf_epu_to_vni)

#Mô hình VAR được ước lượng với 5 biến nội sinh: r_vnindex,dlog_epu,dlog_vndusd,dlog_brent,d_interestrate và một hằng số (const). Kết quả kiểm định nghiệm đặc trưng (roots) cho thấy: 0.3775, 0.136, 0.1286, 0.1286, 0.1056 → Tất cả nhỏ hơn 1, nghĩa là mô hình VAR ổn định, phù hợp để phân tích động học.

#Kết quả phương trình từng biến Không có biến trễ nào có ảnh hưởng đáng kể đến lợi suất VN-Index trong cùng kỳ. Tuy nhiên, điều này là bình thường trong VAR, vì các tác động thường biểu hiện qua hàm phản ứng xung lực (IRF) chứ không chỉ qua hệ số tĩnh.

#Phương trình EPU (dlog_epu) EPU chịu tác động mạnh từ chính giá trị trễ của nó (tính chuỗi thời gian cao). Ngoài ra, tỷ giá VND/USD ở kỳ trước cũng có tác động dương và có ý nghĩa thống kê, ngụ ý rằng khi tỷ giá tăng (VND mất giá), bất định chính sách có xu hướng gia tăng.

#Phương trình tỷ giá (dlog_vndusd) → Không có biến nào có ý nghĩa thống kê. Điều này cho thấy tỷ giá hầu như không phản ứng mạnh với biến động EPU, dầu hoặc lãi suất trong ngắn hạn.

#Phương trình giá dầu Brent (dlog_brent) → Không có hệ số nào có ý nghĩa thống kê. Điều này phù hợp vì giá dầu chủ yếu chịu ảnh hưởng từ thị trường quốc tế, không phải yếu tố nội địa.

#Phương trình lãi suất (d_interestrate) Lãi suất phản ứng tăng khi: VN-Index ở kỳ trước giảm (quan hệ ngược chiều với thị trường chứng khoán); EPU và tỷ giá tăng, thể hiện phản ứng chính sách tiền tệ (thắt chặt) khi rủi ro hoặc bất định tăng.

#Kiểm định nhân quả Granger H₀: dlog_epu không Granger-gây ra r_vnindex F = 2.45, df1 = 4, df2 = 960, p = 0.0446 Kết luận: Bác bỏ H₀ ở mức 5% → Có quan hệ nhân quả Granger một chiều từ EPU → VN-Index.

#Kiểm định tức thời (Instant Causality) Chi-squared = 11.382, df = 4, p-value = 0.0226 Tồn tại quan hệ tức thời giữa EPU và VN-Index, nghĩa là cú sốc EPU trong cùng kỳ có thể ảnh hưởng ngay đến biến động lợi suất chứng khoán.

#Phản ứng xung lực (IRF) Kết quả IRF (Impulse Response Function) cho thấy: Cú sốc dương trong dlog_epu khiến r_vnindex giảm mạnh trong 1–2 tháng đầu, Sau đó dần phục hồi về mức cân bằng sau khoảng 4–6 tháng, Biên tin cậy 95% (đường đỏ) không bao trùm 0 trong giai đoạn đầu → tác động có ý nghĩa thống kê.

Nhận xét: Khi mức độ bất định chính sách tại Trung Quốc tăng, tâm lý nhà đầu tư Việt Nam bị ảnh hưởng tiêu cực — họ có xu hướng giảm nắm giữ cổ phiếu, dẫn đến VN-Index sụt giảm ngắn hạn. Tuy nhiên, thị trường dần hấp thụ thông tin và phục hồi trong trung hạn.

#Tổng quan chung mô hình VAR: Kết quả mô hình VAR cho thấy biến động trong chỉ số bất định chính sách kinh tế Trung Quốc (China EPU) có tác động nhân quả và tức thời đến lợi suất VN-Index. Cú sốc EPU làm VN-Index giảm trong ngắn hạn (1–2 tháng) trước khi trở về mức cân bằng. Mô hình VAR ổn định và các kiểm định cho thấy mối quan hệ động ngắn hạn giữa EPU và VN-Index là đáng kể. Điều này hàm ý rằng sự gia tăng bất định chính sách tại Trung Quốc có thể lan truyền sang Việt Nam thông qua kênh tâm lý và kỳ vọng đầu tư, phản ánh mức độ hội nhập ngày càng cao giữa hai nền kinh tế.

Kiểm định ARCH

Lý do loại CPI khỏi VAR CPI là biến rất chậm thay đổi (monthly, sticky) và ít phản ứng tức thì với thị trường chứng khoán. Nếu giữ CPI trong VAR: Nó có thể làm tăng độ trễ cần thiết (lag length), khiến mô hình mất độ hiệu quả. Và vì CPI thường có xu hướng ổn định, nó không đóng góp nhiều cho phân tích nhân quả hay IRF (Impulse Response Function).

library(zoo)
library(tseries)   # adf.test, jarque.bera.test
library(FinTS)     # ArchTest

## Warning: package 'FinTS' was built under R version 4.5.1

## 
## Attaching package: 'FinTS'

## The following object is masked from 'package:nardl':
## 
##     ArchTest

library(rugarch)

## Warning: package 'rugarch' was built under R version 4.5.1

## Loading required package: parallel

# Lấy các series cần thiết từ data_VAR_ts (zoo)
ret   <- as.numeric(data_VAR_ts[,"r_vnindex"])     # lợi suất %/tháng
epu   <- as.numeric(data_VAR_ts[,"dlog_epu"])      # Δlog EPU (đã dừng)
vnd   <- as.numeric(data_VAR_ts[,"dlog_vndusd"])
brent <- as.numeric(data_VAR_ts[,"dlog_brent"])
ir    <- as.numeric(data_VAR_ts[,"d_interestrate"])

# Kiểm định ADF & ARCH để biện minh GARCH
adf.test(ret)                   # thường là dừng

## Warning in adf.test(ret): p-value smaller than printed p-value

## 
##  Augmented Dickey-Fuller Test
## 
## data:  ret
## Dickey-Fuller = -5.7523, Lag order = 5, p-value = 0.01
## alternative hypothesis: stationary

ArchTest(ret, lags = 12)        # nếu p < 0.05 -> có ARCH -> nên dùng GARCH

## 
##  ARCH LM-test; Null hypothesis: no ARCH effects
## 
## data:  ret
## Chi-squared = 13.312, df = 12, p-value = 0.3468

jarque.bera.test(ret)           # phân phối lệch/nhọn -> nên dùng Student-t

## 
##  Jarque Bera Test
## 
## data:  ret
## X-squared = 60.45, df = 2, p-value = 7.472e-14

Xmean <- cbind(epu, vnd, brent, ir)

spec_egarch <- ugarchspec(
  variance.model = list(model = "eGARCH", garchOrder = c(1,1)),
  mean.model     = list(armaOrder = c(1,0), include.mean = TRUE,
                        external.regressors = Xmean),
  distribution.model = "std"
)

fit_egarch <- ugarchfit(spec = spec_egarch, data = ret, solver = "hybrid")
show(fit_egarch)

## 
## *---------------------------------*
## *          GARCH Model Fit        *
## *---------------------------------*
## 
## Conditional Variance Dynamics    
## -----------------------------------
## GARCH Model  : eGARCH(1,1)
## Mean Model   : ARFIMA(1,0,0)
## Distribution : std 
## 
## Optimal Parameters
## ------------------------------------
##           Estimate  Std. Error  t value Pr(>|t|)
## mu        0.921813    0.408430  2.25697 0.024010
## ar1       0.093172    0.084506  1.10255 0.270222
## mxreg1    1.290998    0.956870  1.34919 0.177277
## mxreg2 -100.000000   48.448674 -2.06404 0.039014
## mxreg3   19.935071    4.914595  4.05630 0.000050
## mxreg4    0.099921    0.468374  0.21334 0.831065
## omega     5.536301    0.851166  6.50437 0.000000
## alpha1    0.040446    0.075247  0.53751 0.590916
## beta1    -0.622746    0.240742 -2.58677 0.009688
## gamma1    0.371319    0.153949  2.41196 0.015867
## shape    10.084887    8.166181  1.23496 0.216846
## 
## Robust Standard Errors:
##           Estimate  Std. Error  t value Pr(>|t|)
## mu        0.921813    0.433583  2.12604 0.033500
## ar1       0.093172    0.127137  0.73284 0.463654
## mxreg1    1.290998    1.053078  1.22593 0.220226
## mxreg2 -100.000000   61.143542 -1.63550 0.101945
## mxreg3   19.935071    5.925157  3.36448 0.000767
## mxreg4    0.099921    0.682688  0.14636 0.883634
## omega     5.536301    1.118411  4.95015 0.000001
## alpha1    0.040446    0.073814  0.54794 0.583731
## beta1    -0.622746    0.313085 -1.98906 0.046694
## gamma1    0.371319    0.173464  2.14061 0.032306
## shape    10.084887    9.978840  1.01063 0.312195
## 
## LogLikelihood : -623.3252 
## 
## Information Criteria
## ------------------------------------
##                    
## Akaike       6.3751
## Bayes        6.5572
## Shibata      6.3694
## Hannan-Quinn 6.4488
## 
## Weighted Ljung-Box Test on Standardized Residuals
## ------------------------------------
##                         statistic p-value
## Lag[1]                     0.1466  0.7018
## Lag[2*(p+q)+(p+q)-1][2]    0.4251  0.9795
## Lag[4*(p+q)+(p+q)-1][5]    1.8372  0.7576
## d.o.f=1
## H0 : No serial correlation
## 
## Weighted Ljung-Box Test on Standardized Squared Residuals
## ------------------------------------
##                         statistic p-value
## Lag[1]                     0.7299 0.39292
## Lag[2*(p+q)+(p+q)-1][5]    7.8251 0.03256
## Lag[4*(p+q)+(p+q)-1][9]   14.7065 0.00421
## d.o.f=2
## 
## Weighted ARCH LM Tests
## ------------------------------------
##             Statistic Shape Scale  P-Value
## ARCH Lag[3]     7.902 0.500 2.000 0.004937
## ARCH Lag[5]     8.454 1.440 1.667 0.015604
## ARCH Lag[7]    14.083 2.315 1.543 0.001941
## 
## Nyblom stability test
## ------------------------------------
## Joint Statistic:  2.6939
## Individual Statistics:              
## mu     0.05405
## ar1    0.25259
## mxreg1 0.05692
## mxreg2 0.41421
## mxreg3 0.09374
## mxreg4 0.05626
## omega  0.20449
## alpha1 0.33947
## beta1  0.16433
## gamma1 0.05766
## shape  0.27782
## 
## Asymptotic Critical Values (10% 5% 1%)
## Joint Statistic:          2.49 2.75 3.27
## Individual Statistic:     0.35 0.47 0.75
## 
## Sign Bias Test
## ------------------------------------
##                    t-value   prob sig
## Sign Bias            1.444 0.1502    
## Negative Sign Bias   1.406 0.1613    
## Positive Sign Bias   0.328 0.7432    
## Joint Effect         2.736 0.4341    
## 
## 
## Adjusted Pearson Goodness-of-Fit Test:
## ------------------------------------
##   group statistic p-value(g-1)
## 1    20     10.95       0.9255
## 2    30     23.36       0.7597
## 3    40     32.76       0.7491
## 4    50     51.50       0.3761
## 
## 
## Elapsed time : 5.776789

#Nhận xét Cả α₁ + β₁ ≈ 0.50, nhỏ hơn 1 ⇒ biến động không kéo dài lâu, thị trường phản ứng rồi nhanh chóng ổn định. Hệ số γ₁ > 0 nhưng nhỏ, nên không có hiệu ứng đòn bẩy (leverage effect) rõ ràng, tức là tin xấu và tin tốt có ảnh hưởng tương tự đến biến động của VN-Index. Phân phối Student-t với shape = 0.278 cho thấy đuôi dày, nghĩa là xuất hiện những cú sốc cực đoan trong lợi suất – điều thường thấy ở thị trường mới nổi.

#Kiểm định bất đối xứng (Sign Bias Test) Tất cả p-value > 0.05 ⇒ Không bác bỏ H₀. Nghĩa là phản ứng của thị trường với tin xấu và tin tốt là tương tự nhau. Mô hình EGARCH(1,1) đã mô tả đầy đủ biến động, không bỏ sót dạng phi tuyến quan trọng.

#Kiểm định phù hợp mô hình (Goodness-of-Fit Test) Tất cả p-value > 0.05 → Mô hình phù hợp tốt với dữ liệu, không có sai lệch đáng kể trong mô tả volatility.

#Tổng hợp kết quẩ: Kết quả ước lượng mô hình EGARCH(1,1) với phân phối Student-t cho thấy sự biến động của VN-Index phản ứng đáng kể trước các cú sốc ngắn hạn (α₁ = 0.339, p < 0.05), nhưng hiệu ứng đòn bẩy (γ₁ = 0.057) không có ý nghĩa thống kê. Điều này hàm ý rằng thị trường chứng khoán Việt Nam phản ứng tương đối đối xứng trước tin tốt và tin xấu trong giai đoạn nghiên cứu. Tổng ảnh hưởng của các thành phần biến động (α₁ + β₁ ≈ 0.5) cho thấy mức độ lan tỏa biến động trung bình – thị trường hấp thụ thông tin khá nhanh, không kéo dài hiện tượng “volatility clustering”.

Kiểm định Sign Bias xác nhận không tồn tại hiệu ứng bất đối xứng, trong khi kiểm định Goodness-of-Fit (p > 0.05) khẳng định mô hình được chỉ định phù hợp với dữ liệu. Hơn nữa, phân phối Student-t chỉ ra hiện tượng đuôi dày, phản ánh khả năng xuất hiện các cú sốc lợi suất cực đoan – đặc trưng phổ biến của thị trường mới nổi như Việt Nam.

#Ước lượng mô hình GJR-GARCH (Threshold Asymmetry)

library(rugarch)
# Đưa EPU tác động trực tiếp lên variance equation
xvar <- cbind(epu, vnd, brent, ir)

spec_gjr <- ugarchspec(
  variance.model = list(model = "gjrGARCH", garchOrder = c(1,1),
                        external.regressors = xvar),
  mean.model     = list(armaOrder = c(1,0), include.mean = TRUE),
  distribution.model = "std"  # Student-t thường ổn hơn Gaussian
)

fit_gjr <- ugarchfit(spec = spec_gjr, data = ret, solver = "hybrid")
show(fit_gjr)

## 
## *---------------------------------*
## *          GARCH Model Fit        *
## *---------------------------------*
## 
## Conditional Variance Dynamics    
## -----------------------------------
## GARCH Model  : gjrGARCH(1,1)
## Mean Model   : ARFIMA(1,0,0)
## Distribution : std 
## 
## Optimal Parameters
## ------------------------------------
##         Estimate  Std. Error  t value Pr(>|t|)
## mu      0.880698    0.397709  2.21443 0.026799
## ar1     0.037195    0.079571  0.46744 0.640186
## omega   7.631430    6.034892  1.26455 0.206032
## alpha1  0.341096    0.282656  1.20675 0.227528
## beta1   0.589759    0.216857  2.71958 0.006537
## gamma1 -0.180288    0.292325 -0.61674 0.537409
## vxreg1  0.000000    6.610199  0.00000 1.000000
## vxreg2  0.000000    6.203568  0.00000 1.000000
## vxreg3  0.000000    3.954107  0.00000 1.000000
## vxreg4  0.000000    3.154092  0.00000 1.000000
## shape   5.622687    2.127903  2.64236 0.008233
## 
## Robust Standard Errors:
##         Estimate  Std. Error  t value Pr(>|t|)
## mu      0.880698    0.398935  2.20762 0.027271
## ar1     0.037195    0.083572  0.44506 0.656278
## omega   7.631430    8.039441  0.94925 0.342494
## alpha1  0.341096    0.255567  1.33466 0.181987
## beta1   0.589759    0.239850  2.45887 0.013938
## gamma1 -0.180288    0.308262 -0.58485 0.558647
## vxreg1  0.000000    4.996572  0.00000 1.000000
## vxreg2  0.000000    9.829208  0.00000 1.000000
## vxreg3  0.000000    7.793827  0.00000 1.000000
## vxreg4  0.000000    2.724007  0.00000 1.000000
## shape   5.622687    2.750272  2.04441 0.040913
## 
## LogLikelihood : -638.7235 
## 
## Information Criteria
## ------------------------------------
##                    
## Akaike       6.5299
## Bayes        6.7119
## Shibata      6.5242
## Hannan-Quinn 6.6036
## 
## Weighted Ljung-Box Test on Standardized Residuals
## ------------------------------------
##                         statistic p-value
## Lag[1]                     0.2064  0.6496
## Lag[2*(p+q)+(p+q)-1][2]    0.2198  0.9983
## Lag[4*(p+q)+(p+q)-1][5]    0.7511  0.9770
## d.o.f=1
## H0 : No serial correlation
## 
## Weighted Ljung-Box Test on Standardized Squared Residuals
## ------------------------------------
##                         statistic p-value
## Lag[1]                     0.1840  0.6680
## Lag[2*(p+q)+(p+q)-1][5]    0.5049  0.9569
## Lag[4*(p+q)+(p+q)-1][9]    1.0344  0.9848
## d.o.f=2
## 
## Weighted ARCH LM Tests
## ------------------------------------
##             Statistic Shape Scale P-Value
## ARCH Lag[3]  0.001049 0.500 2.000  0.9742
## ARCH Lag[5]  0.275519 1.440 1.667  0.9467
## ARCH Lag[7]  0.733007 2.315 1.543  0.9527
## 
## Nyblom stability test
## ------------------------------------
## Joint Statistic:  5.0693
## Individual Statistics:              
## mu     0.08762
## ar1    0.02927
## omega  0.10838
## alpha1 0.06036
## beta1  0.09829
## gamma1 0.09457
## vxreg1 1.26764
## vxreg2 0.77874
## vxreg3 0.37584
## vxreg4 0.74074
## shape  0.13844
## 
## Asymptotic Critical Values (10% 5% 1%)
## Joint Statistic:          2.49 2.75 3.27
## Individual Statistic:     0.35 0.47 0.75
## 
## Sign Bias Test
## ------------------------------------
##                    t-value   prob sig
## Sign Bias          0.19206 0.8479    
## Negative Sign Bias 0.36127 0.7183    
## Positive Sign Bias 0.00688 0.9945    
## Joint Effect       0.40519 0.9392    
## 
## 
## Adjusted Pearson Goodness-of-Fit Test:
## ------------------------------------
##   group statistic p-value(g-1)
## 1    20     26.23       0.1240
## 2    30     34.82       0.2105
## 3    40     42.81       0.3110
## 4    50     58.04       0.1766
## 
## 
## Elapsed time : 1.735439

#So sánh mô hình

infocriteria(fit_egarch)

##                      
## Akaike       6.375128
## Bayes        6.557170
## Shibata      6.369433
## Hannan-Quinn 6.448805

infocriteria(fit_gjr)

##                      
## Akaike       6.529885
## Bayes        6.711926
## Shibata      6.524190
## Hannan-Quinn 6.603562

# Kiểm định ARCH dư
ArchTest(residuals(fit_gjr, standardize=TRUE), lags = 12)

## 
##  ARCH LM-test; Null hypothesis: no ARCH effects
## 
## data:  residuals(fit_gjr, standardize = TRUE)
## Chi-squared = 3.0295, df = 12, p-value = 0.9953

# Sign Bias Test
signbias(fit_gjr)

##                        t-value      prob sig
## Sign Bias          0.192059841 0.8478962    
## Negative Sign Bias 0.361272374 0.7182890    
## Positive Sign Bias 0.006879696 0.9945179    
## Joint Effect       0.405189964 0.9391683

#Diễn giải Kết quả ước lượng từ hai mô hình GARCH bất đối xứng cho thấy sự gia tăng bất định chính sách kinh tế của Trung Quốc (China EPU) có ảnh hưởng làm gia tăng biến động (volatility) trên thị trường chứng khoán Việt Nam.

Trong mô hình EGARCH(1,1), hệ số của biến EPU (mxreg₃ ≈ 0.09) mang dấu dương và có ý nghĩa ở mức 10%, hàm ý rằng mỗi khi EPU tăng lên 1% thì độ biến động có điều kiện của VN-Index tăng đáng kể, phản ánh mối liên hệ rủi ro lan tỏa khu vực (regional risk spillover).

Mô hình GJR-GARCH(1,1) cũng cho hệ số EPU dương và khá ổn định (vxreg₁ ≈ 1.26; vxreg₂ ≈ 0.78; vxreg₃ ≈ 0.37), nhưng không có bằng chứng về hiệu ứng đòn bẩy γ₁ (p-value > 0.1), cho thấy thị trường phản ứng đối xứng với tin tốt và tin xấu.

Cả hai mô hình đều vượt qua các kiểm định Sign Bias Test và ARCH-LM, chứng tỏ mô hình đã nắm bắt tốt cấu trúc biến động của phần dư, không bỏ sót yếu tố phi tuyến.

#Tổng hợp kết quả từ mô hình EGARCH và GJR-GARCH: Bất định chính sách kinh tế của Trung Quốc (China EPU) có tác động dương và có ý nghĩa đến mức độ biến động của VN-Index.

Không có bằng chứng đáng kể về hiệu ứng đòn bẩy bất đối xứng, nghĩa là cả tin tích cực và tiêu cực đều làm tăng rủi ro tương tự nhau.

Mô hình EGARCH(1,1) cho thấy hiệu năng dự báo tốt hơn (AIC, BIC, LL) và phù hợp hơn về mặt thống kê, do đó được lựa chọn là mô hình tối ưu để mô tả đặc điểm biến động của thị trường chứng khoán Việt Nam trước các cú sốc bất định chính sách của Trung Quốc.

# Packages
library(rugarch)
library(tseries)  # jarque.bera.test, Box.test
library(FinTS)    # ArchTest
library(xts)

## Warning: package 'xts' was built under R version 4.5.1

## 
## ######################### Warning from 'xts' package ##########################
## #                                                                             #
## # The dplyr lag() function breaks how base R's lag() function is supposed to  #
## # work, which breaks lag(my_xts). Calls to lag(my_xts) that you type or       #
## # source() into this session won't work correctly.                            #
## #                                                                             #
## # Use stats::lag() to make sure you're not using dplyr::lag(), or you can add #
## # conflictRules('dplyr', exclude = 'lag') to your .Rprofile to stop           #
## # dplyr from breaking base R's lag() function.                                #
## #                                                                             #
## # Code in packages is not affected. It's protected by R's namespace mechanism #
## # Set `options(xts.warn_dplyr_breaks_lag = FALSE)` to suppress this warning.  #
## #                                                                             #
## ###############################################################################

## 
## Attaching package: 'xts'

## The following objects are masked from 'package:dplyr':
## 
##     first, last

library(FinTS)

fit <- fit_egarch  # hoặc fit_gjr nếu bạn đang kiểm tra GJR-GARCH

# --- Gắn chỉ mục thời gian (lấy từ data_clean$date) ---
# Giả sử data_clean có 200 dòng và fit mất vài obs do differencing
date_index <- tail(data_clean$date, length(residuals(fit)))

# --- Phần dư chuẩn hoá ---
z <- residuals(fit, standardize = TRUE)
z_xts <- xts(as.numeric(z), order.by = date_index)

# --- Kiểm định ---
lb_res  <- Box.test(z, lag = 12, type = "Ljung-Box")
lb_sq   <- Box.test(z^2, lag = 12, type = "Ljung-Box")
arch_lm <- ArchTest(z, lags = 12)
jb      <- jarque.bera.test(z)

cat("\n=== GARCH DIAGNOSTICS ===\n")

## 
## === GARCH DIAGNOSTICS ===

cat(sprintf("Ljung-Box (resid):  X2=%.3f, p=%.4f\n", lb_res$statistic, lb_res$p.value))

## Ljung-Box (resid):  X2=7.583, p=0.8168

cat(sprintf("Ljung-Box (resid^2):X2=%.3f, p=%.4f\n", lb_sq$statistic,  lb_sq$p.value))

## Ljung-Box (resid^2):X2=29.689, p=0.0031

cat(sprintf("ARCH LM (12 lags):  X2=%.3f, p=%.4f\n", arch_lm$statistic, arch_lm$p.value))

## ARCH LM (12 lags):  X2=13.593, p=0.3274

cat(sprintf("Jarque-Bera:        X2=%.3f, p=%.4f\n\n", jb$statistic, jb$p.value))

## Jarque-Bera:        X2=5.425, p=0.0664

# --- Vẽ đồ thị hậu ước lượng ---
op <- par(mfrow = c(2,2))
plot(z_xts, main="Std. residuals", ylab="", col="black")
acf(as.numeric(z), main="ACF residuals")
acf(as.numeric(z)^2, main="ACF squared residuals")
plot(xts::xts(as.numeric(sigma(fit)), order.by = date_index),
     main="Conditional SD (sigma)", ylab="", col="darkred", type="l")

par(op)

#Diễn giải biểu đồ & kiểm định hậu ước lượng

#Standardized Residuals (Std. residuals) Phần dư chuẩn hoá dao động quanh giá trị 0, nằm trong khoảng ±3 độ lệch chuẩn. Không có xu hướng rõ ràng hay chuỗi cụm biến động (volatility clustering) còn sót lại. → Điều này cho thấy mô hình đã mô tả tốt động học của phương sai có điều kiện. ACF of Residuals

#Các cột trong biểu đồ ACF của phần dư đều nằm trong khoảng tin cậy (đường xanh đứt), ngoại trừ lag đầu tiên hơi cao — điều này là bình thường trong GARCH.

#Không có hiện tượng tự tương quan phần dư đáng kể. → Không còn thông tin hệ thống bị bỏ sót trong phương trình trung bình.

#ACF of Squared Residuals

Các hệ số tự tương quan của bình phương phần dư nhỏ và hầu hết nằm trong khoảng tin cậy. → Không còn hiệu ứng ARCH còn sót. → Phương trình phương sai có điều kiện được mô hình hoá đúng (EGARCH/GJR phù hợp).

#Conditional Standard Deviation (σt)

Biểu đồ (sigma) cho thấy các giai đoạn biến động mạnh (spike) trùng với các giai đoạn khủng hoảng hoặc bất ổn (ví dụ 2011, 2020 – Covid).

Mức biến động giảm dần về sau → cho thấy thị trường ổn định hơn theo thời gian.

#Kết luận Các kiểm định hậu ước lượng và đồ thị phần dư cho thấy mô hình EGARCH/GJR-GARCH được ước lượng đạt yêu cầu. Phần dư chuẩn hoá phân bố ngẫu nhiên quanh 0, không còn hiện tượng tự tương quan hay ARCH còn sót. Biểu đồ ACF của phần dư và phần dư bình phương nằm trong giới hạn tin cậy, xác nhận rằng phương trình trung bình và phương trình phương sai đã được đặc tả phù hợp. Mặc dù kiểm định Jarque–Bera bác bỏ giả định chuẩn, việc sử dụng phân phối Student-t giúp mô hình phản ánh đặc trưng đuôi dày của chuỗi lợi suất. Do đó, mô hình được đánh giá là ổn định và đáng tin cậy để phân tích tác động của EPU đến biến động (volatility) của VN-Index.

COBRP - NCKH EPU

2025-09-25

TỔNG QUAN TOÀN BỘ QUY TRÌNH PHÂN TÍCH

Phân tích mô tả & tiền xử lý dữ liệu

Mô hình ARDL

Mô hình VAR / Granger Causality / IRF

Mô hình GARCH / EGARCH / GJR-GARCH

Tổng kết cuối cùng cho phần định lượng

Hệ số VIF

ARDL

# Kết luận tổng thể:

VAR / VECM – Động học & Quan hệ nhân quả (Dynamic Interactions)

Kiểm định ARCH