Automated ARIMA
Quá trình lựa chọn các tham số tối ưu cho mô hình ARIMA có thể được
tóm tắt bằng hình dưới đây:

Hyndman
& Khandakar (2008) đề xuất một thuật toán nhằm thực hiện quá
trình lựa chọn và xây dựng mô hình ARIMA một cách tự động (gọi là Auto
ARIMA). Post này trình bày việc áp dụng Auto ARIMA cho việc dự báo trước
1 ngày 9 time series là Bitcoin, TetherUSD, E1VFN30, Gold, Oil, HNX30,
VN100, VN30 và VNIndex. Hai time series đầu tiên đại diện cho tiền ảo,
E1VFN30 là chứng chỉ quỹ ETF, Gold và Oil đại diện cho hợp đồng tương
lai về Vàng và Dầu Thô. Các time series còn lại là các chỉ số chứng
khoán tại Việt Nam. Tất các các time series này được lấy từ https://vn.investing.com/
từ ngày 01-01-2022 đến ngày 05-12-2023.
Empirical Results
Trước hết load và xử lí qua dữ liệu thô thu được:
# Clear R Environment:
rm(list = ls())
# Load R packages:
library(arrow)
library(dplyr)
library(tidyr)
library(lubridate)
library(readr)
library(stringr)
library(ggplot2)
library(scales)
library(plotly)
library(fpp2)
library(gt)
library(showtext)
my_font <- "Ubuntu Condensed" # Set font for our plot.
font_add_google(name = my_font, family = my_font)
showtext_auto()
theme_set(theme_minimal())
# Load data collected from https://vn.investing.com (01-01-2021 to 05-12-2021):
dir("E:/dataTikopProject", full.names = TRUE) -> indicatorPaths
lapply(indicatorPaths, read_csv) -> indicatorList
sapply(indicatorList, nrow) -> nRep
c(rep("Bitcoin", nRep[1]),
rep("E1VFVN30", nRep[2]),
rep("HNX30", nRep[3]),
rep("Oil", nRep[4]),
rep("Gold", nRep[5]),
rep("TetherUSD", nRep[6]),
rep("VN30", nRep[7]),
rep("VNIndex", nRep[8]),
rep("VN100", nRep[9])) -> indicators
allIndicator <- unique(indicators)
do.call("bind_rows", indicatorList) -> dfIndicators
dfIndicators %>%
select(1, 3) %>%
mutate(indicator = indicators) -> dfIndicators
names(dfIndicators) <- c("dateYMD", "open", "indicator")
dfIndicators %>% mutate(dateYMD = dmy(dateYMD)) -> dfIndicators
dfIndicators %>%
ggplot(aes(dateYMD, open, color = indicator)) +
geom_line(show.legend = FALSE) +
facet_wrap(~ indicator, scales = "free") +
theme(axis.title = element_blank()) +
theme(plot.margin = unit(rep(0.5, 4), "cm")) +
labs(title = "Figure 1: Return Trend for Some Selected Time Series",
subtitle = "",
caption = "Source: https://vn.investing.com") -> f11
Figure 1 dưới đây chỉ ra trend cho các time series từ ngày 01-01-2022
đến ngày 05-12-2023:
Dưới đây là hàm
thực hiện 1-day ahead forecasting bằng Auto ARIMA và sử dụng hàm này để
dự báo:
# Function conducts one-day ahead forecasting by Auto ARIMA:
n_ahead <- 1
n_windown <- 360
oneDayAheadForecast <- function(indicatorSelected) {
# indicatorSelected <- "Bitcoin"
dfIndicators %>%
arrange(dateYMD) %>%
filter(indicator == indicatorSelected) -> dfSelected
autoARIMA <- function(j) {
# Set up parameters for training Auto ARIMA:
# j <- 1
startTime <- j
endTime <- n_windown + j - 1
# Data for training Auto ARIMA:
dfSelected$open[startTime:endTime] %>% ts() -> train
# Train Auto ARIMA:
my_arima <- auto.arima(train)
# Use trained model for forecasting:
predicted <- forecast(my_arima, h = n_ahead)$mean %>% as.vector()
dfSelected %>%
slice(endTime + 1) %>%
mutate(predicted = predicted) %>%
mutate(err = predicted - open) %>%
mutate(perErr = predicted / open - 1) %>%
return()
}
# Forecast for all remaining days:
n_days <- nrow(dfSelected)
n_remaining <- n_days - n_windown
do.call("bind_rows", lapply(1:n_remaining, autoARIMA)) -> dfComparing
return(dfComparing)
}
# oneDayAheadForecast(indicatorSelected = allIndicator[1])
# Use the function:
do.call("bind_rows", lapply(allIndicator, oneDayAheadForecast)) -> dfForecastForAll
Kết quả dự báo cho 9 time series được trình bày ở Table 1 dưới
đây:
dfForecastForAll %>%
mutate(Under5 = case_when(abs(perErr) <= 0.05 ~ "Yes", TRUE ~ "No")) %>%
group_by(indicator, Under5) %>%
count() %>%
pivot_wider(names_from = Under5, values_from = n, values_fill = 0) %>%
mutate(Total = No + Yes) -> df_wider
dfForecastForAll %>%
group_by(indicator) %>%
summarise(MeanERR = mean(perErr), MaxERR = max(perErr), MinERR = min(perErr)) %>%
full_join(df_wider %>% select(indicator, Num.OK = Yes, Num.Fail = No, Total)) -> dfResults
dfResults %>%
mutate_if(is.numeric, function(x) {round(x, 4)}) %>%
gt() %>%
tab_header(title = "Table 1: One-day ahead forecasting by Auto ARIMA")
Table 1: One-day ahead forecasting by Auto ARIMA |
indicator |
MeanERR |
MaxERR |
MinERR |
Num.OK |
Num.Fail |
Total |
Bitcoin |
-0.0019 |
0.0785 |
-0.0924 |
326 |
18 |
344 |
E1VFVN30 |
0.0003 |
0.0532 |
-0.0293 |
119 |
1 |
120 |
Gold |
-0.0003 |
0.0165 |
-0.0307 |
147 |
0 |
147 |
HNX30 |
0.0008 |
0.0890 |
-0.0664 |
108 |
10 |
118 |
Oil |
-0.0001 |
0.0585 |
-0.0642 |
150 |
4 |
154 |
TetherUSD |
0.0000 |
0.0029 |
-0.0053 |
344 |
0 |
344 |
VN100 |
0.0000 |
0.0482 |
-0.0387 |
120 |
0 |
120 |
VN30 |
0.0003 |
0.0419 |
-0.0337 |
120 |
0 |
120 |
VNIndex |
0.0002 |
0.0471 |
-0.0333 |
120 |
0 |
120 |
Kết quả này chỉ ra rằng, với Bitcoin chẳng hạn:
- Trong tổng số 344 kết quả dự báo (trước 1 ngày), có 18 dự báo không
thỏa mãn điều kiện sai sốt tuyệt đối MAE nhỏ hơn hoặc bằng 5%. Còn lại
326 giá trị dự báo thỏa mãn điều kiện |MAE| <= 5%.
- Sai số trung bình MAE của các dự báo là 0.19%. Dự kém nhất bị sai
lệch 9.24% (giá trị âm có nghĩa là thấp hơn giá trị thực tế được thể
hiện ở cột MinERR).
Việc đọc hiểu các kêt quả cho 8 chỉ số còn lại tương tự như trên.
Figure 2 dưới đây so sánh giá trị dự báo và giá trị thực tế của 9
time series:
dfForecastForAll %>%
rename(Actual = open, Forecasted = predicted) %>%
pivot_longer(cols = c("Actual", "Forecasted"), names_to = "type", values_to = "value") -> df_long
df_long %>%
ggplot(aes(x = dateYMD, y = value, color = type)) +
geom_line() +
facet_wrap(~ indicator, scales = "free") +
theme(axis.title = element_blank()) +
theme(legend.title = element_blank()) +
theme(legend.position = "top") +
theme(plot.margin = unit(rep(0.5, 4), "cm")) +
labs(title = "Figure 2: Actual and Forecasted Values",
subtitle = "Note: One-day ahead forecasting by Auto ARIMA",
caption = "Source: https://vn.investing.com") -> fig222
fig222

