Automated ARIMA

Quá trình lựa chọn các tham số tối ưu cho mô hình ARIMA có thể được tóm tắt bằng hình dưới đây:

Hyndman & Khandakar (2008) đề xuất một thuật toán nhằm thực hiện quá trình lựa chọn và xây dựng mô hình ARIMA một cách tự động (gọi là Auto ARIMA). Post này trình bày việc áp dụng Auto ARIMA cho việc dự báo trước 1 ngày 9 time series là Bitcoin, TetherUSD, E1VFN30, Gold, Oil, HNX30, VN100, VN30 và VNIndex. Hai time series đầu tiên đại diện cho tiền ảo, E1VFN30 là chứng chỉ quỹ ETF, Gold và Oil đại diện cho hợp đồng tương lai về Vàng và Dầu Thô. Các time series còn lại là các chỉ số chứng khoán tại Việt Nam. Tất các các time series này được lấy từ https://vn.investing.com/ từ ngày 01-01-2022 đến ngày 05-12-2023.

Backtesting for Evaluating Performance

Các giá trị được dự báo từ Auto ARIMA được thực hiện bằng phương pháp Backtesting được mô tả bằng hình dưới đây:

Trong đó training là phần dữ liệu được sử dụng để chọn các tham số tối ưu cho ARIMA, testing là phần dữ liệu sử dụng để kiểm tra ngược lại mức độ chính xác của dự báo bởi mô hình ARIMA. Ở đây tôi sử dụng dữ liệu quan sát của 360 ngày trong quá khứ (xấp xỉ 1 năm) làm training data và dữ liệu của ngày thứ 361 để đánh giá mức độ chính xác kết quả dự báo trước một ngày thu được từ mô hình.

Mean Absolute Error (MAE) được lựa chọn làm tiêu chuẩn để đánh mức độ chính xác của dự báo. Những giá trị dự báo mà giá trị tuyệt đối của MAE nhỏ hơn hoặc bằng 5% sẽ được gọi là đạt chuẩn.

Empirical Results

Trước hết load và xử lí qua dữ liệu thô thu được:

# Clear R Environment: 

rm(list = ls())

# Load R packages: 

library(arrow)
library(dplyr)
library(tidyr)
library(lubridate)
library(readr)
library(stringr)
library(ggplot2)
library(scales)
library(plotly)
library(fpp2)
library(gt)
library(showtext)

my_font <- "Ubuntu Condensed"  # Set font for our plot. 

font_add_google(name = my_font, family = my_font)

showtext_auto()

theme_set(theme_minimal())
# Load data collected from https://vn.investing.com (01-01-2021 to 05-12-2021): 

dir("E:/dataTikopProject", full.names = TRUE) -> indicatorPaths

lapply(indicatorPaths, read_csv) -> indicatorList

sapply(indicatorList, nrow) -> nRep


c(rep("Bitcoin", nRep[1]), 
  rep("E1VFVN30", nRep[2]), 
  rep("HNX30", nRep[3]), 
  rep("Oil", nRep[4]), 
  rep("Gold", nRep[5]), 
  rep("TetherUSD", nRep[6]),
  rep("VN30", nRep[7]), 
  rep("VNIndex", nRep[8]), 
  rep("VN100", nRep[9])) -> indicators

allIndicator <- unique(indicators)

do.call("bind_rows", indicatorList) -> dfIndicators

dfIndicators %>% 
  select(1, 3) %>% 
  mutate(indicator = indicators) -> dfIndicators

names(dfIndicators) <- c("dateYMD", "open", "indicator")

dfIndicators %>% mutate(dateYMD = dmy(dateYMD)) -> dfIndicators


dfIndicators %>% 
  ggplot(aes(dateYMD, open, color = indicator)) + 
  geom_line(show.legend = FALSE) + 
  facet_wrap(~ indicator, scales = "free") + 
  theme(axis.title = element_blank()) + 
  theme(plot.margin = unit(rep(0.5, 4), "cm")) + 
  labs(title = "Figure 1: Return Trend for Some Selected Time Series", 
       subtitle = "", 
       caption = "Source: https://vn.investing.com") -> f11 

Figure 1 dưới đây chỉ ra trend cho các time series từ ngày 01-01-2022 đến ngày 05-12-2023:

Dưới đây là hàm thực hiện 1-day ahead forecasting bằng Auto ARIMA và sử dụng hàm này để dự báo:

# Function conducts one-day ahead forecasting by Auto ARIMA: 

n_ahead <- 1

n_windown <- 360

oneDayAheadForecast <- function(indicatorSelected) {
  
  # indicatorSelected <- "Bitcoin"
  
  dfIndicators %>% 
    arrange(dateYMD) %>% 
    filter(indicator == indicatorSelected) -> dfSelected
  
  
  autoARIMA <- function(j) {
    
    # Set up parameters for training Auto ARIMA: 
    
    # j <- 1
    
    startTime <- j
    
    endTime <- n_windown + j - 1
    
    # Data for training Auto ARIMA: 
    
    dfSelected$open[startTime:endTime] %>% ts() -> train
    
    # Train Auto ARIMA: 
    
    my_arima <- auto.arima(train)
    
    # Use trained model for forecasting: 
    
    predicted <- forecast(my_arima, h = n_ahead)$mean %>% as.vector()
    
    dfSelected %>% 
      slice(endTime + 1) %>% 
      mutate(predicted = predicted) %>% 
      mutate(err = predicted - open) %>% 
      mutate(perErr = predicted / open - 1) %>% 
      return()
  }
  
  # Forecast for all remaining days: 
  
  n_days <- nrow(dfSelected)
  
  n_remaining <- n_days - n_windown
  
  do.call("bind_rows",  lapply(1:n_remaining, autoARIMA)) -> dfComparing
  
  return(dfComparing)
  
  
}



# oneDayAheadForecast(indicatorSelected = allIndicator[1])

# Use the function: 

do.call("bind_rows", lapply(allIndicator, oneDayAheadForecast)) -> dfForecastForAll

Kết quả dự báo cho 9 time series được trình bày ở Table 1 dưới đây:

dfForecastForAll %>% 
  mutate(Under5 = case_when(abs(perErr) <= 0.05 ~ "Yes", TRUE ~ "No")) %>% 
  group_by(indicator, Under5) %>% 
  count() %>% 
  pivot_wider(names_from = Under5, values_from = n, values_fill = 0) %>% 
  mutate(Total = No + Yes) -> df_wider


dfForecastForAll %>% 
  group_by(indicator) %>% 
  summarise(MeanERR = mean(perErr), MaxERR = max(perErr), MinERR = min(perErr)) %>% 
  full_join(df_wider %>% select(indicator, Num.OK = Yes, Num.Fail = No, Total)) -> dfResults


dfResults %>% 
  mutate_if(is.numeric, function(x) {round(x, 4)}) %>% 
  gt() %>%
  tab_header(title = "Table 1: One-day ahead forecasting by Auto ARIMA")
Table 1: One-day ahead forecasting by Auto ARIMA
indicator MeanERR MaxERR MinERR Num.OK Num.Fail Total
Bitcoin -0.0019 0.0785 -0.0924 326 18 344
E1VFVN30 0.0003 0.0532 -0.0293 119 1 120
Gold -0.0003 0.0165 -0.0307 147 0 147
HNX30 0.0008 0.0890 -0.0664 108 10 118
Oil -0.0001 0.0585 -0.0642 150 4 154
TetherUSD 0.0000 0.0029 -0.0053 344 0 344
VN100 0.0000 0.0482 -0.0387 120 0 120
VN30 0.0003 0.0419 -0.0337 120 0 120
VNIndex 0.0002 0.0471 -0.0333 120 0 120

Kết quả này chỉ ra rằng, với Bitcoin chẳng hạn:

  • Trong tổng số 344 kết quả dự báo (trước 1 ngày), có 18 dự báo không thỏa mãn điều kiện sai sốt tuyệt đối MAE nhỏ hơn hoặc bằng 5%. Còn lại 326 giá trị dự báo thỏa mãn điều kiện |MAE| <= 5%.
  • Sai số trung bình MAE của các dự báo là 0.19%. Dự kém nhất bị sai lệch 9.24% (giá trị âm có nghĩa là thấp hơn giá trị thực tế được thể hiện ở cột MinERR).

Việc đọc hiểu các kêt quả cho 8 chỉ số còn lại tương tự như trên.

Figure 2 dưới đây so sánh giá trị dự báo và giá trị thực tế của 9 time series:

dfForecastForAll %>% 
  rename(Actual = open, Forecasted = predicted) %>% 
  pivot_longer(cols = c("Actual", "Forecasted"), names_to = "type", values_to = "value") -> df_long 


df_long %>% 
  ggplot(aes(x = dateYMD, y = value, color = type)) + 
  geom_line() + 
  facet_wrap(~ indicator, scales = "free") + 
  theme(axis.title = element_blank()) + 
  theme(legend.title = element_blank()) + 
  theme(legend.position = "top") + 
  theme(plot.margin = unit(rep(0.5, 4), "cm")) + 
  labs(title = "Figure 2: Actual and Forecasted Values", 
       subtitle = "Note: One-day ahead forecasting by Auto ARIMA", 
       caption = "Source: https://vn.investing.com") -> fig222 

fig222 

Conclusion

Bằng chứng thực nghiêm trên 9 time series cho thấy ARIMA có khả năng dự báo trước 1 ngày rất tốt (như được chỉ ra ở Table 1 và Figure 2). Một lựa chọn có thể là sử dụng các thuật toán Deep Learning như Long Short-Term Memory - LSTM cho bài toán dự báo. Chủ đề này sẽ được trình bày trong một bài viết khác trong tương lai.

References

  1. Awan, T.M. and Aslam, F., 2020. Prediction of daily COVID-19 cases in European countries using automatic ARIMA model. Journal of public health research, 9(3), pp.jphr-2020.

  2. Melard, G. and Pasteels, J.M., 2000. Automatic ARIMA modeling including interventions, using time series expert software. International Journal of Forecasting, 16(4), pp.497-508.

  3. Khan, S. and Alghulaiakh, H., 2020. ARIMA model for accurate time series stocks forecasting. International Journal of Advanced Computer Science and Applications, 11(7).

  4. Gupta, S. and Sharma, D., 2022. Prediction of COVID-19 spread in world using pandemic dataset with application of auto ARIMA and SIR models. International Journal of Critical Infrastructures, 18(2), pp.148-158.

  5. Kovvuri, A.R., Uppalapati, P.J., Bonthu, S. and Kandula, N.R., 2022, November. Water Level Forecasting in Reservoirs Using Time Series Analysis–Auto ARIMA Model. In International Conference on Cognitive Computing and Cyber Physical Systems, (pp. 192-200). Cham: Springer Nature Switzerland.

  6. Hyndman, R.J. and Khandakar, Y., 2008. Automatic time series forecasting: the forecast package for R. Journal of statistical software, 27, pp.1-22.

---
title: 'N-days Ahead Forecasting using Automated ARIMA'
author: 'Author: Nguyen Chi Dung'
subtitle: "R Data Science Series"
output:
  html_document: 
    code_download: true
    # code_folding: hide
    highlight: zenburn
    # number_sections: yes
    theme: "flatly"
    toc: TRUE
    toc_float: TRUE
---

```{r setup,include=FALSE}
knitr::opts_chunk$set(echo = TRUE, warning = FALSE, message = FALSE, cache = TRUE, eval = TRUE)

```

![](C:\\Users\\Admin\\Documents\\book.jpg)

# Automated ARIMA

Quá trình lựa chọn các tham số tối ưu cho mô hình ARIMA có thể được tóm tắt bằng hình dưới đây: 

![](C:\\Users\\Admin\\Documents\\arima.jpg) 

[Hyndman & Khandakar (2008)](https://cran.r-project.org/web/packages/forecast/vignettes/JSS2008.pdf) đề xuất một thuật toán nhằm thực hiện quá trình lựa chọn và xây dựng mô hình ARIMA một cách tự động (gọi là Auto ARIMA). Post này trình bày việc áp dụng Auto ARIMA cho việc dự báo trước 1 ngày 9 time series là Bitcoin, TetherUSD, E1VFN30, Gold, Oil, HNX30, VN100, VN30 và VNIndex. Hai time series đầu tiên đại diện cho tiền ảo, E1VFN30 là chứng chỉ quỹ ETF, Gold và Oil đại diện cho hợp đồng tương lai về Vàng và Dầu Thô. Các time series còn lại là các chỉ số chứng khoán tại Việt Nam. Tất các các time series này được lấy từ [https://vn.investing.com/](https://vn.investing.com/commodities/gold) từ ngày 01-01-2022 đến ngày 05-12-2023. 


# Backtesting for Evaluating Performance

Các giá trị được dự báo từ Auto ARIMA được thực hiện bằng phương pháp [Backtesting](https://joaquinamatrodrigo.github.io/skforecast/0.8.1/user_guides/backtesting.html#:~:text=Backtesting%20is%20a%20form%20of,issues%20or%20areas%20of%20improvement.) được mô tả bằng hình dưới đây:


![](C:\\Users\\Admin\\Documents\\sliding.jpg)

Trong đó training là phần dữ liệu được sử dụng để chọn các tham số tối ưu cho ARIMA, testing là phần dữ liệu sử dụng để kiểm tra ngược lại mức độ chính xác của dự báo bởi mô hình ARIMA. Ở đây tôi sử dụng dữ liệu quan sát của 360 ngày trong quá khứ (xấp xỉ 1 năm) làm training data và dữ liệu của ngày thứ 361 để đánh giá mức độ chính xác kết quả dự báo trước một ngày thu được từ mô hình. 

[Mean Absolute Error (MAE)](https://en.wikipedia.org/wiki/Mean_absolute_error) được lựa chọn làm tiêu chuẩn để đánh mức độ chính xác của dự báo. Những giá trị dự báo mà giá trị tuyệt đối của MAE nhỏ hơn hoặc bằng 5% sẽ được gọi là đạt chuẩn. 

# Empirical Results

Trước hết load và xử lí qua dữ liệu thô thu được: 

```{r}

# Clear R Environment: 

rm(list = ls())

# Load R packages: 

library(arrow)
library(dplyr)
library(tidyr)
library(lubridate)
library(readr)
library(stringr)
library(ggplot2)
library(scales)
library(plotly)
library(fpp2)
library(gt)
library(showtext)

my_font <- "Ubuntu Condensed"  # Set font for our plot. 

font_add_google(name = my_font, family = my_font)

showtext_auto()

theme_set(theme_minimal())
```


```{r, eval=FALSE}
# Load data collected from https://vn.investing.com (01-01-2021 to 05-12-2021): 

dir("E:/dataTikopProject", full.names = TRUE) -> indicatorPaths

lapply(indicatorPaths, read_csv) -> indicatorList

sapply(indicatorList, nrow) -> nRep


c(rep("Bitcoin", nRep[1]), 
  rep("E1VFVN30", nRep[2]), 
  rep("HNX30", nRep[3]), 
  rep("Oil", nRep[4]), 
  rep("Gold", nRep[5]), 
  rep("TetherUSD", nRep[6]),
  rep("VN30", nRep[7]), 
  rep("VNIndex", nRep[8]), 
  rep("VN100", nRep[9])) -> indicators

allIndicator <- unique(indicators)

do.call("bind_rows", indicatorList) -> dfIndicators

dfIndicators %>% 
  select(1, 3) %>% 
  mutate(indicator = indicators) -> dfIndicators

names(dfIndicators) <- c("dateYMD", "open", "indicator")

dfIndicators %>% mutate(dateYMD = dmy(dateYMD)) -> dfIndicators


dfIndicators %>% 
  ggplot(aes(dateYMD, open, color = indicator)) + 
  geom_line(show.legend = FALSE) + 
  facet_wrap(~ indicator, scales = "free") + 
  theme(axis.title = element_blank()) + 
  theme(plot.margin = unit(rep(0.5, 4), "cm")) + 
  labs(title = "Figure 1: Return Trend for Some Selected Time Series", 
       subtitle = "", 
       caption = "Source: https://vn.investing.com") -> f11 
```

Figure 1 dưới đây chỉ ra trend cho các time series từ ngày 01-01-2022 đến ngày 05-12-2023: 

![](C:\\Users\\Admin\\Documents\\timefig1.jpg)
Dưới đây là hàm thực hiện 1-day ahead forecasting bằng Auto ARIMA và sử dụng hàm này để dự báo: 

```{r, eval=FALSE}
# Function conducts one-day ahead forecasting by Auto ARIMA: 

n_ahead <- 1

n_windown <- 360

oneDayAheadForecast <- function(indicatorSelected) {
  
  # indicatorSelected <- "Bitcoin"
  
  dfIndicators %>% 
    arrange(dateYMD) %>% 
    filter(indicator == indicatorSelected) -> dfSelected
  
  
  autoARIMA <- function(j) {
    
    # Set up parameters for training Auto ARIMA: 
    
    # j <- 1
    
    startTime <- j
    
    endTime <- n_windown + j - 1
    
    # Data for training Auto ARIMA: 
    
    dfSelected$open[startTime:endTime] %>% ts() -> train
    
    # Train Auto ARIMA: 
    
    my_arima <- auto.arima(train)
    
    # Use trained model for forecasting: 
    
    predicted <- forecast(my_arima, h = n_ahead)$mean %>% as.vector()
    
    dfSelected %>% 
      slice(endTime + 1) %>% 
      mutate(predicted = predicted) %>% 
      mutate(err = predicted - open) %>% 
      mutate(perErr = predicted / open - 1) %>% 
      return()
  }
  
  # Forecast for all remaining days: 
  
  n_days <- nrow(dfSelected)
  
  n_remaining <- n_days - n_windown
  
  do.call("bind_rows",  lapply(1:n_remaining, autoARIMA)) -> dfComparing
  
  return(dfComparing)
  
  
}



# oneDayAheadForecast(indicatorSelected = allIndicator[1])

# Use the function: 

do.call("bind_rows", lapply(allIndicator, oneDayAheadForecast)) -> dfForecastForAll

```


```{r, eval=TRUE, echo=FALSE}
# Load results: 
readRDS("dfForecastForAll.rds") -> dfForecastForAll
```

Kết quả dự báo cho 9 time series được trình bày ở Table 1 dưới đây: 

```{r, eval=TRUE}
dfForecastForAll %>% 
  mutate(Under5 = case_when(abs(perErr) <= 0.05 ~ "Yes", TRUE ~ "No")) %>% 
  group_by(indicator, Under5) %>% 
  count() %>% 
  pivot_wider(names_from = Under5, values_from = n, values_fill = 0) %>% 
  mutate(Total = No + Yes) -> df_wider


dfForecastForAll %>% 
  group_by(indicator) %>% 
  summarise(MeanERR = mean(perErr), MaxERR = max(perErr), MinERR = min(perErr)) %>% 
  full_join(df_wider %>% select(indicator, Num.OK = Yes, Num.Fail = No, Total)) -> dfResults


dfResults %>% 
  mutate_if(is.numeric, function(x) {round(x, 4)}) %>% 
  gt() %>%
  tab_header(title = "Table 1: One-day ahead forecasting by Auto ARIMA")

```

Kết quả này chỉ ra rằng, với Bitcoin chẳng hạn: 

- Trong tổng số 344 kết quả dự báo (trước 1 ngày), có 18 dự báo không thỏa mãn điều kiện sai sốt tuyệt đối MAE nhỏ hơn hoặc bằng 5%. Còn lại 326 giá trị dự báo thỏa mãn điều kiện |MAE| <= 5%. 
- Sai số trung bình MAE của các dự báo là 0.19%. Dự kém nhất bị sai lệch 9.24% (giá trị âm có nghĩa là thấp hơn giá trị thực tế được thể hiện ở cột MinERR). 

Việc đọc hiểu các kêt quả cho 8 chỉ số còn lại tương tự như trên. 

Figure 2 dưới đây so sánh giá trị dự báo và giá trị thực tế của 9 time series: 

```{r, eval=FALSE}

dfForecastForAll %>% 
  rename(Actual = open, Forecasted = predicted) %>% 
  pivot_longer(cols = c("Actual", "Forecasted"), names_to = "type", values_to = "value") -> df_long 


df_long %>% 
  ggplot(aes(x = dateYMD, y = value, color = type)) + 
  geom_line() + 
  facet_wrap(~ indicator, scales = "free") + 
  theme(axis.title = element_blank()) + 
  theme(legend.title = element_blank()) + 
  theme(legend.position = "top") + 
  theme(plot.margin = unit(rep(0.5, 4), "cm")) + 
  labs(title = "Figure 2: Actual and Forecasted Values", 
       subtitle = "Note: One-day ahead forecasting by Auto ARIMA", 
       caption = "Source: https://vn.investing.com") -> fig222 

fig222 
```


![](C:\\Users\\Admin\\Documents\\timefig2.jpg)







# Conclusion

Bằng chứng thực nghiêm trên 9 time series cho thấy [ARIMA](https://www.investopedia.com/terms/a/autoregressive-integrated-moving-average-arima.asp) có khả năng dự báo trước 1 ngày rất tốt (như được chỉ ra ở Table 1 và Figure 2). Một lựa chọn có thể là sử dụng các thuật toán Deep Learning như [Long Short-Term Memory - LSTM](https://en.wikipedia.org/wiki/Long_short-term_memory) cho bài toán dự báo. Chủ đề này sẽ được trình bày trong một bài viết khác trong tương lai. 



# References

1. Awan, T.M. and Aslam, F., 2020. Prediction of daily COVID-19 cases in European countries using automatic ARIMA model. *Journal of public health research*, 9(3), pp.jphr-2020.

2. Melard, G. and Pasteels, J.M., 2000. Automatic ARIMA modeling including interventions, using time series expert software. *International Journal of Forecasting*, 16(4), pp.497-508.

3. Khan, S. and Alghulaiakh, H., 2020. ARIMA model for accurate time series stocks forecasting. *International Journal of Advanced Computer Science and Applications*, 11(7).

4. Gupta, S. and Sharma, D., 2022. Prediction of COVID-19 spread in world using pandemic dataset with application of auto ARIMA and SIR models. *International Journal of Critical Infrastructures*, 18(2), pp.148-158.

6. Kovvuri, A.R., Uppalapati, P.J., Bonthu, S. and Kandula, N.R., 2022, November. Water Level Forecasting in Reservoirs Using Time Series Analysis–Auto ARIMA Model. *In International Conference on Cognitive Computing and Cyber Physical Systems*, (pp. 192-200). Cham: Springer Nature Switzerland.

7. Hyndman, R.J. and Khandakar, Y., 2008. Automatic time series forecasting: the forecast package for R. *Journal of statistical software*, 27, pp.1-22.






