Introduction

Đây là tài liệu hướng dẫn thực hành R cho khóa học Business Forecasting tại Monash University dành riêng cho H.L. Giảng viên của khóa học này là Prof George Athanasopoulos - đồng tác giả của Forecasting: Principles and Practice.

tsibble objects

Kiểu tổ chức dữ liệu cho time series được sử dụng trong giáo trình Forecasting: Principles and Practice và cả khóa học Business Forecasting là tsibble. Tất cả các dữ liệu đính kèm thư viện fpp3 đều ở dạng này và được gọi là tsibble object. Chúng ta lấy ví dụ bộ dữ liệu gafa_stock:

# Clear R environment: 
rm(list = ls())

# Load fpp3 package: 
library(fpp3)

# Load gafa_stock data set: 
data("gafa_stock")

Sau khi load bộ dữ liệu này chúng ta có thể xem qua:

# Show some observations: 
head(gafa_stock)
## # A tsibble: 6 x 8 [!]
## # Key:       Symbol [1]
##   Symbol Date        Open  High   Low Close Adj_Close    Volume
##   <chr>  <date>     <dbl> <dbl> <dbl> <dbl>     <dbl>     <dbl>
## 1 AAPL   2014-01-02  79.4  79.6  78.9  79.0      67.0  58671200
## 2 AAPL   2014-01-03  79.0  79.1  77.2  77.3      65.5  98116900
## 3 AAPL   2014-01-06  76.8  78.1  76.2  77.7      65.9 103152700
## 4 AAPL   2014-01-07  77.8  78.0  76.8  77.1      65.4  79302300
## 5 AAPL   2014-01-08  77.0  77.9  77.0  77.6      65.8  64632400
## 6 AAPL   2014-01-09  78.1  78.1  76.5  76.6      65.0  69787200

Nếu dữ liệu time series ở dạng tsibble thì chúng ta có thể sử dụng tất cả các hàm và mô hình của fpp3. Ví dụ, để vẽ đồ thị chỉ cần sử dụng một lệnh đơn giản như sau:

autoplot(gafa_stock)

Như vậy chỉ bằng lệnh autoplot() chúng ta có thể tạo ra plot cho đồng thời cả 4 mã cổ phiếu.

Chúng ta có thể áp dụng các hàm của thư viện dplyr cho tsibble:

# Use mutate() for creating a new column: 

gafa_new <- gafa_stock %>% mutate(open_close = Open / Close)

head(gafa_new)
## # A tsibble: 6 x 9 [!]
## # Key:       Symbol [1]
##   Symbol Date        Open  High   Low Close Adj_Close    Volume open_close
##   <chr>  <date>     <dbl> <dbl> <dbl> <dbl>     <dbl>     <dbl>      <dbl>
## 1 AAPL   2014-01-02  79.4  79.6  78.9  79.0      67.0  58671200      1.00 
## 2 AAPL   2014-01-03  79.0  79.1  77.2  77.3      65.5  98116900      1.02 
## 3 AAPL   2014-01-06  76.8  78.1  76.2  77.7      65.9 103152700      0.988
## 4 AAPL   2014-01-07  77.8  78.0  76.8  77.1      65.4  79302300      1.01 
## 5 AAPL   2014-01-08  77.0  77.9  77.0  77.6      65.8  64632400      0.991
## 6 AAPL   2014-01-09  78.1  78.1  76.5  76.6      65.0  69787200      1.02

Như vậy chúng ta đã tạo thêm cột biến có tên open_close bằng được tạo ra bằng cách lấy giá mở cửa chia cho giá đóng cửa.

Bài tập dành cho bạn:

  1. Sử dụng hàm filter() lấy ra các thông tin cho mã cổ phiếu AAPL từ gafa_stock.
  2. Sử dụng hàm select() lấy ra dữ liệu chỉ gồm hai cột Date và Open từ gafa_stock.

Để sử dụng các hàm của fpp3 điều trước tiên cần làm là convert data đó về tsibble object bằng hàm as_tsibble(). Một ví dụ là câu hỏi trong assignment có liên quan đến dữ liệu về nhiệt đột ở Melbourne Airport. Trước hết lấy dữ liệu về nhiệt độ, ví dụ, của tháng 8 - 2021 tại đây rồi load bộ dữ liệu này:

# Load data: 
tem_airport <- read.csv("C:/Users/Admin/Documents/IDCJDW3049.202108.csv", skip = 4)

Chỉ giữ lại cột thứ 2 và 4 của tem_airport bằng hàm select():

# Select some columns: 
mini_data <- tem_airport %>% select(Date, Maximum.temperature...C.)

# Show data: 
head(mini_data)
##        Date Maximum.temperature...C.
## 1 2021-08-1                     14.8
## 2 2021-08-2                     14.7
## 3 2021-08-3                     13.6
## 4 2021-08-4                     14.1
## 5 2021-08-5                     15.5
## 6 2021-08-6                     13.9
# Data type: 
str(mini_data)
## 'data.frame':    31 obs. of  2 variables:
##  $ Date                    : chr  "2021-08-1" "2021-08-2" "2021-08-3" "2021-08-4" ...
##  $ Maximum.temperature...C.: num  14.8 14.7 13.6 14.1 15.5 13.9 14.8 15.2 15.2 17.8 ...

Cột biến Date là text. Chúng ta cần convert cột biến này về date-time như sau bằng hàm ymd() của thư viện lubridate:

library(lubridate)

mini_data_ymd <- mini_data %>% mutate(Date = ymd(Date))

Đến lúc này chúng ta có thể sử dụng hàm as_tsibble():

data_tsibble <- as_tsibble(mini_data_ymd, index = Date)

Assignment Convention

Đến đây cần nói rõ cho bạn rõ về quy ước sử dụng kí hiệu gán (Assignment). Kí hiệu gán thường thấy nhất là <-. Chẳng hạn như đoạn R codes sau:

data_tsibble <- as_tsibble(mini_data_ymd, index = Date)

Tương tự ta có thể gán giá trị 10 cho cái gọi là object có tên là x như sau:

x <- 10

R cho phép sử dụng một kí hiệu gán theo style khác trông cứ như là “ngược lại”. Chẳng hạn đoạn R codes ở trên có thể được “trình bày” theo cách khác như sau:

as_tsibble(mini_data_ymd, index = Date) -> data_tsibble

Tương tự như vậy là gán 10 cho x:

10 -> x

Hai cách thức viết/trình bày R codes như trên có giá trị như nhau. Bạn cần nắm rõ cái này để đọc R codes của người khác và viết codes cho mình.

Pipe Operator

R sử dụng một số toán tử mà quan trọng nhất trong số đó là toán tử pipe (pipe operator), có kí hiệu là %>%. Bạn đã thấy toán tử này ở trên.

Để làm rõ vai trò của toán tử này chúng ta xét bài toán sau. Xét hàm hợp y = tan(sin(x)). Để tính giá trị của y khi x = 1 với ngôn ngữ R thì chúng ta có thể làm từng bước sau:

# Stage 1: 
x <- 1

# Stage 2: 
trung_gian <- sin(x)

# Stage 3: 
y <- tan(trung_gian)

Đến đây chúng ta có giá trị cuối cùng của y là 1.11894:

y
## [1] 1.11894

Cách làm trên chúng ta phải tạo ra object trung gian có tên trung_gian. Với toán tử Pipe chúng ta không cần tạo ra trung gian này mà vẫn có kết quả cuối cùng 1.11894 như sau:

x %>% 
  sin() %>% 
  tan()
## [1] 1.11894

Chú ý rằng với toán tử Pipe chúng ta có thể viết codes theo một cách thức khác như sau:

x %>% sin() -> trung_gian

trung_gian %>% tan() -> y

Hoặc như sau cũng được:

trung_gian <- x %>% sin()

y <- trung_gian %>% tan()

The forecaster’s toolbox

Mục này tương ứng với Chapter 5 của Forecasting: Principles and Practice, 3E. Để minh họa, hãy trở lại với quesion 1 của Assignment 1 là dự báo giá đóng cửa của Google. Như có thể thấy, tại thời điểm nhận được Assignment 1 là 11-03-2022 nhưng lại yêu cầu dự báo là ngày 25-03-2022. Tức là dự báo trước 15 ngày.

Để giải quyết quesion 1 trước hết chúng ta, ví dụ, download dữ liệu của Google tại thời điểm 11-03-2022 và hất ngược về phía trước 1 năm chẳng hạn. Chúng ta có thể sử dụng hàm tq_get() của thư viện tidyquant để lấy dữ liệu cần thiết như sau:

# Load tidyquant package: 
library(tidyquant)

# Load data for Google: 
tq_get(x = "GOOGL", from = "2021-03-11", to = "2022-03-11") -> google_price

# Show some observations: 

google_price %>% head()
## # A tibble: 6 x 8
##   symbol date        open  high   low close  volume adjusted
##   <chr>  <date>     <dbl> <dbl> <dbl> <dbl>   <dbl>    <dbl>
## 1 GOOGL  2021-03-11 2058. 2111. 2056. 2101. 1385100    2101.
## 2 GOOGL  2021-03-12 2076. 2078. 2032. 2050  1690900    2050 
## 3 GOOGL  2021-03-15 2045. 2055. 2028. 2054. 1308400    2054.
## 4 GOOGL  2021-03-16 2066. 2114. 2059. 2084. 1595000    2084.
## 5 GOOGL  2021-03-17 2068. 2099  2044. 2082. 1319100    2082.
## 6 GOOGL  2021-03-18 2048. 2069. 2019. 2021. 1585000    2021.

Dữ liệu Google ở trên đang ở dạng tibble (có thể gọi tên khác là data frame). Kiểu tổ chức dữ liệu này không phải là tsibble do vậy ta không thể áp dụng trực tiếp các hàm của fpp3, như autoplot(), cho object này được. Để sử dụng được các hàm của fpp3, chúng ta trước hết phải convert google_price về dạng tsibble như sau:

# Convert to tsibble: 
as_tsibble(google_price, index = date) -> google_price_ts

Đến đây có thể sử dụng bất kì hàm nào của fpp3, ví dụ, autoplot() để hình ảnh hóa dữ liệu:

# Plot for close price: 
google_price_ts %>%
  autoplot(close) +
  labs(y = "Closing Price (in USD)", 
       x = "", 
       title = "Figure 1: Closing price for Google")

Chú ý rằng để sử dụng được các method, các hàm của fpp3 thì time series nếu theo ngày, là phải liên tiếp nhau. Tuy nhiên yêu cầu này không được thỏa mãn. Ví dụ:

google_price_ts %>% head()
## # A tsibble: 6 x 8 [1D]
##   symbol date        open  high   low close  volume adjusted
##   <chr>  <date>     <dbl> <dbl> <dbl> <dbl>   <dbl>    <dbl>
## 1 GOOGL  2021-03-11 2058. 2111. 2056. 2101. 1385100    2101.
## 2 GOOGL  2021-03-12 2076. 2078. 2032. 2050  1690900    2050 
## 3 GOOGL  2021-03-15 2045. 2055. 2028. 2054. 1308400    2054.
## 4 GOOGL  2021-03-16 2066. 2114. 2059. 2084. 1595000    2084.
## 5 GOOGL  2021-03-17 2068. 2099  2044. 2082. 1319100    2082.
## 6 GOOGL  2021-03-18 2048. 2069. 2019. 2021. 1585000    2021.

Có thể thấy ngày 2021-03-12 rồi “nhảy cóc” lên ngày 2021-03-15 luôn. Để xử lí vấn đề này chúng ta sử dụng hàm fill_gaps() của hệ sinh thái fpp3:

google_price_ts %>% fill_gaps() -> google_price_ts_filled 

Hãy so sánh bằng cách quan sát kĩ kết quả dưới đây:

google_price_ts_filled %>% head()
## # A tsibble: 6 x 8 [1D]
##   symbol date        open  high   low close  volume adjusted
##   <chr>  <date>     <dbl> <dbl> <dbl> <dbl>   <dbl>    <dbl>
## 1 GOOGL  2021-03-11 2058. 2111. 2056. 2101. 1385100    2101.
## 2 GOOGL  2021-03-12 2076. 2078. 2032. 2050  1690900    2050 
## 3 <NA>   2021-03-13   NA    NA    NA    NA       NA      NA 
## 4 <NA>   2021-03-14   NA    NA    NA    NA       NA      NA 
## 5 GOOGL  2021-03-15 2045. 2055. 2028. 2054. 1308400    2054.
## 6 GOOGL  2021-03-16 2066. 2114. 2059. 2084. 1595000    2084.

Có thể thấy 2021-03-13 và 2021-03-14 là missing data - tức là không có quan sát cho hai ngày này. Đến đây chúng ta có thể sử dụng tsibble này cho dự báo.

Để dự báo, chúng ta có thể vận dụng ví dụ Australian quarterly beer production được trình bày trong textbook. Cụ thể, có thể sử dụng method có tên Snaive để dự báo. Trước hết fit method này trên dữ liệu ở dạng tsibble ở trên:

# Fit the method:
close_fit <- google_price_ts_filled %>%
  model(SNAIVE = SNAIVE(close))

Một cách trình bày khác mà ở đó không muốn tạo ra object trung gian google_price_ts_filled thì R codes sẽ như sau:

# Fit the method: 
close_fit <- google_price_ts %>%
  fill_gaps() %>% 
  model(SNAIVE = SNAIVE(close))

Chúng ta có thể sử dụng method này để dự báo, ví dụ, cho 30 ngày sắp tới với khoảng tin cậy 80%:

close_fit %>% 
  forecast(h = 30) %>% 
  hilo(80) -> df_forecasts

Nếu 30 mà chưa đủ cover 2022-03-25 thì bạn có thể thay bằng, ví dụ, 1001. Thực tế thì h = 30 ở đoạn R codes trên là đã lớn hơn trước 15 ngày rồi. Lúc này chúng ta có thể chỉ ra kết quả dự báo tại 2022-03-25 như sau:

df_forecasts %>% 
  filter(date == ymd("2022-03-25"))
## # A tsibble: 1 x 5 [1D]
## # Key:       .model [1]
##   .model date                close .mean                  `80%`
##   <chr>  <date>             <dist> <dbl>                 <hilo>
## 1 SNAIVE 2022-03-25 N(2638, 22952) 2638. [2443.974, 2832.286]80

Những câu hỏi khác của Assignment làm khá tương tự. Chỉ khác nhau tương đối lớn ở khâu xử lí số liệu để convert về tsibble mà thôi.

(còn nữa…)

