
Introduction
Đây là tài liệu hướng dẫn thực hành R cho khóa học Business Forecasting tại Monash University dành riêng cho H.L. Giảng viên của khóa học này là Prof George Athanasopoulos - đồng tác giả của Forecasting: Principles and Practice.
tsibble objects
Kiểu tổ chức dữ liệu cho time series được sử dụng trong giáo trình Forecasting: Principles and Practice và cả khóa học Business Forecasting là tsibble. Tất cả các dữ liệu đính kèm thư viện fpp3 đều ở dạng này và được gọi là tsibble object. Chúng ta lấy ví dụ bộ dữ liệu gafa_stock:
# Clear R environment:
rm(list = ls())
# Load fpp3 package:
library(fpp3)
# Load gafa_stock data set:
data("gafa_stock")
Sau khi load bộ dữ liệu này chúng ta có thể xem qua:
# Show some observations:
head(gafa_stock)
## # A tsibble: 6 x 8 [!]
## # Key: Symbol [1]
## Symbol Date Open High Low Close Adj_Close Volume
## <chr> <date> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 AAPL 2014-01-02 79.4 79.6 78.9 79.0 67.0 58671200
## 2 AAPL 2014-01-03 79.0 79.1 77.2 77.3 65.5 98116900
## 3 AAPL 2014-01-06 76.8 78.1 76.2 77.7 65.9 103152700
## 4 AAPL 2014-01-07 77.8 78.0 76.8 77.1 65.4 79302300
## 5 AAPL 2014-01-08 77.0 77.9 77.0 77.6 65.8 64632400
## 6 AAPL 2014-01-09 78.1 78.1 76.5 76.6 65.0 69787200
Nếu dữ liệu time series ở dạng tsibble thì chúng ta có thể sử dụng tất cả các hàm và mô hình của fpp3. Ví dụ, để vẽ đồ thị chỉ cần sử dụng một lệnh đơn giản như sau:

Như vậy chỉ bằng lệnh autoplot()
chúng ta có thể tạo ra plot cho đồng thời cả 4 mã cổ phiếu.
Chúng ta có thể áp dụng các hàm của thư viện dplyr cho tsibble:
# Use mutate() for creating a new column:
gafa_new <- gafa_stock %>% mutate(open_close = Open / Close)
head(gafa_new)
## # A tsibble: 6 x 9 [!]
## # Key: Symbol [1]
## Symbol Date Open High Low Close Adj_Close Volume open_close
## <chr> <date> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 AAPL 2014-01-02 79.4 79.6 78.9 79.0 67.0 58671200 1.00
## 2 AAPL 2014-01-03 79.0 79.1 77.2 77.3 65.5 98116900 1.02
## 3 AAPL 2014-01-06 76.8 78.1 76.2 77.7 65.9 103152700 0.988
## 4 AAPL 2014-01-07 77.8 78.0 76.8 77.1 65.4 79302300 1.01
## 5 AAPL 2014-01-08 77.0 77.9 77.0 77.6 65.8 64632400 0.991
## 6 AAPL 2014-01-09 78.1 78.1 76.5 76.6 65.0 69787200 1.02
Như vậy chúng ta đã tạo thêm cột biến có tên open_close bằng được tạo ra bằng cách lấy giá mở cửa chia cho giá đóng cửa.
Bài tập dành cho bạn:
- Sử dụng hàm
filter()
lấy ra các thông tin cho mã cổ phiếu AAPL từ gafa_stock.
- Sử dụng hàm
select()
lấy ra dữ liệu chỉ gồm hai cột Date và Open từ gafa_stock.
Để sử dụng các hàm của fpp3 điều trước tiên cần làm là convert data đó về tsibble object bằng hàm as_tsibble()
. Một ví dụ là câu hỏi trong assignment có liên quan đến dữ liệu về nhiệt đột ở Melbourne Airport. Trước hết lấy dữ liệu về nhiệt độ, ví dụ, của tháng 8 - 2021 tại đây rồi load bộ dữ liệu này:
# Load data:
tem_airport <- read.csv("C:/Users/Admin/Documents/IDCJDW3049.202108.csv", skip = 4)
Chỉ giữ lại cột thứ 2 và 4 của tem_airport bằng hàm select()
:
# Select some columns:
mini_data <- tem_airport %>% select(Date, Maximum.temperature...C.)
# Show data:
head(mini_data)
## Date Maximum.temperature...C.
## 1 2021-08-1 14.8
## 2 2021-08-2 14.7
## 3 2021-08-3 13.6
## 4 2021-08-4 14.1
## 5 2021-08-5 15.5
## 6 2021-08-6 13.9
# Data type:
str(mini_data)
## 'data.frame': 31 obs. of 2 variables:
## $ Date : chr "2021-08-1" "2021-08-2" "2021-08-3" "2021-08-4" ...
## $ Maximum.temperature...C.: num 14.8 14.7 13.6 14.1 15.5 13.9 14.8 15.2 15.2 17.8 ...
Cột biến Date là text. Chúng ta cần convert cột biến này về date-time như sau bằng hàm ymd()
của thư viện lubridate:
library(lubridate)
mini_data_ymd <- mini_data %>% mutate(Date = ymd(Date))
Đến lúc này chúng ta có thể sử dụng hàm as_tsibble()
:
data_tsibble <- as_tsibble(mini_data_ymd, index = Date)
Assignment Convention
Đến đây cần nói rõ cho bạn rõ về quy ước sử dụng kí hiệu gán (Assignment). Kí hiệu gán thường thấy nhất là <-. Chẳng hạn như đoạn R codes sau:
data_tsibble <- as_tsibble(mini_data_ymd, index = Date)
Tương tự ta có thể gán giá trị 10 cho cái gọi là object có tên là x như sau:
R cho phép sử dụng một kí hiệu gán theo style khác trông cứ như là “ngược lại”. Chẳng hạn đoạn R codes ở trên có thể được “trình bày” theo cách khác như sau:
as_tsibble(mini_data_ymd, index = Date) -> data_tsibble
Tương tự như vậy là gán 10 cho x:
Hai cách thức viết/trình bày R codes như trên có giá trị như nhau. Bạn cần nắm rõ cái này để đọc R codes của người khác và viết codes cho mình.
Pipe Operator
R sử dụng một số toán tử mà quan trọng nhất trong số đó là toán tử pipe (pipe operator), có kí hiệu là %>%. Bạn đã thấy toán tử này ở trên.
Để làm rõ vai trò của toán tử này chúng ta xét bài toán sau. Xét hàm hợp y = tan(sin(x)). Để tính giá trị của y khi x = 1 với ngôn ngữ R thì chúng ta có thể làm từng bước sau:
# Stage 1:
x <- 1
# Stage 2:
trung_gian <- sin(x)
# Stage 3:
y <- tan(trung_gian)
Đến đây chúng ta có giá trị cuối cùng của y là 1.11894:
## [1] 1.11894
Cách làm trên chúng ta phải tạo ra object trung gian có tên trung_gian. Với toán tử Pipe chúng ta không cần tạo ra trung gian này mà vẫn có kết quả cuối cùng 1.11894 như sau:
## [1] 1.11894
Chú ý rằng với toán tử Pipe chúng ta có thể viết codes theo một cách thức khác như sau:
x %>% sin() -> trung_gian
trung_gian %>% tan() -> y
Hoặc như sau cũng được:
trung_gian <- x %>% sin()
y <- trung_gian %>% tan()
The forecaster’s toolbox
Mục này tương ứng với Chapter 5 của Forecasting: Principles and Practice, 3E. Để minh họa, hãy trở lại với quesion 1 của Assignment 1 là dự báo giá đóng cửa của Google. Như có thể thấy, tại thời điểm nhận được Assignment 1 là 11-03-2022 nhưng lại yêu cầu dự báo là ngày 25-03-2022. Tức là dự báo trước 15 ngày.
Để giải quyết quesion 1 trước hết chúng ta, ví dụ, download dữ liệu của Google tại thời điểm 11-03-2022 và hất ngược về phía trước 1 năm chẳng hạn. Chúng ta có thể sử dụng hàm tq_get()
của thư viện tidyquant để lấy dữ liệu cần thiết như sau:
# Load tidyquant package:
library(tidyquant)
# Load data for Google:
tq_get(x = "GOOGL", from = "2021-03-11", to = "2022-03-11") -> google_price
# Show some observations:
google_price %>% head()
## # A tibble: 6 x 8
## symbol date open high low close volume adjusted
## <chr> <date> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 GOOGL 2021-03-11 2058. 2111. 2056. 2101. 1385100 2101.
## 2 GOOGL 2021-03-12 2076. 2078. 2032. 2050 1690900 2050
## 3 GOOGL 2021-03-15 2045. 2055. 2028. 2054. 1308400 2054.
## 4 GOOGL 2021-03-16 2066. 2114. 2059. 2084. 1595000 2084.
## 5 GOOGL 2021-03-17 2068. 2099 2044. 2082. 1319100 2082.
## 6 GOOGL 2021-03-18 2048. 2069. 2019. 2021. 1585000 2021.
Dữ liệu Google ở trên đang ở dạng tibble (có thể gọi tên khác là data frame). Kiểu tổ chức dữ liệu này không phải là tsibble do vậy ta không thể áp dụng trực tiếp các hàm của fpp3, như autoplot()
, cho object này được. Để sử dụng được các hàm của fpp3, chúng ta trước hết phải convert google_price về dạng tsibble như sau:
# Convert to tsibble:
as_tsibble(google_price, index = date) -> google_price_ts
Đến đây có thể sử dụng bất kì hàm nào của fpp3, ví dụ, autoplot()
để hình ảnh hóa dữ liệu:
# Plot for close price:
google_price_ts %>%
autoplot(close) +
labs(y = "Closing Price (in USD)",
x = "",
title = "Figure 1: Closing price for Google")

Chú ý rằng để sử dụng được các method, các hàm của fpp3 thì time series nếu theo ngày, là phải liên tiếp nhau. Tuy nhiên yêu cầu này không được thỏa mãn. Ví dụ:
google_price_ts %>% head()
## # A tsibble: 6 x 8 [1D]
## symbol date open high low close volume adjusted
## <chr> <date> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 GOOGL 2021-03-11 2058. 2111. 2056. 2101. 1385100 2101.
## 2 GOOGL 2021-03-12 2076. 2078. 2032. 2050 1690900 2050
## 3 GOOGL 2021-03-15 2045. 2055. 2028. 2054. 1308400 2054.
## 4 GOOGL 2021-03-16 2066. 2114. 2059. 2084. 1595000 2084.
## 5 GOOGL 2021-03-17 2068. 2099 2044. 2082. 1319100 2082.
## 6 GOOGL 2021-03-18 2048. 2069. 2019. 2021. 1585000 2021.
Có thể thấy ngày 2021-03-12 rồi “nhảy cóc” lên ngày 2021-03-15 luôn. Để xử lí vấn đề này chúng ta sử dụng hàm fill_gaps()
của hệ sinh thái fpp3:
google_price_ts %>% fill_gaps() -> google_price_ts_filled
Hãy so sánh bằng cách quan sát kĩ kết quả dưới đây:
google_price_ts_filled %>% head()
## # A tsibble: 6 x 8 [1D]
## symbol date open high low close volume adjusted
## <chr> <date> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 GOOGL 2021-03-11 2058. 2111. 2056. 2101. 1385100 2101.
## 2 GOOGL 2021-03-12 2076. 2078. 2032. 2050 1690900 2050
## 3 <NA> 2021-03-13 NA NA NA NA NA NA
## 4 <NA> 2021-03-14 NA NA NA NA NA NA
## 5 GOOGL 2021-03-15 2045. 2055. 2028. 2054. 1308400 2054.
## 6 GOOGL 2021-03-16 2066. 2114. 2059. 2084. 1595000 2084.
Có thể thấy 2021-03-13 và 2021-03-14 là missing data - tức là không có quan sát cho hai ngày này. Đến đây chúng ta có thể sử dụng tsibble này cho dự báo.
Để dự báo, chúng ta có thể vận dụng ví dụ Australian quarterly beer production được trình bày trong textbook. Cụ thể, có thể sử dụng method có tên Snaive để dự báo. Trước hết fit method này trên dữ liệu ở dạng tsibble ở trên:
# Fit the method:
close_fit <- google_price_ts_filled %>%
model(SNAIVE = SNAIVE(close))
Một cách trình bày khác mà ở đó không muốn tạo ra object trung gian google_price_ts_filled thì R codes sẽ như sau:
# Fit the method:
close_fit <- google_price_ts %>%
fill_gaps() %>%
model(SNAIVE = SNAIVE(close))
Chúng ta có thể sử dụng method này để dự báo, ví dụ, cho 30 ngày sắp tới với khoảng tin cậy 80%:
close_fit %>%
forecast(h = 30) %>%
hilo(80) -> df_forecasts
Nếu 30 mà chưa đủ cover 2022-03-25 thì bạn có thể thay bằng, ví dụ, 1001. Thực tế thì h = 30 ở đoạn R codes trên là đã lớn hơn trước 15 ngày rồi. Lúc này chúng ta có thể chỉ ra kết quả dự báo tại 2022-03-25 như sau:
df_forecasts %>%
filter(date == ymd("2022-03-25"))
## # A tsibble: 1 x 5 [1D]
## # Key: .model [1]
## .model date close .mean `80%`
## <chr> <date> <dist> <dbl> <hilo>
## 1 SNAIVE 2022-03-25 N(2638, 22952) 2638. [2443.974, 2832.286]80
Những câu hỏi khác của Assignment làm khá tương tự. Chỉ khác nhau tương đối lớn ở khâu xử lí số liệu để convert về tsibble mà thôi.
(còn nữa…)
