Giới thiệu
Chuỗi thời gian (time series), là một cấu trúc dữ liệu gồm nhiều giá trị liên tiếp theo trình tự thời gian. Một cách phổ quát hơn, Nhi thích sử dụng thuật ngữ “chuỗi dữ liệu” (sequence, sequential data) cho bất cứ dữ liệu nào có cấu trúc liên tục và theo trình tự, không bắt buộc phải là những con số và phải có yếu tố thời gian biểu kiến (thí dụ chuỗi sự kiện/trạng thái, văn bản, gen, protein, … ).
Trong các bài toán Machine learning, dữ liệu chuỗi có thể được hoán chuyển rất đa dạng ở đầu vào, theo 2 trường phái khác nhau: hoặc trực tiếp sử dụng dữ liệu thô (arrays/tensor từ 1D cho đến 5D) - cách làm này thường gặp trong deep learning (CNN, LSTM, …) hoặc gián tiếp bằng cách trích xuất các features từ dữ liệu gốc rồi dùng các features này như input data cho những algorithm như SVM, XGBoost hay Random Forest. Bài thực hành hôm nay sẽ bàn về trường phái thứ 2, trích xuất features, với nội dung cụ thể là giới thiệu về R package tsfeatures. Công cụ này cho phép thực hiện rất nhiều quy trình trích xuất features - vốn trước kia chỉ có thể làm bằng Matlab.
Bạn có thể cài đặt bản chính thức từ CRAN như sau:
# Cài đặt từ CRAN
install.packages('tsfeatures', dependencies = TRUE)
Bạn cũng có thể cài bản thử nghiệm từ Github như sau:
# Cần package "devtools"
devtools::install_github("robjhyndman/tsfeatures")
Một vài thí dụ về time series
Sau đây là một số dataset kinh điển giúp các bạn hình dung về time series,
library(tsfeatures)
library(tidyverse)
- Data sunpost : timeseries có yếu tố thời gian biểu kiến (mốc thời gian là năm, tháng, ngày, giờ xác định)
annual_sunpost = read.csv("http://vincentarelbundock.github.io/Rdatasets/csv/datasets/sunspot.year.csv",
row.names = 1)%>%
ts(data=.$value,
start=min(.$time),
end=max(.$time),
frequency=1)
head(annual_sunpost,20)
## Time Series:
## Start = 1700
## End = 1719
## Frequency = 1
## [1] 5 11 16 23 36 58 29 20 10 8 3 0 0 2 11 27 47 63 60 39
plot(annual_sunpost,type="l",col="red")

- Dữ liệu AirPassenger: là một thí dụ về time series có yếu tố chu kỳ
airpass = read.csv("http://vincentarelbundock.github.io/Rdatasets/csv/datasets/AirPassengers.csv",
row.names = 1)%>%
ts(data=.$value,
class="ts",
start=1949,end=1960,
frequency=12)
airpass
## Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec
## 1949 112 118 132 129 121 135 148 148 136 119 104 118
## 1950 115 126 141 135 125 149 170 170 158 133 114 140
## 1951 145 150 178 163 172 178 199 199 184 162 146 166
## 1952 171 180 193 181 183 218 230 242 209 191 172 194
## 1953 196 196 236 235 229 243 264 272 237 211 180 201
## 1954 204 188 235 227 234 264 302 293 259 229 203 229
## 1955 242 233 267 269 270 315 364 347 312 274 237 278
## 1956 284 277 317 313 318 374 413 405 355 306 271 306
## 1957 315 301 356 348 355 422 465 467 404 347 305 336
## 1958 340 318 362 348 363 435 491 505 404 359 310 337
## 1959 360 342 406 396 420 472 548 559 463 407 362 405
## 1960 417
plot(airpass,type="l",col="blue")

- Một đoạn tín hiệu điện tim:
Đây là thí dụ về timeseries không có mốc thời gian biểu kiến (có thể chỉ đơn giản là 1 vector số)
ecg = read.csv("ecg0606_1.csv",header = F)%>%as.ts(.$V1)
plot(ecg,type="l",col="black")

- Dữ liệu chuỗi đa chiều:
8 băng Tín hiệu cảm biến gyro và gia tốc ghi nhận tư thế, chuyển động của cơ thể trong 5 trạng thái giấc ngủ khác nhau: có thể xem như một tensor 3D.
sleep_df = read.csv("origin_comp.csv")
Awk_df = sleep_df%>%filter(Stade == "Awk")%>%.[c(1:100),]
N1_df = sleep_df%>%filter(Stade == "N1")%>%.[c(1:100),]
N2_df = sleep_df%>%filter(Stade == "N2")%>%.[c(1:100),]
N3_df = sleep_df%>%filter(Stade == "N3")%>%.[c(1:100),]
Rem_df = sleep_df%>%filter(Stade == "REM")%>%.[c(1:100),]
df=rbind(Awk_df,N1_df,N2_df,N3_df,Rem_df)%>%select(-idx)
df$idx = rep(c(1:100),5)
df%>%gather(1:8,key="band",value="amplitude")%>%
ggplot(aes(x=idx,y=amplitude,col=band))+
geom_line(alpha=0.6,size=1)+
theme_bw(5)+
facet_wrap(~Stade, ncol=1, scales="free")

df%>%gather(1:8,key="band",value="amplitude")%>%
ggplot(aes(x=idx,y=amplitude,col=band))+
geom_line(alpha=0.6,size=0.8)+
theme_bw(8)+
facet_grid(band~Stade, scales="free_y")

Hình vẽ trên chỉ mới trình bày 1 phân đoạn ngắn (10 giây tín hiệu với tần số lấy mẫu 10 Hz),khi một chuỗi dài được chia đều thành nhiều phân đoạn, nó sẽ trở thành một tensor/array 4D, thậm chí 5D, bao gồm chiều thời gian. Giả định nếu muốn phân biệt 5 trạng thái giấc ngủ khác nhau (bài toán multiclass classification), ta khó lòng sử dụng trực tiếp dữ liệu gốc, ngay cả bằng mô tả trực quan.Đây là một không gian dữ liệu quá lớn, nhiều thông tin tiềm ẩn bên trong và khó phân tích. Kỹ thuật trích xuất features có thể rút gọn chiều dữ liệu xuống bằng cách sử dụng các chỉ số cho phép mô tả về đặc tính, khuynh hướng của chuỗi dữ liệu gốc, package tsfeatures cung cấp một số hàm tiện lợi để làm việc này.
Trích xuất feature cho 1 chuỗi bằng hàm chuyên dụng
về mặt kỹ thuật, mỗi chuỗi dữ liệu cơ bản là một vector (1D array) nên ta có thể áp dụng tất cả những hàm thông thường, bao gồm thống kê, tính toán số học, hoán chuyển, ..Nếu hàm này xuất ra kết quả là một con số, kết quả này có thể được xem như một feature,
Thí dụ đơn giản nhất, hàm median cho biết vị trí trung tâm của chuỗi:
median(annual_sunpost)
## [1] 39
ggplot(data=annual_sunpost)+
geom_point(aes(y=annual_sunpost,x=c(1700:1988)),col="red",alpha=0.5)+
geom_line(aes(y=annual_sunpost,x=c(1700:1988)),col="grey",alpha=0.5)+
geom_hline(yintercept = median(annual_sunpost), color = "blue", linetype=2)+
scale_x_continuous('Year')+
theme_bw()

Package tsfeature cung cấp khoảng 30 hàm khác nhau tương ứng với nhiều thuộc tính chuyên biệt cho time series,
https://cran.r-project.org/web/packages/tsfeatures/vignettes/tsfeatures.html#stl_features
Thí dụ, hàm acf_features cung cấp hệ số tự tương quan và tổng bình phương của 10 autocorrelation coefficients đầu tiên
acf_features(ecg)%>%knitr::kable()
x_acf1 |
0.9690683 |
x_acf10 |
2.9172409 |
diff1_acf1 |
0.9187728 |
diff1_acf10 |
2.5582842 |
diff2_acf1 |
0.7313610 |
diff2_acf10 |
1.6636852 |
Hàm stl_features trích xuất 8 thuộc tính về trend và seasonality của time series dựa vào phân tích STL decomposition.
stl_features(ecg)%>%knitr::kable()
nperiods |
0.0000000 |
seasonal_period |
1.0000000 |
trend |
0.0043295 |
spike |
0.0000000 |
linearity |
0.4771984 |
curvature |
-0.3072355 |
e_acf1 |
0.9690477 |
e_acf10 |
2.9124859 |
Hàm heterogeneity trích xuất 4 thuộc tính nhằm khảo sát heterogeneity dựa vào tổng bình phương và R2 của mô hình GARCH và ARCH:
heterogeneity (airpass)%>%knitr::kable()
arch_acf |
0.2294789 |
garch_acf |
0.2278266 |
arch_r2 |
0.1891338 |
garch_r2 |
0.1894199 |
Trích xuất features cho hàng loạt chuỗi
Hàm tsfeatures cho phép áp dụng một hay nhiều phương pháp trích xuất features khác nhau cho 1 list gồm nhiều chuỗi khác nhau. Nó làm đơn giản code mà không cần đến vòng lặp, hàm apply hay hàm map.
Trước hết ta đưa các chuỗi cần xử lý vào 1 list (có thể dùng hàm split trên 1 dataframe), thí dụ ta muốn xử lý 3 chuỗi anorm_raw ở 3 trạng thái Awk, N2 và REM :
ts_list = list(Awk_df$anorm_raw,
N2_df$anorm_raw,
Rem_df$anorm_raw)
str(ts_list)
## List of 3
## $ : num [1:100] 1.02 1.02 1.02 1.02 1.02 ...
## $ : num [1:100] 1.01 1.01 1.01 1.01 1.01 ...
## $ : num [1:100] 1.01 1.02 1.02 1.01 1.01 ...
Có thể áp dụng 1 hay hàng loạt phương pháp, tên của phương pháp là tên của hàm có trong Environment, có thể là 1 hàm có sẵn trong package hay 1 hàm đặc biệt do bạn tạo ra:
Thí dụ quy trình sau trích xuất các features: entropy, stability, nonlinearity, lumpiness, crossing_points cho list 3 series:
tsfeatures(ts_list, features = c("entropy","stability","nonlinearity",
"lumpiness", "crossing_points"))%>%knitr::kable()
0.9866066 |
0.3323816 |
1.1801256 |
0.4820703 |
53 |
0.9516680 |
0.0166262 |
0.3401689 |
0.3215552 |
62 |
0.8107511 |
0.0340071 |
0.1445946 |
0.2417979 |
78 |
Kết quả xuất ra là 1 data frame, mỗi hàng tương ứng 1 series trong list, mỗi cột là 1 features. Nếu hàm xuất ra nhiều features, chúng sẽ được ghép nối tiếp theo nhiều cột
Như đã nói, ta có thể viết hàm tùy thích, thí dụ Nhi tạo ra 1 hàm có tên là boxcox_stl, nó sẽ làm 1 quy trình phức tạp gồm: chuẩn hóa (scaling) chuỗi thành thang đo 0:1, sau đó hoán chuyển BoxCox, cuối cùng áp dụng phương pháp STL để xuất ra 8 features:
boxcox_stl <- function(x,...) {
minmax = (x- min(x)) /(max(x)-min(x))
lambda <- forecast::BoxCox.lambda(minmax)
y <- forecast::BoxCox(minmax, lambda)
c(stl_features(y, s.window='periodic', robust=TRUE), lambda=lambda)
}
tsfeatures(ts_list, features = 'boxcox_stl')%>%knitr::kable()
0 |
1 |
0.2707876 |
1e-07 |
0.4579602 |
0.3788559 |
-0.0796860 |
0.0908502 |
1.077253 |
0 |
1 |
0.0000000 |
2e-07 |
0.0668875 |
-0.0161874 |
-0.3999478 |
0.3523617 |
1.018802 |
0 |
1 |
0.0122354 |
1e-07 |
0.0182492 |
0.1391286 |
-0.6922963 |
1.7365545 |
1.421700 |
Trích xuất features cho dữ liệu chuỗi đa chiều
Ta sẽ làm 1 quy trình phức tạp hơn, thí dụ ta có dataframe sleep_df gồm 8 băng tín hiệu, ghi trong 5 trạng thái giấc ngủ khác nhau, mỗi trạng thái lại được chia thành 10 phân đoạn khác nhau có độ dài 100 mẫu (10 giây, 10Hz), cấu trúc này tương ứng với 1 tensor/array 4D. Ta muốn trích xuất entropy của từng phân đoạn
sleep_df$idx = rep(c(1:50),each = 100)
sleep_df%>%sample_n(10)%>%knitr::kable()
1.009713 |
-0.7873840 |
0.6317135 |
0.0219420 |
0.8806421 |
-0.7765406 |
0.2447864 |
0.3354096 |
28 |
N2 |
1.012446 |
-0.7616880 |
0.6274110 |
-0.2263485 |
0.3145053 |
-0.1477296 |
0.2104879 |
0.1810646 |
45 |
REM |
1.014557 |
-0.7628377 |
0.6295167 |
-0.2260740 |
0.1365469 |
-0.0245079 |
0.0478859 |
0.0807093 |
43 |
REM |
1.009033 |
-0.7902835 |
0.6268615 |
0.0253600 |
1.4076002 |
-0.8641931 |
0.4715389 |
0.9966136 |
24 |
N2 |
1.022717 |
0.0953163 |
0.6772870 |
-0.7603557 |
1.0109192 |
-0.4437156 |
-0.3700511 |
-0.3308760 |
10 |
Awk |
1.014243 |
-0.7630310 |
0.6286010 |
-0.2265625 |
0.2718565 |
-0.1934616 |
-0.1610826 |
0.0190981 |
46 |
REM |
1.013054 |
-0.7928260 |
0.6295577 |
0.0367433 |
0.8897557 |
0.7910407 |
-0.2252344 |
-0.0259980 |
26 |
N2 |
1.011761 |
-0.7847290 |
0.6381230 |
0.0256960 |
1.3894277 |
-0.9327906 |
0.6944809 |
0.7603336 |
25 |
N2 |
1.012252 |
-0.7820437 |
0.6424767 |
0.0168457 |
1.0432809 |
0.5661931 |
0.5255283 |
-0.6980000 |
34 |
N3 |
1.011412 |
-0.7983400 |
0.6207885 |
0.0150755 |
0.6220690 |
0.5096639 |
-0.0982016 |
-0.3315114 |
13 |
N1 |
sleep_df%>%group_by(idx,Stade)%>%tally()%>%knitr::kable()
1 |
Awk |
100 |
2 |
Awk |
100 |
3 |
Awk |
100 |
4 |
Awk |
100 |
5 |
Awk |
100 |
6 |
Awk |
100 |
7 |
Awk |
100 |
8 |
Awk |
100 |
9 |
Awk |
100 |
10 |
Awk |
100 |
11 |
N1 |
100 |
12 |
N1 |
100 |
13 |
N1 |
100 |
14 |
N1 |
100 |
15 |
N1 |
100 |
16 |
N1 |
100 |
17 |
N1 |
100 |
18 |
N1 |
100 |
19 |
N1 |
100 |
20 |
N1 |
100 |
21 |
N2 |
100 |
22 |
N2 |
100 |
23 |
N2 |
100 |
24 |
N2 |
100 |
25 |
N2 |
100 |
26 |
N2 |
100 |
27 |
N2 |
100 |
28 |
N2 |
100 |
29 |
N2 |
100 |
30 |
N2 |
100 |
31 |
N3 |
100 |
32 |
N3 |
100 |
33 |
N3 |
100 |
34 |
N3 |
100 |
35 |
N3 |
100 |
36 |
N3 |
100 |
37 |
N3 |
100 |
38 |
N3 |
100 |
39 |
N3 |
100 |
40 |
N3 |
100 |
41 |
REM |
100 |
42 |
REM |
100 |
43 |
REM |
100 |
44 |
REM |
100 |
45 |
REM |
100 |
46 |
REM |
100 |
47 |
REM |
100 |
48 |
REM |
100 |
49 |
REM |
100 |
50 |
REM |
100 |
Để làm việc này, dự kiến ta phải dùng hàm map và 1 hàm cải biên để làm việc trên list.
Ta tạo ra hàm ent_func, nó sẽ chuyển dataframe nhỏ gồm 8 băng dữ liệu thành 1 list, sau đó áp dụng hàm ts_features (hay trực tiếp hàm entropy cũng được) để trích xuất kết quả entropy cho mỗi băng dữ liệu.
ent_func = function(.x){
ts_list = as.list(.x[,-c(9,10)])
out = tsfeatures(ts_list,
features="entropy")%>%as.vector()
return(out)
}
Tiếp theo, ta dùng hàm map_df để chạy hàm ent_func cho từng phân đoạn từ 1 đến 50 (có 50 phân đoạn, mỗi nhóm label có 10 phân đoạn và mỗi phân đoạn dài 100 mẫu) và ghi kết quả trong dataframe out_df
sleep_df%>%split(.$idx)%>%
map_df(.,~data_frame(ent=ent_func(.x)%>%.$entropy,
para = colnames(df[,-c(9,10)]),
stade=.x$Stade[[1]]))->out_df
out_df$idx = factor(c(1:50))
out_df%>%sample_n(10)%>%knitr::kable()
0.9112369 |
gx_raw |
N1 |
42 |
0.8880870 |
gy_raw |
N2 |
49 |
0.9242151 |
gx_raw |
N2 |
6 |
0.8515206 |
gz_raw |
N2 |
18 |
0.9102416 |
az_raw |
REM |
48 |
0.6979388 |
ax_raw |
N2 |
18 |
0.9169486 |
ax_raw |
N1 |
22 |
0.8572580 |
gx_raw |
N1 |
10 |
0.8757794 |
ax_raw |
REM |
44 |
0.8719307 |
gy_raw |
N2 |
15 |
Lúc này ta có thể dùng entropy như 1 feature để phân biệt 5 label sleep stades:
out_df%>%ggplot()+
geom_density(aes(x=ent,fill=stade),alpha=0.7)+
theme_bw(8)+
facet_wrap(~para,ncol=3,scales = "free")

out_df%>%ggplot()+
geom_boxplot(aes(x=stade,y=ent,fill=stade),alpha=0.7)+
theme_bw(8)+
coord_flip()+
facet_wrap(~para,ncol=2,scales = "free")

Thay vì xuất 1 features duy nhất là entropy, ta có thể xuất nhiều features hơn, như sau đây - Nhi dùng quy trình stl_features để xuất ra 8 features, sau đó chọn ra 4 là trend,spike,linearity và curvature. Lưu ý, hàm stl_func xuất kết quả là 1 dataframe thay vì vector như hàm ent_func
stl_func = function(.x){
ts_list = as.list(.x[,-c(9,10)])
out = tsfeatures(ts_list,
features="stl_features")
return(out)
}
Kết hợp hàm split và map_df, ta có thể chạy áp dụng hàm stl_func vừa tạo cho hàng loạt phân đoạn, và lưu kết quả lại thành dataframe out_df2
sleep_df%>%split(.$idx)%>%
map_df(.,~stl_func(.x)%>%
select(trend,spike,linearity,curvature))->out_df2
out_df2%>%sample_n(10)%>%knitr::kable()
0.2821990 |
0.0000906 |
-1.0794391 |
1.8113425 |
0.0584019 |
0.0001293 |
1.1788674 |
-0.1435161 |
0.4926281 |
0.0001104 |
-0.3078516 |
-1.1142797 |
0.3645284 |
0.0000748 |
2.3945986 |
-1.9783793 |
0.8308025 |
0.0000071 |
-0.7858780 |
0.7821673 |
0.6655960 |
0.0000375 |
5.5228314 |
-3.0745624 |
0.7475569 |
0.0000328 |
1.9326001 |
3.3317111 |
0.0084289 |
0.0002730 |
-0.0255262 |
-0.6787094 |
0.3947238 |
0.0008709 |
0.0167956 |
0.8797239 |
0.4312240 |
0.0000725 |
0.4181652 |
0.5867820 |
Ta ghép 2 dataframe out_df và out_df2 lại thành 1, lúc này ta có 5 features trong 1 dataframe
stl_out_df = bind_cols(out_df2,out_df)
dataframe này có thể được dùng như input data cho bài toán classfication, hoặc unsupervised learning.
Ta có thể thăm dò trực quan đặc tính của dữ liệu features bằng heatmap:
library(viridis)
stl_out_df%>%
dplyr::select(-c(para,stade,idx))%>%
scale(.)%>%
as_tibble()%>%
mutate(Stade=out_df$stade,
Id=factor(rep(c(1:5),80)),
para=out_df$para)%>%
gather(trend:ent,
key="Feature",value="Value")%>%
ggplot(aes(x=reorder(Id,Value),
y=reorder(Feature,Value),
fill=Value))+
geom_tile(show.legend=T)+
theme_bw(7)+
theme(axis.text.y=element_blank(),
axis.text.x = element_text(angle =45,hjust=1,vjust=1))+
coord_flip()+
scale_y_discrete("Features")+
scale_x_discrete("Fragments",breaks=NULL)+
facet_grid(Stade~para,shrink = T)+
scale_fill_viridis(option="A",begin=1,end=0)

Hoặc bằng violin plot
stl_out_df%>%
dplyr::select(-c(para,stade,idx))%>%
scale(.)%>%
as_tibble()%>%
mutate(stade=out_df$stade,
para=out_df$para)%>%
gather(1:5,key="Feature",value="Value")%>%
ggplot()+
geom_violin(aes(x=stade,y=Value,fill=stade),alpha=0.5)+
facet_grid(Feature~para)+
theme_bw(7)+
theme(axis.text.y=element_blank(),
axis.text.x = element_text(angle =45,hjust=1,vjust=1))

Tổng kết
Bài thực hành đến đây là hết, Nhi hy vọng package tsfeature sẽ mang lại nhiều tiên ích cho các bạn nghiên cứu sinh khi làm việc với dữ liệu chuỗi. Chúc các bạn thực hành vui và hẹn gặp lại.
