Licença

This work is licensed under the Creative Commons Attribution-ShareAlike 4.0 International License. To view a copy of this license, visit http://creativecommons.org/licenses/by-sa/4.0/ or send a letter to Creative Commons, PO Box 1866, Mountain View, CA 94042, USA.

License: CC BY-SA 4.0

Citação

Sugestão de citação: FIGUEIREDO, Adriano Marcos Rodrigues. Séries Temporais: Rotina rápida para lidar com missings no fabletools. Campo Grande-MS,Brasil: RStudio/Rpubs, 2021. Disponível em <http://rpubs.com/amrofi/missings_fabletools>.

1 Introdução

Segue uma rotina rápida para lidar com os missings (observações ausentes), com o pacote fabletools e tidyr.
Hyndman e Athanasopoulos (2020) no FPP 3, seção 13.9, mencionam o fato de ser comum termos séries temporais com dados ausentes, por exemplo, devido aos finais de semana, ou por outro motivo qualquer (esquecimento, ausência de coleta de dados, impedimento de negociação em bolsa, etc.). O caso mais importante que cito é aquele em que a série apresenta “falhas” implícitas. Ou seja, imagine um caso de um fim de semana (sábado e domingo) sem dados. A série terá então falhas no calendário. Seja o caso do mês de maio de 2021, teremos falhas em todos os dias em vermelho (Figura 1).

Figura 1. Maio de 2021

Uma tabela com dados diários para os dias úteis seria algo como:

Tabela 1. Dados aleatórios.

Observe que na Tabela 1, temos a data de 21/05/2021 vazia, e as demais estão preenchidas. O leitor poderia dizer que basta excluir a data de 21/05/2021 e não teremos mais nenhuma observação ausente (NA = not available = o nosso missing explícito). Mas temos missings implícitos, que não aparecem diretamente, que são os finais de semana (08, 09, 15, 16 de maio de 2021).

Então, aqui veremos como lidar com essas situações, pois o fable terá algumas restrições quando houver dados ausentes (explícitos ou implícitos), por exemplo, no ETS() e no STL(), conforme Hyndman e Athanasopoulos (2020) no FPP 3, seção 13.9.

A sugestão para este post é trabalhar com objetos tsibble, em consonância com Hyndman e Athanasopoulos (2020).

2 Dados para exemplo

Primeiro chamamos os dados. Eles estão embeded no code Rmd. Como gerei no Excel e a coluna estava já como formato de data, ao importar para o Excel (antes de eu gerar o dput), o R já entendeu que era coluna de data e mudou daquele formato da Tabela 1 (dd/mm/aaaa) para o formato (aaaa-mm-dd).

dados <- structure(list(Data = c("03/05/2021", "04/05/2021", "05/05/2021", "06/05/2021", 
    "07/05/2021", "10/05/2021", "11/05/2021", "12/05/2021", "13/05/2021", "14/05/2021", 
    "17/05/2021", "18/05/2021", "19/05/2021", "20/05/2021", "21/05/2021"), X = c(264, 
    281, 287, 284, 278, 281, 293, 292, 289, 294, 295, 293, 290, 288, NA)), row.names = c(NA, 
    -15L), class = c("tbl_df", "tbl", "data.frame"))
class(dados$Data)
[1] "character"

Veja que ele vem em data.frame. Então vamos gerar o tsibble.

Peço vossa atenção para o fato de que a coluna data nem sempre está em formato de data do R. NO chunk acima está como data.frame.

Caso você tenha uma coluna Data em formato de caracter (testar fazendo class(dados$Data)) então, antes de criar o tsibble, criar uma coluna date para facilitar a indexação conforme chunk abaixo.

dados$date <- as.Date(dados$Data, format = "%d/%m/%Y")
print(dados)
         Data   X       date
1  03/05/2021 264 2021-05-03
2  04/05/2021 281 2021-05-04
3  05/05/2021 287 2021-05-05
4  06/05/2021 284 2021-05-06
5  07/05/2021 278 2021-05-07
6  10/05/2021 281 2021-05-10
7  11/05/2021 293 2021-05-11
8  12/05/2021 292 2021-05-12
9  13/05/2021 289 2021-05-13
10 14/05/2021 294 2021-05-14
11 17/05/2021 295 2021-05-17
12 18/05/2021 293 2021-05-18
13 19/05/2021 290 2021-05-19
14 20/05/2021 288 2021-05-20
15 21/05/2021  NA 2021-05-21

Agora, além da coluna da data inicial (Data), temos a coluna (date).

Então criaremos o tsibble no próximo chunk. Chamaremos o pacote fable para executar a função as_tsibble() e colocaremos a coluna date (pode ser a Data desde que esteja como na structure do nosso primeiro chunk.

library(fable)
dados.tsb <- as_tsibble(dados[, c(3, 2)], index = date, regular = T)
class(dados.tsb)  # 'tbl_ts'     'tbl_df'     'tbl'        'data.frame'
[1] "tbl_ts"     "tbl_df"     "tbl"        "data.frame"
fabletools::autoplot(dados.tsb, X)

O leitor atento à mensagens de erro verá que aparece a mensagem Removed 1 row(s) containing missing values (geom_path). Ou seja, ele removeu automaticamente a linha do dia 2021-05-21, onde aparecia o NA na coluna de X. O objeto tsibble de nome dados.tsb foi criado. Neste exemplo, já exclui a coluna Data para não gerar confusão, e o index do tsibble é a coluna date.

O pacote já entendeu que a série é diária e uniu os pontos. Mas continuamos com as falhas dos finais de semana.

Portanto agora mostrarei duas formas de preencher os dados e recomendo ao leitor que consulte as opções do exemplo do manual do tsibble : Exemplos do fill_gaps no tsibble , onde existem opções para preencher com NAs, interpolar, preencher com zeros, preencher com a média, preencher com o último valor etc. As duas opções aqui desenvolvidas são: com NAs explícitos, e a de preencher com o último valor disponível.

3 Opção 1: preencher com NAs

Neste caso, o tsibble entenderá as datas que faltam, criará estas novas linhas e preencherá com o símbolo de missing padrão: NA. Encorajo o leitor a observar a tabela do print, e comparar com a tabela 1, e verá que agora a nova saída (dados.full) tem as datas inclusive para os finais de semana (sábado e domingo).

dados.full <- tsibble::fill_gaps(dados.tsb)
options(max.print = 100)
print(dados.full)
# A tsibble: 19 x 2 [1D]
   date           X
   <date>     <dbl>
 1 2021-05-03   264
 2 2021-05-04   281
 3 2021-05-05   287
 4 2021-05-06   284
 5 2021-05-07   278
 6 2021-05-08    NA
 7 2021-05-09    NA
 8 2021-05-10   281
 9 2021-05-11   293
10 2021-05-12   292
11 2021-05-13   289
12 2021-05-14   294
13 2021-05-15    NA
14 2021-05-16    NA
15 2021-05-17   295
16 2021-05-18   293
17 2021-05-19   290
18 2021-05-20   288
19 2021-05-21    NA

4 Opção 2: preencher com último valor

Neste caso, o tsibble entenderá as datas que faltam, criará estas novas linhas e preencherá com o último valor da série X, preenchendo para baixo (.direction = "down") com uso da função fill do pacote tidyr. Encorajo o leitor a observar a tabela do print, e comparar com a tabela 1, e verá que agora a nova saída (dados.full2) tem as datas inclusive para os finais de semana (sábado e domingo) e não constam NAs.

library(tidyr)
dados.full2 <- dados.tsb %>% tsibble::fill_gaps() %>% tidyr::fill(X, .direction = "down")
print(dados.full2)
# A tsibble: 19 x 2 [1D]
   date           X
   <date>     <dbl>
 1 2021-05-03   264
 2 2021-05-04   281
 3 2021-05-05   287
 4 2021-05-06   284
 5 2021-05-07   278
 6 2021-05-08   278
 7 2021-05-09   278
 8 2021-05-10   281
 9 2021-05-11   293
10 2021-05-12   292
11 2021-05-13   289
12 2021-05-14   294
13 2021-05-15   294
14 2021-05-16   294
15 2021-05-17   295
16 2021-05-18   293
17 2021-05-19   290
18 2021-05-20   288
19 2021-05-21   288

Deste modo, o leitor pode verificar que os valores de 08 e 09 de maio de 2021 foram preenchidos com o mesmo valor de 07 de maio de 2021. Do mesmo modo, para 15 e 16 de maio, teremos os valores de 14 de maio repetidos. O mesmo será feito para preencher o dia 21.

O gráfico será agora:

fabletools::autoplot(dados.full2, X)

O leitor pode testar agora as ferramentas de forecast do fable e fabletools.

library(fpp3)
fit <- dados.full2 %>% model(arima = ARIMA(X), ets = ETS(X))
fit_fc <- fit %>% forecast(h = 10)
fit_fc %>% autoplot(dados.tsb, level = NULL) + labs(y = "valor de X", title = "Exemplo genérico de forecast após fill_gaps")

Referências

HYNDMAN, Rob J. (2018). fpp2: Data for “Forecasting: Principles and Practice” (2nd Edition). R package version 2.3. Disponível em: https://CRAN.R-project.org/package=fpp2. Accessed on 20 May 2021.

HYNDMAN, Rob J. (2019). fpp3: Data for “Forecasting: Principles and Practice” (3rd Edition). R package. Disponível em: https://github.com/robjhyndman/fpp3-package, https://OTexts.org/fpp3/. Accessed on 20 May 2021.

HYNDMAN, R.J.; ATHANASOPOULOS, G. (2020) Forecasting: principles and practice, 3rd edition, OTexts: Melbourne, Australia. Disponível em: https://otexts.com/fpp3/. Accessed on 20 May 2021.

O’HARA-WILD, Mitchell; HYNDMAN, Rob J.; WANG, Earo. (2021). feasts: Feature Extraction and Statistics for Time Series. R package version 0.2.1. Disponível em: https://CRAN.R-project.org/package=feasts. Accessed on 20 May 2021.

