Licença
This work is licensed under the Creative Commons Attribution-ShareAlike 4.0 International License. To view a copy of this license, visit http://creativecommons.org/licenses/by-sa/4.0/ or send a letter to Creative Commons, PO Box 1866, Mountain View, CA 94042, USA.
Citação
Sugestão de citação: FIGUEIREDO, Adriano Marcos Rodrigues. Séries Temporais: Rotina rápida para lidar com missings no fabletools
. Campo Grande-MS,Brasil: RStudio/Rpubs, 2021. Disponível em <http://rpubs.com/amrofi/missings_fabletools>.
Introdução
Segue uma rotina rápida para lidar com os missings (observações ausentes), com o pacote fabletools
e tidyr
.
Hyndman e Athanasopoulos (2020) no FPP 3, seção 13.9, mencionam o fato de ser comum termos séries temporais com dados ausentes, por exemplo, devido aos finais de semana, ou por outro motivo qualquer (esquecimento, ausência de coleta de dados, impedimento de negociação em bolsa, etc.). O caso mais importante que cito é aquele em que a série apresenta “falhas” implícitas. Ou seja, imagine um caso de um fim de semana (sábado e domingo) sem dados. A série terá então falhas no calendário. Seja o caso do mês de maio de 2021, teremos falhas em todos os dias em vermelho (Figura 1).
Uma tabela com dados diários para os dias úteis seria algo como:
Observe que na Tabela 1, temos a data de 21/05/2021 vazia, e as demais estão preenchidas. O leitor poderia dizer que basta excluir a data de 21/05/2021 e não teremos mais nenhuma observação ausente (NA = not available = o nosso missing explícito). Mas temos missings implícitos, que não aparecem diretamente, que são os finais de semana (08, 09, 15, 16 de maio de 2021).
Então, aqui veremos como lidar com essas situações, pois o fable
terá algumas restrições quando houver dados ausentes (explícitos ou implícitos), por exemplo, no ETS()
e no STL()
, conforme Hyndman e Athanasopoulos (2020) no FPP 3, seção 13.9.
A sugestão para este post é trabalhar com objetos tsibble
, em consonância com Hyndman e Athanasopoulos (2020).
Dados para exemplo
Primeiro chamamos os dados. Eles estão embeded no code Rmd. Como gerei no Excel e a coluna estava já como formato de data, ao importar para o Excel (antes de eu gerar o dput
), o R já entendeu que era coluna de data e mudou daquele formato da Tabela 1 (dd/mm/aaaa) para o formato (aaaa-mm-dd).
dados <- structure(list(Data = c("03/05/2021", "04/05/2021", "05/05/2021", "06/05/2021",
"07/05/2021", "10/05/2021", "11/05/2021", "12/05/2021", "13/05/2021", "14/05/2021",
"17/05/2021", "18/05/2021", "19/05/2021", "20/05/2021", "21/05/2021"), X = c(264,
281, 287, 284, 278, 281, 293, 292, 289, 294, 295, 293, 290, 288, NA)), row.names = c(NA,
-15L), class = c("tbl_df", "tbl", "data.frame"))
class(dados$Data)
[1] "character"
Veja que ele vem em data.frame. Então vamos gerar o tsibble
.
Peço vossa atenção para o fato de que a coluna data nem sempre está em formato de data do R. NO chunk acima está como data.frame.
Caso você tenha uma coluna Data em formato de caracter (testar fazendo class(dados$Data)
) então, antes de criar o tsibble
, criar uma coluna date para facilitar a indexação conforme chunk abaixo.
dados$date <- as.Date(dados$Data, format = "%d/%m/%Y")
print(dados)
Data X date
1 03/05/2021 264 2021-05-03
2 04/05/2021 281 2021-05-04
3 05/05/2021 287 2021-05-05
4 06/05/2021 284 2021-05-06
5 07/05/2021 278 2021-05-07
6 10/05/2021 281 2021-05-10
7 11/05/2021 293 2021-05-11
8 12/05/2021 292 2021-05-12
9 13/05/2021 289 2021-05-13
10 14/05/2021 294 2021-05-14
11 17/05/2021 295 2021-05-17
12 18/05/2021 293 2021-05-18
13 19/05/2021 290 2021-05-19
14 20/05/2021 288 2021-05-20
15 21/05/2021 NA 2021-05-21
Agora, além da coluna da data inicial (Data), temos a coluna (date).
Então criaremos o tsibble
no próximo chunk. Chamaremos o pacote fable
para executar a função as_tsibble()
e colocaremos a coluna date (pode ser a Data desde que esteja como na structure do nosso primeiro chunk.
library(fable)
dados.tsb <- as_tsibble(dados[, c(3, 2)], index = date, regular = T)
class(dados.tsb) # 'tbl_ts' 'tbl_df' 'tbl' 'data.frame'
[1] "tbl_ts" "tbl_df" "tbl" "data.frame"
fabletools::autoplot(dados.tsb, X)

O leitor atento à mensagens de erro verá que aparece a mensagem Removed 1 row(s) containing missing values (geom_path).
Ou seja, ele removeu automaticamente a linha do dia 2021-05-21, onde aparecia o NA
na coluna de X
. O objeto tsibble
de nome dados.tsb
foi criado. Neste exemplo, já exclui a coluna Data
para não gerar confusão, e o index
do tsibble
é a coluna date
.
O pacote já entendeu que a série é diária e uniu os pontos. Mas continuamos com as falhas dos finais de semana.
Portanto agora mostrarei duas formas de preencher os dados e recomendo ao leitor que consulte as opções do exemplo do manual do tsibble
: Exemplos do fill_gaps no tsibble , onde existem opções para preencher com NAs, interpolar, preencher com zeros, preencher com a média, preencher com o último valor etc. As duas opções aqui desenvolvidas são: com NAs explícitos, e a de preencher com o último valor disponível.
Referências
HYNDMAN, Rob J. (2018). fpp2: Data for “Forecasting: Principles and Practice” (2nd Edition). R package version 2.3. Disponível em: https://CRAN.R-project.org/package=fpp2. Accessed on 20 May 2021.
HYNDMAN, Rob J. (2019). fpp3: Data for “Forecasting: Principles and Practice” (3rd Edition). R package. Disponível em: https://github.com/robjhyndman/fpp3-package, https://OTexts.org/fpp3/. Accessed on 20 May 2021.
HYNDMAN, R.J.; ATHANASOPOULOS, G. (2020) Forecasting: principles and practice, 3rd edition, OTexts: Melbourne, Australia. Disponível em: https://otexts.com/fpp3/. Accessed on 20 May 2021.
O’HARA-WILD, Mitchell; HYNDMAN, Rob J.; WANG, Earo. (2021). feasts: Feature Extraction and Statistics for Time Series. R package version 0.2.1. Disponível em: https://CRAN.R-project.org/package=feasts. Accessed on 20 May 2021.
