Introdução

Este relatório apresenta uma análise detalhada da série temporal associada à commodity “Tomato Small (Local)”, utilizando dados provenientes do mercado Kalimati. O dataset, disponível publicamente no Kaggle (Kalima-Tarkari Dataset), contém registros diários de preços mínimos, máximos e médios de diversas commodities, com as medições feitas em quilogramas.

O objetivo desta análise é identificar padrões temporais, como sazonalidade e tendência, e ajustar modelos que permitam prever os preços futuros. Para isso, diferentes configurações de modelos de Holt-Winters foram avaliadas, considerando critérios de seleção e métricas de precisão preditiva. A validação dos resultados incluiu análises detalhadas dos resíduos para garantir a adequação do modelo.

Bancos de Dados

Os dados utilizados nesta análise foram obtidos do Kalima-Tarkari Dataset, que contém informações diárias sobre os preços mínimos, máximos e médios de diversas commodities agrícolas e pesqueiras do mercado Kalimati. Cada registro é composto pelas seguintes variáveis principais:

  • SN: Identificação única do registro.
  • Commodity: Nome da commodity analisada.
  • Date: Data do registro.
  • Unit: Unidade de medida (neste caso, quilogramas).
  • Minimum, Maximum, Average: Valores mínimos, máximos e médios dos preços para a commodity na data especificada.

Abaixo, são apresentados os três primeiros e os três últimos registros do conjunto de dados, oferecendo uma visão inicial do conteúdo e formato:

Três primeiros e três últimas observações da série temporal
SN Commodity Date Unit Minimum Maximum Average
1 0 Tomato Big(Nepali) 2013-06-16 Kg 35 40 37.5
2 1 Tomato Small(Local) 2013-06-16 Kg 26 32 29.0
3 2 Potato Red 2013-06-16 Kg 20 21 20.5
197159 197158 Fish Fresh(Bachuwa) 2021-05-13 KG 225 235 230.0
197160 197159 Fish Fresh(Chhadi) 2021-05-13 KG 220 230 225.0
197161 197160 Fish Fresh(Mungari) 2021-05-13 KG 240 250 245.0

Análise Exploratória

Série Observada

No gráfico abaixo, exploramos o comportamento da série temporal associada ao preço médio da commodity “Tomato Small (Local)” ao longo do tempo. O gráfico abaixo apresenta a evolução dos preços médios de 2013 a 2021.

Análise da Função de Autocorrelação (ACF)

A Função de Autocorrelação (ACF) é utilizada para identificar a dependência temporal dos dados em diferentes defasagens (lags). O gráfico abaixo apresenta a ACF da série temporal do preço médio da commodity “Tomato Small (Local)”. O gráfico revela padrões significativos em algumas defasagens, com valores que ultrapassam as linhas de significância indicadas no gráfico. Esses resultados sugerem que existe dependência temporal nos dados, ou seja, os valores da série estão correlacionados com os valores de períodos anteriores.

Análise da Função de Autocorrelação Parcial (PACF)

A Função de Autocorrelação Parcial (PACF) complementa a análise da ACF ao indicar a correlação de cada defasagem (lag) com a série temporal, ajustando os efeitos das defasagens intermediárias. O gráfico da PACF desta série temporal revela que a medida que aumentam as defasagens, as correlações se tornam progressivamente menos significativas, conforme indicado pelos valores dentro dos limites de significância. Isso sugere que a influência dos valores passados diminui ao longo do tempo.

Decomposição da Série Temporal

A decomposição da série temporal permite separar seus componentes principais: tendência, sazonalidade e resíduos, proporcionando uma análise mais detalhada de seus padrões. A decomposição multiplicativa mostra os componentes:

  • Componente Observado (data): Representa a série original.
  • Tendência (trend): Apresenta períodos de crescimento e queda, refletindo variações significativas no preço médio ao longo dos anos.
  • Sazonalidade (seasonal): Apresenta padrões repetitivos em intervalos regulares de tempo.
  • Resíduos (remainder): Apresenta oscilações menores, indicando que a maior parte da variação na série é explicada pela tendência e pela sazonalidade.

Testes

Teste de Ljung-Box para Autocorrelação

O Teste de Ljung-Box foi aplicado à série temporal para verificar a presença de autocorrelação significativa nos resíduos da série. Este teste avalia a hipótese nula de que os dados não possuem autocorrelação até um certo lag. O teste resultou em um p-valor muito pequeno e menor que o nível de significância usual (α=0.05), então rejeitamos a hipótese nula de ausência de autocorrelação.

## 
##  Box-Ljung test
## 
## data:  serie_temporal
## X-squared = 20.255, df = 1, p-value = 6.777e-06

Teste de Heterocedasticidade de White

O Teste de Heterocedasticidade de White foi aplicado para verificar a presença de heterocedasticidade na série temporal. Este teste avalia a hipótese nula de homocedasticidade, ou seja, de que a variância dos resíduos é constante ao longo do tempo. O teste apresentou um p-valor maior que o nível de significância usual (α=0.05), então não rejeitamos a hipótese nula de homocedasticidade.

## 
##  studentized Breusch-Pagan test
## 
## data:  serie_temporal ~ stats::lag(serie_temporal, -1)
## BP = 0.030059, df = 1, p-value = 0.8624

Teste de Normalidade (Anderson-Darling)

O Teste de Anderson-Darling foi aplicado para avaliar a hipótese de que a série temporal segue uma distribuição normal. Este teste verifica a hipótese nula de que os dados seguem uma distribuição normal. O teste revela um p-valor menor que o nível de significância usual (α=0.05), então rejeitamos a hipótese nula de normalidade.

## 
##  Anderson-Darling normality test
## 
## data:  serie_temporal
## A = 1.1577, p-value = 0.00478

Testes de Tendência Determinística

Os testes de tendência determinística foram aplicados para avaliar se a série temporal apresenta uma tendência significativa. Cada teste verifica a hipótese nula de que a série não apresenta tendência contra a hipótese alternativa de que há uma tendência presente. Os resultados dos testes indicam que, em todos os casos, os p-valores são maiores que o nível de significância usual (α=0.05). Isso significa que não rejeitamos a hipótese nula de ausência de tendência determinística na série temporal.

##                 Testes            H0 p_valor     Conclusao
## 1           Cox Stuart Não tendência  1.1146 Não Tendência
## 2 Cox and Stuart Trend Não tendência  0.7237 Não Tendência
## 3   Mann-Kendall Trend Não tendência  0.7661 Não Tendência
## 4         Mann-Kendall Não tendência  0.7661 Não Tendência
## 5  KPSS Test for Trend Não tendência  0.1000 Não Tendência

Teste de Raiz Unitária

Os testes de raiz unitária foram realizados para verificar a estacionaridade da série temporal. Esses testes avaliam a hipótese nula de que a série apresenta uma raiz unitária (não estacionaridade), contra a hipótese alternativa de que a série é estacionária.

  • Para o Augmented Dickey-Fuller e o Phillips-Perron, rejeitamos a hipótese nula de que a série possui raiz unitária, concluindo que a série é estacionária.
  • Para o KPSS, não rejeitamos a hipótese nula de que a série não possui tendência, corroborando a conclusão de estacionaridade.
##                      Testes            H0 p_valor     Conclusao
## 1   Augmented Dickey-Fuller     Tendência    0.01 NAO tendência
## 2 Phillips-Perron Unit Root     Tendência    0.01 NAO tendência
## 3       KPSS Test for Level NAO tendência    0.10 NAO tendência

Sazonalidade

Os testes de sazonalidade foram realizados para verificar se a série temporal apresenta variações sazonais significativas. Esses testes avaliam a hipótese nula de que a série não apresenta sazonalidade, contra a hipótese alternativa de que a série é sazonal. Os resultados dos testes indicam que tanto o Kruskal-Wallis quanto o Friedman rank apresentam p-valores extremamente baixos. Isso nos permite rejeitar a hipótese nula de ausência de sazonalidade para ambos os testes.

##           Testes          H0 p_valor Conclusao
## 1 Kruskal-Wallis NAO sazonal   3e-04   Sazonal
## 2  Friedman rank NAO sazonal   3e-04   Sazonal

Série Temporal Ajustada

Para ajustar a série temporal e avaliar diferentes especificações sazonais, foram utilizados os modelos de Holt-Winters com diferentes combinações de sazonalidade (aditiva e multiplicativa) e presença ou ausência de suavização amortecida (damped). Os quatro modelos avaliados foram:

  • HW-A (Holt-Winters Aditivo): Sazonalidade aditiva sem amortecimento.
  • HW-M (Holt-Winters Multiplicativo): Sazonalidade multiplicativa sem amortecimento.
  • HW-AA (Holt-Winters Aditivo Amortecido): Sazonalidade aditiva com amortecimento.
  • HW-MA (Holt-Winters Multiplicativo Amortecido): Sazonalidade multiplicativa com amortecimento.

A tabela abaixo apresenta os critérios de seleção de modelos (AIC, BIC, AICC) e as métricas de precisão preditiva (RMSE, MAE, MPE, MAPE, MASE) calculadas para cada modelo.

AIC BIC AICC
HW-A 807.1928 848.5167 816.4655
HW-M 792.7253 834.0492 801.9980
HW-AA 807.3187 851.0734 817.8418
HW-MA 796.5832 840.3379 807.1062
RMSE MAE MPE MAPE MASE
HW-A 10.88004 8.404512 -8.371048 24.70540 0.6157143
HW-M 10.83137 8.333583 -8.719238 24.42756 0.6105180
HW-AA 10.75934 8.860438 -7.496542 26.10341 0.6491154
HW-MA 10.43696 8.513906 -6.915168 24.87718 0.6237285

Com base nos critérios de seleção de modelos, o modelo HW-M (Holt-Winters Multiplicativo) apresentou o menor valor de AIC (792.7253), BIC (834.0492) e AICC (801.9980), indicando melhor ajuste em comparação aos outros modelos.

Em termos de precisão preditiva, o modelo HW-M também se destacou por apresentar os menores valores de RMSE (10.83137), MAE (8.333583), e MASE (0.6105180), sugerindo maior capacidade de previsão precisa. Apesar do modelo HW-MA apresentar valores próximos, o amortecimento não trouxe uma melhora significativa na performance.

Previsão

Para prever os valores futuros da série temporal “Preço Médio do Tomate”, foi utilizado o modelo de Holt-Winters com sazonalidade multiplicativa, identificado previamente como o mais adequado. As previsões foram realizadas para os 12 meses seguintes, incorporando o comportamento sazonal e a tendência identificados na série histórica.

A previsão gerada pelo modelo é apresentada no gráfico abaixo. As áreas em azul representam os intervalos de confiança associados à previsão, indicando o grau de incerteza nas estimativas para os períodos futuros.

Para avaliar visualmente o desempenho do modelo, a série prevista foi sobreposta à série observada no gráfico a seguir. Isso ajuda a compreender a aderência das previsões ao comportamento real dos dados.

Os resultados mostram que o modelo de Holt-Winters com sazonalidade multiplicativa fornece previsões consistentes com os padrões históricos da série temporal. As previsões refletem corretamente os comportamentos sazonais recorrentes, enquanto a comparação com os dados observados demonstra boa aderência. A principal diferença está no aumento da incerteza conforme o horizonte de previsão se estende, como evidenciado pelos intervalos de confiança.

Análise dos Resíduos

A análise dos resíduos avalia a qualidade do ajuste do modelo. Resíduos devem ser não correlacionados e normalmente distribuídos, com média zero e variância constante. O gráfico abaixo apresenta os resíduos do modelo ajustado, bem como sua função de autocorrelação (ACF) e o histograma com a curva de densidade ajustada.

  • O gráfico da série dos resíduos ao longo do tempo não mostra padrões claros, indicando que os erros são aleatórios e não possuem estrutura temporal significativa.
  • A função de autocorrelação (ACF) dos resíduos revela que a maioria das autocorrelações está dentro dos limites de significância, o que sugere que os resíduos não apresentam dependência temporal relevante.
  • O histograma dos resíduos, sobreposto à curva de densidade ajustada, mostra uma aproximação à normalidade. Embora existam pequenas discrepâncias, a forma geral está próxima de uma distribuição normal.

Teste de Normalidade

Para verificar se os resíduos do modelo ajustado seguem uma distribuição normal, foi aplicado o Teste de Shapiro-Wilk. Este teste avalia a hipótese nula de que os dados seguem uma distribuição normal. Como o p-valor é maior que o nível de significância usual (α=0.05), não rejeitamos a hipótese nula de normalidade.

## 
##  Shapiro-Wilk normality test
## 
## data:  res
## W = 0.98339, p-value = 0.3532

Conclusão

A análise da série temporal do preço médio da commodity “Tomato Small (Local)” demonstrou padrões sazonais significativos e ausência de uma tendência determinística marcante. Após avaliar diferentes modelos de Holt-Winters, o modelo com sazonalidade multiplicativa sem amortecimento foi selecionado como o mais adequado, baseado em critérios de seleção de modelos e métricas de precisão preditiva. As previsões geradas pelo modelo foram consistentes com os padrões históricos, enquanto os resíduos não apresentaram autocorrelação ou padrões temporais e foram confirmados como normalmente distribuídos.

Os resultados mostram que o modelo ajustado é confiável para descrever e prever o comportamento da série, oferecendo uma ferramenta útil tomada de decisão. No entanto, é importante considerar que eventos externos inesperados podem afetar as previsões.

Referências

BISOGNIN, C. Notas de Aula - STC1086: Séries Temporais I. Universidade Federal de Santa Maria, Departamento de Estatística, Centro de Ciências Naturais e Exatas, 2023.