Este relatório apresenta uma análise detalhada da série temporal associada à commodity “Tomato Small (Local)”, utilizando dados provenientes do mercado Kalimati. O dataset, disponível publicamente no Kaggle (Kalima-Tarkari Dataset), contém registros diários de preços mínimos, máximos e médios de diversas commodities, com as medições feitas em quilogramas.
O objetivo desta análise é identificar padrões temporais, como sazonalidade e tendência, e ajustar modelos que permitam prever os preços futuros. Para isso, diferentes configurações de modelos de Holt-Winters foram avaliadas, considerando critérios de seleção e métricas de precisão preditiva. A validação dos resultados incluiu análises detalhadas dos resíduos para garantir a adequação do modelo.
Os dados utilizados nesta análise foram obtidos do Kalima-Tarkari Dataset, que contém informações diárias sobre os preços mínimos, máximos e médios de diversas commodities agrícolas e pesqueiras do mercado Kalimati. Cada registro é composto pelas seguintes variáveis principais:
Abaixo, são apresentados os três primeiros e os três últimos registros do conjunto de dados, oferecendo uma visão inicial do conteúdo e formato:
SN | Commodity | Date | Unit | Minimum | Maximum | Average | |
---|---|---|---|---|---|---|---|
1 | 0 | Tomato Big(Nepali) | 2013-06-16 | Kg | 35 | 40 | 37.5 |
2 | 1 | Tomato Small(Local) | 2013-06-16 | Kg | 26 | 32 | 29.0 |
3 | 2 | Potato Red | 2013-06-16 | Kg | 20 | 21 | 20.5 |
197159 | 197158 | Fish Fresh(Bachuwa) | 2021-05-13 | KG | 225 | 235 | 230.0 |
197160 | 197159 | Fish Fresh(Chhadi) | 2021-05-13 | KG | 220 | 230 | 225.0 |
197161 | 197160 | Fish Fresh(Mungari) | 2021-05-13 | KG | 240 | 250 | 245.0 |
No gráfico abaixo, exploramos o comportamento da série temporal associada ao preço médio da commodity “Tomato Small (Local)” ao longo do tempo. O gráfico abaixo apresenta a evolução dos preços médios de 2013 a 2021.
A Função de Autocorrelação (ACF) é utilizada para identificar a dependência temporal dos dados em diferentes defasagens (lags). O gráfico abaixo apresenta a ACF da série temporal do preço médio da commodity “Tomato Small (Local)”. O gráfico revela padrões significativos em algumas defasagens, com valores que ultrapassam as linhas de significância indicadas no gráfico. Esses resultados sugerem que existe dependência temporal nos dados, ou seja, os valores da série estão correlacionados com os valores de períodos anteriores.
A Função de Autocorrelação Parcial (PACF) complementa a análise da ACF ao indicar a correlação de cada defasagem (lag) com a série temporal, ajustando os efeitos das defasagens intermediárias. O gráfico da PACF desta série temporal revela que a medida que aumentam as defasagens, as correlações se tornam progressivamente menos significativas, conforme indicado pelos valores dentro dos limites de significância. Isso sugere que a influência dos valores passados diminui ao longo do tempo.
A decomposição da série temporal permite separar seus componentes principais: tendência, sazonalidade e resíduos, proporcionando uma análise mais detalhada de seus padrões. A decomposição multiplicativa mostra os componentes:
O Teste de Ljung-Box foi aplicado à série temporal para verificar a presença de autocorrelação significativa nos resíduos da série. Este teste avalia a hipótese nula de que os dados não possuem autocorrelação até um certo lag. O teste resultou em um p-valor muito pequeno e menor que o nível de significância usual (α=0.05), então rejeitamos a hipótese nula de ausência de autocorrelação.
##
## Box-Ljung test
##
## data: serie_temporal
## X-squared = 20.255, df = 1, p-value = 6.777e-06
O Teste de Heterocedasticidade de White foi aplicado para verificar a presença de heterocedasticidade na série temporal. Este teste avalia a hipótese nula de homocedasticidade, ou seja, de que a variância dos resíduos é constante ao longo do tempo. O teste apresentou um p-valor maior que o nível de significância usual (α=0.05), então não rejeitamos a hipótese nula de homocedasticidade.
##
## studentized Breusch-Pagan test
##
## data: serie_temporal ~ stats::lag(serie_temporal, -1)
## BP = 0.030059, df = 1, p-value = 0.8624
O Teste de Anderson-Darling foi aplicado para avaliar a hipótese de que a série temporal segue uma distribuição normal. Este teste verifica a hipótese nula de que os dados seguem uma distribuição normal. O teste revela um p-valor menor que o nível de significância usual (α=0.05), então rejeitamos a hipótese nula de normalidade.
##
## Anderson-Darling normality test
##
## data: serie_temporal
## A = 1.1577, p-value = 0.00478
Os testes de tendência determinística foram aplicados para avaliar se a série temporal apresenta uma tendência significativa. Cada teste verifica a hipótese nula de que a série não apresenta tendência contra a hipótese alternativa de que há uma tendência presente. Os resultados dos testes indicam que, em todos os casos, os p-valores são maiores que o nível de significância usual (α=0.05). Isso significa que não rejeitamos a hipótese nula de ausência de tendência determinística na série temporal.
## Testes H0 p_valor Conclusao
## 1 Cox Stuart Não tendência 1.1146 Não Tendência
## 2 Cox and Stuart Trend Não tendência 0.7237 Não Tendência
## 3 Mann-Kendall Trend Não tendência 0.7661 Não Tendência
## 4 Mann-Kendall Não tendência 0.7661 Não Tendência
## 5 KPSS Test for Trend Não tendência 0.1000 Não Tendência
Os testes de raiz unitária foram realizados para verificar a estacionaridade da série temporal. Esses testes avaliam a hipótese nula de que a série apresenta uma raiz unitária (não estacionaridade), contra a hipótese alternativa de que a série é estacionária.
## Testes H0 p_valor Conclusao
## 1 Augmented Dickey-Fuller Tendência 0.01 NAO tendência
## 2 Phillips-Perron Unit Root Tendência 0.01 NAO tendência
## 3 KPSS Test for Level NAO tendência 0.10 NAO tendência
Os testes de sazonalidade foram realizados para verificar se a série temporal apresenta variações sazonais significativas. Esses testes avaliam a hipótese nula de que a série não apresenta sazonalidade, contra a hipótese alternativa de que a série é sazonal. Os resultados dos testes indicam que tanto o Kruskal-Wallis quanto o Friedman rank apresentam p-valores extremamente baixos. Isso nos permite rejeitar a hipótese nula de ausência de sazonalidade para ambos os testes.
## Testes H0 p_valor Conclusao
## 1 Kruskal-Wallis NAO sazonal 3e-04 Sazonal
## 2 Friedman rank NAO sazonal 3e-04 Sazonal
Para ajustar a série temporal e avaliar diferentes especificações sazonais, foram utilizados os modelos de Holt-Winters com diferentes combinações de sazonalidade (aditiva e multiplicativa) e presença ou ausência de suavização amortecida (damped). Os quatro modelos avaliados foram:
A tabela abaixo apresenta os critérios de seleção de modelos (AIC, BIC, AICC) e as métricas de precisão preditiva (RMSE, MAE, MPE, MAPE, MASE) calculadas para cada modelo.
AIC | BIC | AICC | |
---|---|---|---|
HW-A | 807.1928 | 848.5167 | 816.4655 |
HW-M | 792.7253 | 834.0492 | 801.9980 |
HW-AA | 807.3187 | 851.0734 | 817.8418 |
HW-MA | 796.5832 | 840.3379 | 807.1062 |
RMSE | MAE | MPE | MAPE | MASE | |
---|---|---|---|---|---|
HW-A | 10.88004 | 8.404512 | -8.371048 | 24.70540 | 0.6157143 |
HW-M | 10.83137 | 8.333583 | -8.719238 | 24.42756 | 0.6105180 |
HW-AA | 10.75934 | 8.860438 | -7.496542 | 26.10341 | 0.6491154 |
HW-MA | 10.43696 | 8.513906 | -6.915168 | 24.87718 | 0.6237285 |
Com base nos critérios de seleção de modelos, o modelo HW-M (Holt-Winters Multiplicativo) apresentou o menor valor de AIC (792.7253), BIC (834.0492) e AICC (801.9980), indicando melhor ajuste em comparação aos outros modelos.
Em termos de precisão preditiva, o modelo HW-M também se destacou por apresentar os menores valores de RMSE (10.83137), MAE (8.333583), e MASE (0.6105180), sugerindo maior capacidade de previsão precisa. Apesar do modelo HW-MA apresentar valores próximos, o amortecimento não trouxe uma melhora significativa na performance.
Para prever os valores futuros da série temporal “Preço Médio do Tomate”, foi utilizado o modelo de Holt-Winters com sazonalidade multiplicativa, identificado previamente como o mais adequado. As previsões foram realizadas para os 12 meses seguintes, incorporando o comportamento sazonal e a tendência identificados na série histórica.
A previsão gerada pelo modelo é apresentada no gráfico abaixo. As áreas em azul representam os intervalos de confiança associados à previsão, indicando o grau de incerteza nas estimativas para os períodos futuros.
Para avaliar visualmente o desempenho do modelo, a série prevista foi sobreposta à série observada no gráfico a seguir. Isso ajuda a compreender a aderência das previsões ao comportamento real dos dados.
Os resultados mostram que o modelo de Holt-Winters com sazonalidade multiplicativa fornece previsões consistentes com os padrões históricos da série temporal. As previsões refletem corretamente os comportamentos sazonais recorrentes, enquanto a comparação com os dados observados demonstra boa aderência. A principal diferença está no aumento da incerteza conforme o horizonte de previsão se estende, como evidenciado pelos intervalos de confiança.
A análise dos resíduos avalia a qualidade do ajuste do modelo. Resíduos devem ser não correlacionados e normalmente distribuídos, com média zero e variância constante. O gráfico abaixo apresenta os resíduos do modelo ajustado, bem como sua função de autocorrelação (ACF) e o histograma com a curva de densidade ajustada.
Para verificar se os resíduos do modelo ajustado seguem uma distribuição normal, foi aplicado o Teste de Shapiro-Wilk. Este teste avalia a hipótese nula de que os dados seguem uma distribuição normal. Como o p-valor é maior que o nível de significância usual (α=0.05), não rejeitamos a hipótese nula de normalidade.
##
## Shapiro-Wilk normality test
##
## data: res
## W = 0.98339, p-value = 0.3532
A análise da série temporal do preço médio da commodity “Tomato Small (Local)” demonstrou padrões sazonais significativos e ausência de uma tendência determinística marcante. Após avaliar diferentes modelos de Holt-Winters, o modelo com sazonalidade multiplicativa sem amortecimento foi selecionado como o mais adequado, baseado em critérios de seleção de modelos e métricas de precisão preditiva. As previsões geradas pelo modelo foram consistentes com os padrões históricos, enquanto os resíduos não apresentaram autocorrelação ou padrões temporais e foram confirmados como normalmente distribuídos.
Os resultados mostram que o modelo ajustado é confiável para descrever e prever o comportamento da série, oferecendo uma ferramenta útil tomada de decisão. No entanto, é importante considerar que eventos externos inesperados podem afetar as previsões.
BISOGNIN, C. Notas de Aula - STC1086: Séries Temporais I. Universidade Federal de Santa Maria, Departamento de Estatística, Centro de Ciências Naturais e Exatas, 2023.