O objetivo deste trabalho é identificar um modelo de séries temporais, estimá-lo e compará-lo com modelos de ordem superior com o objetivo de escolher o melhor modelo. Por fim, analisar os resíduos do modelo ideal e fazer previsões.
Observação: a seed utilizada é 202010111.
Primeiras observações da série.
| t | Yt |
|---|---|
| 1 | -0.3291205 |
| 2 | 0.2781742 |
| 3 | -0.1522928 |
| 4 | -0.8246235 |
| 5 | -1.1751554 |
| 6 | -2.7089596 |
| 7 | -3.3709404 |
| 8 | -2.8105280 |
Série do conjunto de treino.
Antes de identificar o modelo adequado, vamos separar a série temporal em dois conjuntos: treino e teste. Isso é feito para mais à frente podermos avaliar a qualidade das previsões. Como para séries temporais as observações não são independentes, isso não é feito de maneira aleatória: as 228 primeiras observações vão para o conjunto de treino e as mais recentes serão usadas para teste.
FAC calculada no conjunto de treino.
FACP calculada no conjunto de treino.
O gráfico da série de treino sugere oscilação em torno de uma constante, o que indica claramente a condição de estacionariedade. Podemos confirmar essa suposição analisandos os gráficos das funções de autocorrelação e autocorrelção parcial e testando a hipótese.
No caso da FAC, o gráfico apresenta que a série está truncada no Lag 1. Como a FAC de um modelo MA(q) é truncada em q, identificamos que a parte MA do modelo é MA(1), que é sempre estacionário, mas podemos também testar um modelo MA(2) mais adiante.
No caso da FACP, o gráfico apresenta um evidente decaimento senoidal, o que reforça a hipótese do modelo ser um MA(1).
Com o que foi apresentado até agora da série e as funções de autocorrelação, temos que o modelo MA(1) é um bom chute inicial. Testando a significância dos coeficientes temos que o intercepto é não significativo ao nível de significância de 5%.
Teste de significância para modelo MA(1).
| Coeficiente | Estimativa | p.valor |
|---|---|---|
| m1 | 0.6993049 | 0.000000 |
| Intercepto | -0.1219791 | 0.321421 |
Logo, o modelo preliminar é:
\[Y_t = \epsilon_t - 0.6992\ \epsilon_{t-1}, \\ \epsilon_t \sim RB(0, \sigma^2)\]
Iremos ajustar os modelos MA(2) e ARMA(1, 1) para compará-los com o MA(1) já ajustado afim de avaliar se o modelo preliminar é o ideal. O critério de comparação será o critério de informação de Akaike(AIC).
Modelos MA para lags 1 e 2.
| Modelo | AIC |
|---|---|
| MA(1) | 691.1182 |
| MA(2) | 691.8030 |
Fazendo o ajuste do modelo MA(2), verificamos que o segundo coeficiente é não significativo ao nível de 5% de confiança, portanto esse modelo é descartado.
Teste de significância para modelo MA(2).
| Coeficiente | Estimativa | p.valor |
|---|---|---|
| m1 | 0.7552301 | 0.0000000 |
| m2 | 0.0753131 | 0.2482261 |
| Intercepto | -0.1221497 | 0.3550732 |
Fazendo o ajuste do modelo ARMA(1, 1), verificamos que o coeficiente autoregressivo é não significativo ao nível de 5% de confiança, portanto esse modelo é descartado.
Modelo ARMA.
| Modelo | AIC |
|---|---|
| ARMA(1, 1) | 691.867 |
Teste de significância para modelo ARMA(1, 1).
| Coeficiente | Estimativa | p.valor |
|---|---|---|
| ar1 | 0.1018233 | 0.2583883 |
| ma1 | 0.6504770 | 0.0000000 |
| Intercepto | -0.1220875 | 0.3572084 |
Segundo o critério de informação de Akaike, o MA(1) possui a maior explicabilidade entre os modelos, além de todos os outros modelos se reduzirem ao MA(1) ao retirarmos os coeficientes não significativos ao nível de 5%.
E o modelo final fica:
\[Y_t = \epsilon_t - 0.6992\ \epsilon_{t-1}, \\ \epsilon_t \sim RB(0, \sigma^2)\]
Vamos verificar se as suposições de um modelo de séries temporais estão sendo respeitadas pelo modelo escolhido analisando os resíduos. Esperamos que os resíduos tenham as mesmas propriedade de ruído branco, ou seja, descorrelacionados(independência), de variância constante (homecedasticidade) e na boa parte dos casos, normais.
O teste de Ljung-Box para verificar independência traz as seguintes hipóteses:
\[ Ho: \text{Erros independentes} \\ H1: \text{Erros não são independentes} \]
Pelo gráfico com os p-valores resultantes do teste de Ljung-Box para cada lag, podemos ver que ao nível de 5% de significância, não há evidências para nenhum dos lags observados de que podemos rejeitar a hipótese de independência. Portanto, temos essa suposição respeitada.
Lags da série de treino vs p-valores do teste de Ljung-box.
Para verificar a hipótese de homocedasticidade, basta observar pelo gráfico dos valores ajustados vs resíduos que os pontos estão distribuídos aleatoriamente.
Valores ajustados vs Resíduos.
A hipótese de normalidade é mais fraca entre as três, pois não é o único tipo de ruído branco possível, mas ainda sim é importante testá-la.
No QQ-plot temos quase uma linha reta sendo formada pelos pontos, um forte indício de normalidade dos erros.
Com o teste de Jarque-Bera poderemos confirmar a suposição de normalidade.
\[ Ho: \text{Erros normais} \\ H1: \text{Erros não são normais} \]
Ao nível de significância de 5%, não há evidências para rejeitar a hipótese nula de que os erros são normais. Assim confirmamos que a hipótese de normalidade está sendo respeitada.
Teste aumentado de Jarque-Bera para normalidade dos resíduos.
| Estatística.Qui.Quadrado | p.valor | graus.de.liberdade |
|---|---|---|
| 1.634016 | 0.4417515 | 2 |
Para criar o preditor 12 passos à frente vamos usar o modelo ajustado e comparar com o conjunto de validação.
Previsão 12 passos à frente a partir do modelo MA(1).
Previsão comparada com os dados reais.
Medidas de erro para a previsão.
| RMSE | MAE | |
|---|---|---|
| Training set | 1.092702 | 0.8881851 |
| Test set | 1.209779 | 0.9138348 |
Modelo escolhido: o modelo final se adequou às suposições mais importantes e se ajusta bem à série.
Previsão: quanto mais passos à frente, mais imprecisas se tornam as previsões realizadas a partir do modelo ajustado.
“… all models are approximations. Essentially, all models are wrong, but some are useful. However, the approximate nature of the model must always be borne in mind….”