Trabalho 2 - Séries temporais

Análise dos resíduos

Eduardo Freire Mangabeira

2022-07-04

Série temporal

O objetivo deste trabalho é identificar um modelo de séries temporais, estimá-lo e compará-lo com modelos de ordem superior com o objetivo de escolher o melhor modelo. Por fim, analisar os resíduos do modelo ideal e fazer previsões.

Observação: a seed utilizada é 202010111.

Primeiras observações da série.

t Yt
1 -0.3291205
2 0.2781742
3 -0.1522928
4 -0.8246235
5 -1.1751554
6 -2.7089596
7 -3.3709404
8 -2.8105280

Conjuntos de treino e teste

Série do conjunto de treino. Série do conjunto de treino.

Antes de identificar o modelo adequado, vamos separar a série temporal em dois conjuntos: treino e teste. Isso é feito para mais à frente podermos avaliar a qualidade das previsões. Como para séries temporais as observações não são independentes, isso não é feito de maneira aleatória: as 228 primeiras observações vão para o conjunto de treino e as mais recentes serão usadas para teste.

FAC calculada no conjunto de treino. FAC calculada no conjunto de treino.

FACP calculada no conjunto de treino. FACP calculada no conjunto de treino.

Identificação da série

O gráfico da série de treino sugere oscilação em torno de uma constante, o que indica claramente a condição de estacionariedade. Podemos confirmar essa suposição analisandos os gráficos das funções de autocorrelação e autocorrelção parcial e testando a hipótese.

FAC - Parte de médias móveis

No caso da FAC, o gráfico apresenta que a série está truncada no Lag 1. Como a FAC de um modelo MA(q) é truncada em q, identificamos que a parte MA do modelo é MA(1), que é sempre estacionário, mas podemos também testar um modelo MA(2) mais adiante.

FACP - Parte autoregressiva

No caso da FACP, o gráfico apresenta um evidente decaimento senoidal, o que reforça a hipótese do modelo ser um MA(1).

Estimação dos modelos

Modelo preliminar

Com o que foi apresentado até agora da série e as funções de autocorrelação, temos que o modelo MA(1) é um bom chute inicial. Testando a significância dos coeficientes temos que o intercepto é não significativo ao nível de significância de 5%.

Teste de significância para modelo MA(1).

Coeficiente Estimativa p.valor
m1 0.6993049 0.000000
Intercepto -0.1219791 0.321421

Logo, o modelo preliminar é:

\[Y_t = \epsilon_t - 0.6992\ \epsilon_{t-1}, \\ \epsilon_t \sim RB(0, \sigma^2)\]

Seleção de modelos

Iremos ajustar os modelos MA(2) e ARMA(1, 1) para compará-los com o MA(1) já ajustado afim de avaliar se o modelo preliminar é o ideal. O critério de comparação será o critério de informação de Akaike(AIC).

modelos MA

Modelos MA para lags 1 e 2.

Modelo AIC
MA(1) 691.1182
MA(2) 691.8030

Sobrefixação

Fazendo o ajuste do modelo MA(2), verificamos que o segundo coeficiente é não significativo ao nível de 5% de confiança, portanto esse modelo é descartado.

Teste de significância para modelo MA(2).

Coeficiente Estimativa p.valor
m1 0.7552301 0.0000000
m2 0.0753131 0.2482261
Intercepto -0.1221497 0.3550732

Sobrefixação

Fazendo o ajuste do modelo ARMA(1, 1), verificamos que o coeficiente autoregressivo é não significativo ao nível de 5% de confiança, portanto esse modelo é descartado.

modelo ARMA

Modelo ARMA.

Modelo AIC
ARMA(1, 1) 691.867

Teste de significância para modelo ARMA(1, 1).

Coeficiente Estimativa p.valor
ar1 0.1018233 0.2583883
ma1 0.6504770 0.0000000
Intercepto -0.1220875 0.3572084

Escolha do melhor modelo

Segundo o critério de informação de Akaike, o MA(1) possui a maior explicabilidade entre os modelos, além de todos os outros modelos se reduzirem ao MA(1) ao retirarmos os coeficientes não significativos ao nível de 5%.

E o modelo final fica:

\[Y_t = \epsilon_t - 0.6992\ \epsilon_{t-1}, \\ \epsilon_t \sim RB(0, \sigma^2)\]

Análise dos resíduos

Vamos verificar se as suposições de um modelo de séries temporais estão sendo respeitadas pelo modelo escolhido analisando os resíduos. Esperamos que os resíduos tenham as mesmas propriedade de ruído branco, ou seja, descorrelacionados(independência), de variância constante (homecedasticidade) e na boa parte dos casos, normais.

Independência

Teste de Ljung-box

O teste de Ljung-Box para verificar independência traz as seguintes hipóteses:

\[ Ho: \text{Erros independentes} \\ H1: \text{Erros não são independentes} \]

Pelo gráfico com os p-valores resultantes do teste de Ljung-Box para cada lag, podemos ver que ao nível de 5% de significância, não há evidências para nenhum dos lags observados de que podemos rejeitar a hipótese de independência. Portanto, temos essa suposição respeitada.

Lags da série de treino vs p-valores do teste de Ljung-box.

Lags da série de treino vs p-valores do teste de Ljung-box.

Homocedasticidade

Análise gráfica

Para verificar a hipótese de homocedasticidade, basta observar pelo gráfico dos valores ajustados vs resíduos que os pontos estão distribuídos aleatoriamente.

Valores ajustados vs Resíduos.

Valores ajustados vs Resíduos.

Normalidade

A hipótese de normalidade é mais fraca entre as três, pois não é o único tipo de ruído branco possível, mas ainda sim é importante testá-la.

Análise gráfica

No QQ-plot temos quase uma linha reta sendo formada pelos pontos, um forte indício de normalidade dos erros.

Teste de Jarque-Bera

Com o teste de Jarque-Bera poderemos confirmar a suposição de normalidade.

\[ Ho: \text{Erros normais} \\ H1: \text{Erros não são normais} \]

Ao nível de significância de 5%, não há evidências para rejeitar a hipótese nula de que os erros são normais. Assim confirmamos que a hipótese de normalidade está sendo respeitada.

Teste aumentado de Jarque-Bera para normalidade dos resíduos.

Estatística.Qui.Quadrado p.valor graus.de.liberdade
1.634016 0.4417515 2

Previsões

Para criar o preditor 12 passos à frente vamos usar o modelo ajustado e comparar com o conjunto de validação.

Previsão 12 passos à frente a partir do modelo MA(1).

Previsão 12 passos à frente a partir do modelo MA(1).

Previsão comparada com os dados reais.

Previsão comparada com os dados reais.

Medidas de erro para a previsão.

RMSE MAE
Training set 1.092702 0.8881851
Test set 1.209779 0.9138348

Conclusões

“… all models are approximations. Essentially, all models are wrong, but some are useful. However, the approximate nature of the model must always be borne in mind….”