Este material tem como objetivo contribuir para o entendimento sobre modelos SARIMA. Para tanto, vamos apresentar o impacto da sazonalidade em séries temporais, como a função de autocorrelação (FAC) se comporta na presença de sazonalidade e como fazer uso dos modelos SARIMA para modelar uma série temporal com sazonalidade multiplicativa.

INTRODUÇÃO

Até o momento, focamos sobre a série dos retornos que em função de quase sempre oscilar entre em um intervalo fixo tende a ser estacionária e séries que são não estacionárias (com ou sem tendência), mas sem sazonalidade. Neste caso, os modelos ARMA e ARIMA podem ser usados para modelar tais séries, respectivamente.

Porém, algumas séries temporais financeiras tal como os ganhos trimestrais com uma ação, exibem comportamentos cíclicos e periódicos. Isso acontece em função da divulgação de resultados trimestrais comumente adotada pelas empresas com capital aberto. Dependendo do tipo de negócio da empresa, períodos específicos do ano tendem a apresentar resultados melhores (safras agrícolas, férias, clima ou data especiais como, por exemplo, Natal) que por conseguinte impactam os ganhos com a ação.

Essa tal componente sazonal pode aparecer quando são feitas observações intra-anuais para a série de interesse, isto é, os dados são registrados mensalmente, trimestralmente ou semanalmente, por exemplo.

Este tipo de série é chamada de série temporal sazonal. Como exemplo, a figura abaixo mostra a série temporal dos ganhos trimestrais da ação da Coca-Cola Company do primeiro trimestre de 1983 até o terceiro trimestre de 2009.

Em algumas aplicações a sazonalidade tem segunda importância e é removida dos dados, resultando em uma série temporal ajustada sazonalmente (extraída a sazonalidade) que é então usada para fazer inferência.

O procecimento de remover a sazonalidade de uma série temporal é conhecido como ajustamento sazonal. Em outras aplicações tal como previsão, a sazonalidade é tão importante quanto outra característica dos dados e deve ser tratada. Em função da previsão ser o maior objetivo em séries temporais financeiras, focamos em analisar séries temporais sazonais. Aqui, vamos discutir o modelo SARIMA e métodos que são úteis para modelar tais séries.

ANÁLISE VISUAL DA SÉRIE COM SAZONALIDADE

Por meio do gráfico anterior, é possível observar o padrão de sazonalidade. Além da sazonalidade temos uma tendência crescente nos ganhos trimestrais durante o período amostral com alguma perturbação no final dos anos 90. As oscilações de picos (Abril e Julho) e vales (Janeiro e Outubro) acontecem anualmente, o que nos faz acreditar que há presença de sazonalidade.

Nesse sentido, para a série temporal de ganhos trimestrais da ação da Coca-Cola temos o seguinte:

As observações apresentadas acima podem ser visualizadas no gráfico abaixo.

Essa análise é interessante, pois mostra que, basicamente, precisamos modelar as componentes de tendência e sazonalidade (em torno de 95% da série temporal).

Uma análise mais detalhada da sazonalidade pode ser obtida pelo gráfico abaixo que nos permite detectar visualmente a presença de sazonalidade na série temporal. Como se pode verificar, os ganhos trimestrais apresentam média e variância não constante, indícios de não estacionariedade na parte sazonal da série temporal.

DIFERENCIAÇÃO SAZONAL

No primeiro gráfico do texto temos o logaritmo dos ganhos trimestrais da ação da Coca-Cola. Aplicamos o logaritmo por duas razões. Primeiro, ele é usado para lidar com o crescimento exponencial da série. Segundo, tal tipo de transformação estabiliza a variância da série.

Suponha que denotamos os ganhos trimestrais por \(r_{t}\). O gráfico abaixo sugere que a série do logaritmo dos ganhos trimestrais tem forte autocorrelação.

Um método convencional para lidar com isso é obter a primeira diferença da série temporal. Para isso, podemos fazer uso da notação conhecida como backshift notation e do operador backward shift representado por \(B\). Tal notação pode ser utilizada, como segue:

Aplicando tal notação podemos obter a série da primeira diferença do logaritmo dos ganhos trimestrais da ação da Coca-Cola fazendo \(\left(1-B\right)r_t=r_t-r_{t-1}\). O gráfico da FAC da série resultante da primeira diferença (gráfico abaixo), confirma que a diferenciação contribuiu para eliminar a tendência crescente da série do logaritmo dos ganhos.

Por outro lado, a FAC da série da primeira diferença mostra que a série apresenta um forte padrão de sazonalidade, pois nos lags sazonais (múltiplo da periodicidade 4) a função de autocorrelação tem um decaimento lento, indicando que a série temporal é não estacionária na parte sazonal.

Seguindo a abordagem proposta por Box, Jenkins, and Reinsel (1994) obtemos a série temporal da diferença sazonal da série da primeira diferença fazendo da backshift notation:

\[ \Delta_4(\Delta x_{t}) = (1-B^{4})\Delta x_{t} = \Delta x_{t} - \Delta x_{t-4} = x_{t}-x_{t-1}-x_{t-4}+x_{t-5} \]

O objetivo é lidar com o forte padrão de sazonalidade mostrado no gráfico anterior. Como resultado, temos abaixo o gráfico da FAC desta série (diferenciação sazonal na série da primeira diferença do logaritmo dos ganhos da Coca-Cola):

É possível observar no gráfico acima que o forte padrão de sazonalidade de \(\Delta x_{t}\) foi eliminado. A partir desse gráfico, temos as seguintes observações:

Abaixo, gráficos das diferenciações realizadas na série do logaritmo dos ganhos trimestrais. Observa-se que a diferença da diferenciação sazonal realmente contribui para uma aparente estacionariedade tanto no componente regular (que independe da sazonalidade) quanto o componente sazonal.

MODELO DE SAZONALIDADE MULTIPLICATIVA

Uma vez conhecido o operador de backward shift e seus diversos usos, podemos aplicá-los nos modelos já estudados para reescrevê-los. Um modelo \(ARMA(p,q)\) pode ser expressado como:

\[ \begin{split} r_t & = \mu + \phi_{1}r_{t-1} + ... + \phi_{p}r_{t-p} + a_{t} + \theta_{1}a_{t-1} + ... + \theta_{q}a_{t-q} \\ & = \mu+\phi_{1}Br_{t} + ... + \phi_{p}B^pr_t + a_{t} + \theta_{1}Ba_{t} + ... + \theta_{q}B^qa_{t} \\ \phi\left(B\right)r_t& = \mu + \theta\left(B\right)a_t \end{split} \]

onde \(\phi\left(B\right)=1-\phi_{1}B- ... -\phi_{p}B^p\) e \(\theta\left(B\right)=1+\theta_{1}B+ ... + \theta_{q}B^q\). Já um modelo \(ARIMA(1,1,1)\) pode ser reescrito como:

\[ \begin{split} \left(1-\phi_{1}B\right)\left(1-B\right)r_{t} = \left(1+\theta_{1}B\right)a_{t} \\ \\ \left(1-\phi_{1}B\right)\left(r_t-r_{t-1}\right) = a_t + \theta_{1}a_t \\ \\ r_t - r_{t-1} - \phi_{1}r_{t-1} + \phi_{1}r_{t-2} = a_t + \theta_{1}a_t \\ \\ r_t - r_{t-1} = \phi_{1}r_{t-1} - \phi_{1}r_{t-2} + a_t + \theta_{1}a_t \\ \\ \Delta r_t = \phi_{1}\left(r_{t-1}-r_{t-2}\right) + a_t + \theta_{1}a_t \\ \\ \Delta r_t = \phi_{1}\Delta r_{t-1} + a_t + \theta_{1}a_t \\ \end{split} \]

Um modelo cujas autocorrelações se comportam como mostrado para a série temporal dos logaritmo dos ganhos da Coca-Cola é o modelo de sazonalidade multiplicativa. Este modelo assume a seguinte forma:

\[ (1-B)(1-B^{s})x_{t}=(1-\theta B)(1-\Theta B^{s})a_{t} \]

onde \(s\) é a periodicidade da série, \(a_{t}\) é um ruído branco com média 0, variância \(\sigma_{a}^{2}\), \(E\left[ \left(a_t-\bar{a}\right)\left(a_{t-1}-\bar{a}\right)\right]=E[a_{t}a_{t-1}]=0\) e independente e identicamente distribuído (iid). Além disso, \(\left|\theta\right|< 1\) e \(\left|\Theta\right|< 1\). Este modelo é conhecido na literatura como airline model conforme proposto por Box, Jenkins, and Reinsel (1994) ou \(SARIMA(p,d,q)(P,D,Q)_s\). Basicamente, o modelo é formado pela inclusão de termos sazonais nos modelos ARIMA(p,d,q) que já estudamos anteriormente. Usamos como notação, letras maiúsculas para a parte sazonal do modelo enquanto letras minúsculas representam a parte não sazonal do modelo.

A parte AR do modelo simplismente consiste das diferenças regulares e sazonais, enquanto a parte MA envolve dois parâmetros. Focando sobre a parte MA, temos:

\[ w_{t}=(1-\theta B)(1-\Theta B^{s})a_{t}=(1-\Theta B^{s}-\theta B+ \theta \Theta B^{s+1})a_t = a_{t}-\theta a_{t-1}- \Theta a_{t-s}+\theta \Theta a_{t-s-1} \] onde \(w_{t}=(1-B)(1-B^{s})x_{t}\) e \(s>1\). Resolvendo para esta equação temos que:

Consequentemente a FAC de \(w_{t}\) será dada por:

\[ \rho_{1} = \frac{Cov(w_{t},w_{t-1})}{Var(w_{t})} = \frac{- \theta (1+\Theta^{2})\sigma_{a}^{2}}{(1+\theta^{2})(1+\Theta^{2})\sigma_{a}^{2}} = \frac{- \theta}{1+ \theta^{2}} \]

\[ \rho_{s} = \frac{Cov(w_{t},w_{t-s})}{Var(w_{t})} = \frac{- \Theta (1+\theta^{2})\sigma_{a}^{2}}{(1+\theta^{2})(1+\Theta^{2})\sigma_{a}^{2}} = \frac{- \Theta}{1+ \Theta^{2}} \]

\[ \rho_{s-1} = \rho_{s+1} = \frac{Cov(w_{t},w_{t-s+1})}{Var(w_{t})} = \frac{Cov(w_{t},w_{t-s-1})}{Var(w_{t})} = \frac{\theta \Theta \sigma_{a}^{2}}{(1+\theta^{2})(1+\Theta^{2})\sigma_{a}^{2}} = \frac{\theta \Theta}{(1+\theta^{2})(1+\Theta^{2})} \] e \(\rho=0\) para \(l\) diferente de qualquer uma das defasagens anteriores (\(0, 1, s-1,s,s+1\)).

Por exemplo, se \(w_{t}\) é uma série temporal trimestral, então \(s=4\) e para \(l>0\) a FAC será diferente de zero para as defasagens \(1,3,4\) e \(5\) apenas. Este é o caso para o logaritmo dos ganhos da Coca-Cola (observe o gráfico da FAC da primeira diferença da diferenciação sazonal).

Generalizando, temos que para modelos \(SARIMA(p,d,q)(P,D,Q)_s\), a parte sazonal do AR ou MA será vista nas defasagens sazonais da FACP e FAC, respectivamente. Por exemplo, para um modelo \(SARIMA(0,0,0)(0,0,1)_{12}\) teremos:

Similarmente, um \(SARIMA(0,0,0)(1,0,0)_{12}\) terá:

Assim, para avaliar as ordens dos componentes AR e MA, tanto da parte regular quanto da parte sazonal, deve-se adotar o mesmo procedimento estudado, considerando apenas que para a parte sazonal deve-se avaliar as defasagens sazonais nas funções de aucotorrelação (FAC) e aucotorrelação parcial (FACP).

PROCESSO DE ESTIMAÇÃO DE MODELOS SARIMA
  1. Visualizar os dados para identificar observações fora do padrão (outliers ou dados faltantes), examinar se existe tendência e/ou sazonalidade por meio de gráficos específicos
  2. Se necessário, transformar os dados para estabilizar a variância (logaritmo dos dados, variação ou retorno, por exemplo)
  3. Testar se os dados são estacionários. Caso tenha raiz unitária é preciso diferenciar os dados até se tornarem estacionários. Para isso, testa-se novamente se a série diferenciada se tornou estacionária.
    • Se existe apenas sazonalidade, faça a diferenciação sazonal (por exemplo, para dados mensais faça a diferenciação de ordem 12)
    • Se existe apenas tendência, faça apenas a primeira diferença.
    • Se existe tendência e sazonalidade, aplique a primeira diferença nos dados para tratar a tendência e após isso a diferenciação sazonal (o caso dos ganhos trimestrais da Coca-Cola)
    • Se não existe tendência ou sazonalidade não faça qualquer diferenciação
  4. Examinar as funções de autocorrelação parcial (FAC) e autocorrelação parcial (FACP) para determinar as ordens máximas \(P\) e \(Q\) para os componentes AR e MA tanto da parte regular quanto da parte sazonal da série estacionária:
    • termos não sazonais: examine as primeiras defasagens (1,2,3,..) da FAC e FACP. Mantemos o mesmo padrão já estudado, ou seja, a FAC define termos MA e a FACP termos AR
    • termos sazonais: examine padrões em defasagens que são múltiplas da periodicidade da série. Por exemplo, para dados mensais, verifique nas defasagens 12, 24, 36 (provavelmente será preciso verificar as primeiras duas ou três defasagens múltiplas da periodicidade). Avalie a FAC e FACP nas defasagens sazonais da mesma forma que você fez nas defasagens não sazonais
  5. Estimar todas as combinações para \(p\), \(d\) e \(q\) na parte regular e \(P\), \(D\) e \(Q\) na parte sazonal. Aqui, tanto \(d\) quanto \(D\) serão fixos e igual ao número de vezes necessárias para tornar a série original estacionária na parte regular e na parte sazonal, respectivamente.
  6. Escolher dentre todos os modelos estimados no passo anterior, o modelo com menor AIC e/ou BIC.
  7. Examinar se os resíduos se comportam como ruído branco. Caso contrário, retornar ao passo 3 ou 4.
    • Testar autocorrelação nos resíduos
    • Testar se tem heterocedasticidade condicional
    • Verificar a distribuição de probabilidade
  8. Uma vez que os resíduos são ruído branco, obter as previsões.

Vamos continuar com os dados dos ganhos trimestrais da Coca-Cola. Agora, com tais dados vamos seguir o processo proposto:

  1. Já realizado anteriormente (gráfico que divide a série em sazonalidade, tendência e restante)
  2. Já realizado anteriormente (aplicação do logaritmo nos ganhos trimestrais)
  3. Claramente, os dados são não estacionários, pois a série apresenta sazonalidade e tendência. Para confirmar, executamos o teste de raiz unitária ADF com \(4\) defasagens.

Title: Augmented Dickey-Fuller Test

Test Results: PARAMETER: Lag Order: 4 STATISTIC: Dickey-Fuller: -2.2031 P VALUE: 0.2395

Description: Mon Oct 7 17:42:48 2019 by user:

Como resultado temos que a estatística do teste é \(-2.2031\) com um p-valor de \(0.2395\). Assim, a hipótese nula de raiz unitária não pode ser rejeitada em qualquer nível de significância razoável e a série temporal dos ganhos trimestrais com a ação da Coca-Cola tem raiz unitária, ou seja, não é estacionária. Obs.: existem testes específicos para séries temporais com sazonalidade e quebra estrutural, pois na presença destes componentes os testes tradicionais de raiz unitária perdem poder. Maiores detalhes sobre os testes de raiz unitária que permitem sazonalidade e/ou quebra estrutural neste link

A partir disso, percebemos que é preciso aplicar a primeira diferença para eliminar a tendência e após isso diferenciar na periodicidade dos dados (para retirar a sazonalidade).

  1. A FACP sugere um modelo \(AR(2)\) enquanto a FAC sugere um modelo \(MA(1)\) para a parte regular. Já para a parte sazonal temos um \(AR(1)\) e \(MA(1)\). Assim, vamos estimar todas as combinações para \(SARIMA(2,1,1)(1,1,1)_{4}\)

  1. Usando todas as combinações das ordens encontradas anteriormente, estimamos os modelos SARIMA.
especificacao ln_verossimilhanca quant_paramentros tamanho_amostra aic bic
SARIMA011011 104.25 3 107 -202.50 -195
SARIMA111011 104.25 4 107 -200.51 -190
SARIMA211011 104.33 5 107 -198.67 -186
SARIMA011111 104.64 4 107 -201.28 -191
SARIMA111111 104.68 5 107 -199.37 -186
SARIMA211111 104.71 6 107 -197.43 -182
  1. Os resultados mostram que o modelo \(SARIMA(0,1,1)(0,1,1)_{4}\) é o modelo escolhido, pois tem o menor AIC e BIC.
  2. A FAC dos resíduos do modelo mostra que quase todas as autocorrelações estão dentro dos limites, indicando que os resíduos se comportam como um ruído branco.

Outro teste importante é a verificação da presença ou não de heterocedasticidade condicional. O gráfico abaixo mostra a FAC do quadrado dos resíduos e é possível observar que há heterocedasticidade condicional e ela deveria ser tratada.

Por fim, avaliamos se os resíduos são normalmente distribuídos. Como é possível observar pelos resultados dos testes abaixo, não é possível afirmar que os resíduos são normalmente distribuídos.

Shapiro-Wilk normality test

data: na.remove(modelo[[1]]$residuals) W = 0.90178, p-value = 8.491e-07

Jarque Bera Test

data: na.remove(modelo[[1]]$residuals) X-squared = 120.8, df = 2, p-value < 2.2e-16

  1. Finalmente, fazemos as previsões (lembrando que deveríamos tratar a heterocedasticidade condicional):

REFERÊNCIAS

Box, George EP, Gwilym M Jenkins, and Gregory C Reinsel. 1994. Time Series Analysis Forecasting and Control. Englewood Cliffs Prentice Hall.

Campbell, John Y, Andrew Wen-Chuan Lo, and Archie Craig MacKinlay. 1997. The Econometrics of Financial Markets. Princeton (NJ) Princeton University Press.

Dickey, David A, and Wayne A Fuller. 1979. “Distribution of the Estimators for Autoregressive Time Series with a Unit Root” 74 (366a). Journal of the American statistical association: 427–31.

Morettin, Pedro Alberto. 2008. Econometria Financeira Um Curso Em Séries Temporais Financeiras. Edgard Blucher.

Tsay, Ruey S. 2010. Analysis of Financial Time Series. John Wiley & Sons.

———. 2014. An Introduction to Analysis of Financial Data with R. John Wiley & Sons.

