Este material tem como objetivo contribuir para o entendimento sobre modelos autorregressivos de médias móveis (ARMA), principalmente sobre como avaliar a estacionariedade destes modelos e como fazer uso de critérios de informação AIC e/ou BIC para identificar na prática a ordem de um modelo ARMA.
INTRODUÇÃO
Nos modelos de séries temporais univariadas a modelagem econométrica tem como objetivo capturar a relação entre \(r_{t}\) e informações disponíveis antes de \(t\). Assim, a expressão geral da série temporal dos retornos, \({\left\{{r}_{t}\right\}}_{t=1}^{T}\), pode ser definida como:
\[
{r}_{t}=f\left({r}_{t-1},{r}_{t-2},...,{a}_{t} \right)
\]
A função acima nos diz que valores passados dos retornos (\({r}_{t-1},{r}_{t-2},...,\)) juntamente com um termo de erro (\(a_{t}\)) são úteis para modelar o retorno em \(t\). Para que a equação seja operacional precisamos definir:
- A forma funcional de \(f\left(\right)\)
- O número de defasagens do retorno
- Uma estrutura para o termo de erro \({a}_{t}\)
Diferentemente dos modelos de regressão linear múltipla, onde fazemos uso da teoria econômica para definir a forma funcional de \(f\left(\right)\), em séries temporais univariadas as funções de autocorrelação e autocorrelação parcial definirão os três pontos listados acima.
A classe de modelos autorregressivos de médias móveis (ARMA) é caracterizada por uma formulação para \(f\left(\right)\) que combina as ideias dos modelos autorregressivos (AR) com modelos de médias móveis (MA) em uma forma compacta de modo que o número de parâmetros usados seja pequeno, alcançando parcimônia na parametrização.
De forma geral, podemos escrever um modelo autorregressivo de médias móveis da seguinte forma:
\[
r_{t} = \mu + \phi_{1}r_{t-1} + \phi_{2}r_{t-2} + ... + \phi_{p}r_{t-p} + a_{t} + {\theta}_{1}a_{t-1} + {\theta}_{2}a_{t-2} + ... + {\theta}_{q}a_{t-q}
\]
Esta formulação é conhecida como ARMA(p,q) dado que \(p\) defasagens do retorno são usadas bem como \(q\) defasagens do termo de erro para especificar a forma funcional linear a ser estimada.
ARMA(1,1)
Suponha que temos o seguinte modelo autorregressivo de médias móveis de primeira ordem, ARMA(1,1).
\[
r_{t} = \phi_{0} + \phi_{1}r_{t-1} + a_{t} + {\theta}_{1}a_{t-1}
\]
onde \(a_{t}\) é um ruído branco com média \(0\), variância \(\sigma_{a}^{2}\), \(E\left[ \left(a_t-\bar{a}\right)\left(a_{t-l}-\bar{a}\right)\right]=E[a_{t}a_{t-l}]=0\) e independente e identicamente distribuído (iid).
Anteriormente, assumimos a hipótese de estacionariedade fraca para modelar uma série temporal. Assim, para estimar um modelo \(ARMA(1,1)\) temos que garantir que as hipóteses são mantidas. Elas são: \(E[r_{t}]=\mu\), \(Var(r_{t}) = \gamma_{0}\) e \(Cov(r_{t},r_{t-l})=\gamma_{l}\) onde \(\mu\) e \(\gamma_{0}\) são constantes e \(\gamma_{l}\) é função de uma defasagem \(l\) qualquer, mas não do tempo \(t\).
- MÉDIA INCONDICIONAL CONSTANTE
Fazendo uso da hipóteses \(E[r_{t}]=E[r_{t-1}]=\mu\) e \(E[a_{t}]=E[a_{t-1}]=0\), temos:
\[
\begin{split}
E[r_{t}] & = \phi_{0} + \phi_{1}E[r_{t-1}] + E[a_{t}] + {\theta}_{1}E[a_{t-1}] \\
& \\
\mu &= \phi_{0} + \phi_{1}\mu \\
& \\
\mu & = \frac{{\phi}_{0}}{1 - {\phi}_{1}}
\end{split}
\]
O resultado mostra que o valor esperado do modelo autorregressivo de médias móveis de primeira ordem, ARMA(1,1), é exatamente o mesmo do modelo AR(1). Além disso, o resultado confirma que o valor esperado sempre será constante e independente do tempo assim como proposto pela hipótese de estacionariedade fraca. Porém, precisamos que \({\phi}_{1} \neq 1\) para que o valor esperado exista.
- VARIÂNCIA INCONDICIONAL CONSTANTE
Assumindo por simplicidade que \(\phi_{0}=0\), temos uma nova especificação para o modelo como :
\[
r_{t} = \phi_{1}r_{t-1} + a_{t} + {\theta}_{1}a_{t-1}
\] Multiplicando tal especificação por \(a_{t}\) e calculando o valor esperado (fazendo uso da hipótese de que \(Var(a_{t})=\sigma_{a}^{2}=E[a_{t}^{2}]\)), obtemos:
\[
\begin{split}
E[r_{t}a_{t}] &= \phi_{1}E[r_{t-1}a_{t}] + E[{a_{t}^2}] + \theta_{1}E[a_{t-1}a_{t}] \\
& \\
& = E[{a_{t}^2}] \\
& \\
& = \sigma_{a}^{2}
\end{split}
\]
Agora, calculando a variância da nova especificação do modelo e fazendo uso da definição anterior, temos:
\[
\begin{split}
Var(r_{t}) &= \phi_{1}^{2}Var(r_{t-1})+Var(a_{t})+\theta_{1}^{2}Var(a_{t-1})+2\phi_{1}\theta_{1}Var(r_{t-1}a_{t-1}) \\
& \\
& = \phi_{1}^{2}Var(r_{t})+\sigma_{a}^{2}+\theta_{1}^{2}\sigma_{a}^{2}+2\phi_{1}\theta_{1}\sigma_{a}^{2} \\
& \\
& = \frac{(1+2\phi_{1}\theta_{1}+\theta_{1}^{2})\sigma_{a}^{2}}{1-\phi_{1}^{2}} \\
\end{split}
\]
Em função da necessidade da variância ser positiva, precisamos que \(\phi_{1}^{2}<1\), ou seja, \(\left| \phi_{1} \right|<1\) assim como tínhamos para o modelo autorregressivo de primeira ordem, AR(1).
- AUTOCOVARIÂNCIA E AUTOCORRELAÇÃO DEPENDENTES APENAS DE \(l\)
Para obter a função de autocovariância, vamos continuar assumindo que \(\phi_{0}=0\), mas agora multiplicaremos o modelo por \(r_{t-l}\) para obter:
\[
r_{t}r_{t-l} - \phi_{1}r_{t-1}r_{t-l} = a_{t}r_{t-l}+\theta_{1}a_{t-1}r_{t-l}
\] Para \(l=1\), calculando o valor esperando e usando \(E[r_{t}a_{t}] = E[{a_{t}^2}] = \sigma_{a}^{2}\), temos:
\[
\begin{split}
r_{t}r_{t-1} - \phi_{1}r_{t-1}r_{t-1} &= a_{t}r_{t-1}+\theta_{1}a_{t-1}r_{t-1} \\
\\
E\left[r_{t}r_{t-1}\right] - \phi_{1}E\left[r_{t-1}r_{t-1}\right] &= E\left[a_{t}r_{t-1}\right]+\theta_{1}E\left[a_{t-1}r_{t-1}\right] \\
\\
E\left[(r_{t}-\mu)(r_{t-1}-\mu)\right] - \phi_{1}E\left[(r_{t-1}-\mu)(r_{t-1}-\mu)\right] &= E\left[a_{t}(r_{t-1}-\mu)\right]+\theta_{1}E\left[a_{t-1}(r_{t-1}-\mu)\right] \\
\\
\gamma_{1}-\phi_{1}\gamma_{0} &= \theta_{1}\sigma_{a}^{2} \\
\\
\gamma_{1} &= \phi_{1}\gamma_{0}+\theta_{1}\sigma_{a}^{2} \\
\end{split}
\] Este resultado é diferente do obtido para o AR(1) onde \(\gamma_{1}=\phi_{1}\gamma_{0}\). Contudo, para \(l=2\) e tomando o valor esperado, temos:
\[
\begin{split}
r_{t}r_{t-2} - \phi_{1}r_{t-1}r_{t-2} &= a_{t}r_{t-2}+\theta_{1}a_{t-1}r_{t-2} \\
& \\
E\left[r_{t}r_{t-2}\right] - \phi_{1}E\left[r_{t-1}r_{t-2}\right] &= E\left[a_{t}r_{t-2}\right]+\theta_{1}E\left[a_{t-1}r_{t-2}\right] \\
& \\
E\left[(r_{t}-\mu)(r_{t-2}-\mu)\right] - \phi_{1}E\left[(r_{t-1}-\mu)(r_{t-2}-\mu)\right] &= E\left[a_{t}r_{t-2}\right]+\theta_{1}E\left[a_{t-1}r_{t-2}\right] \\
& \\
\gamma_{2}-\phi_{1}\gamma_{1} &= 0 \\
& \\
\gamma_{2} &= \phi_{1}\gamma_{1} \\
\end{split}
\]
que é o mesmo resultado obtido para autocovariância do AR(2). Sabemos que a divisão da autocovariância pela variância proporcionará a autocorrelação. Assumindo que dividimos a equação acima pela variância do processo e em função de \(VAR(r_t)=VAR(r_{t-1})=VAR(r_{t-2})=VAR(r_{t-l})\) teremos a função de autocorrelação do modelo ARMA(1,1):
- para \(l=1\), \(\rho_{1} = \phi_{1} + \frac{\theta_{1}\sigma_{a}^{2}}{\gamma_{0}}\)
- para \(l>1\), \(\rho_{l}=\phi_{1}\rho_{l-1}\)
Assim, a função de autocorrelação de um modelo ARMA(1,1) se comporta muito semelhante à FAC do AR(1) exceto pelo fato que o seu decaimento inicia na defasagem 2.
- FUNÇÕES DE AUTOCORRELAÇÃO E AUTOCORRELAÇÃO PARCIAL
Podemos visualizar as propriedades estudadas para este modelo a partir de suas funções de autocorrelação e autocorrelação parcial. Para tanto, vamos simular um modelo no seguinte formato:
\[
r_{t} = 10 + 0.5r_{t-1} + a_{t} + 0.3a_{t-1}
\] A imagem abaixo mostra o gráfico da série temporal resultante do modelo. É possível observar que realmente há estacionariedade fraca dado que a série oscila em torno de uma média (\(10\)) e com uma variância constante.
A análise das funções de autocorrelação (FAC) e autocorrelação parcial (FACP) da série, mostradas abaixo, confirmam que para a FAC há decaimento a partir da segunda defasagem, mas há mais de uma defasagem estatísticamente significante. Assim, se utilizarmos a FAC para definir a ordem do MA e a FACP para a ordem do AR, conforme estudado até aqui, teríamos um modelo ARMA(2,4) o que não está correto dado que sabemos que os dados foram gerados por um modelo ARMA(1,1).


Assim, temos que apesar dos modelos ARMA(p,q) serem combinações lineares de modelos AR(p) e MA(q), o comportamento das funções de autocorrelação e autocorrelação parcial não necessáriamente estarão em conformidade com o que estudamos para os modelos AR e MA. Desta forma, faz-se necessário testes estatísticos que nos ajude na definição correta das ordens do modelo ARMA(p,q).
IDENTIFICANDO MODELOS ARMA NA PRÁTICA
Como vimos nas simulações para modelos ARMA mostradas anteriormente, as funções de autocorrelação e autocorrelação parcial não são informativas para definir a ordem dos modelos. Uma alternativa é fazer o uso de algum critério de informação. Neste caso, temos o Akaike’s Information Criterion (AIC) e o Bayesian Information Criterion (BIC) como opção.
O critério de informação é uma forma de encontrar o número ideal de parâmetros de um modelo. Para entendê-lo, tenha em mente que, a cada regressor adicional, a soma dos resíduos não vai aumentar; frequentemente, diminuirá. A redução se dá à custa de mais regressores. Para balancear a redução dos erros e o aumento do número de regressores, o critério de informação associa uma penalidade a esse aumento.
Tipicamente, para algum \(P\) e \(Q\), computa-se o AIC ou BIC para diversos modelos ARMA(p,q), onde \(0\le p \le P\) e \(0\le q \le Q\). Selecionamos o modelo que retorna o menor valor de AIC e/ou BIC. Esta abordagem requer estimação usando o princípio da máxima verossimilhança.
- Akaike’s Information Criterion (AIC)
\[
AIC =\frac{-2}{T}\ln(verossimilhança) + \frac{2N}{T}
\] onde a funçaõ de verossimilhança é avaliada na estimativa de máximo, \(T\) é o tamanho da amostra e \(N\) é o número de parâmetros estimados pelo modelo (neste caso, \(p+q+1\) onde \(1\) representa o intercepto e \(p\) e \(q\) os parâmetros da parte autorregressiva e de médias móveis, respectivamente).
O primeiro termo da equação mede a qualidade do ajuste do modelo aos dados, enquanto o segundo termo é chamado de função de penalização dado que penaliza modelos com muitos parâmetros. Queremos entre todas as combinações de modelos a que apresenta menor AIC.
Para um mesmo tamanho de amostra (\(T\)) e verossimilhança e diversos valores para a quantidade de parâmetros estimados (\(N\)), podemos observar no gráfico abaixo que na medida que os parâmetros aumentam o AIC aumenta. Isto torna menor a probabilidade de escolher dentre modelos com mesma verossimilhança aqueles que tem maior quantidade de parâmetros.

Agora, observe o papel da verossimilhança no AIC. Para modelos com a mesma quantidade de parâmetros e tamanho de amostra, na medida que a verossimilhança aumenta, menor o valor do AIC. Isto aumenta a probabildiade de escolher dentre modelos com mesma quantidade de parâmetros e tamanho de amostra, o modelo com maior verossimilhança.

- Bayesian Information Criterion (BIC)
Akaike (1977), Rissanem (1978) e Schwarz (1978) sugerem minimizar o critério de informação bayesiano, dado por:
\[
BIC =-2\ln(verossimilhança) + \frac{N\ln T}{T}
\] onde a função de verossimilhança é avalia na estimativa de máximo, \(T\) é o tamanho da amostra e \(N\) é o número de parâmetros estimados pelo modelo (neste caso, \(p+q+1\) onde \(1\) representa o intercepto e \(p\) e \(q\) os parâmetros da parte autorregressiva e de médias móveis, respectivamente). A mesma análise sobre o papel de cada termo na equação do critério bem como a penalização realizada para o AIC permance para o BIC, mudando apenas a forma como cada termo na equação é obtido.
Um ponto de atenção é que conforme Emiliano et al. (2010) o BIC possui melhor performance em amostras maiores e segundo Zou, Hastie, and Tibshirani (2012) tem maior capacidade de escolher modelos mais simples.
Não vamos exemplificar aqui como definir a defasagem de um modelo ARMA(p,q) na prática, em função de ser prioritário aprender como estimar tais modelos (os critérios de informação necessitam do valor da verossimilhança que é obtida a partir da estimação)
REFERÊNCIAS
Campbell, John Y, Andrew Wen-Chuan Lo, and Archie Craig MacKinlay. 1997. The Econometrics of Financial Markets. Princeton (NJ) Princeton University Press.
Emiliano, Paulo C, Elayne P Veiga, Vivanco, and Fortunato S Menezes. 2010. “Critérios de Informação de Akaike Versus Bayesiano Análise Comparativa.”
Morettin, Pedro Alberto. 2008. Econometria Financeira Um Curso Em Séries Temporais Financeiras. Edgard Blucher.
Tsay, Ruey S. 2010. Analysis of Financial Time Series. John Wiley & Sons.
———. 2014. An Introduction to Analysis of Financial Data with R. John Wiley & Sons.
Zou, Hui, Trevor Hastie, and Tibshirani. 2012. “On the ‘Degrees of Freedom’ of the Lasso” 35 (5): 2173–92.
