Este material tem como objetivo contribuir para o entendimento sobre processos não estacionários e sem sazonalidade. Para tanto, vamos mostrar como realizar testes estatísticos para verificar a estacionariedade de uma série temporal e o impacto de não estacionariedade nos modelos ARMA estudados anteriormente.
INTRODUÇÃO
Até o momento, focamos sobre a série dos retornos que em função de oscilar em um intervalo quase sempre controlado (-1 a 1) tende a ser estacionária. Porém, em alguns estudos temos interesse na avaliação de outras séries temporais (taxa de juros, câmbio, inflação, crescimento econômico).
Estas séries tendem a ser não estacionárias, pois não oscilam em torno de uma média e com variância constante. Na literatura de séries temporais, chamamos tais séries de séries com raiz unitária. Um bom exemplo de série com raiz unitária é o passeio aleatório e abaixo, mostramos algumas propriedades desta série temporal.
PASSEIO ALEATÓRIO
Uma série temporal \({\left\{{p}_{t}\right\}}_{t=1}^{T}\) é um passeio aleatório se ela satisfaz:
\[
p_{t}=p_{t-1}+a_{t}
\] onde podemos fazer \(p_0\) um número real denotando o valor inicial do processo e \(a_t\) é um ruído branco com média \(0\), variância \(\sigma_{a}^{2}\), \(E\left[ \left(a_t-\bar{a}\right)\left(a_{t-l}-\bar{a}\right)\right]=E[a_{t}a_{t-l}]=0\) e independente e identicamente distribuído (iid).
Se assumimos que \(p_{t}\) é o logaritmo do preço de uma ação em \(t\), então \(p_{0}\) seria o logaritmo do preço inicial da ação em um IPO (initial public offering). Se \(a_{t}\) tem uma distribuição simétrica em torno de \(0\) como a Normal, então condicionado a \(p_{t-1}\), \(p_{t}\) tem 50% de chances de subir ou descer, implicando que \(p_t\) deveria subir ou descer aleatóriamente.
Se tratarmos um passeio aleatório como um caso especial de AR(1) quando não temos intercepto, então o coeficiente de \(p_{t-1}\) é igual a \(1\), que não satisfaz a condição de estacionariedade fraca (\(\left| {\phi}_{1} \right| < 1\)) mostrada anteriormente para o modelo AR(1). Assim, o passeio aleatório é não estacionário e é chamado de série temporal com raiz unitária. Abaixo, exemplo de como simular um passeio aleatório no R.
#######################################
#### SIMULAÇÃO PASSEIO ALEATÓRIO #####
#######################################
# Fixar a raíz para que a simulação gere os mesmos dados em qualquer computador
set.seed(123)
# Simulação de um passeio aleatório
n <- 1000
p0 <- 10
phi1 <- 1
pt <- rep(p0,n)
for (i in 1:(n-1)) {
pt[i+1] <- phi1*pt[i] + rnorm(1)
}
# Visualização do passeio aleatório.
plot(pt, type = "l", xlab = "observações", ylab = "preço", main = "Simulação Passeio Aleatório")

Observe no gráfico que o passeio aleatório iniciou em 10 (valor definido como phi0
na simulação) e após isso oscilou, condicionado ao valor anterior, em função de um número aleatório obtido a partir de uma distribuição Normal com média zero e variância 1 (definido como rnorm(1)
na simulação).
Caso uma série temporal de preços de um ativo financeiro (logaritmo dos preços) se comporte como um passeio aleatório, teremos que o preço de uma ação não é predizível. Para ver isto, vamos fazer a previsão um passo à frente do modelo:
\[
\begin{split}
p_{t+1} &= p_{t+1-1}+a_{t+1} \\
& \\
& = p_{t}+a_{t+1} \\
& \\
E\left[p_{t+1}|p_{t},p_{t-1},...\right] &= E\left[p_{t}\right] + E\left[a_{t+1}\right] \\
& \\
&= p_{t} + 0 \\
& \\
&= p_{t}
\end{split}
\]
que é o logaritmo do preço da ação na origem. Esta previsão não tem valor prático. A previsão dois passos à frente seria:
\[
\begin{split}
p_{t+2} &= p_{t+2-1}+a_{t+2} \\
& \\
& = p_{t+1}+a_{t+2} \\
& \\
E\left[p_{t+2}|p_{t+1},p_{t},p_{t-1},...\right] &= E\left[p_{t+1}|p_{t},p_{t-1},...\right] + E\left[a_{t+2}\right] \\
& \\
&= p_{t} + 0 \\
& \\
&= p_{t}
\end{split}
\]
que novamente é o logaritmo do preço na origem da previsão. De fato, para qualquer horizonte de previsão \(l>0\), temos:
\[
E\left[p_{t+l}|p_{t+l-1},...\right] = {p}_{t}
\] Assim, para todos os horizontes de previsão, o valor previsto de um passeio aleatório é simplesmente o valor da série na origem da previsão (temos como origem a última observação antes de se iniciar a previsão, ou seja, o último preço sempre seria a melhor previsão para qualquer horizonte de previsão).
PASSEIO ALEATÓRIO COM DRIFT
Como vimos em alguns exemplos, é possível que uma série temporal tenha um valor médio diferente de zero. Isto implica que o modelo para o logaritmo dos preços (hipoteticamente, pois não esperamos retornos diferente de zero em média) é:
\[
p_{t} = \mu + p_{t-1} + a_{t}
\] onde \(\mu=E[p_{t}-p_{t-1}]\) e \(a_{t}\) é um ruído branco com média \(0\), variância \(\sigma_{a}^{2}\), \(E\left[ \left(a_t-\bar{a}\right)\left(a_{t-l}-\bar{a}\right)\right]=E[a_{t}a_{t-l}]=0\) e independente e identicamente distribuído (iid).
O termo de constante \(\mu\) do modelo é muito importante em finanças. Ele representa a tendência temporal do logaritmo dos preços (\(p_{t}\)) e é frequentemente chamado de drift do modelo. Para ver isto, assuma que temos o valor do logaritmo inicial do preço que é representado por \(p_0\). Então,
\[
p_1=\mu + p_{0} + a_{t}
\]
\[
p_2=\mu + p_{1} + a_{2} = 2\mu + p_{0} + a_{2} + a_{1}
\] \[
...........................................
\] \[
p_t=t\mu + p_{0} + a_{t} + a_{t-1} + ...+ a_{1}
\]
A última equação mostra que o logaritmo do preço consite de uma tendência temporal (\(t\mu\)) e um passeio aleatório (\(\sum_{i=1}^{t}{{a}_{i}}\)). Em função de \(VAR(\sum_{i=1}^{t}{{a}_{i}})=t\sigma_{a}^{2}\), onde \(\sigma_{a}^{2}\) é a variância de \(a_{t}\), o desvio padrão condicional de \(p_{t}\) é \(\sqrt{t\sigma_{a}}\), que cresce a uma taxa mais lenta do que o valor esperado \(E[p_t]= p_0+\mu t\). Portanto, se desenharmos um gráfico de \(p_{t}\) contra \(t\), teremos uma tendência temporal com inclinação \(\mu\). Uma inclinação positiva, ou seja, \(\mu>0\), indica que o logaritmo dos preços eventualmente tenderá ao infinito. Em contrapartida, se \(\mu<0\) o logaritmo dos preços tenderá a \(-\infty\) na medida que \(t\) aumentar.
Abaixo, código em R que mostra como simular um passeio aleatório com drift:
##################################################
#### SIMULAÇÃO PASSEIO ALEATÓRIO COM DRIFT #####
##################################################
# Simulação de um passeio aleatório com drift (pt = mi + phi1*pt-1 + at)
n <- 1000
p0 <- 10
mi <- 0.2
phi1 <- 1
pt_drift <- rep(p0,n)
for (i in 1:(n-1)) {
pt_drift[i+1] <- mi + phi1*pt_drift[i] + rnorm(1)
}
# Visualização do passeio aleatório com drift
plot(pt_drift, type = "l", xlab = "observações", ylab = "preço", main = "Simulação Passeio Aleatório com Drift")

Observe que se você alterar o valor de mi
para um número positivo ou negativo e visualizar a série, perceberá que tal parâmetro mudará a direção da curva (para baixo, se negativo e para cima, se positivo). Além disso, se você alterar o valor de phi1
para um valor menor que 1 e visualizar os dados terá uma série estacionária, como esperado (lembre da restrição sobre tal parâmetro na derivação do modelo AR).
TESTE DE RAIZ UNITÁRIA
Para testar se o logaritmo dos preços (\(p_t\)) de um ativo financeiro segue um passeio aleatório, um passeio aleatório com drift ou passeio aleatório com drift e tendência determinística, usamos os modelos abaixo:
\[
p_{t}=\phi_{1}p_{t-1} + \epsilon_{t}
\]
\[
p_{t}= \mu + \phi_{1}p_{t-1} + \epsilon_{t}
\]
\[
p_{t}=\mu + \gamma t + \phi_{1}p_{t-1} + \epsilon_{t}
\]
onde \(\epsilon_{t}\) denota o termo de erro. Observe que se \({\phi}_{1}=1\) em ambas as equações, teremos um passeio aleatório no primeiro caso, um passeio aleatório com drift no segundo caso e um passeio aleatório com drift e tendência determinística no terceiro caso. Observe a semelhança dessas equações do teste com as equações dos passeios aleatórios mostradas anteriormente.
Assim, testar se a série temporal tem raiz unitário (se ela não é estacionária) consiste em testar a hipótese nula (não estacionariedade) \({H}_{0}:{\phi}_{1}=1\) contra a hipótese alternativa (estacionariedade) \({H}_{1}:{\phi}_{1}<1\). Este teste foi proposto por Dickey and Fuller (1979) e é conhecido como Dickey-Fuller. A partir da estimação das equações acima por meio de MQO, usa-se um teste convencional de \(t\) sobre \(\phi_{1}\).
Para a primeira equação (\(p_{t}=\phi_{1}p_{t-1} + \epsilon_{t}\)) MQO gera os seguintes estimadores:
\[
{\hat{\phi}}_{1}=\frac{\sum_{t=1}^{T}{{p}_{t-1}{p}_{t}}}{\sum_{t=1}^{T}{{p}_{t-1}^{2}}}
\]
\[
{\hat{\sigma}}_{\epsilon}^{2}=\frac{\sum_{t=1}^{T}{{\left({p}_{t}-{\hat{\phi}}_{1}{p}_{t-1} \right)}^{2}}}{T-1}
\]
onde \(p_{0}=0\) e \(T\) é o tamanho da amostra. A estatística do teste será:
\[
DF = \frac{\hat{\phi}_{1}}{std(\hat{\phi}_{1})} = \frac{\sum_{t=1}^{T}{{p}_{t-1}{\epsilon}_{t}}}{\hat{\sigma}_{\epsilon}\sum_{t=1}^{T}{{p}_{t-1}^{2}}}
\]
- TESTE DE DICKEY-FULLER: OUTRA FORMULAÇÃO
Subtraindo \(p_{t-1}\) nas equações do teste, temos:
\[
p_{t}=\phi_{1}p_{t-1} + \epsilon_{t} \Rightarrow p_t - p_{t-1} = \phi_{1}p_{t-1} - p_{t-1} + \epsilon_{t} \Rightarrow \Delta p_{t} = \beta p_{t-1} + \epsilon_{t}
\]
\[
p_{t}= \mu + \phi_{1}p_{t-1} + \epsilon_{t} \Rightarrow p_{t} - p_{t-1} = \mu + \phi_{1}p_{t-1} - p_{t-1} + \epsilon_{t} \Rightarrow \Delta p_{t} = \mu + \beta p_{t-1} + \epsilon_{t}
\]
\[
p_{t}=\mu + \gamma t + \phi_{1}p_{t-1} + \epsilon_{t} \Rightarrow p_{t}-p_{t-1}=\mu + \gamma t + \phi_{1}p_{t-1} - p_{t-1} + \epsilon_{t} \Rightarrow \Delta p_{t} = \mu + \gamma t + \beta p_{t-1} + \epsilon_{t}
\]
Assim, testar \(\phi_{1}=1\) como apresentado anteriormente é o mesmo que testar \(\beta=0\) para a formulação nova do teste.
- TESTE DE DICKEY-FULLER AUMENTADO
O problema do teste anterior é que Dickey and Fuller (1979) consideraram o erro um ruído branco. Porém, frequentemente, o erro é um processo estacionário qualquer. Esse problema pode causar distorções no poder do teste. Além disso, muitas séries temporais econômicas podem seguir processos \(ARIMA(p,d,q)\).
Suponha que \(p_{t}\) seja um processo autorregressivo de ordem \(p\), AR(p).
\[
p_{t}=\mu + \phi_{1}p_{t-1} + ... +\phi_{p-1}p_{t-p+1}+ \phi_{p}p_{t-p} + \epsilon_{t}
\]
Para verificar a existência de raiz unitária nesse processo, pode-se performar o teste \(H_{0}: \beta=0\) (não estacionariedade) contra \(H_{a}: \beta < 0\) (estacionariedade), usando a regressão:
\[
\Delta p_{t}=\mu + \beta p_{t-1} + \sum_{i=1}^{p-1}{\phi_{i}\Delta p_{t-i}+ \epsilon_{t}}
\] onde \(\mu\) é uma função determinística do tempo \(t\) e \(\Delta p_{t-i}=p_{j}-p_{j-1}\) é a série diferenciada. Na prática, \(\mu\) pode ser \(0\), uma constante ou \(\mu+\gamma t\). A estatística do teste será:
\[
ADF-test=\frac{\hat{\beta}}{std(\hat{\beta})}
\] onde \(\hat{\beta}\) denotando a estimativa de mínimos quadrados de \(\beta\) é o conhecido teste de raíz unitária de Dicker-Fullher aumentado.
MODELOS ARIMA
Considere um modelo ARMA. Se permitirmos que o componente AR tenha uma raiz unitária, então o modelo se torna um modelo autorregressivo integrado de média móvel (ARIMA). Lembre-se que anteriormente mostramos que a componente MA é sempre estacionária e por isso apenas o componente AR pode ter uma raiz unitária.
Uma série temporal \(y_{t}\) é um processo ARIMA(p,1,q) se a série das diferenças (\(c_{t}=y_{t}-y_{t-1}\)) segue um modelo ARMA(p,q) estacionário.
A ideia de transformar uma série não estacionária em estacionária por considerar suas diferenças é chamado de diferenciação na literatura de séries temporais. Mais formalmente, \(c_{t}=y_{t}-y_{t-1}\) é chamado de primeira diferença da série \(y_{t}\). Em alguns casos pode ser preciso diferenciar a séries várias vezes para torná-la estacionária. Por exemplo, se tanto \(y_{t}\) quanto sua primeira diferença são não estacionárias, mas \(s_{t}=c_{t}-c_{t-1}=y_{t}-2y_{t-1}+y_{t-2}\) apresenta estacionariedade fraca, então \(y_{t}\) tem duas raízes unitárias e \(s_{t}\) é a série da segunda diferença de \(y_{t}\). Assim, se \(s_{t}\) segue um modelo ARMA(p,q) então \(y_{t}\) é um modelo ARMA(p,2,q).
Como exemplo, para os passeios aleatórios simulados anteriormente, observe que uma simples diferenciação de primeira ordem nos dados torna a série aparantemente estacionária.

Em finanças e conforme mostramos anteriormente, os preços de ativos financeiros comumente são não estacionários, mas o logaritmo dos retornos ou o retorno simples é estacionário.
O gráfico da função de autocorrelação (FAC) pode ser útil para identificar séries temporais não estacionárias. Para uma série temporal estacionária, o gráfico da FAC mostrará um decaimento para \(0\) relativamente rápido enquanto para uma série não estacionária o decaimento será lento. Além disso, a primeira defasagem da FAC é grande e estatísticamente significativo para séries não estacionárias. Abaixo, os dois gráficos da FAC para as séries de preço e retorno da ação da Microsoft.


Assim, temos que a série dos preços da ação MSFT (Microsoft) se comporta como um processo não estacionário enquanto os retornos desta ação apresentam uma FAC com maior probabilidade de ser proveniente de um processo estacionário.
PROCESSO DE ESTIMAÇÃO DE MODELOS ARIMA
Quando estamos ajustando um modelo ARIMA usando dados de uma série temporal (não sazonal), o seguinte procedimento pode ser seguido:
- Visualizar os dados e identificar observações fora do padrão (outliers ou dados faltantes) e eliminá-las.
- Se necessário, transformar os dados para estabilizar a variância (logaritmo dos dados, variação ou retorno, por exemplo)
- Testar se os dados são estacionários. Caso tenha raiz unitária é preciso diferenciar os dados até se tornarem estacionários. Para isso, testa-se novamente se a série diferenciada se tornou estacionária.
- Examinar as funções de autocorrelação (FAC) e autocorrelação parcial (FACP) para determinar as ordens máximas \(P\) e \(Q\) para os componentes AR e MA da série estacionária (diferenciada, se necessário).
- Estimar todas as combinações para \(p\), \(d\) e \(q\). Aqui, \(d\) será fixo e igual ao número de vezes necessárias para tornar a série original estacionáira. Se não foi preciso diferenciar a série, \(d=0\).
- Escolher dentre todos os modelos estimados no passo anterior, o modelo com menor AIC e/ou BIC.
- Examinar se os resíduos se comportam como ruído branco. Caso contrário, retornar ao passo 3 ou 4.
- Testar autocorrelação nos resíduos
- Testar se tem heterocedasticidade condicional
- Verificar a distribuição de probabilidade
Uma vez que os resíduos são ruído branco, obter as previsões.
- Visualizar os dados e identificar observações fora do padrão (outliers ou dados faltantes) e eliminá-las.
- Se necessário, transformar os dados para estabilizar a variância (logaritmo dos dados, variação ou retorno, por exemplo)
- Testar se os dados são estacionários. Caso tenha raiz unitária é preciso diferenciar os dados até se tornarem estacionários. Para isso, testa-se novamente se a série diferenciada se tornou estacionária.
- Examinar as funções de autocorrelação (FAC) e autocorrelação parcial (FACP) para determinar as ordens máximas \(P\) e \(Q\) para os componentes AR e MA da série estacionária (diferenciada, se necessário).
- Estimar todas as combinações para \(p\), \(d\) e \(q\). Aqui, \(d\) será fixo e igual ao número de vezes necessárias para tornar a série original estacionáira. Se não foi preciso diferenciar a série, \(d=0\).
- Escolher dentre todos os modelos estimados no passo anterior, o modelo com menor AIC e/ou BIC.
- Examinar se os resíduos se comportam como um ruído branco:
- Testar autocorrelação nos resíduos: visualizar a função de autocorrelação (FAC) dos resíduos. Se existem defasagens estatisticamente significante (acima da linha pontilhada), há autocorrelação serial.
- Testar heterocedasticidade condicional: visualizar a função de autocorrelação (FAC) dos resíduos ao quadrado. Se existem defasagens estatisticamente significante (acima da linha pontilhada), há heterocedasticidade condicional.
- Verificar a distribuição de probabilidade assumida no processo de estimação: realizar teste que verifique se os resíduos se comportam de acordo com a distribuição de probabilidade adotada.
Se os resíduos são bem comportados (ruído branco), obter as previsões apenas com a estimação da média condicional. Caso contrário, revisar os passos anteriores para certificar que foram realizados corretamente. Se mesmo assim existir heterocedasticidade condicional e a distribuição de probabilidade não condiz com a hipótese assumida (geralmente uma distribuição Normal), avaliar a possibilidade de estimar a variância condicional (estudaremos depois como fazer essa estimação).
Vamos usar como exemplo para o processo apresentado anteriormente dados da ação MSFT (Microsoft). Assim, temos:
- O gráfico da série temporal dos preços mostra comportamento de tendência não determinística para o período em análise. Porém, não encontramos outliers ou dados faltantes que justifiquem seu tratamento.
Porém, sabemos que é melhor trabalhar com os retornos do que os preços de um ativo financeiro. Um dos benefícios de fazer isso é que tal transformação estabiliza a variância dos dados. Neste sentido, obtemos os retornos para a ação da Microsoft e como mostra o gráfico acima, a variância melhorou em função de não termos mais uma tendência não determinística.
Claramente, os dados são estacionários, em função de serem retornos. Mesmo assim, executamos o teste de raiz unitária ADF com \(2\) defasagens.
Title:
Augmented Dickey-Fuller Test
Test Results:
PARAMETER:
Lag Order: 2
STATISTIC:
Dickey-Fuller: -33.6333
P VALUE:
0.01
Description:
Mon Sep 30 20:09:16 2019 by user:
Como resultado temos que a estatística do teste é -33.6333 com um p-valor de 0.01. Assim, a hipótese nula de raiz unitária pode ser rejeitada em qualquer nível de significância razoável (5%, por exemplo) e a série temporal do retorno da ação MSFT (Microsoft) não tem raiz unitária, ou seja, é estacionária. Em função disso, vamos trabalhar com os retornos em nível e avaliar o comportamento das funções de autocorrelação e autocorrelação parcial. Obs.: caso a série tenha raiz unitária é preciso aplicar a diferença na mesma e refazer o teste para verificar se rejeitamos a hipótese nula de não estacionariedade para a série da primeira diferença dos retornos

A FACP sugere um modelo \(AR(2)\) enquanto a FAC sugere um modelo \(MA(5)\).
Usando todas as combinações das ordens encontradas anteriormente, estimamos os modelos ARIMA.
ARIMA000 |
8501.44 |
2 |
3207 |
-16998.87 |
-16987 |
ARIMA100 |
8509.47 |
3 |
3207 |
-17012.93 |
-16995 |
ARIMA200 |
8516.38 |
4 |
3207 |
-17024.77 |
-17000 |
ARIMA001 |
8510.57 |
3 |
3207 |
-17015.14 |
-16997 |
ARIMA101 |
8517.21 |
4 |
3207 |
-17026.42 |
-17002 |
ARIMA201 |
8519.25 |
5 |
3207 |
-17028.50 |
-16998 |
ARIMA002 |
8516.25 |
4 |
3207 |
-17024.51 |
-17000 |
ARIMA102 |
8518.76 |
5 |
3207 |
-17027.52 |
-16997 |
ARIMA202 |
8518.29 |
6 |
3207 |
-17024.59 |
-16988 |
ARIMA003 |
8517.50 |
5 |
3207 |
-17025.00 |
-16995 |
ARIMA103 |
8518.90 |
6 |
3207 |
-17025.80 |
-16989 |
ARIMA203 |
8521.80 |
7 |
3207 |
-17029.60 |
-16987 |
ARIMA004 |
8523.91 |
6 |
3207 |
-17035.82 |
-16999 |
ARIMA104 |
8526.91 |
7 |
3207 |
-17039.83 |
-16997 |
ARIMA204 |
8526.93 |
8 |
3207 |
-17037.86 |
-16989 |
ARIMA005 |
8526.79 |
7 |
3207 |
-17039.58 |
-16997 |
ARIMA105 |
8527.14 |
8 |
3207 |
-17038.29 |
-16990 |
ARIMA205 |
8527.58 |
9 |
3207 |
-17037.16 |
-16983 |
Os resultados mostram que o modelo \(ARIMA(1,0,1)\) é o modelo escolhido, pois tem o menor BIC.
A FAC dos resíduos do modelo mostra que a maior parte das autocorrelações estão dentro dos limites, indicando que os resíduos não apresentam autocorrelação serial.

Porém, ao analisar a presença de heterocedasticidade condicional por meio da FAC dos resíduos ao quadrado, encontramos diversas defasagens estatisticamente significantes indicando a presença de heterocedasticidade condicional nos resíduos obtidos do modelo. Isso é esperado dado que estamos trabalhando com retornos e como aprendemos anteriormente por meio dos fatos estilizados, existem clusters de volatilidade na série temporal de retornos de um ativo financeiro. Neste sentido, é necessário modelar o segundo momento condicional desta série (variância condicional) e isso será feito pela família de modelos de heterocedasticidade condicional (estudados posteriormente).

Por fim, avaliamos se os resíduos são normalmente distribuídos por meio dos testes de Shapiro e Jarque Bera. A hipótese nula dos testes é que os dados são normalmente distribuídos contra a hipótese alternativa que os dados não são normalmente distribuídos. Sabemos que o p-valor é o nível de significância mínimo para se rejeitar a hipótese nula. Assim, queremos um p-valor alto (>0,05) o que não nos permite rejeitá-la.
Como resultado, encontramos que é possível rejeitar a hipótese nula de que os resíduos são normalmente distribuídos em função do p-valor dos testes ser menor que 0,05.
Shapiro-Wilk normality test
data: na.remove(modelo_microsoft[[5]]$residuals)
W = 0.91679, p-value < 2.2e-16
Jarque Bera Test
data: na.remove(modelo_microsoft[[5]]$residuals)
X-squared = 9594.9, df = 2, p-value < 2.2e-16
- Em função de nosso modelo não se comportar da forma esperada, não podemos fazer previsões usando o mesmo
REFERÊNCIAS
Box, George EP, Gwilym M Jenkins, and Gregory C Reinsel. 1994. Time Series Analysis Forecasting and Control. Englewood Cliffs Prentice Hall.
Campbell, John Y, Andrew Wen-Chuan Lo, and Archie Craig MacKinlay. 1997. The Econometrics of Financial Markets. Princeton (NJ) Princeton University Press.
Dickey, David A, and Wayne A Fuller. 1979. “Distribution of the Estimators for Autoregressive Time Series with a Unit Root” 74 (366a). Journal of the American statistical association: 427–31.
Morettin, Pedro Alberto. 2008. Econometria Financeira Um Curso Em Séries Temporais Financeiras. Edgard Blucher.
Tsay, Ruey S. 2010. Analysis of Financial Time Series. John Wiley & Sons.
———. 2014. An Introduction to Analysis of Financial Data with R. John Wiley & Sons.
---
title: <center> <h2> <b> Raíz Unitária e Modelos ARIMA </b> </h2> </center> 
author: <center> Frank Magalhães de Pinho - IBMEC/MG </center>
graphics: yes
linkcolor: blue
output: 
  html_notebook:
    theme: cerulean
    fig_caption: yes
references:
- id: tsay2014introduction
  title: An introduction to analysis of financial data with R
  author:
  - family: Tsay
    given: Ruey S
  publisher: John Wiley \& Sons
  type: book
  issued:
    year: 2014
- id: campbell1997econometrics
  title: The econometrics of financial markets
  author:
  - family: Campbell
    given: John Y
  - family: Lo
    given: Andrew Wen-Chuan
  - family: MacKinlay
    given: Archie Craig
  publisher: Princeton (NJ) Princeton University Press
  type: book
  issued:
    year: 1997
- id: morettin2008econometria
  title: Econometria financeira um curso em séries temporais financeiras
  author:
  - family: Morettin
    given: Pedro Alberto
  publisher: Edgard Blucher
  type: book
  issued:
    year: 2008
- id: tsay2010analysis
  title: Analysis of financial time series
  author:
  - family: Tsay
    given: Ruey S
  publisher: John Wiley \& Sons
  type: book
  issued:
    year: 2010
- id: box1994time
  title: Time series analysis forecasting and control
  author:
  - family: Box
    given: George EP
  - family: Jenkins
    given: Gwilym M
  - family: Reinsel
    given: Gregory C
  publisher: Englewood Cliffs Prentice Hall
  type: book
  issued:
    year: 1994
- id: dickey1979distribution
  title: Distribution of the estimators for autoregressive time series with a unit root
  author:
  - family: Dickey
    given: David A
  - family: Fuller
    given: Wayne A
  volume: 74
  issue: 366a
  publisher: Journal of the American statistical association
  page: 427-431
  type: article-journal
  issued:
    year: 1979
nocite: | 
  @tsay2014introduction, @campbell1997econometrics, @morettin2008econometria, @tsay2010analysis, @box1994time, @dickey1979distribution
---

Este material tem como objetivo contribuir para o entendimento sobre **processos não estacionários e sem sazonalidade**. Para tanto, vamos mostrar como realizar testes estatísticos para verificar a estacionariedade de uma série temporal e o impacto de não estacionariedade nos modelos ARMA estudados anteriormente. 

##### **INTRODUÇÃO**

Até o momento, focamos sobre a série dos retornos que em função de oscilar em um intervalo quase sempre controlado (-1 a 1) tende a ser estacionária. Porém, em alguns estudos temos interesse na avaliação de outras séries temporais **(taxa de juros, câmbio, inflação, crescimento econômico)**.

Estas séries tendem a ser não estacionárias, pois não oscilam em torno de uma média e com variância constante. Na literatura de séries temporais, chamamos tais séries de **séries com raiz unitária**. Um bom exemplo de série com raiz unitária é o **passeio aleatório** e abaixo, mostramos algumas propriedades desta série temporal.

##### **PASSEIO ALEATÓRIO**

Uma série temporal ${\left\{{p}_{t}\right\}}_{t=1}^{T}$ é um passeio aleatório se ela satisfaz:

$$
p_{t}=p_{t-1}+a_{t}
$$
onde podemos fazer $p_0$ um número real denotando o valor inicial do processo e $a_t$ é um ruído branco com média $0$, variância $\sigma_{a}^{2}$, $E\left[ \left(a_t-\bar{a}\right)\left(a_{t-l}-\bar{a}\right)\right]=E[a_{t}a_{t-l}]=0$ e independente e identicamente distribuído (iid).

Se assumimos que $p_{t}$ é o logaritmo do preço de uma ação em $t$, então $p_{0}$ seria o logaritmo do preço inicial da ação em um IPO (*initial public offering*). Se $a_{t}$ tem uma distribuição simétrica em torno de $0$ como a Normal, então condicionado a $p_{t-1}$, $p_{t}$ tem 50\% de chances de subir ou descer, implicando que $p_t$ deveria subir ou descer aleatóriamente. 

Se tratarmos um passeio aleatório como um caso especial de **AR(1)** quando não temos intercepto, então o coeficiente de $p_{t-1}$ é igual a $1$, que não satisfaz a condição de estacionariedade fraca ($\left| {\phi}_{1} \right| < 1$) mostrada anteriormente para o modelo **AR(1)**. Assim, o passeio aleatório é não estacionário e é chamado de série temporal com **raiz unitária**. Abaixo, exemplo de como simular um passeio aleatório no R.

```{r, echo=TRUE, warning=FALSE, message=FALSE, fig.height=5, fig.width=9}
#######################################
####  SIMULAÇÃO PASSEIO ALEATÓRIO #####
#######################################

# Fixar a raíz para que a simulação gere os mesmos dados em qualquer computador 
set.seed(123) 

# Simulação de um passeio aleatório
n <- 1000
p0 <- 10
phi1 <- 1
pt <- rep(p0,n)
for (i in 1:(n-1)) {
  pt[i+1] <- phi1*pt[i] + rnorm(1)
}

# Visualização do passeio aleatório.
plot(pt, type = "l", xlab = "observações", ylab = "preço", main = "Simulação Passeio Aleatório")
```

Observe no gráfico que o passeio aleatório iniciou em 10 (valor definido como `phi0` na simulação) e após isso oscilou, condicionado ao valor anterior, em função de um número aleatório obtido a partir de uma distribuição Normal com média zero e variância 1 (definido como `rnorm(1)` na simulação).

Caso uma série temporal de preços de um ativo financeiro (logaritmo dos preços) se comporte como um passeio aleatório, teremos que o preço de uma ação não é predizível. Para ver isto, vamos fazer a previsão um passo à frente do modelo:

$$
\begin{split}
p_{t+1} &= p_{t+1-1}+a_{t+1} \\
& \\
& = p_{t}+a_{t+1} \\
& \\
E\left[p_{t+1}|p_{t},p_{t-1},...\right] &= E\left[p_{t}\right] + E\left[a_{t+1}\right] \\
& \\
&= p_{t} + 0  \\
& \\
&= p_{t}
\end{split}
$$

que é o logaritmo do preço da ação na origem. Esta previsão não tem valor prático. A previsão dois passos à frente seria:

$$
\begin{split}
p_{t+2} &= p_{t+2-1}+a_{t+2} \\
& \\
& = p_{t+1}+a_{t+2} \\
& \\
E\left[p_{t+2}|p_{t+1},p_{t},p_{t-1},...\right] &= E\left[p_{t+1}|p_{t},p_{t-1},...\right] + E\left[a_{t+2}\right] \\
& \\
&= p_{t} + 0  \\
& \\
&= p_{t}
\end{split}
$$

que novamente é o logaritmo do preço na origem da previsão. De fato, para qualquer horizonte de previsão $l>0$, temos:

$$
E\left[p_{t+l}|p_{t+l-1},...\right] = {p}_{t}
$$
Assim, para todos os horizontes de previsão, o valor previsto de um passeio aleatório é simplesmente o valor da série na origem da previsão (temos como origem a última observação antes de se iniciar a previsão, ou seja, o último preço sempre seria a melhor previsão para qualquer horizonte de previsão). 

##### **PASSEIO ALEATÓRIO COM DRIFT**

Como vimos em alguns exemplos, é possível que uma série temporal tenha um valor médio diferente de zero. Isto implica que o modelo para o logaritmo dos preços (hipoteticamente, pois não esperamos retornos diferente de zero em média) é:

$$
p_{t} = \mu + p_{t-1} + a_{t}
$$
onde $\mu=E[p_{t}-p_{t-1}]$ e $a_{t}$ é um ruído branco com média $0$, variância $\sigma_{a}^{2}$, $E\left[ \left(a_t-\bar{a}\right)\left(a_{t-l}-\bar{a}\right)\right]=E[a_{t}a_{t-l}]=0$ e independente e identicamente distribuído (iid).

O termo de constante[^1] $\mu$ do modelo é muito importante em finanças. Ele representa a tendência temporal do logaritmo dos preços ($p_{t}$) e é frequentemente chamado de *drift* do modelo. Para ver isto, assuma que temos o valor do logaritmo inicial do preço que é representado por $p_0$. Então, 

[^1]: A partir do que foi discutido anteriormente, é importante entender o significado do termo da constante em um modelo de séries temporais. Primeiro, para um **MA(q)** tal termo é simplesmente a média da série. Segundo, para um modelo **AR(p)** ou **ARMA(p,q)** o termo da constante é relacionado à média por meio de $\mu = {{\phi}_{0}}/{(1-{\phi}_{1}-...-{\phi}_{p})}$. Terceiro, para um passeio aleatório com *drift*, o termo da constante se torna a inclinação da série temporal.


$$
p_1=\mu + p_{0} + a_{t}
$$

$$
p_2=\mu + p_{1} + a_{2} = 2\mu + p_{0} + a_{2} + a_{1}
$$
$$
...........................................
$$
$$
p_t=t\mu + p_{0} + a_{t} + a_{t-1} + ...+ a_{1}
$$

A última equação mostra que o logaritmo do preço consite de uma tendência temporal ($t\mu$) e um passeio aleatório ($\sum_{i=1}^{t}{{a}_{i}}$). Em função de $VAR(\sum_{i=1}^{t}{{a}_{i}})=t\sigma_{a}^{2}$, onde $\sigma_{a}^{2}$ é a variância de $a_{t}$, o desvio padrão condicional de $p_{t}$ é $\sqrt{t\sigma_{a}}$, que cresce a uma taxa mais lenta do que o valor esperado $E[p_t]= p_0+\mu t$. Portanto, se desenharmos um gráfico de $p_{t}$ contra $t$, teremos uma tendência temporal com inclinação $\mu$. Uma inclinação positiva, ou seja, $\mu>0$, indica que o logaritmo dos preços eventualmente tenderá ao infinito. Em contrapartida, se $\mu<0$ o logaritmo dos preços tenderá a $-\infty$ na medida que $t$ aumentar.

Abaixo, código em R que mostra como simular um passeio aleatório com *drift*:

```{r, echo=TRUE, warning=FALSE, message=FALSE, fig.height=5, fig.width=9}
##################################################
####  SIMULAÇÃO PASSEIO ALEATÓRIO  COM DRIFT #####
##################################################

# Simulação de um passeio aleatório com drift (pt = mi + phi1*pt-1 + at)
n <- 1000
p0 <- 10
mi <- 0.2
phi1 <- 1
pt_drift <- rep(p0,n)
for (i in 1:(n-1)) {
  pt_drift[i+1] <- mi + phi1*pt_drift[i] + rnorm(1)
}

# Visualização do passeio aleatório com drift
plot(pt_drift, type = "l", xlab = "observações", ylab = "preço", main = "Simulação Passeio Aleatório com Drift")
```

Observe que se você alterar o valor de `mi` para um número positivo ou negativo e visualizar a série, perceberá que tal parâmetro mudará a direção da curva (para baixo, se negativo e para cima, se positivo). Além disso, se você alterar o valor de `phi1` para um valor menor que 1 e visualizar os dados terá uma série estacionária, como esperado (lembre da restrição sobre tal parâmetro na derivação do modelo AR).

##### **PASSEIO ALEATÓRIO COM DRIFT E TENDÊNCIA DETERMINÍSTICA**

Outro exemplo de passeio aleatório é o que além de um drift tem uma tendência determinística, como segue:

$$
p_{t} = \mu + \gamma t + p_{t-1} + a_{t}
$$
Agora, temos o parâmetro $\gamma$ que está determinísticamente relacionado com o tempo ($t$). Assim, em cada instante do tempo a série será adicionada por tal parâmetro. O código abaixo mostra como simular um passeio aleatório com drift e tendência determinística no R. Observe que a série temporal apresenta uma tendência mais robusta que a série originada pelo passeio aleatório apenas com drift.

```{r echo=TRUE, fig.height=5, fig.width=9, message=FALSE, warning=FALSE}
##################################################
####  SIMULAÇÃO PASSEIO ALEATÓRIO  COM DRIFT #####
##################################################

# Simulação de um passeio aleatório com drift e tendência 
n <- 1000
p0 <- 10
mi <- 0.2
gama <- 2
phi1 <- 1
trend <- 1:n
pt_drift_trend <- rep(p0,n)
for (i in 1:(n-1)) {
  pt_drift_trend[i+1] <- mi + gama * trend[i] + phi1*pt_drift_trend[i] + rnorm(1)
}

# Visualização do passeio aleatório com drift
plot(pt_drift_trend, type = "l", xlab = "observações", ylab = "preço", main = "Simulação Passeio Aleatório com Drift e Tendência Determinística")

```

##### **TESTE DE RAIZ UNITÁRIA**

* **TESTE DE DICKEY-FULLER**

Para testar se o logaritmo dos preços ($p_t$) de um ativo financeiro segue um passeio aleatório, um passeio aleatório com *drift* ou passeio aleatório com drift e tendência determinística, usamos os modelos abaixo:

$$
p_{t}=\phi_{1}p_{t-1} + \epsilon_{t}
$$

$$
p_{t}= \mu + \phi_{1}p_{t-1} + \epsilon_{t}
$$

$$
p_{t}=\mu + \gamma t + \phi_{1}p_{t-1} + \epsilon_{t}
$$


onde $\epsilon_{t}$ denota o termo de erro. Observe que se ${\phi}_{1}=1$ em ambas as equações, teremos um passeio aleatório no primeiro caso, um passeio aleatório com drift no segundo caso e um passeio aleatório com drift e tendência determinística no terceiro caso. Observe a semelhança dessas equações do teste com as equações dos passeios aleatórios mostradas anteriormente. 

Assim, testar se a série temporal tem raiz unitário (se ela não é estacionária) consiste em testar a hipótese nula (não estacionariedade) ${H}_{0}:{\phi}_{1}=1$ contra a hipótese alternativa (estacionariedade) ${H}_{1}:{\phi}_{1}<1$. Este teste foi proposto por @dickey1979distribution e é conhecido como Dickey-Fuller. A partir da estimação das equações acima por meio de MQO, usa-se um teste convencional[^2] de $t$ sobre $\phi_{1}$. 

[^2]: Porém, sob a hipótese nula, a distribuição do teste não é convencional, ou seja, não é igual à distribuição $t$, pois $p_t$ não é estacionário. @dickey1979distribution recalcularam o valor da estatística $t$. O valor dessa estatística se altera conforme se define a equação de regressão e segundo o tamanho da amostra. Além disso, a distribuição de probabilidade do teste não é simétrica (maiores detalhes neste [link](https://stats.stackexchange.com/questions/213551/how-is-the-augmented-dickey-fuller-test-adf-table-of-critical-values-calculate/213589)).

Para a primeira equação ($p_{t}=\phi_{1}p_{t-1} + \epsilon_{t}$) MQO gera os seguintes estimadores:

$$
{\hat{\phi}}_{1}=\frac{\sum_{t=1}^{T}{{p}_{t-1}{p}_{t}}}{\sum_{t=1}^{T}{{p}_{t-1}^{2}}} 
$$

$$
{\hat{\sigma}}_{\epsilon}^{2}=\frac{\sum_{t=1}^{T}{{\left({p}_{t}-{\hat{\phi}}_{1}{p}_{t-1} \right)}^{2}}}{T-1} 
$$

onde $p_{0}=0$ e $T$ é o tamanho da amostra. A estatística do teste será:

$$
DF = \frac{\hat{\phi}_{1}}{std(\hat{\phi}_{1})} = \frac{\sum_{t=1}^{T}{{p}_{t-1}{\epsilon}_{t}}}{\hat{\sigma}_{\epsilon}\sum_{t=1}^{T}{{p}_{t-1}^{2}}}
$$

* **TESTE DE DICKEY-FULLER: OUTRA FORMULAÇÃO**

Subtraindo $p_{t-1}$ nas equações do teste, temos: 

$$
p_{t}=\phi_{1}p_{t-1} + \epsilon_{t} \Rightarrow p_t - p_{t-1} = \phi_{1}p_{t-1} - p_{t-1} + \epsilon_{t} \Rightarrow \Delta p_{t} = \beta p_{t-1} + \epsilon_{t}
$$

$$
p_{t}= \mu + \phi_{1}p_{t-1} + \epsilon_{t} \Rightarrow p_{t} - p_{t-1} = \mu + \phi_{1}p_{t-1} - p_{t-1} + \epsilon_{t}  \Rightarrow \Delta p_{t} = \mu + \beta p_{t-1} + \epsilon_{t}
$$

$$
p_{t}=\mu + \gamma t + \phi_{1}p_{t-1} + \epsilon_{t} \Rightarrow p_{t}-p_{t-1}=\mu + \gamma t + \phi_{1}p_{t-1} - p_{t-1} + \epsilon_{t} \Rightarrow \Delta p_{t} = \mu + \gamma t +  \beta p_{t-1} + \epsilon_{t}
$$

Assim, testar $\phi_{1}=1$ como apresentado anteriormente é o mesmo que testar $\beta=0$ para a formulação nova do teste. 

* **TESTE DE DICKEY-FULLER AUMENTADO**

O problema do teste anterior é que @dickey1979distribution consideraram o erro um ruído branco. Porém, frequentemente, o erro é um processo estacionário qualquer. Esse problema pode causar distorções no poder do teste. Além disso, muitas séries temporais econômicas podem seguir processos $ARIMA(p,d,q)$.

Suponha que $p_{t}$ seja um processo autorregressivo de ordem $p$, AR(p). 

$$
p_{t}=\mu + \phi_{1}p_{t-1} + ... +\phi_{p-1}p_{t-p+1}+ \phi_{p}p_{t-p} + \epsilon_{t}
$$

Para verificar a existência de raiz unitária nesse processo, pode-se performar o teste $H_{0}: \beta=0$ (não estacionariedade) contra $H_{a}: \beta < 0$ (estacionariedade), usando a regressão:

$$
\Delta p_{t}=\mu + \beta p_{t-1} + \sum_{i=1}^{p-1}{\phi_{i}\Delta p_{t-i}+ \epsilon_{t}} 
$$
onde $\mu$ é uma função determinística do tempo $t$ e $\Delta p_{t-i}=p_{j}-p_{j-1}$ é a série diferenciada. Na prática, $\mu$ pode ser $0$, uma constante ou $\mu+\gamma t$. A estatística do teste será:

$$
ADF-test=\frac{\hat{\beta}}{std(\hat{\beta})}
$$
onde $\hat{\beta}$ denotando a estimativa de mínimos quadrados de $\beta$ é o conhecido teste de raíz unitária de Dicker-Fullher aumentado. 

##### **MODELOS ARIMA**

Considere um modelo ARMA. Se permitirmos que o componente AR tenha uma raiz unitária, então o modelo se torna um **modelo autorregressivo integrado de média móvel (ARIMA)**. Lembre-se que anteriormente mostramos que a componente MA é sempre estacionária e por isso apenas o componente AR pode ter uma raiz unitária. 

* **DIFERENCIAÇÃO**:

Uma série temporal $y_{t}$ é um processo **ARIMA(p,1,q)** se a série das diferenças ($c_{t}=y_{t}-y_{t-1}$) segue um modelo ARMA(p,q) estacionário.  

A ideia de transformar uma série não estacionária em estacionária por considerar suas diferenças é chamado de **diferenciação** na literatura de séries temporais. Mais formalmente, $c_{t}=y_{t}-y_{t-1}$ é chamado de **primeira diferença** da série $y_{t}$. Em alguns casos pode ser preciso diferenciar a séries várias vezes para torná-la estacionária. Por exemplo, se tanto $y_{t}$ quanto sua primeira diferença são não estacionárias, mas $s_{t}=c_{t}-c_{t-1}=y_{t}-2y_{t-1}+y_{t-2}$ apresenta estacionariedade fraca, então $y_{t}$ tem duas raízes unitárias e $s_{t}$ é a série da segunda diferença de $y_{t}$. Assim, se $s_{t}$ segue um modelo ARMA(p,q) então $y_{t}$ é um modelo ARMA(p,2,q).

Como exemplo, para os passeios aleatórios simulados anteriormente, observe que uma simples diferenciação de primeira ordem nos dados torna a série aparantemente estacionária. 

```{r, echo=FALSE, warning=FALSE, message=FALSE, fig.height=5, fig.width=9}
##################################################
####  SIMULAÇÃO PASSEIO ALEATÓRIO  COM DRIFT #####
##################################################

par(mfrow=c(3,1)) 

# Visualização da primeira diferença do passeio aleatório que é estacionário
plot(diff(pt), type = "l", xlab = "", ylab = "", main = "Primeira diferença - passeio aleatório")

# Visualização da primeira diferença do passeio aleatório que é estacionário
plot(diff(pt_drift), type = "l", xlab = "", ylab = "", main = "Primeira diferença - passeio aleatório com drift")

#  Visualização da primeira diferença do passeio aleatório que é estacionário
plot(diff(pt_drift_trend), type = "l", xlab = "", ylab = "", main = "Primeira diferença - passeio aleatório com drift e tendência determinística")
```


Em finanças e conforme mostramos anteriormente, os preços de ativos financeiros comumente são não estacionários, mas o logaritmo dos retornos ou o retorno simples é estacionário.

```{r, echo=FALSE, fig.height=5, fig.width=9, warning=FALSE, message=FALSE}
##############################
####  DADOS DA AÇÃO MSFT #####
##############################

suppressMessages(require(highcharter))
suppressMessages(require(tidyquant))
suppressMessages(require(quantmod))
suppressMessages(require(PerformanceAnalytics))
suppressMessages(require(tseries))

# Coletando dados do Yahoo Finance (https://finance.yahoo.com/) usando o pacote
# quantmod (https://www.quantmod.com/). Uma breve documentação do pacote pode ser
# encontrada neste link (http://statmath.wu.ac.at/~hornik/QFS1/quantmod-vignette.pdf).
microsoft <- quantmod::getSymbols("MSFT", src = "yahoo", warnings = FALSE, auto.assign=FALSE)

# Calcular o retorno do fechamento dos preços da ação do Google usando o logaritmo [lnPt-ln(Pt-1)]
# Usamos a função Return.calculate do pacote PerformanceAnalytics. Uma breve documentação do pacote
# pode ser encontrada neste link (http://braverock.com/brian/R/PerformanceAnalytics/html/PerformanceAnalytics-package.html)
logmicrosoft <- PerformanceAnalytics::Return.calculate(microsoft$MSFT.Close, method = "log")

# Gráfico da série temporal dos retornos 
hc0 <- highchart(type = "stock") %>% 
  hc_title(text = "Comparação entre preço de fechamento e retorno da ação da Microsoft") %>% 
  hc_subtitle(text = "Dados extraídos usando o pacote quantmod do R") %>% 
  hc_add_series(logmicrosoft, id = "ts", color = "red", name = "Retorno") %>%
  hc_add_series(microsoft$MSFT.Close, id = "ts", color = "blue", name = "Preço")


hc0

```

O gráfico da função de autocorrelação (FAC) pode ser útil para identificar séries temporais não estacionárias. Para uma série temporal estacionária, o gráfico da FAC mostrará um **decaimento para $0$ relativamente rápido** enquanto para uma série não estacionária o **decaimento será lento.** Além disso, **a primeira defasagem da FAC** é grande e estatísticamente significativo para séries não estacionárias. Abaixo, os dois gráficos da FAC para as séries de preço e retorno da ação da Microsoft. 

```{r, echo=FALSE, results='asis', fig.height=5, fig.width=9, warning=FALSE, message=FALSE}
# Usamos a função acf do pacote stats para calcular a função de autocorrelação 
# da série temporal dos preços (perceba que dentro do objeto microsoft há vários
# dados, mas escolhemos o fechamento. Para saber quais dados existem em um objeto
# retornardo por meio do pacote quantmod use head(nomeobjeto), aqui head(microsoft))
# Com relação à função acf, optamos por não visualizar o resultado em um gráfico, pois
# fazemos o nosso próprio gráfico e com no máximo 30 defasagens
acfprice <- stats::acf(microsoft$MSFT.Close, plot = FALSE, na.action = na.pass, lag.max = 30)

# Gráfico da função de autocorrelação com adição do título
plot(acfprice, main = "", ylab = "", xlab = "Defasagem")
title("Função de Autocorrelação (FAC) dos Preços", adj = 0.5, line = 1)
```

```{r, echo=FALSE, fig.height=5, fig.width=9, warning=FALSE, message=FALSE}
# O mesmo que antes, mas agora para a série temporal dos retornos
acfreturn <- stats::acf(logmicrosoft, plot = FALSE, na.action = na.pass, lag.max = 30)
plot(acfreturn, main = "", ylab = "", xlab = "Defasagem")
title("Função de Autocorrelação (FAC) dos Retornos", adj = 0.5, line = 1)
```

Assim, temos que a série dos preços da ação **MSFT** (Microsoft) se comporta como um processo não estacionário enquanto os retornos desta ação apresentam uma FAC com maior probabilidade de ser proveniente de um processo estacionário.

##### **PROCESSO DE ESTIMAÇÃO DE MODELOS ARIMA**

Quando estamos ajustando um modelo ARIMA usando dados de uma série temporal (não sazonal), o seguinte procedimento pode ser seguido:

1. Visualizar os dados e identificar observações fora do padrão (*outliers* ou dados faltantes) e eliminá-las.
2. Se necessário, transformar os dados para estabilizar a variância (logaritmo dos dados, variação ou retorno, por exemplo)
3. Testar se os dados são estacionários. Caso tenha raiz unitária é preciso diferenciar os dados até se tornarem estacionários. Para isso, testa-se novamente se a série diferenciada se tornou estacionária.
4. Examinar as funções de autocorrelação (FAC) e autocorrelação parcial (FACP) para determinar as ordens máximas $P$ e $Q$ para os componentes AR e MA da série estacionária (diferenciada, se necessário).
5. Estimar todas as combinações para $p$, $d$ e $q$. Aqui, $d$ será fixo e igual ao número de vezes necessárias para tornar a série original estacionáira. Se não foi preciso diferenciar a série, $d=0$.
6. Escolher dentre todos os modelos estimados no passo anterior, o modelo com menor AIC e/ou BIC.
7. Examinar se os resíduos se comportam como ruído branco. Caso contrário, retornar ao passo 3 ou 4.
    * Testar autocorrelação nos resíduos
    * Testar se tem heterocedasticidade condicional
    * Verificar a distribuição de probabilidade 
8. Uma vez que os resíduos são ruído branco, obter as previsões.

1. Visualizar os dados e identificar observações fora do padrão (*outliers* ou dados faltantes) e eliminá-las.
2. Se necessário, transformar os dados para estabilizar a variância (logaritmo dos dados, variação ou retorno, por exemplo)
3. Testar se os dados são estacionários. Caso tenha raiz unitária é preciso diferenciar os dados até se tornarem estacionários. Para isso, testa-se novamente se a série diferenciada se tornou estacionária.
4. Examinar as funções de autocorrelação (FAC) e autocorrelação parcial (FACP) para determinar as ordens máximas $P$ e $Q$ para os componentes AR e MA da série estacionária (diferenciada, se necessário).
5. Estimar todas as combinações para $p$, $d$ e $q$. Aqui, $d$ será fixo e igual ao número de vezes necessárias para tornar a série original estacionáira. Se não foi preciso diferenciar a série, $d=0$.
6. Escolher dentre todos os modelos estimados no passo anterior, o modelo com menor AIC e/ou BIC.
7. Examinar se os resíduos se comportam como um ruído branco:
    * Testar autocorrelação nos resíduos: visualizar a função de autocorrelação (FAC) dos resíduos. Se existem defasagens estatisticamente significante (acima da linha pontilhada), há autocorrelação serial.
    * Testar heterocedasticidade condicional: visualizar a função de autocorrelação (FAC) dos resíduos ao quadrado. Se existem defasagens estatisticamente significante (acima da linha pontilhada), há heterocedasticidade condicional.
    * Verificar a distribuição de probabilidade assumida no processo de estimação: realizar teste que verifique se os resíduos se comportam de acordo com a distribuição de probabilidade adotada.
8. Se os resíduos são bem comportados (ruído branco), **obter as previsões apenas com a estimação da média condicional**. Caso contrário, revisar os passos anteriores para certificar que foram realizados corretamente. Se mesmo assim existir heterocedasticidade condicional e a distribuição de probabilidade não condiz com a hipótese assumida (geralmente uma distribuição Normal), **avaliar a possibilidade de estimar a variância condicional** (estudaremos depois como fazer essa estimação). 
    

* **EXEMPLO 1:**

Vamos usar como exemplo para o processo apresentado anteriormente dados da ação **MSFT** (Microsoft). Assim, temos:


```{r, echo=FALSE, results='asis', fig.width=9, warning=FALSE, message=FALSE}
# Gráfico da série temporal dos preços 
hc0 <- highchart(type = "stock") %>% 
  hc_title(text = "Preço de fechamento da ação da Microsoft") %>% 
  hc_subtitle(text = "Dados extraídos usando o pacote quantmod do R") %>% 
  hc_add_series(microsoft$MSFT.Close, id = "ts", color = "blue", name = "Preço")


hc0
```

1. O gráfico da série temporal dos preços mostra comportamento de tendência não determinística para o período em análise. Porém, não encontramos outliers ou dados faltantes que justifiquem seu tratamento.

```{r, echo=FALSE, results='asis', fig.width=9, warning=FALSE, message=FALSE}
# Gráfico da série temporal dos retornos. Já mostramos anteriormente como 
# extrair os dados e calcular o retorno. Aqui, temos o gráfico dos retornos
hc1 <- highchart(type = "stock") %>% 
  hc_title(text = "Retornos da ação da Microsoft") %>% 
  hc_subtitle(text = "Dados extraídos usando o pacote quantmod do R") %>% 
  hc_add_series(logmicrosoft, id = "ts", color = "red", name = "Retorno")


hc1
```

2. Porém, sabemos que é melhor trabalhar com os retornos do que os preços de um ativo financeiro. Um dos benefícios de fazer isso é que tal transformação estabiliza a variância dos dados. Neste sentido, obtemos os retornos para a ação da Microsoft e como mostra o gráfico acima, a variância melhorou em função de não termos mais uma tendência não determinística.

3. Claramente, os dados são estacionários, em função de serem retornos. Mesmo assim, executamos o teste de raiz unitária ADF com $2$ defasagens.

```{r, echo=FALSE, warning=FALSE, message=FALSE}
# Aqui, usamos a função adfTest do pacote fUnitRoots para testar se há raiz unitária na série temporal avaliada. 
# Como observamos no gráfico da série, não há tendência nos dados e assim o teste verificará se a série se comporta
# como um passeio aleatório sem drift. Isto é evidênciado por meio da opção type que tem as seguintes opções:
# - nc: for a regression with no intercept (constant) nor time trend (passeio aleatório)
# - c: for a regression with an intercept (constant) but no time trend (passeio aleatório com drift)
# - ct: for a regression with an intercept (constant) and a time trend (passeio aleatório com constante e tendência)
# Além disso, definimos que no máximo duas defasagens da série devem ser usadas como variáveis explicativas da regressão do teste.
unitRoot <- suppressWarnings(fUnitRoots::adfTest(logmicrosoft,lags=2, type=c("nc")))
print(unitRoot)
```

Como resultado temos que a estatística do teste é `r round(unitRoot@test$statistic,4)` com um p-valor de `r round(unitRoot@test$p.value,4)`. Assim, a hipótese nula de raiz unitária pode ser rejeitada em qualquer nível de significância razoável (5\%, por exemplo) e a série temporal do retorno da ação **MSFT** (Microsoft) não tem raiz unitária, ou seja, é estacionária. Em função disso, vamos trabalhar com os retornos em nível e avaliar o comportamento das funções de autocorrelação e autocorrelação parcial. **Obs.: caso a série tenha raiz unitária é preciso aplicar a diferença na mesma e refazer o teste para verificar se rejeitamos a hipótese nula de não estacionariedade para a série da primeira diferença dos retornos**

```{r, echo=FALSE, fig.height=10, fig.width=9}
##########################
####   FAC e FACP    #####
##########################

# Calcular a FAC usando o objeto logmicrosoft (retornos)
acf_microsoft <- stats::acf(logmicrosoft, plot = FALSE, na.action = na.pass, max.lag = 25)
# Calcular a FACP usando o objeto logmicrosoft (retornos)
pacf_microsoft <- stats::pacf(logmicrosoft, plot = FALSE, na.action = na.pass, max.lag = 25)

# Gráfico da FAC e FACP juntos. Aqui usamos a opção par(mfrow=c(2,1)) que 
# divide a tela de gráficos em uma matrix com 2 linhas e 1 colunas.
par(mfrow=c(2,1))
plot(acf_microsoft, main = "", ylab = "", xlab = "Defasagem")
title("Função de Autocorrelação (FAC) dos Retornos da Microsoft", adj = 0.5, line = 1)
plot(pacf_microsoft, main = "", ylab = "", xlab = "Defasagem")
title("Função de Autocorrelação Parcial (FACP) dos Retornos da Microsoft", adj = 0.5, line = 1)
```

4. A FACP sugere um modelo $AR(2)$ enquanto a FAC sugere um modelo $MA(5)$. 

5. Usando todas as combinações das ordens encontradas anteriormente, estimamos os modelos ARIMA. 

```{r, echo=FALSE, warning=FALSE, message=FALSE}
# Todas as combinações possíveis de p=0 até p=max e q=0 até q=max
pars_microsoft <- expand.grid(ar = 0:2, diff = 0, ma = 0:5)

# Local onde os resultados de cada modelo será armazenado
modelo_microsoft <- list()

# Estimar os parâmetros dos modelos usando Máxima Verossimilhança (ML). Por default, a função arima
# usa a hipótese de que o termo de erro dos modelos arima segue uma distribuição Normal
for (i in 1:nrow(pars_microsoft)) {
  modelo_microsoft[[i]] <- arima(x = logmicrosoft, order = unlist(pars_microsoft[i, 1:3]), method = "ML")
}

# Obter o logaritmo da verossimilhança (valor máximo da função)
log_verossimilhanca_microsoft <- list()
for (i in 1:length(modelo_microsoft)) {
  log_verossimilhanca_microsoft[[i]] <- modelo_microsoft[[i]]$loglik
}

# Calcular o AIC
aicarima_microsoft <- list()
for (i in 1:length(modelo_microsoft)) {
  aicarima_microsoft[[i]] <- stats::AIC(modelo_microsoft[[i]])
}

# Calcular o BIC
bicarima_microsoft <- list()
for (i in 1:length(modelo_microsoft)) {
  bicarima_microsoft[[i]] <- stats::BIC(modelo_microsoft[[i]])
}

# Quantidade de parâmetros estimados por modelo
quant_paramentros_microsoft <- list()
for (i in 1:length(modelo_microsoft)) {
  quant_paramentros_microsoft[[i]] <- length(modelo_microsoft[[i]]$coef)+1 # +1 porque temos a variância do termo de erro 
}

# Montar a tabela com os resultados
especificacao_microsoft <- paste0("ARIMA",pars_microsoft$ar, pars_microsoft$diff, pars_microsoft$ma)
tamanho_amostra_microsoft <- rep(length(logmicrosoft), length(modelo_microsoft))
resultado_microsoft <- data.frame(especificacao_microsoft, ln_verossimilhanca = unlist(log_verossimilhanca_microsoft),
                                  quant_paramentros_microsoft =  unlist(quant_paramentros_microsoft), 
                                  tamanho_amostra_microsoft, 
                                  aic = unlist(aicarima_microsoft), bic = unlist(bicarima_microsoft))

# Gerar uma tabela que será visualizada no documento. Mais detalhes em http://haozhu233.github.io/kableExtra/
knitr::kable(resultado_microsoft, format = "pandoc", digits = c(0,2,0,0,2), align = 'c')
```
6. Os resultados mostram que o modelo $ARIMA(1,0,1)$ é o modelo escolhido, pois tem o menor BIC.

7. A FAC dos resíduos do modelo mostra que a maior parte das autocorrelações estão dentro dos limites, indicando que os resíduos não apresentam autocorrelação serial.

```{r, echo=FALSE, fig.width=9, fig.height=5,warning=FALSE, message=FALSE}
# Função de autocorrelação dos resíduos
acf_arima101_est <- stats::acf(modelo_microsoft[[5]]$residuals, na.action = na.pass, plot = FALSE, lag.max = 15)

# Gráfico da função de autocorrelação. 
plot(acf_arima101_est, main = "", ylab = "", xlab = "Defasagem")
title("Função de Autocorrelação (FAC) dos Resíduos do ARIMA(1,0,1)", adj = 0.5, line = 1)
```

Porém, ao analisar a presença de heterocedasticidade condicional por meio da FAC dos resíduos ao quadrado, encontramos diversas defasagens estatisticamente significantes indicando a presença de heterocedasticidade condicional nos resíduos obtidos do modelo. Isso é esperado dado que estamos trabalhando com retornos e como aprendemos anteriormente por meio dos fatos estilizados, existem clusters de volatilidade na série temporal de retornos de um ativo financeiro. Neste sentido, é necessário modelar o segundo momento condicional desta série (variância condicional) e isso será feito pela família de modelos de heterocedasticidade condicional (estudados posteriormente).

```{r, echo=FALSE, fig.width=9, fig.height=5,warning=FALSE, message=FALSE}
# Teste de heterocedasticidade condicional
acf_arima101_square <- acf(modelo_microsoft[[5]]$residuals^2, na.action = na.pass, plot = FALSE, lag.max = 20)
plot(acf_arima101_square, main = "", ylab = "", xlab = "Defasagem")
title("FAC do quadrado dos resíduos do ARIMA(1,0,1)", adj = 0.5, line = 1)
```

Por fim, avaliamos se os resíduos são normalmente distribuídos por meio dos testes de Shapiro e Jarque Bera. A hipótese nula dos testes é que os dados são normalmente distribuídos contra a hipótese alternativa que os dados não são normalmente distribuídos. Sabemos que o p-valor é o nível de significância mínimo para se rejeitar a hipótese nula. Assim, queremos um p-valor alto (>0,05) o que não nos permite rejeitá-la.

Como resultado, encontramos que é possível rejeitar a hipótese nula de que os resíduos são normalmente distribuídos em função do p-valor dos testes ser menor que 0,05.


```{r, echo=FALSE}
# Teste de Normalidade dos resíduos. As hipóteses para os dois testes são:
#  - H0: resíduos normalmente distribuídos
#  - H1: resíduos não são normalmente distribuídos
shapiro.test(na.remove(modelo_microsoft[[5]]$residuals))
jarque.bera.test(na.remove(modelo_microsoft[[5]]$residuals))
```

8. Em função de nosso modelo não se comportar da forma esperada, não podemos fazer previsões usando o mesmo

##### **REFERÊNCIAS**