Licença

This work is licensed under the Creative Commons Attribution-ShareAlike 4.0 International License. To view a copy of this license, visit http://creativecommons.org/licenses/by-sa/4.0/ or send a letter to Creative Commons, PO Box 1866, Mountain View, CA 94042, USA.

License: CC BY-SA 4.0

Citação

Sugestão de citação: FIGUEIREDO, Adriano Marcos Rodrigues. Séries Temporais com R: Conceitos iniciais. Campo Grande-MS, Brasil: Posit/Rpubs, 2023. Disponível em https://rpubs.com/amrofi/conceitos_time_series_intro2.

1 Apresentação

O objetivo deste material é capacitar o estudante a realizar aplicações com séries temporais, previsões futuras e decomposição da sazonalidade, tendência e ciclos em séries econômicas. Também trabalha-se a modelagem multivariada de fenômenos econômicos temporais.

Inicialmente, faz-se a apresentação do histórico e a evolução do pensamento em séries temporais, além de detalhar alguns conceitos básicos em séries temporais.

O leitor é encorajado a utilizar o RStudio, e desta forma, espera-se que já tenha instalado o R e o RStudio atualizados.

2 Iniciando um projeto em RStudio

Inicialmente o leitor deve baixar os programas e pacotes necessários ao projeto. Neste caso, sugere-se que utilize o RStudio e o R atualizados, a partir de: http://cran.r-project.org/bin/windows/base/ e https://www.rstudio.com/products/rstudio/download3/. Quando esta revisão foi feita, a versão do RStudio era a RStudio Desktop 1.1.423 e do R-3.4.3 for Windows (32/64 bit).

Primeiro instale o R e posteriormente o RStudio, de modo que o segundo reconheça automaticamente o primeiro. Se tudo estiver perfeito, a tela inicial do RStudio mostrará corretamente a versão do R (Figura 1).

Figura 1. do RStudio na tela inicial.

Considerando que o usuário já tenha instalado corretamente o R e o RStudio, o próximo passo recomendado é criar um projeto. A opção está no menu File \ New Project conforme a Figura 2.

Figura 2. RStudio File New Project

Na sequência, o RStudio abre janelas para escolher se deseja o projeto em novo diretório ou em um diretório existente. Se escolher novo (New Directory), aparecerão as opções (Figura 3) de projeto vazio (Empty Project), ou um pacote ou uma aplicação Shiny, e escolhe-se a opção Empty Project. Assim, o software criará uma pasta de trabalho e dentro desta haverá a criação do novo projeto. A janela Create New Project permitirá que o usuário escolha onde será criada a nova pasta e o nome do diretório desejado. Feito isso, clica-se em Create Project e abrirá o novo projeto, em seu próprio ambiente (ou diretório) de trabalho.

Figura 3. RStudio: Janela de criação do novo projeto

O ambiente básico de trabalho, conforme a Figura 4, é separado em quadrantes: à esquerda superior estão os códigos e scripts; à direita superior estão os dados, valores e funções; à direita inferior têm-se abas para os arquivos (Files), gráficos (Plots), Pacotes (Packages), ajuda (Help) e visualização (Viewer); à esquerda inferior, tem-se o console e as saídas da execução do script. No topo da tela pode-se visualizar o caminho ou diretório de trabalho.

Figura 4. RStudio: Novo projeto

O próximo passo sugerido é colocar, por meio do Explorador de Arquivos do Windows, o arquivo xlsx (ou outro formato) no diretório onde está o projeto. Feito isto, ele aparecerá na janela Files (Figura 5).

Figura 5. RStudio: Arquivos no ambiente de trabalho

Agora chame um script para ajustar ao seu objetivo. Abra em File/Open file e escolha um script (o arquivo com extensão .R). Como dica, escolha um script que se assemelhe ao que pretende fazer (Figura 6).

Figura 6. RStudio: escolhendo o script

Abra-o e salve em seu diretório de trabalho (Figura 7).

Figura 7. RStudio: salvando o script

Feito isto, inicie as alterações em seu script conforme seu objetivo. O ajuste do script depende do que pretende fazer Neste caso, pretendemos abrir os dados do Consumo do varejo de São Paulo utilizado no livro de Morettin e Toloi (2006), que está no Excel (xlsx), que colocamos numa planilha chamada “dados”. Uma dica: arrume o Excel antes de começar o script do R.

#primeiro chamamos os packages necessarios. Outra opcao é chama-los na medida do necessario
# seguirei os passos semelhante ao livro do Hyndman no https://www.otexts.org/fpp/2/1
# fpp: Data for "Forecasting: principles and practice"
# install.packages("fpp")
library(fpp2)
## Registered S3 method overwritten by 'quantmod':
##   method            from
##   as.zoo.data.frame zoo
## ── Attaching packages ────────────────────────────────────────────── fpp2 2.4 ──
## ✔ ggplot2   3.4.1     ✔ fma       2.4  
## ✔ forecast  8.19      ✔ expsmooth 2.3
## 
#vou puxar os libraries que tenho costume de usar: destaque para o readxl e tseries
library(readxl)
# library(foreign);library(dynlm);library(car);library(lmtest)
# library(sandwich);library(tseries) 
library(lattice)
dados <- read_excel("CONSUMO morettin R.xlsx", 
                    sheet = "dados")
attach(dados)
dados2<- matrix(consumo)
dados.ts<- ts(dados2,start=c(1984,1), frequency = 12)
plot(dados.ts,main="Consumo do varejo de São Paulo, 
     Morettin e Toloi (2006)",
              xlab="Ano",ylab="índice")

plot(consumo, 
     main="Consumo do varejo de São Paulo, 
     Morettin e Toloi (2006)")

# verás que o objeto consumo não é compreendido como time series
# e o plot sai com bolhas inves de linha
#
# no pacote lattice
xyplot.ts(dados.ts,main="Consumo do varejo de São Paulo, 
     Morettin e Toloi (2006)")

#no ggplot
library(ggplot2)
datas <- seq(as.Date(paste(c(start(dados.ts),1), collapse="/")), 
             by = "month", length.out = length(consumo))
dados.df <- data.frame(date = datas, value = consumo)
ggplot(data=dados.df) + geom_line(aes(date, consumo)) + ggtitle("Consumo do varejo de São Paulo, 
     Morettin e Toloi (2006)"
)

Agora faremos um exemplo acompanhando a indicação de Hyndman e Athanasopoulus (2014).

#Outro exemplo do Hyndman: Vendas de drogas antidiabetes
# investigando padrões nos dados: tendência, sazonalidade e ciclo
plot(a10, ylab="$ million", xlab="Year", main="Antidiabetic drug sales")

#seasonal plots do Hyndman: 
seasonplot(a10,ylab="$ million", xlab="Year", 
           main="Seasonal plot: antidiabetic drug sales",
           year.labels=TRUE, year.labels.left=TRUE, col=1:20, pch=19)

# semelhante grafico sazonal do consumo do Morettin e Toloi:
seasonplot(dados.ts,ylab="indice", xlab="Ano", 
           main="Seasonal plot: Consumo do varejo de São Paulo,
           Morettin e Toloi (2006)",
           year.labels=TRUE, year.labels.left=TRUE, col=1:20, pch=19)

#Seasonal subseries plots: Hyndman:
monthplot(a10,ylab="$ million",xlab="Month",xaxt="n",
          main="Seasonal deviation plot: antidiabetic drug sales")
axis(1,at=1:12,labels=month.abb,cex=0.8)

#Seasonal subseries plots: consumo do Morettin e Toloi:
monthplot(consumo,ylab="indice",xlab="Mês",xaxt="n",
          main="Seasonal deviation plot: 
Consumo do varejo de São Paulo,
          Morettin e Toloi (2006)")
axis(1,at=1:12,labels=month.abb,cex=0.8)

3 Antecedentes

A análise estatística separa os conjuntos de observações com acompanhamento temporal como um tipo de série que requer análises específicas. Conforme Mattos (2016)1, a série temporal da variável aleatória Y apresentará uma dependência serial, uma ordenação específica que impedirá qualquer reordenação, diferentemente de uma amostra aleatória de observações independentes.

O modelo de série temporal aparece então como uma expressão matemática do comportamento da série e poderá ser utilizado para previsões de valores em determinados momentos no tempo, uma vez considerados seus padrões temporais. Na área econômica as séries temporais têm sido aplicadas em estudos principalmente onde se requer a variação temporal, estudos de mudança tecnológica, acompanhamentos macroeconômicos de inflação, contas nacionais, oferta e demanda de moeda, ativos financeiros, risco, cálculos de elasticidades entre outras variáveis econômicas temporais.

Mattos op. cit. ilustra os antecedentes históricos da análise de séries temporais, iniciada mais formalmente com os modelos de decomposição da tendência, do ciclo e a sazonalidade antes de 1955, aprofundada pelos modelos de Holt, Winters e Brown ou também chamados de modelos de alisamento ou suavização exponencial (do inglês exponential smoothing).

Já nas décadas de 1960-70, os modelos de Box-Jenkins2 e Granger e Newbold3 se tornaram predominantes, com análises incluindo termos autorregressivos e médias móveis nas análises, ou os chamados ARIMA (autorregressivo integrado média móvel).

Na década de 1980, os modelos estruturais e bayesianos começam a ser aplicados, simultaneamente aos desenvolvimentos relacionados a cointegração entre séries temporais. Com o passar dos anos, portanto, os econometristas perceberam a necessidade de livros técnicos específicos para tratar os problemas relacionados às séries temporais, surgindo célebres literaturas como o livro de MILLS (1990)4, HAMILTON (1994)5, HENDRY (1995)6, e MORETTIN e TOLOI (2006)7 no Brasil.

As séries temporais apresentam ênfase (mas não exclusividade) em métodos univariados, diferentemente da econometria em geral que se preocupa em explicar relações multivariadas, regressões múltiplas e mesmo sistema multiequacionais. A informação do modelo de séries temporais (ST) está nos dados, no comportamento ao longo do tempo, diferentemente da base teórica econômica a qual orienta o desenho dos modelos econométricos (Quadro 1).

Quadro 1. Diferenciação entre os modelos de série temporal daqueles da econometria em geral.

4 Conceitos básicos

4.1 Introdução

A série temporal tipicamente faz a relação de uma entidade em vários períodos de tempo. Por exemplo, a Figura 2.1 mostra os retornos das ações das Lojas Americanas (LAME4), das Lojas Renner (LREN3) e da Petrobras (PETR4).

library(readxl)
dados <- read_excel("ativos lame lren petr.xlsx", 
                    sheet = "dados")
attach(dados)
#View(dados)
lame4.ts<-ts(lame4,start=c(2005,10), frequency = 12)
lren3.ts<-ts(lren3,start=c(2005,10), frequency = 12)
petr4.ts<-ts(petr4,start=c(2005,10), frequency = 12)
plot(lame4.ts,main="Figura 2.1. Exemplo gráfico de séries temporais: 
     LAME4, LREN3 e PETR4, 2005-2012.", sub="Lojas Americanas (lame4), Lojas Renner (lren3) e Petrobras (petr4)",
              xlab="Mes/Ano",ylab="Retorno mensal", type="o",col = "black",lwd=2,lty=1)
lines(lren3.ts,type="o",col = "red",lwd=2,lty=2)
lines(petr4.ts,type="o",col = "green",lwd=2,lty=3)
# Adicionar a legenda
legend("topright",c("Lojas Americanas (lame4)", "Lojas Renner (lren3)", "Petrobras (petr4)"),lwd=2,lty=1:3,col=c(1,2,3),cex = 0.5) 

Em geral, as primeiras análises procuram observar padrões no tempo, como a tendência de (de)crescimento, ciclos de altas(baixas), ou sazonalidade (padrões repetitivos no curto prazo) e eventuais irregularidades. Seja uma relação de séries temporais \(y\) e \(x_k\):

\[{y_t} = {b_0} + {b_1}{x_{1t}} + \ldots + {b_k}{x_{kt}} + {u_t}\]

As séries temporais possuem uma ordenação explícita no tempo. As relações podem ser contemporâneas (mesmo tempo t) ou dinâmicas (tempos distintos):

\({y_t} = {b_0} + {b_1}{x_{1t}} + \ldots + {b_k}{x_{kt}} + {u_t}\) contemporâneas

\({y_t} = {a_0} + {d_0}{z_t} + {d_1}{z_{t - 1}} + {d_2}{z_{t - 2}} + {u_t}\) dinâmicas ou defasadas

O exemplo anterior é típico de defasagem distribuída de ordem 2. O processo genérico poderia ser de q defasagens de z, ou ordem q , dado por:

\({y_t} = {a_0} + {d_0}{z_t} + {d_1}{z_{t - 1}} + \ldots + {d_q}{z_{t - q}} + {u_t}\)

4.1.1 Passeio Aleatório (Random Walk)

O passeio ou caminho aleatório (Figura 8) é um processo \(\{X_t\}\) tal que depende apenas de seus valores passados e de um processo puramente aleatório \(\{ε_t\}\) com média \(\mu\) e variância \(σ^2_ε\) tal que:

  • \(X_t = X_{t-1} + ε_t\) caminho aleatório sem intercepto

  • \(X_t = \delta + X_{t-1} + ε_t\) caminho aleatório com intercepto

Substituindo a expressão de \(X_{t-1}\) em \(X_t\) tem-se \(X_t = X_{t-2} + ε_{t-1} + ε_t\). Generalizando tem-se \(X_t\) como função do valor inicial \(X_0=0\).

Figura 8. Passeio aleatório ilustrado.

Fonte: Adaptada de http://scifun.chem.wisc.edu/WOP/RandomWalk.html

4.1.1.1 Simulação de um passeio aleatório genérico

O passeio aleatório no R é feito numa simulação, neste caso, para uma função normal genérica. Ver script e Figura.

# SIMULANDO UM PASSEIO ALEATORIO GENERICO
# simulate random walk 
#
set.seed(321)
e = rnorm(250)
y.rw = cumsum(e)
ts.plot(y.rw, lwd=2, col="blue", main="Random Walk")
abline(h=0)

É possível verificar oscilações na série ao longo do tempo. A presença de eventuais tendências (se alterando ao longo de subamostras) e oscilações que indicam volatilidade ao longo das diferentes subamostras. Tais indicações, embora graficamente ainda representem apenas indicações, darão possíveis interpretações de não-estacionariedade da série.

4.1.1.2 Exemplo para a série do PIB Brasileiro

Neste exemplo utiliza-se a série n. 22109 do PIB a preços de mercado (SCN-2010, Trimestral, (1995=100), dados dessazonalizados ), de 1995T01 até 2016T04. Ver script e Figura. Por dificuldades operacionais com os pacotes BETS e ecoseries, optamos por baixar os dados diretamente do site do Banco Central do Brasil e chamar os dados para o R (Figura 9).

Figura 9. Site do Banco Central do Brasil.

# ver http://api.bcb.gov.br
# exemplo banco central do Brasil
# serie 22109  PIB a preços de mercado SCN-2010 (Trimestral) (1995=100)
# dados dessazonalizados # 01/01/1995 até 4º Trim. 2016  
library(ecoseries)
# series_bacen(x, from = "", to = "", save = "")
bacen <- series_bacen(x=c(22109),from = "31/12/1994", to = "01/01/2017")
#View(bacen)
#attach(bacen)
bacen.ts<-bacen$serie_22109
attach(bacen.ts)
pib.ts<-ts(valor, start = c(1996,1),frequency=4)
plot(pib.ts,main="BCB série 22109: PIB a preços de mercado SCN-2010 (Trimestral) (1995=100)",type = "o",col="black",lwd=2,lty=1, ylab = "Indice 1995=100",xlab="trimestre")

Por problemas operacionais do site, baixamos os dados em csv e depois chamamos para o R.

#Exemplo PIB - site com problemas
# baixei os dados em csv e vou chamar para o R
library(readxl)
bacen <- read_excel("pib_bacen.xlsx", 
                        sheet = "dados")
#View(bacen)
bacen<-bacen[,2]
attach(bacen)
## The following object is masked _by_ .GlobalEnv:
## 
##     bacen
pib.ts<-ts(bacen, start = c(1996,1),frequency=4)
plot(pib.ts,main="PIB a preços de mercado 
     SCN-2010 (Trimestral) (1995=100)",
     sub="BCB série 22109",type = "o",col="black",lwd=2,lty=1, 
     ylab = "Índice 1995=100",xlab="trimestre")

# Estacionariedade do PIB
dpib<-diff(pib.ts,1)
dpib2<-diff(pib.ts,2)
plot(dpib2,main="Séries de Diferenças do PIB",type = "o",col="black",lwd=2,lty=1, ylab = "Indice",xlab="trimestre")
lines(dpib,type="o",col = "red",lwd=2,lty=2)
legend("bottomleft",c("d(PIB,2)", "d(PIB)"),
       cex=0.7,lwd=2,lty=1:2,col=c(1,2))

4.1.2 Ruído Branco (White noise)

Assume-se em geral que os resíduos ut sejam bem comportados, ou seja, Ruído Branco: série de resíduos que representa um processo gaussiano, ou seja, com distribuição normal, média zero, variância constante e não-autocorrelacionados. O conceito de ruído branco será importante para compreender o conceito de estacionariedade de séries temporais.

\[ {u_t} \sim N(0,{\sigma ^2}) \]

4.1.2.1 Simulação de um processo Gaussiano White Noise

Utilizando o R/RStudio para gerar um White noise, pelo script. O resultado será como na Figura.

options(digits=4, width=70)
# simulate Gaussian White Noise process
set.seed(123)
y = rnorm(250)
ts.plot(y,main="Processo Gaussiano White Noise",
        xlab="time",ylab="y(t)",col="blue", lwd=2)
abline(h=0)

# plot equivalente usando a função plot()
plot(y, main="Processo Gaussiano White Noise", type="l",
     xlab="time",ylab="y(t)", col="blue", lwd=2)
abline(h=0)

4.1.3 Tendência determinística

Outro conceito é o de tendência (trend), que reflete as oscilações de longo prazo em uma série. No script e Figura, tem-se uma simulação de um processo de tendência determinística.

4.1.3.1 Simulação de um processo com tendência determinística

# SIMULANDO UMA TENDENCIA DETERMINÍSTICA
# 
set.seed(123)
e = rnorm(250)
y.dt = 0.2*seq(1,250) + e
ts.plot(y.dt, lwd=2, col="blue", main="Tendência Determinística + Ruído")
abline(a=0, b=0.2)

4.1.4 Estacionariedade

Em geral, a econometria tradicional (causa e efeito) pressupõe que todas as séries sejam estacionárias. Seja a seguinte série temporal \(X_t\): \[ X_t = \mu + ε_t \]

Em que \(ε_t\) é um ruído branco e \(\mu\) é uma constante. Tem-se uma série estacionária se o valor esperado da série \(X_t\) for constante no tempo, ou seja,

\[ E(X_t) = E(μ + ε_t ) = μ + E(ε_t ) = μ + 0 = μ \]

O caso da série não estacionária, por exemplo, seria o caso de uma série com tendência:

  • \(X_t = \alpha + βt + ε_t\) em que t denota tempo;

  • \(E(X_t) = E(\alpha + βt + ε_t) = E(\alpha + βt) + E(ε_t ) = μ + βt\) \(\ne\) constante

Este é um caso de tendência estacionária, pois uma vez retirada a tendência da série, esta se tornaria estacionária. Portanto, “será uma série estacionária se os dois primeiros momentos (média e variância) forem independentes do tempo e a autocovariância for dependente apenas da janela temporal (j) entre os dados”:

  • \(E(X_t) = μ\)
  • \(E\left[ {\left( {{X_t} - \mu } \right)\left( {{X_{t - j}} - \mu } \right)} \right] = \left\{ {\begin{array} {{\sigma^2},\;para\;\left( {j = 0} \right)}\\ {0\;\;,\;para\;\left( {j \ne 0} \right)} \end{array}} \right.\)

Resumidamente, a série não-estacionária tem uma raiz unitária e representa um processo estocástico. Mas, para esclarecer, são precisos outros conceitos auxiliares antes de esclarecer o que é ter uma raiz unitária. A utilização de séries não-estacionárias poderá gerar regressões espúrias, que serão explicadas mais a frente.

4.1.5 Operadores Diferença (difference) x Defasagem (lag)

Seja a série \(X_t\) em nível. O operador diferença é definido como segue: \[ ∆X_t=X_t-X_{t-1} \]

\[ ∆^2 X_t=∆X_t-∆X_{t-1}= (X_t-X_{t-1})-(X_{t-1}-X_{t-2})= X_t-2X_{t-1}+X_{t-2} \]

O operador de defasagem (L)8, ou lag operator, é definido como segue: \[ LX_t=X_{t-1} \]

\[ L^2 X_t=X_{t-2} \] e

\[ L^jX_t=X_{t-j} \]

Propriedades de L:

  • Se c é uma constante, então: \(L^j c=c\)

  • Propriedade distributiva: \((L^i+L^j)X_t=L^iX_t+L^jX_t=X_{t-i}-X_{t-j}\)

  • Propriedade multiplicativa: \(L^i(L^j)X_t=L^{i+j}X_t=X_{t-i-j}\)

  • Se \(|a|\gt 1: (1+a^{-1}L^{-1}+a^{-2}L^{-2}+a^{-3}L^{-3}+\ldots)X_t=\frac{-aLX_t}{(1-aL)}\)

  • Se \(|a|\lt 1: (1+aL+a^2L^2+a^3L^3+\ldots)X_t=\frac{X_t}{(1-aL)}\)

4.1.5.1 Operador defasagem (lag)

No R, pode-se obter a defasagem de uma série usando a função lag(x,y), em que x é a série e y é o número de períodos a defasar a série. Como exemplo, para a série de Consumo do varejo de São Paulo (Morettin e Toloi, 2006), seja a série temporal como: dados.ts<- ts(consumo,start=c(1984,1), frequency = 12). A defasagem de 6 períodos será: cons.l6<-lag(dados.ts, -6). Ver script e Figura.

# fazendo lag
consumo.ts<-dados.ts
cons.l6<-lag(consumo.ts, -6)
plot(consumo.ts, type="o",col = "black",lwd=2,lty=1)
lines(cons.l6,type="o",col = "red",lwd=2,lty=2)
legend("topright",c("Consumo varejo", "Consumo varejo t-6"),lwd=2,lty=1:2,col=c(1,2))

data.lag<-cbind(consumo.ts,cons.l6)
#View(data.lag)

Fonte: Elaboração própria com dados de Morettin e Toloi (2006).

4.1.5.2 Operador diferença (diff)

Já para fazer a diferença, faz-se, em R: diff(x, lag = 1, differences = 1). Ver script e Figura no exemplo do uso do operador diferença com séries do consumo de Morettin e Toloi (2006).

# Operador differença
consumo.ts<-ts(dados2,start = c(1984,1),frequency = 12)
consumo.ts
##         Jan    Feb    Mar    Apr    May    Jun    Jul    Aug    Sep
## 1984 114.13 110.79 116.46 111.57 120.66 121.15 121.27 127.02 129.04
## 1985 120.64 114.05 130.60 118.26 145.54 135.13 153.35 159.95 150.01
## 1986 134.26 133.11 147.84 164.46 181.86 170.44 186.64 174.21 181.62
## 1987 140.16 130.78 119.04 120.73 129.81 111.04 122.75 133.95 125.41
## 1988 110.09 113.25 124.03 110.63 116.72 124.63 124.38 130.27 119.87
## 1989 105.89 115.59 147.00 131.70 131.32 136.66 126.43 134.88 128.26
## 1990 116.25  96.93  89.27 101.87 125.57 113.31 109.39 127.33 120.56
## 1991 100.15  95.11 112.26 109.39 114.20 113.80 126.47 128.36 115.71
## 1992  87.08  85.67  82.02  98.20  96.44  90.23  97.15  95.08  94.00
## 1993  75.39  77.70  97.34  84.97  87.55  86.64  90.52  95.40  95.20
## 1994  85.63  82.77  96.55  81.33  96.91  83.76  90.19 114.84 108.40
## 1995  99.12  99.28 114.75 106.13 110.02 108.07 112.52 113.87 107.84
## 1996  92.24  93.56 107.37 102.89 114.78 102.88 118.41 119.23 117.36
##         Oct    Nov    Dec
## 1984 133.30 130.60 179.39
## 1985 164.93 170.37 220.96
## 1986 194.16 181.90 232.01
## 1987 132.05 129.54 176.37
## 1988 115.75 122.44 162.43
## 1989 125.32 124.61 166.11
## 1990 117.73 113.81 147.25
## 1991 116.09  99.53 127.27
## 1992  93.00  96.09 129.21
## 1993  95.80 101.23 128.49
## 1994 106.05 109.71 143.86
## 1995 112.12 112.03 139.37
## 1996 122.06
#View(consumo.ts)
dcons<-diff(consumo.ts,1)
dcons
##         Jan    Feb    Mar    Apr    May    Jun    Jul    Aug    Sep
## 1984         -3.34   5.67  -4.89   9.09   0.49   0.12   5.75   2.02
## 1985 -58.75  -6.59  16.55 -12.34  27.28 -10.41  18.22   6.60  -9.94
## 1986 -86.70  -1.15  14.73  16.62  17.40 -11.42  16.20 -12.43   7.41
## 1987 -91.85  -9.38 -11.74   1.69   9.08 -18.77  11.71  11.20  -8.54
## 1988 -66.28   3.16  10.78 -13.40   6.09   7.91  -0.25   5.89 -10.40
## 1989 -56.54   9.70  31.41 -15.30  -0.38   5.34 -10.23   8.45  -6.62
## 1990 -49.86 -19.32  -7.66  12.60  23.70 -12.26  -3.92  17.94  -6.77
## 1991 -47.10  -5.04  17.15  -2.87   4.81  -0.40  12.67   1.89 -12.65
## 1992 -40.19  -1.41  -3.65  16.18  -1.76  -6.21   6.92  -2.07  -1.08
## 1993 -53.82   2.31  19.64 -12.37   2.58  -0.91   3.88   4.88  -0.20
## 1994 -42.86  -2.86  13.78 -15.22  15.58 -13.15   6.43  24.65  -6.44
## 1995 -44.74   0.16  15.47  -8.62   3.89  -1.95   4.45   1.35  -6.03
## 1996 -47.13   1.32  13.81  -4.48  11.89 -11.90  15.53   0.82  -1.87
##         Oct    Nov    Dec
## 1984   4.26  -2.70  48.79
## 1985  14.92   5.44  50.59
## 1986  12.54 -12.26  50.11
## 1987   6.64  -2.51  46.83
## 1988  -4.12   6.69  39.99
## 1989  -2.94  -0.71  41.50
## 1990  -2.83  -3.92  33.44
## 1991   0.38 -16.56  27.74
## 1992  -1.00   3.09  33.12
## 1993   0.60   5.43  27.26
## 1994  -2.35   3.66  34.15
## 1995   4.28  -0.09  27.34
## 1996   4.70
plot(consumo.ts,type="o",col = "black",lwd=2,lty=1)
legend("topright",c("consumo do varejo SP"),lwd=2,lty=1,col=c(1))

plot(dcons,type="o",col = "red",lwd=2,lty=1)
legend("topright",c("dcons"),lwd=2,lty=1,col=c(2))

Fonte: elaboração própria com dados de Morettin e Toloi (2006).

4.1.6 Processo Estocástico

Pode-se definir o processo estocástico como “Aquele que não é determinístico, ou seja, refere-se a uma variável aleatória cujo valor futuro não pode ser previsto com certeza absoluta” (Buscarioli e Emerick, 2011, p.77). Ou seja, terá um termo de erro \(ε\) ( uma incerteza). Exemplo: Y = 100A + 0,1B + ε.

Imagine a taxa de câmbio \(R\$/US\$\) em cada instante de tempo t entre 17h e 18h neste dia seja aleatório. Pode-se interpretar este fato como uma realização \(Z_t(w)\) da variável aleatória \(Z_t\), e observar \(Z_t(w), 5\lt t\lt 6\). Para se fazer uma previsão às 18h acerca da taxa de câmbio \(Z_19(w)\) às 19h, é razoável olhar a evolução total de \(Z_t(w)\) entre 17h e 18h. O modelo matemático que descreve esta evolução é chamado de Processo Estocástico.

Ehlers (2009) definiu o Processo Estocástico como “uma coleção de variáveis aleatórias ordenadas no tempo e definidas em um conjunto de pontos T, que pode ser contínuo ou discreto”.

Está-se tentando modelar o caráter aleatório do processo e não uma descrição do tipo causa-efeito como no modelo de regressão. O comportamento pode ser obtido a partir de uma distribuição de probabilidades, e será tanto melhor quanto mais fiel estiver esta distribuição em relação à distribuição verdadeira.

No passeio aleatório, como exemplo, um choque temporário no PIB não se dissipará depois de vários anos e, desta forma, o choque teria efeito de um choque permanente. Se ele se revertesse à tendência, então apenas retirando a tendência o problema estaria resolvido para o uso econométrico.

Da discussão anterior sobre o passeio aleatório, obteve-se \(X_t\) como função do valor inicial \(X_0=0\), tal que: \[ X_t=X_0+\sum_{j=1}^t{ε_j} \]

Fazendo o valor esperado e a variância de \(X_t\) , tem-se a média e a variância dependentes do tempo:

\(E(X_t)=\sum_{j=1}^t{E(ε_j)} =tμ\)

\(Var(X_t)=\sum_{j=1}^t{Var{(ε_j)}} =tσ_ε^2\)

O comportamento futuro dos dados no processo estocástico serão descritos pela distribuição de probabilidade conjunta (\(F\)):

\(F(X_1,\ldots,X_t )=P(X_1 \le a_1,\ldots,X_t \le a_t)\)

Em que P denota a probabilidade.

Isto posto, pode-se definir a estacionariedade de modo mais explícito, como Estacionariedade Forte. O processo será estacionário forte:

  1. de primeira ordem se: \(F(X_{t_1})=F(X_{t_1+k})\)

  2. de segunda ordem se: \(F(X_{t_1},X_{t_2})=F(X_{t_1+k},X_{t_2+k})\)

  3. de ordem n se: \(F(X_{t_1},\ldots,X_{t_n})=F(X_{t_1+k},\ldots,X_{t_n+k})\)

A Estacionariedade fraca de ordem n pode ser definida quando:

  • A média e a variância do processo são constantes no tempo; e,

  • A estrutura de dependência linear depende apenas da distância entre os períodos e diminui com esta distância. Portanto, tem-se Estacionariedade fraca para:

\[ E(X_t) = μ = constante \]

\[ Var(X_t) = \sigma^2 = constante \]

\[ Corr(X_t,X_{t-k}) = \rho(k) \]

4.1.7 Regressão Espúria

Na estimação tradicional de \(Y=f(X)\), poderei ter um coeficiente de ajustamento \(R^2\) muito alto, próximo de 1, mas na verdade as variáveis podem ser não relacionadas. Pode ter ocorrido um \(R^2\) elevado em decorrência de outra variável relacionada a \(Y\) e a \(X\). Como exemplo, imagine que \(Y\) seja relacionada com \(Z\) e \(X\) seja relacionada com \(Z\), mas \(Y\) não seja relacionada com \(X\). Neste caso, \(Z\) poderá ser a tendência.

Em casos de regressão espúria, em geral, \(R^2\) é elevado, Durbin-Watson (\(DW\)) é afastado de 2, e \(R^2 \gt DW\). Se a série for integrada, poderei trabalhar com \(ΔY\) e \(ΔX\) fazendo \(ΔY =f(ΔX)\) e perderei as informações de longo prazo, pois as variáveis em diferenças representam tipicamente o curto prazo. É um problema típico de não-estacionariedade das séries.

4.1.8 Integração

Para melhor entendimento, falaremos sobre o Processo auto-regressivo. Seja uma série \(Y_t\) tal que

\[ Y_t = \phi_1Y_{t-1}+\ldots+\phi_pY_{t-p}+u_t+\theta_1u_{t-1}+\ldots+\theta_qu_{t-q} \]

Os termos associados a \(u_t\) são ditos termos de moving average ou \(MA(q)\), portanto:

  • \(MA(q): Y_t = u_t+\theta_1u_{t-1}+\ldots+\theta_qu_{t-q}\)

similarmente, os termos de \(Y_t\) são associados aos chamados termos auto-regressivos \(AR(p)\):

  • \(AR(p): Y_t = \phi_1Y_{t-1}+\ldots+\phi_pY_{t-p}+u_t\)

Se a série for estacionária, tem-se como estimar os momentos (média e variância) com as t observações. A variância será:

\[ Var(Y_t)= \frac{\sigma^2}{1-\phi^2} \]

Decorre disto que, se \(\phi=1\), a variância de \(Y_t\) será infinita, o que impossibilita o cálculo. Ou seja, é preciso que a série temporal tenha \(|\phi|\lt 1\). Se \(|\phi|\gt 1\), a variância seria negativa, o que é absurdo. Isto define se a série temporal é “estável” ou estacionária, ou melhor, que \(Y_t\) não “explode”.

A série será dita integrada se for possível obter uma série de diferença que é estacionária. Ou seja, se diferenciar \(X_t\) uma vez, obtendo \(ΔX_t\) , e esta série \(ΔX_t\) for estacionária, então diz-se que \(X_t\) é integrada de primeira ordem, simbolizando da forma: I(1).

Generalizando, se a série em diferenças \(Δ^jX_t\) for estacionária mas em ordens menores que j não forem, então diz-se que \(X_t\) é integrada de ordem j, simbolizada por I(j) e j é a ordem de integração. A ordem de integração é o número de raízes unitárias da série \(X_t\). A série estacionária em nível (sem diferenças) é dita integrada de ordem zero, denotada por I(0).

Isto está associado à idéia de ergodicidade. O Processo será ergódico quando o valor esperado da média para uma subamostra for igual ao valor esperado da série temporal. Portanto, se a média convergir para seu valor esperado em qualquer subamostra temporal.

4.2 Modelos clássicos de decomposição

Os modelos clássicos de decomposição tipicamente dividem a série em componentes: tendência (\(T_t\)), sazonalidade (\(S_t\)), ciclo (\(C_t\)) e irregularidades (\(e_t\)).

Tabela. Componentes de série temporal, definição, influência e duração. Fonte: Elaboração própria. A ideia é que essas componentes podem ser associadas em um modelo aditivo ou multiplicativo como nas expressões:

  • \({Y_t} = {T_t} + {C_t} + {S_t} + {e_t}\) modelo aditivo

  • \({Y_t} = {T_t} \cdot {C_t} \cdot {S_t} \cdot {e_t}\) modelo multiplicativo

Em geral, o que se faz é seguir os passos:   
  1. Plotar séries e ver comportamento temporal – tendência (Aumento, declínio, oscilação persistente da série)

  2. Fazer média móvel para expurgar efeitos sazonais e aleatórios da série

  3. Fazer índice estacional para avaliar o efeito sazonal

A média móvel é um artifício matemático interessante para análise pois apresenta a mesma tendência da série original, mostra as variações cíclicas da série original, elimina as flutuações de curtíssimo prazo ou aleatórias da série original, e será importante para verificar a tendência e o ciclo econômico.

A expressão usual para seu cálculo e, padrão na notação em R/Rstudio, seguirá a expressão de Morettin e Toloi (2006), para a média centrada de 12 meses:

\[ Z_7^{(12)} = {\textstyle{1 \over {12}}}\left( {\frac{{{Z_1} + {Z_2}}}{2} + \frac{{{Z_2} + {Z_3}}}{2} + \frac{{{Z_3} + {Z_4}}}{2} + ... + \frac{{{Z_{12}} + {Z_{13}}}}{2}} \right)\\ = {\textstyle{1 \over {24}}}\left( {{Z_1} + 2{Z_2} + 2{Z_3} + ... + 2{Z_{12}} + {Z_{13}}} \right) \]

Para a média centrada de um número impar de períodos, tem-se:

\[ Z_t^* = {\textstyle{1 \over {(2n + 1)}}}\sum\limits_{j = - n}^{j = + n} {{Z_{t + j}}} \\ Z_2^{(3)} = {\textstyle{1 \over 3}}\left( {{Z_1} + {Z_2} + {Z_3}} \right) \]

4.2.1 Médias móveis (rolling mean)

No script, utiliza-se primeiro a função rollmean do pacote zoo, e depois a função ma conforme Hyndman e Athanasopoulos (2017) . Observe que a expressão por rollmean apresenta uma dificuldade de posicionamento dos valores, pois calcula em fim de período (não centrada) e posiciona ao centro, enquanto por ma os cálculos ficam por default centrados e posicionados devidamente ao centro. Em um script do R/Rstudio:

# médias móveis com package zoo
library(zoo)
## 
## Attaching package: 'zoo'
## The following objects are masked from 'package:base':
## 
##     as.Date, as.Date.numeric
cons3<-rollmean(consumo.ts,3,align="center")
cons12<-rollmean(consumo.ts,12,align = "right")
plot(consumo.ts,main="Séries de consumo do varejo",type = "o",col="black",lwd=2,lty=1, ylab = "Indice",xlab="mês")
lines(cons3,type="o",col = "red",lwd=2,lty=2)
lines(cons12,type="o",col = "green",lwd=2,lty=3)
legend("topright",c("consumo", "cons3","cons12"),lwd=2,lty=1:3,col=c(1,2,3))

dados.cons<-cbind(consumo.ts,cons3,cons12)
#View(dados.cons)

# média móvel com operador ma(x, order, centre=TRUE)
cons12.ma<-ma(consumo.ts,12)
cons12.ma
##         Jan    Feb    Mar    Apr    May    Jun    Jul    Aug    Sep
## 1984     NA     NA     NA     NA     NA     NA 126.55 126.96 127.69
## 1985 133.41 136.12 138.36 140.55 143.53 146.92 149.22 150.58 152.09
## 1986 164.02 166.00 167.91 170.44 172.14 173.08 173.79 173.94 172.64
## 1987 155.85 151.51 147.49 142.56 137.79 133.29 129.72 127.73 127.21
## 1988 126.69 126.60 126.22 125.31 124.33 123.45 122.70 122.62 123.68
## 1989 128.69 128.97 129.51 130.26 130.75 130.99 131.58 131.23 128.05
## 1990 120.02 119.00 118.36 117.73 116.96 115.72 114.27 113.52 114.40
## 1991 115.79 116.55 116.39 116.12 115.45 114.03 112.65 111.71 110.06
## 1992 103.20 100.59  98.30  96.43  95.33  95.27  94.86  94.04  94.35
## 1993  92.57  92.30  92.37  92.53  92.86  93.05  93.45  94.08  94.26
## 1994  94.45  95.25  96.61  97.59  98.37  99.36 100.56 101.81 103.26
## 1995 110.13 111.02 110.96 111.19 111.54 111.45 110.97 110.45 109.90
## 1996 109.53 110.00 110.62 111.43     NA     NA     NA     NA     NA
##         Oct    Nov    Dec
## 1984 128.55 129.87 131.49
## 1985 154.73 158.17 161.16
## 1986 169.62 165.63 160.98
## 1987 127.00 126.03 126.05
## 1988 125.51 127.00 128.11
## 1989 124.40 122.92 121.71
## 1990 115.67 115.51 115.06
## 1991 108.33 107.13 105.40
## 1992  94.43  93.51  92.99
## 1993  94.08  94.32  94.59
## 1994 105.05 106.63 108.19
## 1995 109.46 109.52 109.51
## 1996     NA
plot(consumo.ts,main="Séries de consumo do varejo",type = "o",col="black",lwd=2,lty=1, ylab = "Indice",xlab="mês")
lines(cons3,type="o",col = "red",lwd=2,lty=2)
lines(cons12.ma,type="o",col = "green",lwd=2,lty=3)
legend("topright",c("consumo", "cons3","cons12.ma"),lwd=2,lty=1:3,col=c(1,2,3))

Referências

BOX, G.E.P.; JENKINS, G.M. Time series analysis: forecasting and control. Revised edition, San Francisco: Holden-Day, 1976.

GRANGER, C.W.J.; NEWBOLD, P. Forecasting economic time series. Academic Press, 1977.edition, 1987).

HAMILTON, James D. Time Series Analysis. Princeton University Press, 1994.

HENDRY, David F. Dynamic econometrics, Oxford University Press, 1995.

HYNDMAN, Rob J.; ATHANASOPOULOS, George . Forecasting: principles and practice. Otexts, 2014. Disponível em: https://www.otexts.org/fpp.

KENNEDY, Peter. A guide to econometrics. 4.ed. Cambridge: MIT Press, 1998. P. 278-279.

MATTOS, Rogério Silva. Decomposição com regressão (Apostila). Juiz de Fora: UFJF, 2016. Disponível em http://www.ufjf.br/rogerio_mattos/files/2009/06/Decomposição-com-Regressão.pdf. Acesso em 22/fev./2018.

MILLS, Terence C. time series techniques for economists. Cambridge University Press, 1990.

MORETTIN, Pedro A.; TOLOI, Clélia M.C. Análise de Séries Temporais. São Paulo: Edgard Blucher/ABE, 2006.

Notas


  1. MATTOS, Rogério Silva. Decomposição com regressão (Apostila). Juiz de Fora: UFJF, 2016. Disponível em http://www.ufjf.br/rogerio_mattos/files/2009/06/Decomposição-com-Regressão.pdf. Acesso em 22/fev./2018.↩︎

  2. BOX, G.E.P.; JENKINS, G.M. Time series analysis: forecasting and control. Revised edition, San Francisco: Holden-Day, 1976.↩︎

  3. GRANGER, C.W.J.; NEWBOLD, P. Forecasting economic time series. Academic Press, 1977.edition, 1987).↩︎

  4. MILLS, Terence C. time series techniques for economists. Cambridge University Press, 1990.↩︎

  5. HAMILTON, James D. Time Series Analysis. Princeton University Press, 1994.↩︎

  6. HENDRY, David F. Dynamic econometrics, Oxford University Press, 1995.↩︎

  7. MORETTIN, Pedro A.; TOLOI, Clélia M.C. Análise de Séries Temporais.São Paulo: Edgard Blucher/ABE, 2006.↩︎

  8. que em alguns livros usam a letra B ao invés de L, ver Pindyck & Rubinfeld, 2004: 618↩︎

