Introdução
Uma vez que tivermos identificado os efeitos de tendência e sazonalidade em uma série temporal, podemos remover estes efeitos antes de prosseguir com a análise. Se usarmos a decomposição aditiva, inicialmente determinamos a série com sazonalidade removida e em seguida removemos a tendência por subtração. Isso nos deixa somente com a componente aleatória. No entanto, tal componente não é necessariamente bem modelada por variáveis aleatórias independentes. Em muitos casos variáveis consecutivas são correlacionadas. Ao indentificarmos tais correlções podemos melhorar nossas previsões tanto melhor quanto maiores forem as correlações. Tais correlações devem ser estimadas para obtermos séries sintéticas realísticas. A estrutura de correlação de um modelo de série temporal é definido pela função de correlação, que é estimada a partir da série observada.
Covariância e correlação
Consideremos distribuições discretas. Denotando o valor esperado de um ensemble com variável aleatória \(X\) por \(\mu = E(X)\), a sua variância é dada por \[\begin{equation}
\sigma^2=E[(X-\mu)^2]\,.
\end{equation}\] A quantidade \(\sigma\) é chamada desvio padrão. A convariância entre duas variáveis aleatórias \(X\) e \(y\) (da mesma distribuição ou distribuições diferentes) é definida por \[\begin{equation}
\sigma_{XY}=E[(X-\mu_X)(Y-\mu_Y)]\,.
\end{equation}\]
Se temos amostras \((x_i,y_i)\) com \(N\) elementos, associadas às variáveis aleatórias \(X\) e \(Y\), a covariância amostral é dada por \[\begin{align}
s_{xy}=\frac{1}{N-1}\sum_{i=1}^{N}(x_i-\bar{x})(y_i-\bar{y})\,.
\end{align}\] Se pares de dados são colocados no gráfico, as linhas \(x=\bar{x}\) e \(y=\bar{y}\) dividem o gráfico em dois quadrantes. Pontos no quadrante esquerdo inferior têm ambos \(x_i-\bar{x}\) e \(y_i-\bar{y}\) negativos, de modo que seu produto contribui positivamente no somatório. Pontos no quadrante superior direito também dão contribuição positiva. Por outro lado, pontos no quadrante superior esquerdo e quadrante inferior direito dão contribuição negativa para a convariância.
Portanto, se \(y\) tende a aumentar quando \(x\) aumenta, a maior parte dos pontos estarão no quadrante inferior esquerdo e no quandrante superior direito e a contribuição será positiva. Inversamente, se \(y\) decresce quando \(x\) aumenta, a covariância será negativa. Se não há tal relação, a covariância será pequena relativamente aos desvios padrão de \(x\) e \(y\).
A covariância é uma medida de associação linear entre duas variáveis aleatórias. Notemos que uma associação linear não implica causalidade. Notemos ainda que se a relação entre as variáveis aleatórias é não-linear, a covariância não será sensível a tal característica. Pode haver um padrão de relação entre as variáves, mesmo que a covariância seja próxima a zero.
A
correlação entre duas variáveis aleatórias
\(X\) e
\(Y\) é uma grandeza adimensional dada por
\[
\rho_{XY}=\frac{\sigma_{XY}}{\sigma_X \sigma_Y}
\] A correlação, além de normalizar a covariância, é adimensional, pondendo, portanto, ser usada para comparar relações lineares entre variáveis aleatórias em unidades físicas diferentes. Podemos mostrar que
\[
-1\leq\rho_{XY}\leq 1\,.
\] A
correlação amostral é dada por
\[
r_{xy}=\frac{s_{xy}}{s_x s_y}\,,
\] sendo
\[
s_x^2=\frac{1}{N-1}\sum_{i=1}^N(x_i-\bar{x})^2\,,\qquad s_y^2=\frac{1}{N-1}\sum_{i=1}^N(y_i-\bar{y})^2\,.
\] Padrões típicos de correlação entre variáveis são mostrados na Fig. 1.
Fig.1 - Variáveis linearmente correlacionadas. Fonte: Ashutosh Tripathi.
Se duas variáveis aleatórias são independentes, sua correlação é aproximadamente zero. Um caso típico é mostrado na Fig. 2.
Fig.2 - Variáveis independentes.
Notemos que, por outro lado, que se a correlação é zero, isso não necessariamente implica que as variáveis sejam independentes. Isso ocorre no caso de correlação não linear, como ilustrado na Fig. 3.
Fig.3 - Exemplos de correlação não linear com coeficiente de correlação zero. Fonte: Denis Boigelot, Wikimedia Commons.
Portanto, é fundamental que qualquer conclusão baseada no cálculo de um coeficiente de correlação seja sempre baseada no correspondente scatterplot. Veja seguinte artigo para outros exemplos de diferentes scatterplots correspondentes ao mesmo número de correlação.
Exemplo 1: Função de probabilidade conjunta dada
Consideremos a distribuição definida na Fig. 4.
Fig.4 - Exemplos de correlação não linear com coeficiente de correlação zero. Fonte: Montgomery, Runger, Applied Statistics and Probability for Engineers, 6th Ed., Wiley, 2014
Podemos representar a probabilidade conjunta em termos de uma matriz:
fXY <- matrix(
c(0.2,0,0,0,0,0.1,0.1,0,0,0.1,0.1,0,0,0,0,0.4), # the data elements
nrow = 4, # number of rows
ncol = 4, # number of columns
byrow = TRUE)
fXY
[,1] [,2] [,3] [,4]
[1,] 0.2 0.0 0.0 0.0
[2,] 0.0 0.1 0.1 0.0
[3,] 0.0 0.1 0.1 0.0
[4,] 0.0 0.0 0.0 0.4
Calculemos as distribuições marginais:
fX <- colSums(fXY)
fY <- rowSums(fXY)
fX
[1] 0.2 0.2 0.2 0.4
fY
[1] 0.2 0.2 0.2 0.4
Os valores esperados para X, \(X^2\) Y, \(Y^2\) e \(XY\) são dados por
X <- 0:3; Y <- 0:3;
EX <- X%*%fX; EY <- Y%*%fY;
EX2 <- X^2%*%fX; EY2<-Y^2%*%fY;
EXY <- X%*%fXY%*%Y
EX
[,1]
[1,] 1.8
EY
[,1]
[1,] 1.8
EXY
[,1]
[1,] 4.5
Os desvios padrão associados às variáveis são dadas por
sX<-sqrt(EX2-EX^2); sY<-sqrt(EY2-EY^2);
sX
[,1]
[1,] 1.16619
sY
[,1]
[1,] 1.16619
A covariância é dada por
sXY <- EXY-EX*EY
sXY
[,1]
[1,] 1.26
Calculemos a correlação:
rXY <- sXY/(sX*sY)
rXY
[,1]
[1,] 0.9264706
Exemplo 2: Função de probabilidade conjunta dada
Se temos somente duas listas de dados, e a função de probabilidade conjunta é desconhecida, pelo princípio da razão insuficiente supomos que a matriz de probabilidades é diagonal e as probabilidades distribuídas uniformemente. Por exemplo, suponhamos que temos os dados:
X <- c(1,4,3,5,7,3,9,5);
Y <- c(2,3,4,6,6,2,8,6);
n <- length(X);
Façamos inicialmente um scatterplot:
plot(y=Y,x=X,ylab='Y',xlab='X')

Aparentemente há uma correlação linear e próxima a 1.Calculemos a covariância amostral e os desvios padrão amostrais:
sXY <- 1/(n-1)*(X-mean(X)*c(1,1,1,1,1,1,1,1)) %*% (Y-mean(Y)*c(1,1,1,1,1,1,1,1))
sX <- sqrt(1/(n-1)*(X-mean(X)*c(1,1,1,1,1,1,1,1)) %*% (X-mean(X)*c(1,1,1,1,1,1,1,1)))
sY <- sqrt(1/(n-1)*(Y-mean(Y)*c(1,1,1,1,1,1,1,1)) %*% (Y-mean(X)*c(1,1,1,1,1,1,1,1)))
sXY
[,1]
[1,] 4.982143
sX
[,1]
[1,] 2.503569
sY
[,1]
[1,] 2.199838
A correlação é então dada por
rXY <- sXY/(sX*sY)
rXY
[,1]
[1,] 0.9046196
Os resultados anteriores podem ser obtidos através dos seguintes comandos:
SXY <- cov(X,Y); SX <- sd(X); SY <- sd(Y);
SXY
[1] 4.982143
SX
[1] 2.503569
SY
[1] 2.199838
A correlação pode ser dada diretamente por
RXY <-cor(X,Y)
RXY
[1] 0.9046196
Vejamos alguns exemplos que ilustram o conceito de correlação de séries temporais.
Exemplo 3: Precipitação
Consideremos o exemplo que descreve a pricipitação anual em Los Angeles. Usaremos a biblioteca TSA que contém as funções e datasets usadas no livro “Time Series Analysis with Applications in R, 2nd. Ed.” por Jonathan Cryer e Kung-Sik Chan.
library(TSA)
Attaching package: ‘TSA’
The following objects are masked from ‘package:stats’:
acf, arima
The following object is masked from ‘package:utils’:
tar
Carregamos os dados de precipitação e fazemos um gráfico da série temporal:
data(larain);
plot(larain,ylab='Inches',xlab='Ano',type='o')

Para fins de análise e modelagem normalmente estamos interessados de dados em anos consecutivos estão ou não relacionados. Se houver uma relação entre dados históricos, possivelmente poderemos dados do ano presente para fazer predições de precipitação no ano seguinte.
Um modo de investigar tal questão é plotar pares de valores anuais consecutivos. Este tipo de gráfico é chamado scatterplot:
plot(y=larain,x=zlag(larain),ylab='Inches',xlab='Anos anteriores (Inches)')

Aqui o comando zlag foi usado para plotar o lag (atraso) do vetor larain.
A primeira impressão que obtemos deste gráfico é que há pouca ou nenhuma relação entre a precipitação de um dado mês de um ano com o anterior. Ou seja, o gráfico não mostra tendências. Dizemos que há pouca correlação entre a precipitação de um dado ano e o anterior. Do ponto de vista de predições, esta não é uma série temporal muito interessante. Calculemos medida de correlação. Definimos as séries e calculemos o seu comprimento:
y<-larain
x<-zlag(larain)
length(x)
[1] 115
A correlação entre as séries é dada por:
cor(x[2:115],y[2:115])
[1] -0.03308892
que é um valor muito pequeno, como esperado. Vejamos agora um exemplo onde existe uma correlação entre dados:
Exemplo 2: Processo químico industrial
Consideremos variáveis que medem um propriedade de cor a partir de sequências (batches) consecutivas no processo.
data(color)
plot(color,ylab='Propriedade de cor', xlab='Batch',type='o')

Agora valores vizinhos parecem estar correlacionados. Isso pode ser visto mais claramente usando o gráfico scatterplot para valores vizinhos:
plot(y=color,x=zlag(color),ylab='Propriedade de cor',xlab='Propriedade de cor do batch anterior')

Vemos que há uma leve tendência neste gráfico:
- Baixos valores em um batch tendem a ser seguidos por baixos valores no batch seguinte.
- Médios valores em um batch tendem a ser seguidos por médios valores no batch seguinte.
- Altos valores em um batch tendem a ser seguidos por altos valores no batch seguinte.
Calculemos a correlação entre dados vizinhos. Examinemos as séries:
y=color
x=zlag(color)
y
Time Series:
Start = 1
End = 35
Frequency = 1
[1] 67 63 76 66 69 71 72 71 72 72 83 87 76 79 74 81 76 77 68 68 74 68 69 75 80 81 86 86 79 78
[31] 77 77 80 76 67
x
[1] NA 67 63 76 66 69 71 72 71 72 72 83 87 76 79 74 81 76 77 68 68 74 68 69 75 80 81 86 86 79
[31] 78 77 77 80 76
Calculemos o número de elementos das séries:
length(x)
[1] 35
Calculemos a correlação entre as séries:
cor(x[2:35],y[2:35])
[1] 0.554917
Ou seja, a correlação não é muito forte mas significativa.
Exemplo 3: Abundância de lebres canadenses
Consideremos a série temporal que fornece a abundância de lebres canadenses ao longo de 30 anos:
data(hare);
plot(hare,ylab='Abundancia',xlab='Ano',type='o')

Vemos agora que grandes mudanças não ocorrem de um ano para o outro. Esta correlação entre anos vizinhos é mais claramente vista em um scatterplot:
plot(y=hare,x=zlag(hare),ylab='Abundancia',xlab='Abundancia nos anos anteriores')

Tal como no exemplo anterior, vemos que há uma tendência positiva: valores baixos de abundância em um dado ano tendem a serem seguidos por valores baixos no ano seguinte e similarmente com valores médios e altos.
Calculemos a correlação entre as duas séries temporais:
y<-hare
x<-zlag(hare)
L <-length(x)
cor(y[2:L],x[2:L])
[1] 0.7025777
Como esperado, temos uma correlação um pouco maior do que a do exemplo anterior. Vejamos
