\[ \overline{x} = \frac{1}{N} \sum_{i=1}^{N} x_i \]
> Preços de um ativo em 20 pregões:
> $12.55, $14.11, $13.72, $12.5, $14.83, $14.83, $12.39, $14.5, $13.4, $13.65, $13.66, $12.72, $14.28, $12.54, $13.22, $14.56, $14.93, $12.68, $13.33, $12.22
> Soma dos preços: 270.62
> Média dos preços: 13.531
> Preços do ativo em 20 pregões, em ordem crescente:
> $12.22, $12.39, $12.5, $12.54, $12.55, $12.68, $12.72, $13.22, $13.33, $13.4, $13.65, $13.66, $13.72, $14.11, $14.28, $14.5, $14.56, $14.83, $14.83, $14.93
> Mediana dos preços: 13.525
\[ p = \frac{N+1}{2} \]
\[ \sigma^2(x) = \frac{1}{N} \sum_{i=1}^{N} \left(x_i - \overline{x} \right)^2 \]
\[ \sigma^2(x) = \frac{1}{N-1} \sum_{i=1}^{N} \left(x_i - \overline{x} \right)^2 \] Para os preços da seção 1:
> Soma dos desvios quadrados dos preços:
> 15.85678
> Variância dos preços:
> 0.8345674
O resultado acima é a variância populacional ou amostral?
Desvio-padrão nada mais é que a raiz quadrada da variância:
\[ \sigma(x) = \sqrt{\sigma^2(x)} \]
> Retornos do ativo:
> 1.84%, 2.96%, 0.21%, -1.08%, 4.56%, -3.62%, 2.76%, 1.07%, 3.03%, 1.86%, 5.18%, -1.4%, 4.18%, 4.91%, 1.01%, -3.9%, 1.95%, -0.19%, 2.58%, 1.58%
O risco desse ativo, quantificado pelo desvio-padrão, seria:
> Risco do ativo: 2.56%
\[ r_s = \frac{P[D+s]}{P[D]} - 1, \]
onde \(P[X]\) representa o preço no período \(X\).
| faixas | frequência |
|---|---|
| -6% a -4% | 2 |
| -4% a -2% | 8 |
| -2% a 0% | 28 |
| 0% a 2% | 25 |
| 2% a 4% | 22 |
| 4% a 6% | 13 |
| 6% a 8% | 2 |
Podemos estimar que a probabilidade (daí o nome distribuição de probabilidade) de o próximo retorno desta ação estar entre 0% e 2% é de 25%, de acordo com os dados.
Um dos tipos mais importantes de distribuição de probabilidade é a distribuição Normal, que apresenta como principal característica o fato de a faixa mais provável de ocorrência conter a média dos dados. A distribuição normal é perfeitamente descrita pela média \(\mu\) e pelo desvio-padrão \(\sigma\):
\[ f(x) = \frac{1}{\sigma\sqrt{2\pi}} \exp \left[-\frac{1}{2}\left(\frac{x-\mu}{\sigma}\right)^2 \right] \]
A curvas a seguir representam duas distribuições normais, de forma alternativa ao histograma, construídas como se barras de largura muito pequena tivessem unidos seus pontos médios da borda superior.
A curva em vermelho apresenta maior desvio-padrão que a em preto, e ambas têm a mesma média:
O desvio-padrão, por conta dessa influência no formato do sino, é uma medida de dispersão dos dados: quanto maior seu valor, mais dispersos os dados são.
Os testes de normalidade mais comuns são: Shapiro-Wilk, Jarque-Bera e Kolmogorov-Smirnov.
Consiste em encontrar as estatísticas descritivas dos dados. As mais comuns são: média, mediana, desvio-padrão e quantis.
Um quantil \(X\) de q% indica que q% dos dados tem valor menor que \(X\).
A mediana é o quantil de 50%.
Exemplo de sumarização para os preços de PETR4 entre 01/05/2019 e 01/08/2019:
> Estatísticas:
> PETR4
> Min. :23.90
> 1st Qu.:25.51
> Median :26.07
> Mean :26.10
> 3rd Qu.:26.68
> Max. :27.73
> Exemplos de quantis:
> 10% 33% 50% 67% 90%
> 25.12370 25.64923 26.07250 26.55047 27.02518
Medida de dependência entre duas variáveis.
As principais medidas de correlação são o \(\rho\) de Pearson, para dados com relação linear, a correlação de postos de Spearman e o \(\tau\) de Kendall - esta última também uma correlação de postos.
Exemplo de aplicação: considere duas séries dependentes y1 e y2 e uma série independente x:
> Correlação de Pearson
> ----------------------
> y1 e x:
> [1] 0.8561542
> y2 e x:
> [1] -0.9528615
Como o \(\rho\) de Pearson é uma quantificação para a dependência linear entre duas variáveis, quanto maior seu valor absoluto, maior a dependência linear. Se a correlação tiver um valor negativo, as duas séries têm direção de crescimento inversas.
Para o exemplo, y2 tem uma relação linear com x mais forte que y1, e pode-se dizer que y2 é inversamente proporcional a x, já que a correlação entre ambas é negativa.
Usualmente, utilizam-se os seguintes critérios para definir a “força” da dependência linear entre duas variáveis:
Correlação de Spearman entre as séries:
> Correlação de Spearman
> ----------------------
> y1 e x:
> [1] 1
> y2 e x:
> [1] -0.9550915
A correlação de Spearman (\(r_s\)) trabalha com a ordenação dos dados. Por isso, caso \(y(x+\delta) \ge y(x)\) ou \(y(x+\delta) \le y(x)\), para todo \(\delta \ge 0\) (em outras palavras, caso a série \(y\) seja monótona em relação a \(x\)), a correlação de Spearman entre \(x\) e \(y\) será 1 ou -1 (a depender se \(y\) é direta ou inversamente proporcional a \(x\), respectivamente).
Pelo gráfico de y1, vê-se que, se x aumenta, y1 sempre aumenta, o que rende \(r_s = 1\) entre as duas séries.
> Correlação de Kendall
> ----------------------
> y1 e x:
> [1] 1
> y2 e x:
> [1] -0.8125253
Como também se trata de um correlação de postos, o \(\tau\) de Kendall resulta em 1 ou -1 para funções monótonas.
Uma série temporal caracteriza-se pelo fato de seus elementos serem indexados numa base de tempo, como os preços de um ativo. As alturas da população de uma cidade, por exemplo, não têm ordenação temporal.
Uma importante medida para séries temporais é a autocorrelação, que mede a correlação entre os elementos no tempo \(t+x\) e no tempo \(t+0\). O valor \(x\) é comumente chamado de spread ou lag. Exemplo autocorrelação linear para os preços de USIM5 entre 01/01/2017 e 31/12/2018:
>
> Autocorrelations of series '.', by lag
>
> 0 1 2 3 4 5 6 7 8 9 10 11 12
> 1.000 0.992 0.984 0.977 0.970 0.962 0.955 0.949 0.941 0.934 0.926 0.918 0.911
> 13 14 15 16 17 18 19 20 21 22 23 24 25
> 0.902 0.893 0.884 0.877 0.870 0.862 0.855 0.848 0.841 0.834 0.827 0.819 0.810
> 26
> 0.802
Mesmo para um lag de 26 pregões, há uma correlação linear considerável entre os preços. Isso pode ser usado, por exemplo, para construir um modelo de Regressão Linear para estimar o preço em \(D+x\). Observe como a reta de regressão linear ajusta-se ao dados em \(D+5\):
Nota-se, visualmente, um bom ajuste linear corroborando o valor de 0,962 para a correlação de Pearson. Na próxima seção, veremos um modelo de correlação linear para esses dados.
Regressão nada mais é que a estimação de uma variável numérica dados os valores de outra variável. Quando esse processo de estimação se dá sobre a premissão de uma relação linear entre os dados, diz-se que a regressão é linear.
O processo mais difundido para executar uma regressão linear é o dos mínimos quadrados, que minimiza a soma dos desvios quadrados entre os valores reais e os estimados pela regressão.
O método dos mínimos quadrados tem alguns requisitos, dentre os quais os mais importantes são:
Considerando que a regressão linear de uma variável \(y\) dada outra variável \(x\) é expressa por \(y = Ax + b\), os coeficientes \(A\) e \(b\) podem ser calculados por:
\[ A = \frac{cov(x,y)}{var(x)} \\ b = \bar{y} - A \bar{x} \] \(\bar{x}\) e \(\bar{y}\) representam, respectivamente, as médias de \(x\) e \(y\).
> Covariância entre os preços em D+5 e D+0:
> 5.650941
> Variância dos preços em D+0:
> 5.859587
> Coeficiente 'A' da regressão:
> 0.9643922
> Média dos preços em D+0:
> 7.614513
> Média dos preços em D+5:
> 7.660258
> Coeficiente 'b' da regressão:
> 0.3168808
> Modelo de regressão completo:
>
> Call:
> lm(formula = P5 ~ P0, data = df)
>
> Coefficients:
> (Intercept) P0
> 0.3169 0.9644
O coeficiente isolado \(b\) também é chamado de intercepto.
Vejamos os resultados da regressão linear:
> Média dos resíduos:
> -1.94777e-18
> Estatísticas descritivas da regressão:
>
> Call:
> lm(formula = P5 ~ P0, data = df)
>
> Residuals:
> Min 1Q Median 3Q Max
> -1.94384 -0.29234 -0.00388 0.29666 1.89025
>
> Coefficients:
> Estimate Std. Error t value Pr(>|t|)
> (Intercept) 0.31688 0.08149 3.889 0.000115 ***
> P0 0.96439 0.01020 94.550 < 2e-16 ***
> ---
> Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
>
> Residual standard error: 0.5477 on 491 degrees of freedom
> Multiple R-squared: 0.9479, Adjusted R-squared: 0.9478
> F-statistic: 8940 on 1 and 491 DF, p-value: < 2.2e-16
O coeficiente de determinação, também chamado de \(R^2\), é uma medida de ajuste de um modelo linear. Para o caso acima, podemos dizer que o modelo linear explica 94,78% da variância da variável independente - os preços em \(D+5\) - a partir do regressor - os preços em \(D+0\).
O teste-t, cujos p-value estão representados na coluna Pr(>|t|), será abordado mais adiante; por ora, é suficiente saber que, com 99,9% de confiança (p-values abaixo de 0,001), ambos os coeficientes da regressão são diferentes de 0 (ou seja, são relevantes para a estimação dos preços em \(D+5\)).
O test-F, também presente nas estatísticas descritivas, nos diz que o modelo é relevante, ou seja, pelo menos um regressor (no nosso caso, como há apenas um regressor, seria o regressor) tem peso diferente de 0 no processo de estimação. O teste-F será explicado mais adiante.
Resumindo: para avaliar a relevância de um modelo, deve-se avaliar se as premissas da otimização por mínimos quadrados foram satisfeitas, o coeficiente de determinação \(R^2\) e se os coeficientes são significativamente diferentes de 0.
Um teste de hipótese é uma averiguação sobre determinada medida estatística em uma ou mais séries.
Todo teste tem uma hipótese nula, que se refere ao resultado mais provável, e uma hipótese alternativa, que só será aceita caso se verifiquem certas condições com probabilidades mais baixas de ocorrer.
Um teste pode ser pensado como uma análise de vida útil de um novo componente de automóvel: o caso mais comum (nossa hipótese nula) é que o novo componente (p. ex., a barra de direção), não quebre antes de 300 mil km rodados. Se, dos milhões de automóveis fabricados, apenas 5 apresentaram a falha, pode-se dizer que o componente é seguro. Entretanto, se 15% dos automóveis apresentaram a falha antes de 10 mil km, há que se ponderar a aceitação da hipótese alternativa de que o componente não é seguro, já que sua probabilidade de ocorrência nessa quilometragem, devido ao acaso, é muito baixa.
A probabilidade de ocorrência do caso mais comum é chamada de confiança, enquanto que a da hipótese alternativa é chamada de \(\alpha\). O teste retorna um valor de probabilidade chamado de p-value que, se menor que \(\alpha\), endossa a aceitação da hipótese alternativa. Note que \(conf + \alpha = 1\).
Os principais testes de hipótese são feitos sobre a média (teste-t) e sobre a variância (teste-F).
Testes de hipótese podem ser unicaudais, quando realizados sobre a hipótese de a estatística - média ou variância - ser maior ou menor que determinado valor, ou bicaudais, onde se avaliam as estatísticas em termos de “igual a” ou “diferente de” determinado valor.
Usa a distribuição t de Student.
A hipótese nula, para uma única série, é a de que a média é igual (bicaudal) ou maior/menor ou igual (unicaudal) a determinado valor. Sejam duas séries y1 e y2:
> Estatísticas descritivas de 'y1':
> Min. 1st Qu. Median Mean 3rd Qu. Max.
> -12.5458 -3.4693 -0.6912 -0.5480 2.4591 9.9367
> Estatísticas descritivas de 'y2':
> Min. 1st Qu. Median Mean 3rd Qu. Max.
> -1.160 2.597 4.323 4.677 6.404 14.723
y1 é uma variável aleatória normalmente distribuída, gerada com média -1 e desvio-padrão 5; y2 é uma variável aleatória normalmente distribuída, gerada com média 5 e desvio-padrão 3. Note que a média de y1 ficou apreciavelmente distante do valor nominal.
Os testes a seguir consideram o nível de confiança de 95% (ou \(\alpha = 0,05\)):
> Teste: média de 'y1' é igual a -1
>
> One Sample t-test
>
> data: y1
> t = 0.99041, df = 99, p-value = 0.3244
> alternative hypothesis: true mean is not equal to -1
> 95 percent confidence interval:
> -1.4535828 0.3576419
> sample estimates:
> mean of x
> -0.5479705
y1 não é signicativamente diferente de -1.> Teste: média de 'y2' é menor que 5.5 como hipótese alternativa
>
> One Sample t-test
>
> data: y2
> t = -2.8358, df = 99, p-value = 0.002772
> alternative hypothesis: true mean is less than 5.5
> 95 percent confidence interval:
> -Inf 5.159032
> sample estimates:
> mean of x
> 4.67736
y2 é menor que 5,5. Como o p-value ficou menor que 0,05, podemos aceitar a hipótese alternativa de que a média de y2 é, de fato, menor que 5,5.> Teste: diferença entre as médias de 'y2' e 'y1' é menor ou igual à 4.331
>
> Welch Two Sample t-test
>
> data: y2 and y1
> t = 1.6537, df = 167.77, p-value = 0.05003
> alternative hypothesis: true difference in means is greater than 4.331
> 95 percent confidence interval:
> 4.330855 Inf
> sample estimates:
> mean of x mean of y
> 4.6773596 -0.5479705
Usa a distribuição F de Snedecor.
O teste-F avalia a razão entre as variâncias de duas séries, nas mesmas condições do teste-t (maior ou igual, diferente, etc.).
Para as séries y1 e y2 usadas nos testes-t:
> Teste: razão entre as variâncias de 'y2' e 'y1' é igual a 0,36
>
> F test to compare two variances
>
> data: y2 and y1
> F = 1.1222, num df = 99, denom df = 99, p-value = 0.5673
> alternative hypothesis: true ratio of variances is not equal to 0.36
> 95 percent confidence interval:
> 0.2718253 0.6004325
> sample estimates:
> ratio of variances
> 0.403996
y2 e y1 foram geradas com desvios-padrão de 3 e 5, respectivamente).\[ *** \]