Roteiro

1 Conceitos de Média e Mediana

\[ \overline{x} = \frac{1}{N} \sum_{i=1}^{N} x_i \]

>  Preços de um ativo em 20 pregões:
>  $12.55, $14.11, $13.72, $12.5, $14.83, $14.83, $12.39, $14.5, $13.4, $13.65, $13.66, $12.72, $14.28, $12.54, $13.22, $14.56, $14.93, $12.68, $13.33, $12.22
>  Soma dos preços: 270.62
>  Média dos preços: 13.531
>  Preços do ativo em 20 pregões, em ordem crescente:
>  $12.22, $12.39, $12.5, $12.54, $12.55, $12.68, $12.72, $13.22, $13.33, $13.4, $13.65, $13.66, $13.72, $14.11, $14.28, $14.5, $14.56, $14.83, $14.83, $14.93
>  Mediana dos preços: 13.525

\[ p = \frac{N+1}{2} \]

2 Conceitos de Variância e Desvio-Padrão

\[ \sigma^2(x) = \frac{1}{N} \sum_{i=1}^{N} \left(x_i - \overline{x} \right)^2 \]

\[ \sigma^2(x) = \frac{1}{N-1} \sum_{i=1}^{N} \left(x_i - \overline{x} \right)^2 \] Para os preços da seção 1:

>  Soma dos desvios quadrados dos preços:
>  15.85678
>  Variância dos preços:
>  0.8345674

\[ \sigma(x) = \sqrt{\sigma^2(x)} \]

>  Retornos do ativo:
>  1.84%, 2.96%, 0.21%, -1.08%, 4.56%, -3.62%, 2.76%, 1.07%, 3.03%, 1.86%, 5.18%, -1.4%, 4.18%, 4.91%, 1.01%, -3.9%, 1.95%, -0.19%, 2.58%, 1.58%

O risco desse ativo, quantificado pelo desvio-padrão, seria:

>  Risco do ativo: 2.56%

\[ r_s = \frac{P[D+s]}{P[D]} - 1, \]

onde \(P[X]\) representa o preço no período \(X\).

3 Distribuições de Probabilidade

Table 3.1: Tabela de frequências
faixas frequência
-6% a -4% 2
-4% a -2% 8
-2% a 0% 28
0% a 2% 25
2% a 4% 22
4% a 6% 13
6% a 8% 2

\[ f(x) = \frac{1}{\sigma\sqrt{2\pi}} \exp \left[-\frac{1}{2}\left(\frac{x-\mu}{\sigma}\right)^2 \right] \]

4 Sumarização de Dados

>  Estatísticas:
>       PETR4      
>   Min.   :23.90  
>   1st Qu.:25.51  
>   Median :26.07  
>   Mean   :26.10  
>   3rd Qu.:26.68  
>   Max.   :27.73
>  Exemplos de quantis:
>       10%      33%      50%      67%      90% 
>  25.12370 25.64923 26.07250 26.55047 27.02518

5 Correlação

>  Correlação de Pearson
>  ----------------------
>  y1 e x:
>  [1] 0.8561542
>  y2 e x:
>  [1] -0.9528615

Como o \(\rho\) de Pearson é uma quantificação para a dependência linear entre duas variáveis, quanto maior seu valor absoluto, maior a dependência linear. Se a correlação tiver um valor negativo, as duas séries têm direção de crescimento inversas.

Para o exemplo, y2 tem uma relação linear com x mais forte que y1, e pode-se dizer que y2 é inversamente proporcional a x, já que a correlação entre ambas é negativa.

>  Correlação de Spearman
>  ----------------------
>  y1 e x:
>  [1] 1
>  y2 e x:
>  [1] -0.9550915

A correlação de Spearman (\(r_s\)) trabalha com a ordenação dos dados. Por isso, caso \(y(x+\delta) \ge y(x)\) ou \(y(x+\delta) \le y(x)\), para todo \(\delta \ge 0\) (em outras palavras, caso a série \(y\) seja monótona em relação a \(x\)), a correlação de Spearman entre \(x\) e \(y\) será 1 ou -1 (a depender se \(y\) é direta ou inversamente proporcional a \(x\), respectivamente).

Pelo gráfico de y1, vê-se que, se x aumenta, y1 sempre aumenta, o que rende \(r_s = 1\) entre as duas séries.

>  Correlação de Kendall
>  ----------------------
>  y1 e x:
>  [1] 1
>  y2 e x:
>  [1] -0.8125253

Como também se trata de um correlação de postos, o \(\tau\) de Kendall resulta em 1 ou -1 para funções monótonas.

Uma série temporal caracteriza-se pelo fato de seus elementos serem indexados numa base de tempo, como os preços de um ativo. As alturas da população de uma cidade, por exemplo, não têm ordenação temporal.

Uma importante medida para séries temporais é a autocorrelação, que mede a correlação entre os elementos no tempo \(t+x\) e no tempo \(t+0\). O valor \(x\) é comumente chamado de spread ou lag. Exemplo autocorrelação linear para os preços de USIM5 entre 01/01/2017 e 31/12/2018:

>  
>  Autocorrelations of series '.', by lag
>  
>      0     1     2     3     4     5     6     7     8     9    10    11    12 
>  1.000 0.992 0.984 0.977 0.970 0.962 0.955 0.949 0.941 0.934 0.926 0.918 0.911 
>     13    14    15    16    17    18    19    20    21    22    23    24    25 
>  0.902 0.893 0.884 0.877 0.870 0.862 0.855 0.848 0.841 0.834 0.827 0.819 0.810 
>     26 
>  0.802

Mesmo para um lag de 26 pregões, há uma correlação linear considerável entre os preços. Isso pode ser usado, por exemplo, para construir um modelo de Regressão Linear para estimar o preço em \(D+x\). Observe como a reta de regressão linear ajusta-se ao dados em \(D+5\):

Nota-se, visualmente, um bom ajuste linear corroborando o valor de 0,962 para a correlação de Pearson. Na próxima seção, veremos um modelo de correlação linear para esses dados.

6 Regressão Linear

\[ A = \frac{cov(x,y)}{var(x)} \\ b = \bar{y} - A \bar{x} \] \(\bar{x}\) e \(\bar{y}\) representam, respectivamente, as médias de \(x\) e \(y\).

>  Covariância entre os preços em D+5 e D+0:
>  5.650941
>  Variância dos preços em D+0:
>  5.859587
>  Coeficiente 'A' da regressão:
>  0.9643922
>  Média dos preços em D+0:
>  7.614513
>  Média dos preços em D+5:
>  7.660258
>  Coeficiente 'b' da regressão:
>  0.3168808
>  Modelo de regressão completo:
>  
>  Call:
>  lm(formula = P5 ~ P0, data = df)
>  
>  Coefficients:
>  (Intercept)           P0  
>       0.3169       0.9644
>  Média dos resíduos:
>  -1.94777e-18
>  Estatísticas descritivas da regressão:
>  
>  Call:
>  lm(formula = P5 ~ P0, data = df)
>  
>  Residuals:
>       Min       1Q   Median       3Q      Max 
>  -1.94384 -0.29234 -0.00388  0.29666  1.89025 
>  
>  Coefficients:
>              Estimate Std. Error t value Pr(>|t|)    
>  (Intercept)  0.31688    0.08149   3.889 0.000115 ***
>  P0           0.96439    0.01020  94.550  < 2e-16 ***
>  ---
>  Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
>  
>  Residual standard error: 0.5477 on 491 degrees of freedom
>  Multiple R-squared:  0.9479, Adjusted R-squared:  0.9478 
>  F-statistic:  8940 on 1 and 491 DF,  p-value: < 2.2e-16

7 Testes de Hipótese

7.1 Teste-t

  • Usa a distribuição t de Student.

  • A hipótese nula, para uma única série, é a de que a média é igual (bicaudal) ou maior/menor ou igual (unicaudal) a determinado valor. Sejam duas séries y1 e y2:

>  Estatísticas descritivas de 'y1':
>      Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
>  -12.5458  -3.4693  -0.6912  -0.5480   2.4591   9.9367
>  Estatísticas descritivas de 'y2':
>     Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
>   -1.160   2.597   4.323   4.677   6.404  14.723
  • y1 é uma variável aleatória normalmente distribuída, gerada com média -1 e desvio-padrão 5; y2 é uma variável aleatória normalmente distribuída, gerada com média 5 e desvio-padrão 3. Note que a média de y1 ficou apreciavelmente distante do valor nominal.

  • Os testes a seguir consideram o nível de confiança de 95% (ou \(\alpha = 0,05\)):

>  Teste: média de 'y1' é igual a -1
>  
>   One Sample t-test
>  
>  data:  y1
>  t = 0.99041, df = 99, p-value = 0.3244
>  alternative hypothesis: true mean is not equal to -1
>  95 percent confidence interval:
>   -1.4535828  0.3576419
>  sample estimates:
>   mean of x 
>  -0.5479705
  • O p-value ficou maior que \(\alpha\), o que nos conduz a aceitar a hipótese nula de que a média de y1 não é signicativamente diferente de -1.
>  Teste: média de 'y2' é menor que 5.5 como hipótese alternativa
>  
>   One Sample t-test
>  
>  data:  y2
>  t = -2.8358, df = 99, p-value = 0.002772
>  alternative hypothesis: true mean is less than 5.5
>  95 percent confidence interval:
>       -Inf 5.159032
>  sample estimates:
>  mean of x 
>    4.67736
  • Agora, foi testado se a média de y2 é menor que 5,5. Como o p-value ficou menor que 0,05, podemos aceitar a hipótese alternativa de que a média de y2 é, de fato, menor que 5,5.
>  Teste: diferença entre as médias de 'y2' e 'y1' é menor ou igual à 4.331
>  
>   Welch Two Sample t-test
>  
>  data:  y2 and y1
>  t = 1.6537, df = 167.77, p-value = 0.05003
>  alternative hypothesis: true difference in means is greater than 4.331
>  95 percent confidence interval:
>   4.330855      Inf
>  sample estimates:
>   mean of x  mean of y 
>   4.6773596 -0.5479705
  • Por fim, este último teste-t verifica, como hipótese nula, se \(\bar{y_2} - \bar{y_1} \le 4.331\) (o que equivale à hipótese alternativa de que \(\bar{y_2} - \bar{y_1} > 4.331\)). O p-value maior que \(\alpha\) corrobora a hipótese nula.

7.2 Teste-F

  • Usa a distribuição F de Snedecor.

  • O teste-F avalia a razão entre as variâncias de duas séries, nas mesmas condições do teste-t (maior ou igual, diferente, etc.).

  • Para as séries y1 e y2 usadas nos testes-t:

>  Teste: razão entre as variâncias de 'y2' e 'y1' é igual a 0,36
>  
>   F test to compare two variances
>  
>  data:  y2 and y1
>  F = 1.1222, num df = 99, denom df = 99, p-value = 0.5673
>  alternative hypothesis: true ratio of variances is not equal to 0.36
>  95 percent confidence interval:
>   0.2718253 0.6004325
>  sample estimates:
>  ratio of variances 
>            0.403996
  • Perceba que, ainda que o valor real da razão de variâncias seja em torno de 0,4, o p-value retornado é maior que 0,05, o que nos leva a aceitar a hipótese nula de que essa razão é, estatisticamente, igual a 0,36 (lembrando que as séries y2 e y1 foram geradas com desvios-padrão de 3 e 5, respectivamente).

\[ *** \]

  • O teste-t pode ser usado para comparar estratégias em termos de rendimento, avaliando as médias dos retornos obtidos, enquanto que o teste-F pode ser empregado para a comparação em termos de risco, avaliando as variâncias dos retornos.