class: center, middle, inverse, title-slide # Estatística I ## Aula 08 - Quantis, Assimetria e Curtose ### Prof. Dr. Hidelbrando F. Rodrigues ### ICET/UFAM ### 2021-09-13 --- ```r dados_compressao <- c(105, 221, 183, 186, 121, 181, 180, 143, 97, 154, 153, 174, 120, 168, 167, 141, 245, 228, 174, 199, 181, 158, 176, 110, 163, 131, 154, 115, 160, 208, 158, 133, 207, 180, 190, 193, 194, 133, 156, 123, 134, 178, 76, 167, 184, 135, 229, 146, 218, 157, 101, 171, 165, 172, 158, 169, 199, 151, 142, 163, 145, 171, 148, 158, 160, 175, 149, 87, 160, 237, 150, 135, 196, 201, 200, 176, 150, 170, 118, 149) ``` --- ### Obtendo os Quantis da Distribuição: quartis, decis, percentis Como regra geral podemos utilizar o comando *quantile()* para os *quartis*, *decis* e *percentis*. Basta, para isso, utilizar um vetor no segundo argumento com as probabilidades correspondentes aos quantis desejados. #### Quartil (Qi) ```r quantile(dados_compressao, 0.25) # Q1 = primeiro quatil ``` ``` ## 25% ## 144.5 ``` ```r # Interpretação: 25% das medidas de compressão são de 144,5 psi, ou seja, # 25% (ou 20 leituras) são menores ou iguais a 144,5 psi. quantile(dados_compressao, probs = 0.50) # Q2 = segundo quatil ou mediana ``` ``` ## 50% ## 161.5 ``` ```r quantile(dados_compressao, probs = 0.75) # Q3 = terceiro quatil ``` ``` ## 75% ## 181 ``` --- ### Gráfico Boxplot ```r boxplot(dados_compressao, horizontal = T) ``` <img src="Aula08_files/figure-html/unnamed-chunk-4-1.png" width="100%" /> --- #### Decis (Di) ```r quantile(dados_compressao, probs = 0.1) # decil 1 (ou 10%) ``` ``` ## 10% ## 119.8 ``` ```r quantile(dados_compressao, probs = 0.3) # decil 3 (ou 30%) ``` ``` ## 30% ## 149 ``` ```r quantile(dados_compressao, probs = 0.7) # decil 7 (ou 70%) ``` ``` ## 70% ## 176.6 ``` --- ```r quantile(dados_compressao, probs = 0.9) # decil 9 (ou 90%) ``` ``` ## 90% ## 201.6 ``` ```r quantile(dados_compressao, probs = seq(0.1, 0.9, 0.05)) # decil de 10 a 90% ``` ``` ## 10% 15% 20% 25% 30% 35% 40% 45% 50% 55% 60% ## 119.80 132.70 135.00 144.50 149.00 152.30 156.60 158.00 161.50 167.00 170.40 ## 65% 70% 75% 80% 85% 90% ## 174.00 176.60 181.00 186.80 196.45 201.60 ``` --- #### Percentis (Pi) ```r quantile(dados_compressao, probs = seq(0.01, 0.99, 0.01)) ``` ``` ## 1% 2% 3% 4% 5% 6% 7% 8% 9% 10% 11% ## 84.69 92.80 98.48 101.64 104.80 108.70 112.65 115.96 118.22 119.80 120.69 ## 12% 13% 14% 15% 16% 17% 18% 19% 20% 21% 22% ## 121.96 125.16 131.12 132.70 133.00 133.43 134.22 135.00 135.00 138.54 141.38 ## 23% 24% 25% 26% 27% 28% 29% 30% 31% 32% 33% ## 142.17 142.96 144.50 145.54 146.66 148.12 148.91 149.00 149.49 150.00 150.07 ## 34% 35% 36% 37% 38% 39% 40% 41% 42% 43% 44% ## 150.86 152.30 153.44 154.00 154.04 155.62 156.60 157.39 158.00 158.00 158.00 ## 45% 46% 47% 48% 49% 50% 51% 52% 53% 54% 55% ## 158.00 158.68 160.00 160.00 160.00 161.50 163.00 163.16 164.74 166.32 167.00 ## 56% 57% 58% 59% 60% 61% 62% 63% 64% 65% 66% ## 167.24 168.03 168.82 169.61 170.40 171.00 171.00 171.77 173.12 174.00 174.14 ## 67% 68% 69% 70% 71% 72% 73% 74% 75% 76% 77% ## 174.93 175.72 176.00 176.60 178.18 179.76 180.00 180.46 181.00 181.08 182.66 ## 78% 79% 80% 81% 82% 83% 84% 85% 86% 87% 88% ## 183.62 184.82 186.80 189.96 192.34 193.57 194.72 196.45 198.82 199.00 199.52 ## 89% 90% 91% 92% 93% 94% 95% 96% 97% 98% 99% ## 200.31 201.60 206.34 207.68 212.70 218.78 221.35 226.88 228.63 232.36 238.68 ``` --- ### Medidas de Assimetria (AS) É o grau de desvio ou afastamento da simetria de uma distribuição. Quando a curva é simétrica, a média, a mediana e a moda coincidem, num mesmo ponto, de ordenada máxima, havendo um perfeito equilíbrio na distribuição. Quando o equilíbrio não acontece, isto é, a média, a mediana e a moda recaem em pontos diferentes da distribuição esta será assimétrica; enviesada a direita ou esquerda. ##### Como interpretar assimetria Uma regra prática diz: - Se a assimetria estiver entre -0,5 e 0,5, os dados são bastante simétricos (distribuição normal). - Se a distorção estiver entre -1 e -0,5 (distorção negativa) ou entre 0,5 e 1 (distorção positiva), os dados estão moderadamente distorcidos. - Se a distorção for menor que -1 (distorção negativa) ou maior que 1 (distorção positiva), os dados estão altamente distorcidos. Coeficiente de Assimetria de Pearson – Á medida que a distribuição deixa de ser simétrica, a média, a mediana e a moda vão se afastando, aumentando cada vez mais a diferença entre elas. `$$\alpha = \frac{3(\overline{x}-Me)}{s}$$` --- ```r ASS = 3*(mean(dados_compressao) - median(dados_compressao))/sd(dados_compressao) ASS ``` ``` ## [1] 0.1032622 ``` Classificação: Como o coeficiente de assimentria está entre -0,5 e 0,5 classificamos a distribuição como simétrica. --- ### Curtose *Curtose* é uma medida de 'cauda' da distribuição de probabilidade de uma variável aleatória de valor real. Geralmente é usado para identificar outliers (valores extremos) no conjunto de dados fornecido. Uma vez que é usado para identificar outliers, valores extremos em ambas as extremidades das caudas são usados para análise. ##### Tipos de curtose e como interpretar 1) Mesocúrtica (k = 263) - Esta distribuição mostra curtose de 3 perto de zero. A distribuição de valores extremos (outliers) é semelhante à distribuição normal. 2) Leptocúrtica (k < 0,263) - Esta distribuição mostra maior curtose do que mesocúrtica. O pico é mais alto e mais nítido que o Mesokúrtico. Ele mostra caudas pesadas em ambos os lados, o que indica grandes discrepâncias. No mundo dos investimentos, uma distribuição leptocúrtica significa que é um investimento de alto risco. 3) Platicúrtica: (k > 3) - Esta distribuição mostra curtose inferior à mesocúrtica. O pico é mais baixo e mais amplo do que o Mesokúrtico. Ele mostra caudas planas em ambos os lados, indicando pequenos valores discrepantes. No mundo dos investimentos, uma distribuição platicúrtica significa que é um investimento de baixo risco. --- ##### Coeficiente de Curtose (k) `$$k = \frac{Q_3-Q_1}{2(P_{90} - P_{90})}$$` ```r Q3 <- quantile(dados_compressao, 0.75) Q3 ``` ``` ## 75% ## 181 ``` ```r Q1 <- quantile(dados_compressao, 0.25) Q1 ``` ``` ## 25% ## 144.5 ``` ```r P90 <- quantile(dados_compressao, 0.90) P90 ``` ``` ## 90% ## 201.6 ``` ```r P10 <- quantile(dados_compressao, 0.10) P10 ``` ``` ## 10% ## 119.8 ``` $$ K = \frac{(181-144,5)}{2*(201,6-119,8)} = 0,223$$ Como k < 0,263, quanto à simetria, a distirbuição pode ser calssificada como delgada (ou leptocúrtica)