class: center, middle, inverse, title-slide .title[ # Estatística não paramétrica ] .subtitle[ ## Aula 8 ] .author[ ### Manoel Santos-Neto ] .date[ ### Atualização: 28 de abril de 2025 ] --- <style type="text/css"> .remark-code{line-height: 1.2; font-size: 80%} @media print { .has-continuation { display: block; } } .title-slide h1 { color: white} .title-slide h2 { color: white} .title-slide h3 { color: white} </style> <style type="text/css"> pre { max-height: 300px; overflow-y: auto; } pre[class] { max-height: 300px; } </style> <style>body {text-align: justify}</style> ## O que você irá aprender nesta aula? .blockquote[ <!-- <svg viewBox="0 0 512 512" style="height:1em;position:relative;display:inline-block;top:.1em;" xmlns="http://www.w3.org/2000/svg"> <path d="M144 208c-17.7 0-32 14.3-32 32s14.3 32 32 32 32-14.3 32-32-14.3-32-32-32zm112 0c-17.7 0-32 14.3-32 32s14.3 32 32 32 32-14.3 32-32-14.3-32-32-32zm112 0c-17.7 0-32 14.3-32 32s14.3 32 32 32 32-14.3 32-32-14.3-32-32-32zM256 32C114.6 32 0 125.1 0 240c0 47.6 19.9 91.2 52.9 126.3C38 405.7 7 439.1 6.5 439.5c-6.6 7-8.4 17.2-4.6 26S14.4 480 24 480c61.5 0 110-25.7 139.1-46.3C192 442.8 223.2 448 256 448c141.4 0 256-93.1 256-208S397.4 32 256 32zm0 368c-26.7 0-53.1-4.1-78.4-12.1l-22.7-7.2-19.5 13.8c-14.3 10.1-33.9 21.4-57.5 29 7.3-12.1 14.4-25.7 19.9-40.2l10.6-28.1-20.6-21.8C69.7 314.1 48 282.2 48 240c0-88.2 93.3-160 208-160s208 71.8 208 160-93.3 160-208 160z"></path></svg> --> Testes de bondade de ajuste: Teste de Shapiro-Wilk. ] --- ## Teste de Shapiro-Wilk .content-box-yellow[ **Dados:** Os dados consistem de uma amostra aleatória `\(X_1, X_2, \dots, X_n\)` de tamanho `\(n\)` associada com alguma função de distribuição desconhecida, denotada de `\(F(x)\)`. ] .content-box-red[ **Suposições:** 1. A amostra é uma amostra aleatória. ] --- ## Teste de Shapiro-Wilk .small[ .content-box-red[ **Estatística de Teste:** Primeiro calculamos o denominador `\(D\)` da estatística de teste `$$D = \sum\limits_{i=1}^{n}(X_i - \bar{X})^2,$$` em que `\(\bar{X}\)` é a média amostral. Então ordene a amostra do menor para o maior, `$$X_{(1)} \leq X_{(2)} \leq \dots \leq X_{(n)},$$` e seja `\(X_{(i)}\)` a `\(i\)`-ésima estatística de ordem. A partir da Tabela A16 (Conover), para o tamanho da amostra `\(n\)` observado, obtem-se os coeficientes `\(a_1, a_2, \dots, a_k\)` com `\(k\)` sendo aproximadamente `\(n/2\)`(se for impar `\(k = (n-1)/2\)` ). A estatística de teste é dada por `$$W = \frac{1}{D}\left[\sum\limits_{i=1}^{k}a_i(X_{(n-i+1)} - X_{(i)} )\right]^2.$$` ] ] --- ## Teste de Shapiro-Wilk .content-box-blue[ **Distribuição sob a hipótese nula:** A estatística de teste `\(W\)` é essencialmente o quadrado de um coeficiente de correlação. Para calcular isso, utilizamos o coeficiente de correlação de Pearson entre a estatística de ordem `\(X_{(i)}\)` na amostra e os escores `\(a_i\)`, que indicam como as estatísticas de ordem deveriam ser se a população seguisse uma distribuição normal. Assim, quando `\(W\)` se aproxima de `\(1.0\)`, isso sugere que a amostra se comporta como se fosse proveniente de uma população normal. Por outro lado, se `\(W\)` for significativamente pequeno, ou seja, muito abaixo de `\(1.0\)`, indica que a amostra não se assemelha a uma distribuição normal. Os quantis de `\(W\)` podem ser encontrados na Tabela A17 (Conover). ] --- ## Teste de Shapiro-Wilk .content-box-purple[ **Hipóteses:** `\(\mathcal{H}_0:\)` `\(F(x)\)` é uma função de distribuição normal com média e variância não especificadas. `\(\mathcal{H}_1:\)` `\(F(x)\)` não é normal. Para um nível de significância `\(\alpha\)`, rejeita-se `\(\mathcal{H}_0:\)` se `\(W\)` é menor que o quantil `\(\alpha\)` dado na Tabela A17 (Conover). ] --- ## Teste de Shapiro-Wilk .content-box-gray[ **Comentários:** - Proposto inicialmente por Shapiro and Wilk (1965) para `\(n \leq 50\)` e posteriormente foi aumentado para `\(n\)` até 5000 por Royston (1982); - Os quantis (tabelados) para a estatística W foram obtidos por meio de simulações de Monte Carlo por Pearson and Hartley (1972); - Este teste é essencialmente unilateral a esquerda; - Eficiente mesmo com um número pequeno de observações; - Baixo poder na existência de muitos empates. ] --- ## Teste de Shapiro-Wilk .content-box-green[ **Aspectos computacionais:** O `R` possui versões do teste de Shapiro-Wilk. Basta usar o comando `shapiro.test ` do pacote `stats`. ] .center[  ] --- ## Exemplo Considere o seguinte conjunto de dados: 65, 61, 63, 86, 70, 55, 74, 35, 72, 68, 45, 58. --- ## Exemplo .pull-left[ ```r dif <- function(x){ n <- length(x) if (n %% 2 == 0) k <- n/2 else k <- (n-1)/2 d <- NULL for(i in seq_len(k)){ d[i] <- x[n-i+1] - x[i] } d } amostra <- sort(c(65, 61, 63, 86, 70, 55, 74, 35, 72, 68, 45, 58)) #amostra ordenada ai <- c(0.5475, 0.3325, 0.2347, 0.1586, 0.0922, 0.0303) n <- length(amostra);n D <- (n-1)*var(amostra);D tab <- cbind("ai" = ai, "di" = dif(amostra)); tab num <- (sum(tab[,1]*tab[,2]))^2 W <- num/D; W valor_p <- approx(x = c(0.943,0.973), y = c(0.5, 0.9), xout = W)$y;valor_p ``` ] .pull-right[ ``` ## [1] 12 ``` ``` ## [1] 2008.667 ``` ``` ## ai di ## [1,] 0.5475 51 ## [2,] 0.3325 29 ## [3,] 0.2347 17 ## [4,] 0.1586 12 ## [5,] 0.0922 7 ## [6,] 0.0303 2 ``` ``` ## [1] 0.9710261 ``` ``` ## [1] 0.8736811 ``` ] Como o `\(\text{valor-}p = 0.87\)` é maior que `\(\alpha = 0.05\)`, não rejeitamos a hipótese nula de que os dados estão normalmente distribuídos. Uma vez que esse `\(\text{valor-}p\)` é baseado em interpolação linear, ele não é muito preciso, mas o importante é que é muito maior do que o nível de significância, e assim podemos não rejeitar a hipótese nula de que os dados estão normalmente distribuídos. --- ## Exemplo Agora usando o comando `shapiro.test()` do `R` temos: ```r shapiro.test(amostra) ``` ``` ## ## Shapiro-Wilk normality test ## ## data: amostra ## W = 0.97107, p-value = 0.9216 ``` --- ## ❓ Exercícios .pull-left[  ] .pull-rigth[ 1. O retorno do investimento durante 12 meses em 20 ações selecionadas aleatoriamente é o seguinte: 9.1, 5.0, 7.3, 7.4, 5.5, 8.6, 7.0, 4.3, 4.7, 8.0, 4.0, 8.5, 6.4, 6.1, 5.8, 9.5, 5.2, 6.7, 8.3, 9.2. Teste a hipótese nula de normalidade usando o teste de Shapiro-Wilk. 2. Quinze calouros inscritos tiveram as seguintes pontuações de desempenho: 481, 620, 642, 515, 740, 562, 395, 615, 596, 618, 525, 584, 540, 580, 598. Teste a normalidade usando o teste de Shapiro-Wilk. ] [Valores Tabelados](https://real-statistics.com/statistics-tables/shapiro-wilk-table/) --- .center[]