Objetivos

Neste estudo busca-se estudar testes de aderência e a distribuição das suas estatísticas de teste, simulados a partir de gerações de amostras aleatórias. Específicamente, deseja-se:

  • Estudar a distribuição da estatística de teste utilizada para o teste de Kolmogorov, caso em que a distribuição Normal de referência está totalmente especificada pelos dados iniciais da simulação;
  • Estudar a distribuição da estatística de teste utilizada para o teste de Kolmogorov variação Lilliefors, caso em que a distribuição Normal de referência é estimada a partir de cada amostra;
  • Avaliar aderência à distribuição Normal de 5 amostras daquelas geradas utilizando os métodos Shapiro-Wilk e Anderson-Darling.


Metodologia

Para a realização da simulação, foram geradas 1000 (mil) amostras aleatórias de tamanho 15 de uma variável normalmente distribuída com média \(\mu =\) 165 e desvio-padrão \(\sigma =\) 16.5, definido a partir de um coeficiente de variação de 10%.

Além disso, para todos os testes de hipótese realizados no estudo, considera-se as hipóteses abaixo com nível de significância \(\alpha = 0.05\), avaliadas bilateralmente:

\[\begin{equation} \begin{cases} H_0: \text{A amostra pode ser descrita por uma distribuição Normal}\\ H_1: \text{A amostra não pode ser descrita por uma distribuição Normal}\\ \end{cases} \end{equation}\]

Por fim, valores tabelados da distribuições da estatística de teste Kolmogorov, variação Lilliefors, foram obtidos de Conover (1999) e valores tabelados para a estatística de Kolmogorov foram obtidos a partir do pacote DiceDesign, sob a seguinte expressão obtida de Agostino & Stephens (1986):

\[\frac{1.358}{\sqrt n + 0.12 + \frac{0.11}{\sqrt n}}\]


Testes para normalidade

Caso 1: Teste Kolmogorov

Para a realização dos testes de Kolmogorov em todas as mil amostras, foi considerada como referência uma distribuição normal totalmente especificada com os parâmetros \(\mu\) e \(\sigma\) previamente especificados e utilizados para a geração das amostras aleatórias. Os testes foram realizados pelo método bilateral, utilizando nível de significância de 0.05.

A estatística de teste para todas as mil amostras teve sua menor ocorrência com valor 0.0937334 e sua maior ocorrência com valor 0.5138408. Além disso, média e mediana foram avaliadas em 0.2150186 e 0.2064611 respectivamente.

As frequências das estatísticas de teste foram contabilizadas em dez classes, cujas frequências relativa e acumulada podem ser verificadas na Tabela 1 a seguir.


Tabela 1: Distribuição de frequências da estatística de teste Kolmogorov
Classe Frequência absoluta Frequência relativa Frequência acumulada
0.09-|0.13 80 8% 8%
0.13-|0.17 243 24.3% 32.3%
0.17-|0.22 250 25% 57.3%
0.22-|0.26 213 21.3% 78.6%
0.26-|0.30 111 11.1% 89.7%
0.30-|0.34 66 6.6% 96.3%
0.34-|0.38 23 2.3% 98.6%
0.38-|0.43 10 1% 99.6%
0.43-|0.47 1 0.1% 99.7%
0.47-|0.51 3 0.3% 100%
Fonte: elaboração própria


Analogamente, a distribuição das estatísticas de teste nas mesmas dez classes pode ser observada no histograma disposto na Figura 1 a seguir. É possível observar assimetria à direita, o que confirma graficamente a diferença entre medidas de centralidade.


Figura 1: histograma das estatísticas de teste para Kolmogorov

Figura 1: histograma das estatísticas de teste para Kolmogorov


A seguir são comparados quantis das estatística de teste observadas com seus valores tabelados, dispostos na Tabela 2.

Tabela 2: comparação de quantis observados e tabelados para estatísticas de teste Kolmogorov
Quantil Valor Observado Valor Tabelado
80% 0.266 0.266
85% 0.287 0.285
90% 0.304 0.304
95% 0.335 0.338
97.5% 0.368 0.368
99% 0.396 0.404
Fonte: elaboração própria


É possível observar que, a menos de três dos quantis comparados, cuja variação máxima é de 0.008, os valores observados são idênticos aos valores tabelados.


Caso 2: Teste Lilliefors

Para a realização dos testes de Lilliefors em todas as mil amostras, a distribuição normal foi estimada a partir das amostras. Os testes foram realizados pelo método bilateral, utilizando nível de significância de 0.05.

A estatística de teste para todas as mil amostras teve sua menor ocorrência com valor 0.070909 e sua maior ocorrência com valor 0.3026076. Além disso, média e mediana foram avaliadas em 0.1532527 e 0.1496261 respectivamente.

As frequências das estatísticas de teste foram contabilizadas em dez classes, cujas frequências relativa e acumulada podem ser verificadas na Tabela 3 a seguir.


Tabela 3: Distribuição de frequências da estatística de teste Lilliefors
Classe Frequência absoluta Frequência relativa Frequência acumulada
0.07-|0.09 25 2.5% 2.5%
0.09-|0.11 140 14% 16.5%
0.11-|0.14 229 22.9% 39.4%
0.14-|0.16 274 27.4% 66.8%
0.16-|0.18 180 18% 84.8%
0.18-|0.21 78 7.8% 92.6%
0.21-|0.23 38 3.8% 96.4%
0.23-|0.25 22 2.2% 98.6%
0.25-|0.27 5 0.5% 99.1%
0.27-|0.30 9 0.9% 100%
Fonte: elaboração própria


Analogamente, a distribuição das estatísticas de teste nas mesmas dez classes pode ser observada no histograma disposto na Figura 2 a seguir. É possível observar assimetria à direita, o que confirma graficamente a diferença entre medidas de centralidade.


Figura 2: histograma das estatísticas de teste para Lilliefors

Figura 2: histograma das estatísticas de teste para Lilliefors


A seguir são comparados quantis das estatística de teste observadas com seus valores tabelados, dispostos na Tabela 4.


Tabela 4: comparação de quantis observados e tabelados para estatísticas de teste Lilliefors
Quantil Valor Observado Valor Tabelado
80% 0.180 0.181
85% 0.187 0.190
90% 0.202 0.202
95% 0.223 0.219
97.5% 0.242 0.237
99% 0.274 0.256
Fonte: elaboração própria


É possível observar que os desvios das estatísticas obtidas são pequenos em relação aos seus valores tabelados. Enquanto os cinco menores quantis não apresentam desvios superiores a 0.005, o quantil 99% apresenta uma variação positiva de 0.018 em relação ao valor tabelado.

Testes para normalidade

Para os testes a seguir, foram selecionadas cinco amostras do conjunto de mil geradas anteriormente. Em ambas as baterias de testes, as mesmas cinco amostras foram utilizadas.

A Tabela 5 a seguir apresenta os resultados dos testes Shapiro-Wilk.


Tabela 5: Testes Shapiro-Wilk para normalidade
Amostra Estatística do teste p-valor
1 0.9312437 0.2847861
2 0.9686856 0.8381333
3 0.9627833 0.7406314
4 0.9795327 0.9662143
5 0.9478491 0.4912349
Fonte: elaboração própria


Por fim, a Tabela 6 a seguir apresenta os resultados dos testes Anderson-Darling:


Tabela 6: Testes Anderson-Darling para normalidade
Amostra Estatística do teste p-valor
1 0.3375405 0.4538639
2 0.2173267 0.8060337
3 0.2641585 0.6444840
4 0.1537752 0.9446685
5 0.3563553 0.4083869
Fonte: elaboração própria


É possível observar em ambas as tabelas a aceitação da hipótese de que a distribuição normal é uma boa aproximação para essas distribuições, apesar de haver ampla disparidade entre os p-valores.


Referências

CONOVER, William Jay. “Practical nonparametric statistics”. Ed. Wiley, 1999.
D’AGOSTINO Ralph B.; STEPHENS Michael A. “Goodness-of-fit techniques” Ed. CRC Press, 1986.