Titulo e Descrição:

Trabalho 3: Teste de aderência Qui-quadrado e Kolmogorov-Smirnof (KS)

Descrição: Realizar um estudo dirigido para testar a aderência de dados a distribuições de probabilidade. O aluno deve pesquisar a dinâmica do teste, os comandos do R e rodar um exemplo de cada caso. O estudo deve ser feito e entregue em dupla. Nomear o arquivo com o primeiro nome de cada um e não esquecer de colocar o nome completo dentro do arquivo.

Teste de Kolmogorov-Smirnov

Metodologia:

O teste paramétrico tradicional está em grande parte dos problemas que encontramos em estatística, e é obtido sob a hipótese de que a população tem distribuição normal. Nesse sentido, surge a necessidade de certificarmos se essa suposição pode ser assumida. Em alguns casos, assumir a normalidade dos dados é o primeiro passo que tomamos para simplificar nossas análises. Para dar suporte a esta suposição, consideramos, dentre outros, o teste de Kolmogorov - Smirnov.

O teste de Kolmogorov - Smirnov pode ser utilizado para avaliar as hipóteses:

\(H_{0} :\) Os dados seguem uma distribuição normal \(H_{1} :\) Os dados não seguem uma distribuição normal.

Este teste observa a máxima diferença absoluta entre a função de distribuição acumulada assumida para os dados, no caso a Normal, e a função de distribuição empírica dos dados. Como critério, comparamos esta diferença com um valor crítico, para um dado nível de significância.

Considere uma amostra aleatória simples \(X_1, X_2 , \cdots , X_n\) de uma população com função de distribuição acumulada contínua \(F_X\) desconhecida. A estatística utilizada para o teste é:

\[D_n=\sup_x|F(x)-F_n(x)|\] Esta função corresponde a distância máxima vertical entre os gráficos de \(F(x)\) e \(F_n(x)\) sobre a amplitude dos possíveis valores de \(x\). Em \(D_n\) temos que

  • \(F(x)\) representa a função de distribuição acumulada assumida para os dados;
  • \(F_n(x)\) representa a função de distribuição acumulada empírica dos dados.

Neste caso, queremos testar a hipótese \(H_0: F_X = F\) contra a hipótese alternativa \(F_X \neq F\). Para isto, tomamos \(X_{(1)}, X_{(2)}, \cdots , X_{(n)}\) as observações aleatórias ordenadas de forma crescente da população com função de distribuição contínua \(F_X\). No caso de análise da normalidade dos dados, assumimos \(F\) a função de distribuição da normal.

A função de distribuição acumulada assumida para os dados é definida por \(F(x_{(i)}) = P(X\leq x_{(i)})\) e a função de distribuição acumulada empírica é definida por uma função escada, dada pela fórmula:

\[F_n(x)=\frac{1}{n}\sum_{i=1}^n I_{\{(-\infty,x]\}}(x_{(i)})\] onde \(I_A\) é a função indicadora. A função indicadora é definida da seguinte forma:

\[I_{A}=\left\{\begin{array}{l} 1; \ \hbox{se} \ x\in A \\ 0; \ \hbox{caso contrário}\end{array}\right.\]
Observe que a função da distribuição empírica \(F_n(x)\) corresponde à proporção de valores menores ou iguais a \(x\). Tal função também pode ser escrita da seguinte forma

\[\begin{equation*}F_{n}(x)=\left\{\begin{array}{l} 0; \ \hbox{se} \ x\ < x_{(1)} \\ \frac{k}{n},\hbox{se} \ x_{(k)} \leq x \le x_{(k+1)}\\ 1,\hbox{se} \ x \ge x_{(n)}\end{array}\right.\end{equation*}\] Sob \(H_0\), a distribuição assintótica da estatística de kolmogorov-Smirnov é dada por

\[\lim_{n \rightarrow \infty}P\left[\sqrt{n} D_n \leq x\right] = 1-2 \sum_{j=1}^{\infty} (-1)^{j-1} exp^{-2j^2x^2}.\]

Esta distribuição assintótica é válida quando temos conhecimento completo sobre a distribuição de \(H_0\), entretanto, na prática, \(H_0\) especifica uma famíla de distribuições de probabilidade. Neste caso, a distribuição assintótica da estatística de Kolmogorov-Smirnov não conhecida e foi determinada via simulação.

Como a função de distribuição empírica \(F_n\) é descontínua e a função de distribuição hipotética é contínua, vamos considerar duas outras estatísticas:

\[D^+=\sup_{x_{(i)}}|F(x_{(i)})-F_n(x_{(i)})|\]

\[D^-=\sup_{x_{(i)}}|F(x_{(i)})-F_n(x_{(i-1)})|\] para calcularmos a estatística de kolmogorov-Smirnov. Essas estatísticas medem as distâncias (vertical) entre os gráficos das duas funções, teórica e empírica, nos pontos \(x_{(i-1)}\) e \(x_{(i)}\). Com isso, podemos utilizar como estatística de teste

\[D_n=\max(D^+,D^-)\] Se \(D_n\) é maior que o valor crítico, rejeitamos a hipótese de normalidade dos dados com \((1-\alpha)100\%\) de confiança. Caso contrário, não rejeitamos a hipótese de normalidade.

Exemplo:

Avaliar a normalidade dos dados referente a medição de 10 peças.

dados = c(1.90642,2.10288,1.52229,2.61826,1.42738,2.22488,1.69742,3.15435,1.98492,1.99568)

Após ordenarmos os dados, obtemos o valor de \(F_n(x_{(i)})\) fazendo a razão entre a posição \(i\) e o valor total de dados, \(n\). O valor de \(F(x_{(i)})\) é encontrado na tabela da distribuição normal padrão, após transformarmos os dados pela relação

\[Z_{(i)}=\frac{x_{(i)}-\overline{x}}{s}\] onde \(\overline{x}\) é a média aritmética e \(s\) é o desvio padrão dos dados.

Segue a tabela com os dados ordenados e as estatísticas apra realizar o teste calculadas, temos:

Dados \(F_n(x)\) empírica \(F(x)\) teórica \(|F(x_{(i)})-F_n(x_{(i)})|\) \(|F(x_{(i)})-F_n(x_{(i-1)})|\)
1.42738 0.1 0.1086547 0.0086547 0.1086547
1.52229 0.2 0.1469448 0.0530552 0.0469448
1.69742 0.3 0.2388688 0.0611312 0.0388688
1.90642 0.4 0.3803466 0.0196534 0.0803466
1.98492 0.5 0.4394702 0.0605298 0.0394702
1.99568 0.6 0.4477126 0.1522874 0.0522874
2.10288 0.7 0.5304822 0.1695178 0.0695178
2.22488 0.8 0.6229025 0.1770975 0.0770975
2.61826 0.9 0.8590611 0.0409389 0.0590611
3.15435 1.0 0.9828237 0.0171763 0.0828237
Máximo 0.1770975 0.1086547

Com isso,

\(D_n=\max(0,1770975;0,1086547)=0,1770975\)

Considerando \(\alpha = 0,05\) e \(n = 10\), encontramos pela tabela de valores críticos (fim do material)o valor \(0,41\). Como \(D_n = 0,1770975 \ < \ 0,41\), não temos evidências para rejeitar a hipótese de normalidade dos dados.

Aplicando no R

Temos na definição do exercício os valores observados para testar normalidade. O teste tem a função ks.test, definida no R, ela precisará além dados de um distribuição a qual comparar, logo, definiremos com a normal com média e desvio padrão amostrais definidos pelos dados:

ks.test(dados,"pnorm",mean(dados),sd(dados))
## 
##  One-sample Kolmogorov-Smirnov test
## 
## data:  dados
## D = 0.1771, p-value = 0.8603
## alternative hypothesis: two-sided

Teste de Aderência

Metodologia:

Considere uma tabela de frequências com \(k\ge2\) categorias de resultados:

Categorias Frequência Observada
1 \(O_{1}\)
2 \(O_{2}\)
3 \(O_{3}\)
. .
. .
. .
k \(O_{k}\)
Total n

Em que \(O_{i}\) é o total de indivíduos observados na categoria \(i\), \(i = 1, 2, \dots,k\).


Seja \(p_{i}\) a probabilidade associada à categoria categoria \(i\), \(i = 1, 2, \dots,k\). O objetivo do teste de aderência é testar as hipóteses: \[H_{0} : p_{1} = po_{1} , .... , p_{k} = po_{k} \\ X \\ H_{1} : \text{existe pelo menos uma diferença}\]

Sendo \(po_{i}\) a probabilidade associada à categoria \(i\), \(i = 1, 2, \dots,k\), calculada através do modelo probabilístico de interesse.

Se \(E_{i}\) é o total de indivíduos esperados na categoria \(i\) quando a hipótese \(H_{0}\) é verdadeira, então: \[E_{i} = n * po_{i}, i = 1, 2, \dots,k \]

Expandindo a tabela de frequências original, temos:

Categorias Freq Observada Freq Esperada
1 \(O_{1}\) \(E_{1}\)
2 \(O_{2}\) \(E_{2}\)
3 \(O_{3}\) \(E_{3}\)
. . .
. . .
. . .
k \(O_{k}\) \(E_{k}\)
Total n n

Quantificação da distância entre as colunas de frequências:

\[\chi^2 = \sum_{i = 1}^{k} \frac{(O_{i} - E_{i})^2}{E_{i}} \quad \longleftarrow \quad \text{Estatística do Teste de Aderência}\] Supondo \(H_{0}\) verdadeira, \[\chi^2 = \sum_{i = 1}^{k} \frac{(O_{i} - E_{i})^2}{E_{i}} \sim \chi_{q}^2\] aproximadamente, sendo \(q = k-1\) representa o número de graus de liberdade.

Em outras palavras, se \(H_{0}\) verdadeira, a v.a. \(\chi^2\) tem distribuição aproximada qui-quadrado com \(q\) graus de liberdade.

Obs.: Este resultado é válido para n grande e para \(E_{i} \ge 5, i=1, \dots, k\).

Regra de Decisão: Pode ser baseada no nível descritivo P, neste caso: \[P = P(\chi_{q}^2 \ge \chi_{obs}^2) \] em que \(\chi_{obs}^2\) é o valor calculado, a partir dos dados, usando a expressão apresentada para \(\chi^2\).

Se, para \(\alpha\) fixado, obtemos \(P \le \alpha\) , rejeitamos a hipótese \(H_{0}\).

Exemplo:

Em uma certa população, 100 descendentes foram estudados, fornecendo a tabela a seguir:

Genótipo Freq Observada
AA 26
Aa 45
aa 29
Total 100

Objetivo: Verificar se o modelo genético do Equilíbrio de Hardy-Weinberg é adequado para essa população.

O modelo diz que os descendentes recebem a distribuição dos genes da seguinte forma: \[p_{AA} = \frac{1}{4} \qquad p_{Aa} = \frac{1}{2} \qquad p_{aa} = \frac{1}{4}\]

Então, as hipóteses são: \[H_{0} : p_{AA} = \frac{1}{4} \times 100 = 25, p_{Aa} = \frac{1}{2} \times 100 = 50, p_{aa} = \frac{1}{4} \times 100 = 25 \\ X \\ H_{1} : \text{existe pelo menos uma diferença}\]

Logo, a tabela de Contingência ficará:

Genótipo Freq Observada Freq Esperada
AA 26 25
Aa 45 50
aa 29 25
Total 100 100

Cálculo do valor da estatística do teste (\(k = 3\)): \[\chi^2_{obs} = \sum_{i=1}^{3} \frac{(O_{i}-E_{i})^2}{E_{i}} = \frac{(26-25)^2}{25} + \frac{(45-50)^2}{50} + \frac{(29-25)^2}{25} = 0,04 + 0,50 + 0,64 = 1,18\]

\[\\\]

Usando a distribuição de qui-quadrado com \(q = k-1 = 2\) graus de liberdade.

Conclusão: Seja \(= 0,05\). Como \(P = 0,5543 > 0,05\), não rejeitamos a hipótese \(H_{0}\), isto é, essa população segue o equilíbrio Hardy- Weinberg.

\[\\\]

Aplicando no R:

Temos na definição do exercício os valores observados e as probailidades para atender ao modelo genético. O teste tem a função chisq.test, definida no R:

chisq.test(c(26,45,29),p= c(0.25,0.5,0.25))
## 
##  Chi-squared test for given probabilities
## 
## data:  c(26, 45, 29)
## X-squared = 1.18, df = 2, p-value = 0.5543

Tabela Resumida da Estatística do Teste de Kolmogorov-Smirnov

A tabela de valores críticos para a estatística do teste de Komolgorov-Smirnov \((D_n)\) é dada a seguir.

Nível de Significância \(\alpha\):

n 0,2 0,1 0,05 0,01
5 0,45 0,51 0,56 0,67
10 0,32 0,37 0,41 0,49
15 0,27 0,30 0,34 0,40
20 0,23 0,26 0,29 0,36
25 0,21 0,24 0,27 0,32
30 0,19 0,22 0,24 0,29
35 0,18 0,20 0,23 0,27
40 0,17 0,19 0,21 0,25
45 0,16 0,18 0,20 0,24
50 0,15 0,17 0,19 0,23
Valores maiores \(\frac{1,07}{\sqrt{n}}\) \(\frac{1,22}{\sqrt{n}}\) \(\frac{1,36}{\sqrt{n}}\) \(\frac{1,63}{\sqrt{n}}\)

Referência:

TESTES DE HIPÓTESES NÃO PARAMÉTRICOS - IME-UFRGS,http://www.mat.ufrgs.br/~viali/estatistica/mat2282/material/textos/Testes_Nao_Parametricos.pdf, Consultado em 08/11/2019.