Trabalho 3: Teste de aderência Qui-quadrado e Kolmogorov-Smirnof (KS)
Descrição: Realizar um estudo dirigido para testar a aderência de dados a distribuições de probabilidade. O aluno deve pesquisar a dinâmica do teste, os comandos do R e rodar um exemplo de cada caso. O estudo deve ser feito e entregue em dupla. Nomear o arquivo com o primeiro nome de cada um e não esquecer de colocar o nome completo dentro do arquivo.
O teste paramétrico tradicional está em grande parte dos problemas que encontramos em estatística, e é obtido sob a hipótese de que a população tem distribuição normal. Nesse sentido, surge a necessidade de certificarmos se essa suposição pode ser assumida. Em alguns casos, assumir a normalidade dos dados é o primeiro passo que tomamos para simplificar nossas análises. Para dar suporte a esta suposição, consideramos, dentre outros, o teste de Kolmogorov - Smirnov.
O teste de Kolmogorov - Smirnov pode ser utilizado para avaliar as hipóteses:
\(H_{0} :\) Os dados seguem uma distribuição normal \(H_{1} :\) Os dados não seguem uma distribuição normal.
Este teste observa a máxima diferença absoluta entre a função de distribuição acumulada assumida para os dados, no caso a Normal, e a função de distribuição empírica dos dados. Como critério, comparamos esta diferença com um valor crítico, para um dado nível de significância.
Considere uma amostra aleatória simples \(X_1, X_2 , \cdots , X_n\) de uma população com função de distribuição acumulada contínua \(F_X\) desconhecida. A estatística utilizada para o teste é:
\[D_n=\sup_x|F(x)-F_n(x)|\] Esta função corresponde a distância máxima vertical entre os gráficos de \(F(x)\) e \(F_n(x)\) sobre a amplitude dos possíveis valores de \(x\). Em \(D_n\) temos que
Neste caso, queremos testar a hipótese \(H_0: F_X = F\) contra a hipótese alternativa \(F_X \neq F\). Para isto, tomamos \(X_{(1)}, X_{(2)}, \cdots , X_{(n)}\) as observações aleatórias ordenadas de forma crescente da população com função de distribuição contínua \(F_X\). No caso de análise da normalidade dos dados, assumimos \(F\) a função de distribuição da normal.
A função de distribuição acumulada assumida para os dados é definida por \(F(x_{(i)}) = P(X\leq x_{(i)})\) e a função de distribuição acumulada empírica é definida por uma função escada, dada pela fórmula:
\[F_n(x)=\frac{1}{n}\sum_{i=1}^n I_{\{(-\infty,x]\}}(x_{(i)})\] onde \(I_A\) é a função indicadora. A função indicadora é definida da seguinte forma:
\[I_{A}=\left\{\begin{array}{l} 1; \ \hbox{se} \ x\in A \\ 0; \ \hbox{caso contrário}\end{array}\right.\]
Observe que a função da distribuição empírica \(F_n(x)\) corresponde à proporção de valores menores ou iguais a \(x\). Tal função também pode ser escrita da seguinte forma
\[\begin{equation*}F_{n}(x)=\left\{\begin{array}{l} 0; \ \hbox{se} \ x\ < x_{(1)} \\ \frac{k}{n},\hbox{se} \ x_{(k)} \leq x \le x_{(k+1)}\\ 1,\hbox{se} \ x \ge x_{(n)}\end{array}\right.\end{equation*}\] Sob \(H_0\), a distribuição assintótica da estatística de kolmogorov-Smirnov é dada por
\[\lim_{n \rightarrow \infty}P\left[\sqrt{n} D_n \leq x\right] = 1-2 \sum_{j=1}^{\infty} (-1)^{j-1} exp^{-2j^2x^2}.\]
Esta distribuição assintótica é válida quando temos conhecimento completo sobre a distribuição de \(H_0\), entretanto, na prática, \(H_0\) especifica uma famíla de distribuições de probabilidade. Neste caso, a distribuição assintótica da estatística de Kolmogorov-Smirnov não conhecida e foi determinada via simulação.
Como a função de distribuição empírica \(F_n\) é descontínua e a função de distribuição hipotética é contínua, vamos considerar duas outras estatísticas:
\[D^+=\sup_{x_{(i)}}|F(x_{(i)})-F_n(x_{(i)})|\]
\[D^-=\sup_{x_{(i)}}|F(x_{(i)})-F_n(x_{(i-1)})|\] para calcularmos a estatística de kolmogorov-Smirnov. Essas estatísticas medem as distâncias (vertical) entre os gráficos das duas funções, teórica e empírica, nos pontos \(x_{(i-1)}\) e \(x_{(i)}\). Com isso, podemos utilizar como estatística de teste
\[D_n=\max(D^+,D^-)\] Se \(D_n\) é maior que o valor crítico, rejeitamos a hipótese de normalidade dos dados com \((1-\alpha)100\%\) de confiança. Caso contrário, não rejeitamos a hipótese de normalidade.
Avaliar a normalidade dos dados referente a medição de 10 peças.
dados = c(1.90642,2.10288,1.52229,2.61826,1.42738,2.22488,1.69742,3.15435,1.98492,1.99568)
Após ordenarmos os dados, obtemos o valor de \(F_n(x_{(i)})\) fazendo a razão entre a posição \(i\) e o valor total de dados, \(n\). O valor de \(F(x_{(i)})\) é encontrado na tabela da distribuição normal padrão, após transformarmos os dados pela relação
\[Z_{(i)}=\frac{x_{(i)}-\overline{x}}{s}\] onde \(\overline{x}\) é a média aritmética e \(s\) é o desvio padrão dos dados.
Segue a tabela com os dados ordenados e as estatísticas apra realizar o teste calculadas, temos:
| Dados | \(F_n(x)\) empírica | \(F(x)\) teórica | \(|F(x_{(i)})-F_n(x_{(i)})|\) | \(|F(x_{(i)})-F_n(x_{(i-1)})|\) |
|---|---|---|---|---|
| 1.42738 | 0.1 | 0.1086547 | 0.0086547 | 0.1086547 |
| 1.52229 | 0.2 | 0.1469448 | 0.0530552 | 0.0469448 |
| 1.69742 | 0.3 | 0.2388688 | 0.0611312 | 0.0388688 |
| 1.90642 | 0.4 | 0.3803466 | 0.0196534 | 0.0803466 |
| 1.98492 | 0.5 | 0.4394702 | 0.0605298 | 0.0394702 |
| 1.99568 | 0.6 | 0.4477126 | 0.1522874 | 0.0522874 |
| 2.10288 | 0.7 | 0.5304822 | 0.1695178 | 0.0695178 |
| 2.22488 | 0.8 | 0.6229025 | 0.1770975 | 0.0770975 |
| 2.61826 | 0.9 | 0.8590611 | 0.0409389 | 0.0590611 |
| 3.15435 | 1.0 | 0.9828237 | 0.0171763 | 0.0828237 |
| Máximo | 0.1770975 | 0.1086547 |
Com isso,
\(D_n=\max(0,1770975;0,1086547)=0,1770975\)
Considerando \(\alpha = 0,05\) e \(n = 10\), encontramos pela tabela de valores críticos (fim do material)o valor \(0,41\). Como \(D_n = 0,1770975 \ < \ 0,41\), não temos evidências para rejeitar a hipótese de normalidade dos dados.
Temos na definição do exercício os valores observados para testar normalidade. O teste tem a função ks.test, definida no R, ela precisará além dados de um distribuição a qual comparar, logo, definiremos com a normal com média e desvio padrão amostrais definidos pelos dados:
ks.test(dados,"pnorm",mean(dados),sd(dados))
##
## One-sample Kolmogorov-Smirnov test
##
## data: dados
## D = 0.1771, p-value = 0.8603
## alternative hypothesis: two-sided
Considere uma tabela de frequências com \(k\ge2\) categorias de resultados:
| Categorias | Frequência Observada |
|---|---|
| 1 | \(O_{1}\) |
| 2 | \(O_{2}\) |
| 3 | \(O_{3}\) |
| . | . |
| . | . |
| . | . |
| k | \(O_{k}\) |
| Total | n |
| – | – |
Em que \(O_{i}\) é o total de indivíduos observados na categoria \(i\), \(i = 1, 2, \dots,k\).
Seja \(p_{i}\) a probabilidade associada à categoria categoria \(i\), \(i = 1, 2, \dots,k\). O objetivo do teste de aderência é testar as hipóteses: \[H_{0} : p_{1} = po_{1} , .... , p_{k} = po_{k} \\ X \\ H_{1} : \text{existe pelo menos uma diferença}\]
Sendo \(po_{i}\) a probabilidade associada à categoria \(i\), \(i = 1, 2, \dots,k\), calculada através do modelo probabilístico de interesse.
Se \(E_{i}\) é o total de indivíduos esperados na categoria \(i\) quando a hipótese \(H_{0}\) é verdadeira, então: \[E_{i} = n * po_{i}, i = 1, 2, \dots,k \]
Expandindo a tabela de frequências original, temos:
| Categorias | Freq Observada | Freq Esperada |
|---|---|---|
| 1 | \(O_{1}\) | \(E_{1}\) |
| 2 | \(O_{2}\) | \(E_{2}\) |
| 3 | \(O_{3}\) | \(E_{3}\) |
| . | . | . |
| . | . | . |
| . | . | . |
| k | \(O_{k}\) | \(E_{k}\) |
| Total | n | n |
Quantificação da distância entre as colunas de frequências:
\[\chi^2 = \sum_{i = 1}^{k} \frac{(O_{i} - E_{i})^2}{E_{i}} \quad \longleftarrow \quad \text{Estatística do Teste de Aderência}\] Supondo \(H_{0}\) verdadeira, \[\chi^2 = \sum_{i = 1}^{k} \frac{(O_{i} - E_{i})^2}{E_{i}} \sim \chi_{q}^2\] aproximadamente, sendo \(q = k-1\) representa o número de graus de liberdade.
Em outras palavras, se \(H_{0}\) verdadeira, a v.a. \(\chi^2\) tem distribuição aproximada qui-quadrado com \(q\) graus de liberdade.
Obs.: Este resultado é válido para n grande e para \(E_{i} \ge 5, i=1, \dots, k\).
Regra de Decisão: Pode ser baseada no nível descritivo P, neste caso: \[P = P(\chi_{q}^2 \ge \chi_{obs}^2) \] em que \(\chi_{obs}^2\) é o valor calculado, a partir dos dados, usando a expressão apresentada para \(\chi^2\).
Se, para \(\alpha\) fixado, obtemos \(P \le \alpha\) , rejeitamos a hipótese \(H_{0}\).
Em uma certa população, 100 descendentes foram estudados, fornecendo a tabela a seguir:
| Genótipo | Freq Observada |
|---|---|
| AA | 26 |
| Aa | 45 |
| aa | 29 |
| Total | 100 |
Objetivo: Verificar se o modelo genético do Equilíbrio de Hardy-Weinberg é adequado para essa população.
O modelo diz que os descendentes recebem a distribuição dos genes da seguinte forma: \[p_{AA} = \frac{1}{4} \qquad p_{Aa} = \frac{1}{2} \qquad p_{aa} = \frac{1}{4}\]
Então, as hipóteses são: \[H_{0} : p_{AA} = \frac{1}{4} \times 100 = 25, p_{Aa} = \frac{1}{2} \times 100 = 50, p_{aa} = \frac{1}{4} \times 100 = 25 \\ X \\ H_{1} : \text{existe pelo menos uma diferença}\]
Logo, a tabela de Contingência ficará:
| Genótipo | Freq Observada | Freq Esperada |
|---|---|---|
| AA | 26 | 25 |
| Aa | 45 | 50 |
| aa | 29 | 25 |
| Total | 100 | 100 |
Cálculo do valor da estatística do teste (\(k = 3\)): \[\chi^2_{obs} = \sum_{i=1}^{3} \frac{(O_{i}-E_{i})^2}{E_{i}} = \frac{(26-25)^2}{25} + \frac{(45-50)^2}{50} + \frac{(29-25)^2}{25} = 0,04 + 0,50 + 0,64 = 1,18\]
\[\\\]
Usando a distribuição de qui-quadrado com \(q = k-1 = 2\) graus de liberdade.
Conclusão: Seja \(= 0,05\). Como \(P = 0,5543 > 0,05\), não rejeitamos a hipótese \(H_{0}\), isto é, essa população segue o equilíbrio Hardy- Weinberg.
\[\\\]
Temos na definição do exercício os valores observados e as probailidades para atender ao modelo genético. O teste tem a função chisq.test, definida no R:
chisq.test(c(26,45,29),p= c(0.25,0.5,0.25))
##
## Chi-squared test for given probabilities
##
## data: c(26, 45, 29)
## X-squared = 1.18, df = 2, p-value = 0.5543
A tabela de valores críticos para a estatística do teste de Komolgorov-Smirnov \((D_n)\) é dada a seguir.
Nível de Significância \(\alpha\):
| n | 0,2 | 0,1 | 0,05 | 0,01 |
|---|---|---|---|---|
| 5 | 0,45 | 0,51 | 0,56 | 0,67 |
| 10 | 0,32 | 0,37 | 0,41 | 0,49 |
| 15 | 0,27 | 0,30 | 0,34 | 0,40 |
| 20 | 0,23 | 0,26 | 0,29 | 0,36 |
| 25 | 0,21 | 0,24 | 0,27 | 0,32 |
| 30 | 0,19 | 0,22 | 0,24 | 0,29 |
| 35 | 0,18 | 0,20 | 0,23 | 0,27 |
| 40 | 0,17 | 0,19 | 0,21 | 0,25 |
| 45 | 0,16 | 0,18 | 0,20 | 0,24 |
| 50 | 0,15 | 0,17 | 0,19 | 0,23 |
| Valores maiores | \(\frac{1,07}{\sqrt{n}}\) | \(\frac{1,22}{\sqrt{n}}\) | \(\frac{1,36}{\sqrt{n}}\) | \(\frac{1,63}{\sqrt{n}}\) |
TESTES DE HIPÓTESES NÃO PARAMÉTRICOS - IME-UFRGS,http://www.mat.ufrgs.br/~viali/estatistica/mat2282/material/textos/Testes_Nao_Parametricos.pdf, Consultado em 08/11/2019.