Conteúdo do Módulo
1 - Introdução à argumentação técnica e ao teste de hipótese
2 - Terminologia usada em testes de hipótese e estudo de caso
3 - Argumentação estatística pelo intervalo de confiança
4 - Testes de significância (visão Fisheriana)
5 - Testes de hipótese (visão Neyman-Pearson)
Este módulo discutirá o uso da argumentos estatísticos no contexto do exame da validade de hipóteses. Na introdução, são apresentados alguns princípios lógicos que devem ser atendidos no exame da validade de uma hipótese, ou seja, se a hipótese é verdadeira, ou válida. Para melhor entendimento, algumas definições são apresentadas a seguir:
Hipótese: afirmação de interesse sobre algo, que não se sabe se é verdadeira ou falsa. Será representada aqui por pelo símbolo \(\def\H{{\mathbb H}}\H_i\), onde \(i\) é um subscrito definido de acordo com o contexto.
Teste de hipótese: procedimento que produz argumento forte (mas as vezes não definitivo) para corroborar a validade (se a hipótese é verdadeira) ou não-validade (se a hipótese é falsa) de uma hipótese de interesse. Muitos procedimentos de teste se utilizam de argumentos estatísticos, que nesses casos podem ser chamados de testes estatísticos de hipótese.
Exercício para reflexão: qual é a diferença entre opinião e argumento na defesa de um ponto de vista ou hipótese?
Suponha que deseja um argumento forte avaliar a validade da hipótese:
Para testar a validade essa hipótese, assuma que foi desenhado um plano de observação, baseado em \(n\) locais de ocorrência desses cisnes, escolhidos por sorteio dentre os locais onde esses cisnes ocorrem (que são muitos, alguns desconhecidos). Não há possíbilidade de observar todos os indivíduos dessa população de cisnes e isso é o que é possível, dentro do orçamento disponível.
Os resultados desse plano de observação vão constituir evidência empírica que pode nos ajudar a analisar a validade da hipótese \(\H_0\).
Considere que \(R_1\), \(R_2\),\(\ldots\),\(R_n\) são os resultados das observações nos \(n>0\) locais. Se foi observado algum cisne que não seja branco no local \(i\), teremos \(R_i=1\). Se todos os cisnes observados no local \(i\) forem brancos, \(R_i=0\).
Podemos ter 2 resultados relevantes para avaliação da validade da hipótese \(\H_0\): “todos os cisnes da espécie cygnus olor são brancos”:
Evidência 1: \(\sum_{i=1}^n R_i > 0\), ou seja, foi observado pelo menos 1 cisne que não é branco nas observações realizadas.
conclusão possível: \(\H_0\) foi rejeitada (a evidência é conclusiva e independe do valor de n)
Evidência 2: \(\sum_{i=1}^n R_i = 0\), ou seja, todas observações realizadas constataram somente cisnes brancos.
conclusão possível: \(\H_0\) foi não rejeitada pela evidência (evidência não foi conclusiva)
Note que não rejeitar \(\H_0\) é diferente de aceitar que \(\H_0\) é verdadeira.
A conclusão de não rejeição não prova a validade de \(\H_0\) mas é compatível com a validade de \(\H_0\). Podemos concluir que é plausível que \(\H_0\) seja verdadeira a partir dessa evidência. Ademais, muitos vão concordar que a força dessa plausibilidade depende do valor de \(n\), quanto maior, mais força ganha a noção de que \(\H_0\) deve ser válida. É possível examinar essa questão sob o ponto de vista estatístico mas não iremos por essa direção neste momento.
Esse raciocínio se utilizou, para as conclusões, apenas da argumentação lógica a partir da hipótese e a evidência existente.
Em estatística o uso dessas noções (rejeitar e não rejeitar) é frequente, no contexto de testes de hipótese. E essa situação dos cisnes deixa claro que:
Na situação anterior, a observação da evidência \(\sum_{i=1}^n R >0\), ou seja, a observação de um ou mais cisnes que não são brancos, permitiria de fato provar que \(\H_0\): “todos os cisnes da espécie cygnus olor são brancos” é falsa.
Poderiamos dizer que \(\H_0\) foi desprovada por essa evidência. Seria contudo difícil encontrar um processo de demonstração, que não use a evidência observacional empírica, para se tentar provar \(\H_0\). Caso não seja possível a observação de todos os indivíduos da espécie cygnus olor, nunca teremos uma conclusão totalmente definitiva sobre \(\H_0\).
Infelizmente, as situações que comportam provas são bem específicas e tendem a ocorrer mais frequentemente na demonstração de resultados teóricos em disciplinas quantitativas como: física, matemática, estatística, economia e outras.
Considere por exemplo a hipótese:
Teste da hipótese pela observação empírica: Muitos poderiam ser tentados a verificar a validade dessa hipótese \(\H_0\) a partir de cálculos realizados em uma amostra de \(n\) triângulos retângulos diferentes, da mesma forma que fizemos com os cisnes. Mesmo que \(\H_0\) se verifique para todos os \(n\) triângulos, a única conclusão possível é que \(\H_0\) não foi rejeitada e que é plausível. Mas isso não permitiria afirmar que \(\H_0\) é verdadeira.
Os matemáticos gregos antigos, como Pitágoras, já entendiam a dificuldade de convencer alguem no contexto da matemática sem uma prova formal, e não aceitariam esse último argumento como definitivo.
Na maioria das situações práticas, envolvendo hipóteses sobre o mundo real os argumentos para avaliação de hipóteses são construídos sobre observações de fenômenos, tal como no problema dos cisnes. Nesse contexto, argumentos estatísticos podem ser muito úteis, mas dificilmente tem a força de uma prova, como no contexto do teorema de pitágoras.
Qual é a diferença principal existente entre opinião e argumento. Tome como base de sua resposta o que foi discutido em classe.
Qual é a diferença entre testar uma hipótese e demonstrar ou provar uma hipótese? Pense no caso do problema dos cisnes vs. o problema do teorema de Pitágoras.
É fácil provar uma hipótese relacionada a uma situação do “Mundo Real”, fora do contexto teórico?
Um dado tem 6 faces com os números 1 a 6 em cada uma das faces. Um dado não viciado, junto com um processo aleatório de lançamento, produz cada um dos resultados com 1/6 de probabilidade (o resultado é a face que fica para cima após o lançamento). Um dado viciado é aquele que, por construção (talvez colocando um peso em um dos lados), tende a dar resultados cujas probabilidades podem divergir de 1/6 para um ou mais lados (a soma dessas probabilidades deverá sempre somar 1). Suponha que se desconfia que um dado é viciado. Não é possível examinar o dado mas pode-se solicitar que seja lançado várias vezes. Seria possível provar ou desprovar a hipótese \(\H_0\):“o dado é viciado” somente a partir das observações dos resultados? Posteriormente examinaremos esse problema novamente em outra questão.
Uma das principais dificuldades com a formulação de hipóteses é a dificuldade de especificação de afirmações na hipótese cujo significado não é totalmente claro. Uma hipótese como \(\H_0\):“Deus existe” pode ser provada ou desprovada? Qual é a dificuldade?
Questão: a maior parte das pessoas tem a impressão de que as chances de meninos e meninas num nascimento qualquer é igual, ou seja, probabilidade 50% para cada sexo. Suponha que deseja testar essa hipótese utilizando a evidência produzida por dados observados. O desafio é construir um argumento forte (a favor ou contra) considerando os dados da tabela a seguir para construir sua argumentação:
Nascidos vivos por sexo e ano no Brasil (IBGE):
sexo | 2009 | freq. | 2010 | freq |
---|---|---|---|---|
homens | 1.415.650 | 0,5121 | 1.414.313 | 0,5123 |
mulheres | 1.348.674 | 0,4879 | 1.346.288 | 0,4877 |
Os dados mostram que, nos 2 anos, a frequência relativa de meninos foi maior que a de meninas, e curiosamente, com valores muito similares, em torno de 0,512, nos anos 2009 e 2010.
Pense cada nascimento \(i\), antes de observado o resultado, como uma variável aleatória Bernoulli(\(p\)), com \(X_i=1\), se tivermos um menino, com probabilidade \(p\), e \(X=0\) se tivermos uma menina, com probabilidade \(1-p\).
Nesse contexto, para \(n\) nascimentos teríamos \(X_1\), \(X_2\), \(\ldots\), \(X_n\), i.i.d. representando o sexo nesses \(n\) nascimentos.
Considere agora a hipótese
Do ponto de vista estatístico, essa hipótese pode ser “traduzida” por
\(\mathbb{H}_0:\;p=1/2\), onde \(p\) é o parâmetro da Bernoulli que caracteriza cada \(X_i\).
Os testes estatísticos são sempre definidos a partir de “parâmetros” ou “grandezas” mensuráveis de modelos estatísticos.
Na questão sobre os nascimentos a hipótese \(\mathbb{H}_0:\;p=1/2\) representa o pensamento usual de que as chances de meninos e meninas é igual.
No questão dos nascimentos, a hipótese alternativa poderia ser representada por \(\mathbb{H}_A:\;p\neq 1/2\) ou \(\mathbb{H}_A:\;p > 1/2\). A primeira situação seria mais comum nos testes de significância, mais usuais, que frequentemente não explicitam \(\mathbb{H}_A\).
hipótese simples: são hipóteses sobre parâmetros envolvem igualdades (ex. \(\mathbb{H}_0: p=1/2\)). Frequentemente \(\mathbb{H}_0\) envolve hipóteses simples. Nesse caso, o parâmetro envolvido só pode assumir um valor, especificado pela hipótese.
hipótese composta: são hipóteses sobre parâmetros envolvem desigualdades (ex. \(\mathbb{H}_A: p>1/2\) ou \(\mathbb{H}_A: p \neq 1/2\) ). Ainda que não seja uma exigência, é claramente mais utilizada como hipótese alternativa. Nesse caso o parâmetro pode assumir muitos valores, “sob a validade de \(\mathbb{H}_A\)”
A realização de testes de hipótese dependem da noção de
Estatística para teste: é uma variável aleatória que
tem distribuição de probabilidade conhecida sob a pressuposição de que \(\mathbb{H}_0\) é válida ou “sob a validade de \(\mathbb{H}_0\)”, usando um jargão comum na estatística.
Na questão dos nascimentos, que estamos estudando, podemos considerar várias estatísticas para teste que serão exploradas nos problemas. Em outros problemas essas estatísticas para teste podem ser complicadas de se obter ou podem requerer uso de técnicas específicas fundamentadas em amostragem para caracterização da distribuição (ex. bootstrapping e outras técnicas), quando esta não é conhecida explicitamente.
Pense como argumentar contra ou a favor da hipótese de chances iguais de meninos e meninas a partir da evidência de nascimentos observados.
Estime um intervalo de confiança a 99% para o “verdadeiro” valor de \(p\) baseado nos dados observados para o Brasil em 2010. Esse resultado pode ser utilizado na sua argumentação com relação \(\mathbb{H}_0: p=1/2\). Para estimar o intervalo de confiança você precisará de \(\bar X\) e \(s\), obtidos a partir dos dados apresentados.
Qual a diferença existente entre hipótese simples e hipótese composta no contexto estatístico?
É possível testar estatisticamente uma hipótese, sem que essa hipótese seja traduzida numa afirmação que envolva uma grandeza que pode ser aferida estatisticamente?
Antes de discutir os procedimentos mais comumente denominados de testes estatísticos de hipótese, vamos examinar o uso do intervalo de confiança na contrução de argumentos estatísticos. Há uma certa tendência, na estatítica moderna, de valorizar um pouco mais o uso do intervalo de confiança nos processos de inferência, em virtude de ser mais facilmente entendido que os procedimentos convencionais de teste que examinaremos nos tópicos seguintes.
Em alguns aspectos, o intervalo de confiança tende a evitar algumas dificuldades relacionadas aos testes estatísticos convencionais, produzindo resultados relativamente equivalentes tanto pela ótica estatística clássica quanto pela ótica da estatística bayesiana (Berger, 2003), algo que em geral não ocorre, quando os procedimentos de teste são utilizados.
Retornando ao problema do tópico anterior, nosso problema é produzir um argumento forte que permita examinar a validade da hipótese
Suponha que está considerando, para avaliação da hipótese, os dados dos nascimentos ocorridos no Brasil em 2010, entendidos no contexto do modelo estatístico em que cada um dos nascimentos é representado por \(X_1\), \(X_2\),\(\ldots\), \(X_n\), uma amostra i.i.d. de uma v.a. Bernoulli(\(p\)).
Pelos resultados do módulo anterior, sabemos que para uma amostra i.i.d. qualquer temos que
Se quisermos ser um pouco mais preciosistas, poderiamos utilizar procedimentos mais técnicos para obtenção do intervalo de confiança, mas isso é irrelevante em uma situação em que o valor de \(n\) é “muito grande” como o que temos nesse problema, pois nesse caso a distribuição é virtualmente idêntica à Normal padronizada.
Desse resultado, no módulo anterior, podemos obter o intervalo de confiança para \(p\) a probabilidade de menino em um nascimento, com probabilidade \(q\) dado por
*\([\bar X-q_q s/\sqrt{n},\; \bar X+q_q s/\sqrt{n}]\)
Onde \(q_q\) representa o quantil \((1+q)/2\) de uma Normal padronizada.
Para facilitar a notação, suponha que \(f=\bar X\), que nesse caso de v.a. Bernoulli, \(f\) representa a frequência amostral de meninos na amostra de \(n\) nascimentos.
Em módulo anterior, já mostramos, também nesse caso, que
\(s^2=\displaystyle \frac{\sum_{i=1}^n (X_i - \bar X)}{n-1}\;\;=\frac{(n-1)}{n}\,f\,(1-f)\)
\(s=\sqrt{\frac{n-1}{n}}\sqrt{f\,(1-f)}\)
Logo, teriamos o intervalo de confiança para \(p\) dado por
Implementando esse resultado com dados de nascimentos de 2010, considerando uma probabilidade de confiança de 99%
n<-1414313+1346288 ## n - total de nascimentos
n
## [1] 2760601
f<-1414313/n ## f - frequência de meninos
## obtenção do intervalo de confiança a 99%:
cat(f-qnorm((1+0.99)/2,0,1)*(n-1)/n*f*(1-f)/sqrt(n),f+qnorm((1+0.99)/2,0,1)*(n-1)/n*f*(1-f)/sqrt(n))
## 0.5119333 0.512708
Como \(\mathbb{H}_0:\, p=1/2\), e o valor 1/2 está fora do intervalo obtido, com 99% de probabilidade, os dados mostram evidência contrária a \(\H_0\), sugerindo sua rejeição.
Poderíamos até, para um teste mais rigoroso, utilizar uma probabilidade de confiança maior, por exemplo \(99{,}9999\)%, obtendo um novo intervalo de confiança:
## intervalo de confiança a 99%
cat(f-qnorm((1+0.999999)/2,0,1)*(n-1)/n*f*(1-f)/sqrt(n),f+qnorm((1+0.999999)/2,0,1)*(n-1)/n*f*(1-f)/sqrt(n))
## 0.5115851 0.5130563
Também nesse caso o valor de \(p\) indicado por \(\H_0: p=1/2\) não está incluído no intervalo de confiança. Como a probabilidade de confiança supera bastante a utilizada no primeiro caso (\(99{,}9999\)%), a evidência contra \(\H_0\) é ainda maior.
Ainda que não seja possível provar que \(\H_0:\, p=1/2\) é falsa, o argumento estatístico contra a validade de \(\H_0\) é muito forte, sugerindo sua rejeição.
Suponha, para efeito de um exercício, que desejamos testar \(\H_0:\; p=1/2\) na mesma situação anterior, observando 512 meninos em 1000 nascimentos, o que leva a uma frequência de meninos quase idêntica à da situação anterior, mas com uma amostra muito menor de apenas 1000 nascimentos. O intervalo de confiança a 99% seria:
n<-1000 ## n - total de nascimentos
n
## [1] 1000
f<-0.512 ## f - frequência de meninos
## obtenção do intervalo de confiança a 99%:
cat(f-qnorm((1+0.99)/2,0,1)*(n-1)/n*f*(1-f)/sqrt(n),f+qnorm((1+0.99)/2,0,1)*(n-1)/n*f*(1-f)/sqrt(n))
## 0.4916684 0.5323316
Observe que nesse caso o valor de \(p\) definido por \(\H_0\) está dentro do intervalo de confiança a 99%. Isso não seria uma evidência contrária a \(\H_0\), podendo-se dizer que a evidência não rejeitou \(\H_0\) nesse caso.
O exercício mostra que para demonstrar efeitos de pequena magnitude, como nesse caso, são necessárias amostras grandes. Com uma amostra menor é mais difícil rejeitar \(\H_0\), uma conclusão que serve para outras situações.
No exemplo que estamos desenvolvendo, verificamos que para uma probabilidade de confiança alta (\(99{,}9999\)%), não observamos que o resultado indicado por \(\H_0:\,p=1/2\) está dentro do intervalo de confiança estimado.
Uma questão que surge:
Obviamente, quanto maior a probabilidade de confiança, maior será a evidência contra \(\H_0\), na medida que não se observe o valor do parâmetro indicado por \(\H_0\) dentro do intervalo de confiança.
Em muitas situações de interesse, como a examinada até o momento, podemos derivar as expressões para o intervalo de confiança a partir de uma noção denominada quantidade pivotal que é estreitamente relacionada à noção de estatística para teste vista anteriormente.
No caso específico, o intervalo de confiança foi obtido a partir da premissa de que
\(\displaystyle \frac{f - \mu}{s/\sqrt{n}}\) tem distribuição Normal padronizada (por aproximação)
onde \(\mu=p\) e \(s=\displaystyle \sqrt{\frac{n-1}{n}}\sqrt{f\,(1-f)}\). Note que \(s\xrightarrow{n\to\infty}\sqrt{f\,(1-f)}\).
Essa expressão é uma quantidade pivotal para definição do intervalo de confiança para \(p\).
As diferenças entre a quantidade pivotal e a estatística para teste são muito sutis. Compare a definição abaixo com a definição de estatística para teste fornecida anteriormente neste módulo:
Quantidade pivotal: é uma variável aleatória que
conseguimos, algébricamente, transformar a expressão da v.a. num intervalo de confiança
Sem uma quantidade pivotal apropriada para o parâmetro não é possível a derivação dos limites do intervalo de confiança para o “verdadeiro” valor desse parâmetro (nota: a estatística Bayesiana segue outro cominho mas é também dependente de premissas sobre a distribuição).
Solução: uso de métodos amostrais de inferência (via simulação) como o operacionalizado por técnicas modernas como o bootstrapping e outras. Um exemplo dessa situação é apresentado a seguir.
Em módulo anterior, na seção 11.2, examinamos a obtenção do índice de Gini, utilizando a fórmula de Brown, que foi programada no R pela função:
Gini<-function(y){
n<-length(y)
f<-c(0,cumsum(sort(y)/sum(y)))
x<-c(0,cumsum(rep(1,length(y))/length(y)))
G<-0
for(k in 2:(n+1)){
G<-G+(x[k]-x[k-1])*(f[k]+f[k-1])
}
G<-1-G
G
}
A seguir, para relembrar, testamos a função Gini com um uma amostra de rendas de 1000 indivíduos, definidas a partir da função simularenda, usada no módulo sobre amostragem.
source("http://ihbs.com.br/html/aulaAmostragem.r") ## para a função simularenda
set.seed(20) ## para fixar a simulação
y<-simularenda(1000)
Gini(y)
## [1] 0.1277205
Problema: esse valor obtido é apenas uma estimativa do índice de Gini a partir dessa amostra, como podemos obter um intervalo de confiança para o “verdadeiro” índice de Gini (da população ou distribuição de onde foi retirada essa amostra)? Esse é um caso em que não podemos derivar facilmente uma quantidade pivotal apropriada a ser usada, ao contrário da situação anterior, em que usamos uma Normal Padronizada.
Solução: Em estatística há uma técnica não-paramétrica muito poderosa denominada bootstrapping que nada mais é a re-amostragem dos dados da própria amostra original, com reposição. No problema presente, para cada “re-amostra da amostra”, obtida com reposição, é calculado um valor do índice de Gini. A partir dessa grande amostra de índices de Gini podem ser obtidos quantis amostrais, que podem ser utilizados para estimativa do intervalo de confiança. Uma outra alternativa seria o uso do próprio intervalo de confiança convencional.
O procedimento, que deve ser implementado com o devido cuidado, será somente ilustrado a seguir, devendo o leitor examinar a literatura sobre o assunto para detalhes adicionais.
A implementação usará o package boot do R, que é muito poderoso, e deve ser instalado no seu computador para que os procedimentos abaixo funcionem.
require(boot) ## carregando package boot
### função requerida para uso posterior da função boot
chamaGini<-function(x,indices){
return(Gini(x[indices]))
}
set.seed(20) ## para fixar a simulação
y<-simularenda(1000) ## amostra de 1000 rendas
## gera 1000 indices de gini pela re-amostragem:
ginivec<-boot(y,statistic=chamaGini,R=1000)
## obtendo um intervalo de confiança a 99% dos quantis amostrais
ci = boot.ci(ginivec, type="bca",conf=0.99) ## com correção de viés
## mostra o intervalo de confiança a 99% (veja documentação para opções)
cat("IC a 99% lim inf= ", ci$bca[1,4], " lim sup = ", ci$bca[1,5], "\n")
## IC a 99% lim inf= 0.119653 lim sup = 0.1365306
O resultado indica que o “verdadeiro” indice de Gini estaria dentro desse intervalo com 99% de probabilidade.
Veja mais detalhes sobre a técnica e uso do package boot aqui. Há muitos detalhes técnicos importantes que devem ser considerados na implementação do bootstrapping. Uma questão relevante é o número de re-amostragens que devemos fazer. A regra geral é quanto mais melhor, mas usualmente, a partir de um certo ponto, há pouca variabilidade no intervalo de confiança obtido. Nesse caso já com 1000 amostras teríamos resultados relativamente estáveis para o intervalo de confiança estimado (experimente alterar o valor do parâmetro R da função boot para perceber o impacto no intervalo de confiança estimado).
Chihara, L; Hesterberg, T. Mathematical Statistics with Resampling and R. Wiley, 2011.
Davidson, A.; Hinkley, D. Bootstrap Methods and their Application. Cambridge University Press, 1997.
Fox, J. Bootstrapping Regression. Apêndice do livro *Applied Regression**, Sage, 2002.
Suponha que observou a frequência de meninos 0,512 numa amostra de 2000 pessoas. Essa evidência seria forte para justificar a rejeição da hipótese \(\H_0:\) as chances de meninos e meninas num nascimento são iguais? Use intervalo de confiança em seu argumento.
Sabe-se que num hospital, durante um mês, 80% das crianças nascidas foi do sexo masculino. O que pode concluir desse hospital? Especifique o máximo valor de \(n\) que não levaria essa evidência a sugerir a rejeição de \(\H_0:\) “as chances de meninos e meninas num nascimento são iguais”“, pelo intervalo de confiança.
Sabe-se que o intervalo de confiança a 95% para um parâmetro \(b\) de um modelo estatístico é definido por \([-1, 2]\), há evidência forte que sugira a rejeição de \(\H_0: b=0\) pelo intervalo de confiança? e se o intervalo de confiança a 99% for \([0{,}5,\;0{,}6]\)?
Suponha que uma empresa produz leite em embalagens de 1 litro. Em função da variação do envase do leite, nem todas as embalagens tem exatamente 1 litro, podendo ter mais ou menos. Uma amostra de 100 embalagens foi obtidas e apresentou uma média de 0,98 litros cada, com desvio padrão amostral 0,04. Assumindo que os volumes por embalagem apresentam distribuição Normal, apresente uma evidência utilizado o intervalo de confiança, contra ou a favor de \(\H_0:\) “as embalagens tem menos de 1 litro, em média (teórica)”. (Dica: lembre que a quantidade pivotal envolve uma t-Student)
Neste tópico abordaremos outro procedimento, denominado teste de significância que, apesar de suas peculiaridades, tem muita relação com a noção de intervalo de confiança, ao ponto de produzir resultados em grande medida equivalentes. Os testes de significância estão muito associados ao nome de Ronald Fisher (1890-1962) um dos mais influentes estatísticos do século XX.
Um aspecto interessante dos testes de significância é que a hipótese alternativa \(\H_A\) tende a ficar implicita, não sendo claramente explicitada. Ela é “subentendida” como o complemento de \(\H_0\).
Para introduzir esse tipo de teste, voltemos à questão considerada anteriormente, envolvendo a hipótese:
\(\mathbb{H}_0:\) “as chances de meninos e meninas são iguais” ou \(\mathbb{H}_0:\, p=1/2\)
e o interesse pela construção de argumentos favoráveis ou contrários a ela, a partir da evidência existente sobre nascimentos.
Vamos considerar a estatística de teste definida pela variável aleatória
ou como o problema envolve variáveis Bernoulli, pode ser particularizada para
\(Z=\displaystyle \frac{f - p}{\sqrt{f\,(1-f)}/\sqrt{n}}\;\;\;\xrightarrow{n\to\infty}\;\;\text{Normal}(0,1)\)
Passo importante: assumindo-se a validade de \(\H_0:\,p=1/2\), ou “sob a validade de \(\H_0\)”, temos
\(Z=\displaystyle \frac{f - 1/2}{\sqrt{f\,(1-f)}/\sqrt{n}}\;\;\;\xrightarrow{n\to\infty}\;\;\text{Normal}(0,1)\)
Isso significa que se \(\H_0\) for verdadeira devemos observar valores de \(Z\) compatíveis com essa distribuição de probabilidade.
O resultado das observações oferecerá uma amostra tamanho 1 de \(Z\), que chamaremos de \(z_0\), e a partir dele deveremos avaliar se é razoável a observação desse valor sob a validade de \(\H_0\). No jargão da estatística, \(z_0\) é o valor da estatística de teste.
Nessa última expressão, usando a evidência dos nascimentos no Brasil em 2010, os valores de \(n\) e \(f\) são conhecidos, podemos obter \(z_0\) por
n<-1414313+1346288
f<-1414313/n
f
## [1] 0.5123207
s<-sqrt(f*(1-f))
z0<-(f-1/2)/(s/sqrt(n))
z0
## [1] 40.95422
Esse resultado pode ser melhor visualizado na figura a seguir, que inclui a distribuição da estatística de teste, sob a validade de \(\H_0\), assim como o valor dessa estatística, obtida da amostra de nascimentos no Brasil em 2010:
x<-seq(-45,45,0.0001)
plot(x,dnorm(x),type="l",main=expression(paste("Distribuição sob a validade de ",H[0])))
lines(c(z0,z0), c(0,0.05),col="red") ## marcando a posição de z0
text(z0,0.08,round(z0,2),cex=0.9)
text(z0,0.10,expression(z[0]),cex=0.9)
O grande matemático Laplace (1749 - 1827), examinando dados de sexo de crianças nascidas na França, utilizando um argumento semelhante, de forma inovadora para a época, chegou a um resultado similar. Bom conhecedor da lógica ele expressou algo como “esse resultado não prova que as chances são diferentes, no contexto das provas matemáticas, mas oferece uma evidência suficientemente forte contrária à noção prevalecente de que as chances são iguais”, “me sinto moralmente certo em concluir que as chances devem ser diferentes”. Essa foi uma das primeiras aplicações conhecidas do tipo de argumentação que é produzida pelos testes estatísticos de hipótese.
No problema anterior, visualmente observamos a implausibilidade de \(\H_0\) numa situação muito extrema. A força da evidência contra \(\H_0\) pode se beneficiar de uma medida ou métrica.
Essa medida chama-se
Se \(Z\) representa a v.a. associada a estatística de teste e \(z_0\) é o valor observado dessa estatística (considerando a evidência empírica), temos, sob a pressuposição da validade de \(\H_0\), 3 possíveis definições para o valor-p, em função do contexto.
p-valor ou valor-p (3 possibilidades):
\(P(|Z|\ge z_0)\) (situação muito usual, que na situação analisada subentenderia a hipótese alternativa \(\H_A: p\neq 1/2\))
\(P(Z\ge z_0)\) (na situação analisada, subentenderia a hipótese alternativa \(\H_A: p\ge 1/2\))
\(P(Z\le z_0)\) (na situação analisada, subentenderia a hipótese alternativa \(\H_A: p\le 1/2\))
interpretação: quanto menor o valor-p, maior será a evidência contra \(\H_0\)
A alternativa depende da situação. Quando a estatística de teste é uma distribuição simétria ao redor de zero, como a Normal ou a t-Student (situações bem usuais), ocorrerá que \(P(|Z|\ge z_0)=2\times P(Z\ge z_0)= 2\times P(Z\ge z_0)\)
Para a situação que estamos analisando, onde a distribuição da estatística de teste é uma Normal(0,1), usando a primeira interpretação \(P(|Z|\ge z_0)\) (que é a alternativa mais conservadora e opção padrão em programas estatísticos) com \(z_0=40,95\) encontraríamos
valor-p no caso de problema em análise em que \(\H_0:\, p=1/2\) definido por \(P(|Z|\ge z_0)\):
2*pnorm(-z0,0,1)
## [1] 0
## ou alternativamente
2*(1-round(pnorm(z0,0,1),16))
## [1] 0
## um resultado mais exato, expresso na forma de ln(p), onde p é a probabilidade é dado por:
2*pnorm(-z0,0,1,log=TRUE)
## [1] -1686.512
Os valores obtidos foram calculados de forma aproximada em zero (um resultado mais exato usando opções específicas do R seria \(e^{-1687}\), que é virtualmente zero do ponto de vista prático). O resultado é extremamente significativo do ponto de vista estatístico, contra a validade de \(\H_0\), sugerindo a rejeição dessa hipótese.
Suponha, por outro lado, que tivessemos observado 512 meninos em uma amostra de 1000 nascimentos (\(n=1000\)), de forma que a frequência amostral de meninos seria \(0{,}512\), aproximadamente a mesma obtida anteriormente na amostra de nascimentos no Brasil em 2010.
Com essas novas premissas, repetimos o cálculo do valor observado da estatística \(z_0\) para essa situação:
meninos<-512
n<-1000 ## considerando que a amostra tem 1000 nascimentos
f<-meninos/n
s<-sqrt(f*(1-f))
z0<-(f-1/2)/(s/sqrt(n))
z0
## [1] 0.7591653
cat("valor-p = ", 2*pnorm(-z0,0,1))
## valor-p = 0.4477537
x<-seq(-5,5,0.0001)
plot(x,dnorm(x),type="l",main=expression(paste("Distribuição sob a validade de ",H[0])))
lines(c(z0,z0), c(0,0.05),col="red") ## marcando a posição de z0
text(z0,0.08,round(z0,2),cex=0.9)
text(z0,0.10,expression(z[0]),cex=0.9)
O resultado agora (no gráfico e pelo valor-p=\(0{,}4478\)) não parece estatisticamente significativo contra \(\H_0\), pois não é nada improvável que, assumindo-se a validade de \(\H_0\), observar uma frequência amostral de meninos de \(0,512\) em uma amostra de 1000 nascimentos, mesmo que as chances de meninos e meninas sejam de fato iguais.
É importante perceber a dependência da evidência no valor de \(n\), o tamanho da amostra.
Pergunta: como aferir a significância estatística pela magnitude do valor-p?
Resposta: o valor-p, usualmente, deve ser igual ou inferior a 5% para se argumentar a favor da rejeição de \(\H_0\), ou se dizer que o resultado foi estatísticamente significativo contra \(\H_0\) (indicando-se o valor-p obtido). Esse valor, quanto menor for, dentro desse paradigma, maior seria a sugestão de evidência contra \(\H_0\), ou mais significativo seria o resultado do teste contra \(\H_0\). Esse valor crítico de 5% é bastante arbitrário mas se consolidou pelos “usos e costumes” da prática da estatística. Há, de fato, muita crítica sobre o uso desse nível, pela forma relativamente arbitrária pela qual se estabeleceu. Estatisticos proeminentes (Berger, 2003) sugerem que esse nível deveria ser muito mais baixo que 5%, por exemplo 0,1% ou menos, para maior confiabilidade dos resultados, e consistência com outros procedimentos de teste (Bayesianos).
Na prática moderna, o valor-p é calculado diretamente pelos programas estatísticos, em procedimentos de teste relacionados ao tipo de problema estudado.
prop.test(x=1414313,n=2760601,1/2,correct=FALSE) ## situação original
##
## 1-sample proportions test without continuity correction
##
## data: 1414313 out of 2760601, null probability 1/2
## X-squared = 1676.229, df = 1, p-value < 2.2e-16
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
## 0.5117310 0.5129103
## sample estimates:
## p
## 0.5123207
prop.test(x=512,n=1000,1/2,correct=FALSE) ## frequencia igual mas com n=1000
##
## 1-sample proportions test without continuity correction
##
## data: 512 out of 1000, null probability 1/2
## X-squared = 0.576, df = 1, p-value = 0.4479
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
## 0.4810326 0.5428756
## sample estimates:
## p
## 0.512
Observe que os resultados obtidos, quanto ao valor-p, são muito similares aos obtidos pelo procedimento que utilizamos anteriormente utilizando a estatística de teste caracterizada pela Normal Padronizada. No primeiro caso (n=2760601), o teste indica que o valor-p é menor que 2^{-16} (a notação 2e-16 representa isso), ou seja, próximo de zero. No nosso desenvolvimento chegamos a \(e^{-1684}\). No segundo caso (n=1000), o valor-p foi calculado em 0.4479, quando obtivemos 0.4478, no teste realizado anteriormente. Pequenas diferenças se devem aos procedimentos utilizados na função prop.test, que podem diferir minimamente dos procedimentos utilizados.
Nota: não são incomuns pequenas diferenças, na ordem de 1/1000 ou menores, encontradas nas estimativas produzidas por programas diferentes, em função da diferenças nas implementações computacionais consideradas em cada caso.
Um outro possível teste nesse caso, exato, que usa a estatística de teste Binomial (também possível nesse caso), é operacionalizado no R pela funcão binom.test:
binom.test(x=512,n=1000,1/2) ## frequencia igual mas com n=1000
##
## Exact binomial test
##
## data: 512 and 1000
## number of successes = 512, number of trials = 1000, p-value =
## 0.467
## alternative hypothesis: true probability of success is not equal to 0.5
## 95 percent confidence interval:
## 0.4805227 0.5434065
## sample estimates:
## probability of success
## 0.512
O valor-p obtido, 0,467, usando uma outra estatística de teste, nesse caso até melhor que a anterior, por se fundamentar numa distribuição exata, permite a mesma conclusão obtida anteriormente sobre a não rejeição de \(\H_0\).
Existem centenas de procedimentos estatísticos para testes, alguns deles mais populares que outros. Em muitas situações, mais de um teste pode ser utilizado. Os testes acabam aparecendo no contexto específico de certas situações e são operacionalizados da forma apropriada pelos bons pacotes estatísticos. Para o estudante da estatística, pode demorar um pouco até se familiarizar com os testes mais importantes e isso pode exigir um estudo individual, na medida que surgir a situação de interesse.
O que é importante para entendimento do teste de significância executado por um programa?
Resposta: (i) Entender claramente a hipótese \(\H_0\) que está sendo testada (ii) saber como obter o valor-p associado ao teste e interpretar segundo as noções introduzidas no tópico anterior.
Em alguns casos, para se entender claramente um teste de significância é necessário, até mesmo, consultar o trabalho científico original que resultou no procedimento utilizado no teste, que muitas vezes não é óbvio, como no exemplo a seguir.
Suponha que está estudando um fenômeno e dispõe de uma amostra \(X_1\), \(X_2\), \(\ldots\), \(X_n\), assumida i.i.d. e quer testar se a distribuição Normal é uma premissa razoável para caracterizar a distribuição teórica de onde os dados foram obtidos. Há diversos testes que podem ser utilizados. Um dos considerados “melhores” é o chamado teste Anderson-Darling, que é operacionalizado pela função ad.test do package nortest do R, que contém uma grande coleção de testes de Normalidade.
Todas essas funções do package nortest testam uma hipótese
Para exemplificar vamos utilizar uma amostra obtida de uma distribuição Normal e de uma distribuição t-Student, para verificar o desempenho do teste em 2 casos, considerando diferentes valores de \(n\).
set.seed(20)
n<-2000 ## amostra "grande"
require(nortest) ## instale o package nortest no seu computador antes de usar esse código
x<-rnorm(n,0,1)
ad.test(x) ## testando a normalidade da amostra Normal
##
## Anderson-Darling normality test
##
## data: x
## A = 0.2052, p-value = 0.8723
Observe que o valor-p foi muito acima de 5% sugerindo a não-rejeição de \(\H_0\): “os dados da amostra vem de uma distribuição Normal”, algo desejável para o teste.
Agora, usaremos o mesmo procedimento para uma amostra t-Student com 10 graus de liberdade (que é até parecida com a Normal):
y<-rt(n,10)
ad.test(y) ## testando a normalidade da amostra t-Student(10)
##
## Anderson-Darling normality test
##
## data: y
## A = 1.4047, p-value = 0.00124
Nesse caso o valor-p foi próximo de zero, sugerindo a rejeição de \(\H_0\): “os dados da amostra vem de uma distribuição Normal”, algo desejável para o teste.
Se esse último procedimento fosse utilizados com uma amostra pequena (ex. \(n=10\)) os resultados são pouco confiáveis pois o teste, nesse caso tem baixo poder (o poder do teste é probabilidade de rejeitar \(\H_0\) quando ela é falsa)
n<-10 ## amostra "pequena"
x<-rt(n,10) ## amostra de uma t-Student(10)
ad.test(x) ## testando a normalidade da amostra t-Student(10)
##
## Anderson-Darling normality test
##
## data: x
## A = 0.154, p-value = 0.9349
Veja que, como observamos um valor-p acima de 5%, esse particular teste sugeriu a não rejeição de \(\H_0\), um resultado “incorreto”.
Se repetirmos esse teste muitas vezes, visando estimar o poder do teste (a probabilidade do teste rejeitar \(\H_0\) se ela for falsa) em situações como essas (t-Student(10), e hipótese de normalidade \(\H_0\): “os dados vem de uma Normal”) obteríamos, com \(n=10\):
n<-10 ## amostra "pequena"
nsim<-2000 ## número de simulações (amostras diferentes)
vecvalorp<-0
for(i in 1:nsim){ ## nsim amostras diferentes
x<-rt(n,10) ## amostra de uma t-Student(10)
vecvalorp[i]<-ad.test(x)$p.value ## valor-p para amostra t-Student(10)
}
## frequência de rejeições (estimativa do poder do teste) com
## alguns cuidados para eliminar observações com problemas númericos no teste (NaN)
sum(vecvalorp[!is.nan(vecvalorp)]<=0.05)/length(vecvalorp[!is.nan(vecvalorp)])
## [1] 0.0725
Nesse caso, somente em 7,25% das amostras simuladas, houve a rejeição de \(\H_0:\)“os dados vem de uma Normal”, mostrando um baixo poder do teste em discriminar a t-Student de uma Normal padronizada numa amostra pequena.
Mesmo exercício usando agora \(n=3000\) uma amostra maior:
n<-3000 ## tamanho da amostra "grande"
nsim<-2000 ## número de simulações (amostras diferentes)
vecvalorp<-0
for(i in 1:nsim){ ### nsim testes com amostras diferentes
x<-rt(n,10) ## amostra de uma t-Student(10)
vecvalorp[i]<-ad.test(x)$p.value ## valor-p para amostra t-Student(10)
}
## frequência de rejeições (estimativa do poder do teste) com
## alguns cuidados para eliminar observações com problemas númericos no teste (NaN)
sum(vecvalorp[!is.nan(vecvalorp)]<=0.05)/length(vecvalorp[!is.nan(vecvalorp)])
## [1] 0.9985
Nesse caso, em 99,85%, das amostras simuladas da t-Student(10), foi rejeitada a hipótese \(\H_0:\) “os dados vem de uma Normal”, mostrando o aumento significativo do poder do teste em discriminar a t-Student de uma Normal padronizada (duas distribuições muito similares).
Suponha que observou a frequência de meninos 0,512 numa amostra de 2000 pessoas. Essa evidência seria forte para justificar a rejeição da hipótese \(\H_0:\) as chances de meninos e meninas num nascimento são iguais? Use o teste de significância em seu argumento. (utilize uma estatistica de teste baseada na distribuição Normal)
Sabe-se que num hospital, durante um mês, exatamente 75% das crianças nascidas foi do sexo masculino. O que pode concluir desse hospital? Especifique o máximo valor de \(n\) possível que não levaria essa evidência a sugerir a rejeição de \(\H_0:\) “as chances de meninos e meninas num nascimento são iguais”“, pelo teste de significância.
O que é poder de um teste? O tamanho da amostra afeta o poder de um teste?
Um dado tem 6 faces com os números 1 a 6 em cada uma das faces. Um dado não viciado, junto com um processo aleatório de lançamento, produz cada um dos resultados com 1/6 de probabilidade (o resultado é a face que fica para cima após o lançamento). Um dado viciado é aquele que, por construção (talvez colocando um peso em um dos lados), tende a dar resultados cujas probabilidades podem divergir de 1/6 para um ou mais lados (a soma dessas probabilidades deverá sempre somar 1). Suponha que se desconfia que um dado é viciado. Não é possível examinar o dado mas pode-se solicitar que seja lançado várias vezes. Suponha que o dado foi lançado 100 vezes com resultados, na ordem de 1 a 6: 10, 20, 15, 20, 15, 30 (por exemplo, o resultado 1 saiu 10 vezes e o resultado 6 saiu 30 vezes). Um teste estatístico pode ajudar a resolver esse problema. Esse teste é baseado na distribuição Qui-quadrado e implementado na função chisq.test do R. Use essa função para verificar se pode rejeitar a hipótese \(\H_0:\)“as probabilidades dos resultados 1 a 6 são iguais a 1/6”. Se fossemos usar essa função para testar \(\H_0:\) “moeda apresenta chances iguais de caras e coroas”, a partir de uma evidência de 60 caras e 40 coroas. Nesse caso usariamos chisq.test(c(60,40),p=c(1/2,1/2)). No resultado observamos um valor-p=0,0455, o que suporta a rejeição de \(\H_0\), nesse caso. E no caso do dado que suspeitamos que é viciado, qual será o resultado do teste e sua interpretação? (Observe que poderia usar esse teste no próprio problema das chances de meninos e meninas num nascimento. Não será o melhor teste nesse caso específico, mas certamente pode ser utilizado, experimente)
Use set.seed(20) e defina uma amostra de uma distribuição qui-quadrado com 5 graus de liberdade, tamanho \(n=10\), usando x<-rchisq(n,5) use o teste Anderson-Darling para examinar se, nesse caso há evidência forte para rejeição da hipótese \(\H_0:\) “os dados vem de uma Normal”. Repita a mesma situação, mas com \(n=1000\). Observe o efeito de \(n\) no poder do teste.
Suponha que uma empresa produz leite em embalagens de 1 litro. Em função da variação do envase do leite, nem todas as embalagens tem exatamente 1 litro, podendo ter mais ou menos. Uma amostra de 100 embalagens foram obtidas e apresentaram uma média de 0,98 litros cada, com desvio padrão amostral 0,04. Assumindo que os volumes por embalagem apresentam distribuição Normal, apresente uma evidência utilizado um teste de significância contra ou a favor de \(\H_0:\) “as embalagens tem menos de 1 litro, em média (teórica)”. (Dica: lembre que a estatística para teste envolve uma t-Student)
Na década de 1930, J. Neyman e E. Pearson propuseram um aprimoramento nas idéias de teste de significância popularizadas por por R. Fisher e outros na década anterior. A idéia era caracterizar as idéias do teste de significância mais formalmente, colocando o problema de rejeitar ou não-rejeitar \(\H_0\) como um problema de decisão, que seria avaliada no contexto de uma “teoria de decisão” relativamente primitiva aos olhos modernos (quando vista sob uma ótica econômica, por exemplo).
As modificações principais introduzidas nesse paradigma, com relação aos testes de significância, foram:
Caracterizar claramente \(\H_0\) e \(\H_A\) (algo não realizado nos testes de significância)
Considerar 2 decisões possíveis: rejeitar \(\H_0\) e não-rejeitar \(\H_0\)
com essa formulação, consideram uma matriz de “payoff” de cada decisão, em 2 cenários possíveis: \(\H_0\) verdadeira (T), ou \(\H_0\) falsa (F), ilustrada na figura a seguir:
A matriz de payoff mostra que para a decisão rejeitar \(\H_0\) podem ocorrer 2 situações: o Erro tipo I quando o cenário for \(\H_0\) é verdadeira e Ok (sem problema) quando o cenário for \(\H_0\) é falsa. Por outro lado, para a decisão não rejeitar \(\H_0\) as duas situações possíveis seriam: Ok (sem problema) quando o cenário for \(\H_0\) é verdadeira e Erro tipo II quando o cenário for \(\H_0\) é falsa.
Nesse paradigma, considera-se que existirão
Uma possível regra de decisão (de infinitas possíveis) poderia ser: rejeite \(\H_0\) se \(|z_0|\ge 2\), onde \(z_0\) é o valor de uma estatística para teste \(Z\) associada ao problema de interesse. Essa região que define a rejeição de \(\H_0\) é chamada de região de rejeição.
Para auxiliar o processo de seleção da melhor regra \(\Upsilon_i\) dentre um conjunto de regras possíveis (que são infinitas), consideram-se, nesse formalismo, as probabilidades de cada um dos erros possíveis associados à regra \(\Upsilon_i\):
\(\alpha_i=P(\text{cometer Erro tipo I na regra } \Upsilon_i)\)
\(\beta_i=P(\text{cometer Erro tipo II na regra} \Upsilon_i)\)
O objetivo seria: encontrar a melhor regra de decisão \(\Upsilon_i\), de forma que \(\alpha_i\) e \(\beta_i\) sejam os menores valores possíveis.
Uma regra \(\Upsilon_0\) seria melhor (ou equivalente) à regra \(\Upsilon_1\) se \(\alpha_0\le \alpha_1\) e \(\beta_0\le \beta_1\). As dificuldades podem ocorrer em situações (frequentes) em que \(\alpha_0\le \alpha_1\) e \(\beta_0> \beta_1\). Uma importante limitação do paradigma é a total ausência de considerações de custos dos erros na análise.
Como regra geral, Neyman e Pearson recomendavam: (a) defina um \(\alpha\) para todos os seus testes (por exemplo 5%); (b) encontre a regra de decisão \(\Upsilon_i\) que minimize \(\beta\) para esse \(\alpha\) definido. Alguns resultados teóricos importantes como o Lema de Neyman-Pearson, não discutido aqui, facilitam a obtenção da regra ideal, dentro dessa recomendação.
O procedimento será exemplificado no caso da nossa hipótese \(\H_0\) da questão estudada previamente:
Vamos agora definir claramente uma hipótese alternativa e um valor de \(\alpha\) para o procedimento:
\(\mathbb{H}_A:\, p\neq 1/2\)
\(\alpha=5\%\) (valores típicos são 5%, 1% e 0,1%, mas pode ser qualquer valor)
Nesse caso, podemos usar uma estatística de teste que já usamos anteriormente:
e sob a validade de \(\H_0:\,p=1/2\) temos
Pode-se demonstrar que uma regra de decisão \(\Upsilon\) que atende à condição de \(\alpha=5\%\), minimizando \(\beta\), é definida por:
Com essa regra \(\Upsilon\), a probabilidade do Erro tipo I, que define \(\alpha\) fica limitada a 5%, e pode-se demonstrar (não faremos aqui) que \(\beta\) será mínimo para essa situação. O valor \(1{,}96\) nesse contexto, é chamado valor crítico do teste.
Como \(f=0{,}5123\), encontramos \(z_0=40{,}95\), que se encontra na região de rejeição conforme a figura
Como o valor \(z_0\) está na região de rejeição \(|Z|\ge 1{,}96\), a decisão pela regra \(\Upsilon\) será rejeitar \(\H_0\). No contexto dos testes de hipótese na visão Neyman-Pearson, diriamos que \(\H_0\) é rejeitada ao nível de significância \(\alpha=\) 5%.
A aplicação dessa regra prática, na situação que está sendo analisada, levará à rejeição de \(\H_0\), dado que o valor-p (calculado no tópico anterior) é próximo de zero e \(\alpha=5\%\).
O paradigma de Neyman-Pearson, apesar de ter introduzido a importante noção de erro tipo II, que não existe no teste de significância fisheriano, tem dificuldades conceituais, operacionais e práticas:
Podem existir muitas hipóteses alternativas
O foco principal acaba sendo a definição (relativamente arbitrária) de \(\alpha\), a probabilidade de se cometer o erro tipo I
A caracterização do erro tipo II é mais difícil no caso de hipóteses alternativas compostas. A análise de aspectos relacionados ao erro tipo II se faz usualmente através de uma noção mais avançada denominada função poder do teste, algo útil mas que raramente é utilizado na prática dos testes.
O paradigma não inclui custos dos erros e define \(\alpha\) de uma forma relativamente arbitrária.
Existem outros paradigmas com um embasamento lógico mais bem fundamentado (princípios bayesianos de teste)
Na prática moderna da estatística a implementação de testes de hipótese via testes de significância tende a predominar, especialmente num mundo em que os programas estatísticos calculam diretamente o valor-p associado à hipótese de interesse. No passado, era trabalhoso obter o valor-p exato, a partir de tabelas de livros, sendo até mais fácil operacionalizar os testes de hipótese na visão de Neyman-Pearson.
Hoje, em algumas situações, há até uma certa mistura das 2 noções (visão Fisheriana e visão de Neyman-Pearson), até porque no passado os textos especializados não distinguiam claramente os 2 conceitos, que tem diferenças mas muitas similaridades.
Observe que dentro da visão de Neyman-Pearson, o valor-p (que está mais associado à noção de teste de significância) pode ser entendido como o valor de \(\alpha\), a probabilidade do erro tipo I (rejeitar \(\mathbb{H}_0\), se \(\mathbb{H}_0\) é verdadeira), utilizado por uma regra de rejeição \(\Upsilon\) que indique a rejeição de \(\mathbb{H}_0\) quando o valor da estatística \(z_0\) observada cair na região \(|Z| \ge\) valor-p (quando o valor-p for calculado para a situação bilateral) onde \(Z\) é a variável aleatória que representa a estatística utilizada, no caso mais usual.