Uma Breve Revisão Teórica

Uma hipótese, em estatística, é uma declaração a respeito do valor dos parâmetros da distribuição (ou densidade) de probabilidade de alguma variável aleatória. Neste caso, um teste acerca da validade da hipótese é chamado de um teste paramétrico. Em alguns contextos, a hipótese pode representar uma assertiva sobre a própria forma da distribuição em si, quando, então, o teste correspondente, conhecido como Teste de Aderência, enquadra-se na grande classe dos testes não-paramétricos. No primeiro caso, se a hipótese especifica completamente a distribuição, ela é chamada de hipótese simples; caso contrário, é uma hipótese composta. Considere o teste de hipótese simples relativo ao parâmetro \(\small \theta\) de alguma distribuição \(\small f(x;\theta)\),

A decisão de se aceitar ou rejeitar a hipótese básica é, normalmente, feita com base em um número finito, n, de realizações observáveis da variável aleatória X. O conjunto dessas observações sucessivas constitui uma amostra e, se esta é composta de pontos independentes no sentido probabilístico, ela é chamada de uma amostra aleatória. O procedimento de teste que leva à aceitação ou à rejeição da hipótese em questão é, simplesmente, uma regra que especifica, para cada amostra possível de tamanho n, se a hipótese deve ser aceita ou rejeitada, em função dos valores obtidos nessa amostra.

Em outras palavras, um teste de hipóteses é um procedimento que divide o conjunto de todas as possíveis amostras de tamanho n de uma determinada distribuição em dois subconjuntos, mutuamente exclusivos, juntamente com a aplicação de uma regra que estabelece que a hipótese deve ser rejeitada no caso emque a amostra observada esteja contida no subconjunto denominado região crítica, e aceita em caso contrário.

A escolha da região crítica em um teste de hipóteses implica diretamente no risco do teste. Este risco, que é a probabilidade de se tomar uma decisão errada, isto é, decidir erradamente acerca do valor do parâmetro desconhecido da distribuição de X, pode ser dividido em dois tipos:

Para amostras de tamanho fixo n \(\small (x_1, x_2, ..., x_n)\), o teste que minimiza o erro do Tipo II (deixar de rejeitar \(\small H_0\) quando \(\small H_0\) é falsa) para um predeterminado erro do Tipo I (rejeitar \(\small H_0\) quando \(\small H_0\) é verdadeira) é o teste da razão de verossimilhança1.

A função de verossimilhança, \(\small L(x;\theta)\), é a distribuição de probabilidade conjunta da amostra, expressa como uma função do parâmetro \(\small \theta\), sendo calculada, no caso de uma amostra aleatória, como o produto das distribuições individuais de cada ponto da amostra. Usualmente, dada uma amostra x e sua função de verossimilhança \(\small L(x;\theta)\), define-se a equação de verossimilhança igualando-se a zero as derivadas parciais de primeira ordem do logaritmo natural de \(\small L(x;\theta)\), em relação aos parâmetros \(\small \theta\).

A probabilidade de erro do Tipo I, universalmente representada pela letra grega \(\small \alpha\), determina um número \(\small A_k\) de acordo com a equação \[\alpha = \underset {\lambda_n \ge A_k} {\int \! \int \! \cdots \! \int} \; f_0(x_1) f_0(x_2) f_0(x_3) \cdots f_0(x_n) dx_1 dx_2 dx_3 \cdots dx_n \;\;\;\;\;\;\;\;(1)\]
onde \(\small \lambda_n = \prod_{i=1}^{n}\frac{f_1(x_i)}{f_0(x_i)}\), \(\small f(x_i) = f(x; \theta_i)\) e a região crítica para rejeição de \(\small H_0\) é a região \(\small \lambda_n \ge A_k\).

Esta região crítica minimiza a probabilidade de erro do Tipo II, usualmente designada pela letra grega \(\small \beta\).

Se pudermos escolher o tamanho da amostra antecipadamente, é possível, pelo menos em teoria, prefixar tanto \(\small \alpha\) quanto \(\small \beta\): primeiro, encontrando o valor de \(\small A_k\) como uma função de n por intermédio da equação (1), depois, \(\small \beta_n\), também como função de n, de acordo com

\[\beta_n = \underset {\lambda_n < A_k} {\int \! \int \! \cdots \! \int} \; f_0(x_1) f_0(x_2) f_0(x_3) \cdots f_0(x_n) dx_1 dx_2 dx_3 \cdots dx_n \;\;\;\;\;\;\;\;(1)\]
e, finalmente, determinando n de modo que \(\small \beta_n\) tenha o valor desejado (\(\small \beta_n > \beta\)).

No caso em que X é uma variável aleatória discreta, as integrais devem ser substituídas por somatórios. Nesse caso, temos que \(\small \alpha \ge P(H_1|H_0])\) e \(\small \beta \ge P(H_0|H_1])\). Está claro que, para um dado valor de n, se \(\small \alpha\) é pequeno, \(\small \beta_n\) é, em geral, grande, e vice-versa. A escolha de \(\small \alpha\) deve considerar a importância relativa dos dois tipos de erro em cada aplicação particular. Se um erro do primeiro tipo implica em sérios problemas ou em um custo elevado, enquanto que as conseqüências não são tão importantes caso ocorra um erro do Tipo II, um pequeno valor para \(\alpha\) é recomendável (ou aceitável), mesmo que, para isso, o valor de \(\beta_n\) seja relativamente grande.

Agora, suponha que um determinado teste tenha sido estabelecido desta forma e que tenhamos chegado a um valor de n igual a 100, para \(\small \alpha\) e \(\small \beta\) predeterminados. É possível que as primeiras 40 ou 50 observações já tenham produzido informação suficiente, relativamente aos valores de \(\small \alpha\) e \(\small \beta\), para que a hipótese seja rejeitada ou não. É evidente que o esforço adicional de teste representa um desperdício de recursos.

Felizmente (e surpreendentemente), é um fato que, em média, isso ocorre na prática, e a economia obtida pode ser bastante considerável (podendo ser superior a 50%!). Esta é a motivação principal para que sejam desenvolvidos testes de hipótese seqüenciais.

Análise Sequencial

Análise seqüencial2 refere-se ao conjunto de técnicas para a realização de testes de hipótese ou para a estimação de parâmetros quando o tamanho da amostra não é prefixado, sendo, na realidade, determinado durante o decorrer de um experimento, de acordo com critérios que dependem das observações, e à medida que elas ocorrem.

O valor atribuído a essa técnica em aplicações militares, principalmente na Marinha Norte-americana, foi tão grande que, em 1943, quando Wald formalizou a proposta de seus procedimentos, estes foram classificados como Restritos, de acordo com o Ato de Espionagem do governo dos Estados Unidos3.

Teoria e Procedimentos do Teste Sequencial da Razão de Probabilidade

Note que, uma vez que os valores \(x_i\) sejam obtidos na amostra, o numerador e o denominador de \(\small \lambda_k\), as funções de verossimilhança, deixam de ser densidades (ou distribuições) de probabilidade da amostra, passando a ser consideradas como funções determinísticas do parâmetro desconhecido \(\small \theta\). Se um valor \(\small \theta^*\) é selecionado de forma que a função de verossimilhança seja máxima, então \(\small \theta^*\) é o estimador de máxima verossimilhança para \(\small \theta\).

O teste seqüencial da razão de probabilidade se utiliza da razão de verossimilhança, \(\small \lambda_k\), e dos números positivos A > 1 e B < 1. Para cada observação realizada, vai-se calculando \(\small \lambda_1 , \; \lambda_2,\) … enquanto B < \(\small \lambda_k\) < A. Se, para algum k, \(\small \lambda_k\) for menor ou igual a B, aceita-se a hipótese \(H_0\) e o teste é encerrado. Por outro lado, se \(\small \lambda_k\) se tornar maior ou igual a A, rejeita-se \(H_0\).

A motivação para este procedimento decorre do fato de que, à medida que \(\small \theta_1\) se aproxima mais do valor real \(\small \theta\) do que \(\small \theta_0\), \(\small \lambda_k\) cresce, enquanto \(\small \lambda_k\) decresce quando o oposto acontece.

Várias questões podem surgir com respeito ao esquema seqüencial acima. Primeiro, o que garante que o teste vá se encerrar após um número finito de observações, isto é, que A < \(\small \lambda_k\) < B deixe de ocorrer para todo k positivo? Na verdade, nada garante isto. Entretanto, pode-se facilmente provar que, com probabilidade 1, o esquema seqüencial terminará após um número finito de observações, com \(H_0\) sendo rejeitada ou não, para qualquer distribuição f(x). Este fato será demonstrado em breve.

Outra questão de vital importância é como determinar os números A e B, que são constantes independentes do número de observações realizadas. Para visualizarmos o problema, seja \(\small \Lambda_k\) a variável aleatória que corresponde a \(\small \lambda_k\), isto é,

\[\Lambda_k = \prod_{i=1}^{n} \frac {f_1(x_i)} {f_0(x_i)}\]
Então, A e B são determinados de acordo com as seguintes expressões, que envolvem séries infinitas:

\[\alpha = P(\Lambda_1 \ge A | H_0) + \sum_{j=1}^\infty P(B < \Lambda_1 < A, \; ..., \; B < \Lambda_j < A, \; \Lambda_{j+1} \ge A \; H_0)\] \[\beta = P(\Lambda_1 \le B | H_1) + \sum_{j=1}^\infty P(B < \Lambda_1 < A, \; ..., \; B < \Lambda_j < A, \; \Lambda_{j+1} \le A \; H_1)\]

Teoricamente, para duas densidades \(\small f_0(x)\) e \(\small f_1(x)\), \(\small \alpha\) e \(\small \beta\) podem ser explicitados como função dos números A e B, mas é evidente que este cálculo pode se tornar proibitivamente complexo. Entretanto, e felizmente, uma aproximação extremamente simples e precisa foi desenvolvida por Wald [9], tomando-se k, o número de observações, como uma variável aleatória contínua K, o que torna \(\small \lambda_K = L_1 / L_0\) uma função contínua de K. Integrando-se \(\small L_1\) e \(\small L_0\) sobre os pontos \(\small x_1, \; x_2 \;\), … onde \(\small H_0\) é verdadeira (e, então, nos pontos onde \(\small H_1\) é verdadeira), chega-se às aproximações que se seguem:

\[A \approx \frac {1-\beta} {\alpha}\] \[B \approx \frac {\beta} {1 - \alpha}\]
Os números A e B assim calculados são aproximados, já que K não é, na realidade, uma variável contínua. Consequentemente, porque A e B em (4) são aproximados, os valores de \(\small \alpha\) e \(\small \beta\) estabelecidos a partir dos dados reais não correspondem às probabilidades de erro exatas. Entretanto, pode ser demonstrado que, se \(\small \alpha´\) e \(\small \beta´\) são as probabilidades reais, então \(\small \alpha + \beta \ge \alpha´ + \beta´\) o que implica que, pelo menos, ambas as probabilidades de erro não excedem o risco desejado.

As aproximações em (4) tornam o emprego da análise sequencial extremamente simples: não precisamos nos preocupar com qualquer teoria de distribuição amostral; basta selecionar os valores de \(\small \alpha\) e \(\small \beta\) desejados, calcular os valores de A e B correspondentes e proceder com o teste.

Para demonstrarmos que, com probabilidade 1, o teste se encerra com a “aceitação” ou rejeição de \(\small H_0\), definamos a variável aleatória
\[z_i = ln \frac {f_1(x_i)} {f_0(x_i)}\]
A seqüência de observações independentes \(x_1, \; x_2 \;\), … gera a seqüência de variáveis independentes \(z_1, \; z_2 \;\), … A seqüência de observações continua sendo gerada enquanto ln B < \(z_i\) < ln A. Pela definição de A e B em (4), ln A é positivo e ln B é negativo e, se fizermos C = (ln A – ln B), então C > 0. Se algum dos \(z_i\) cair fora do intervalo (-C, C), o teste se encerra.

Seja P = P(-C < \(z_i\) < C) a probabilidade de que \(z_i\) se encontre dentro do intervalo (-C, C), o que implica na continuação do teste. Então, para n observações, a probabilidade de que todos os \(z_i\) estejam dentro do intervalo é \(P^*\). Como P < 1, à medida que n aumenta, essa probabilidade tende para zero. Portanto, o teste deve, eventualmente, terminar como proposto. Na realidade, percebe-se que é suficiente que a soma dos \(z_i\) seja um valor fora do intervalo considerado para que o teste se encerre, mesmo que, individualmente, isso não ocorra com qualquer um dos \(z_i\) individualmente.

Uma vez que foi estabelecida a condição de término em tempo finito algoritmo, e considerando que, normalmente, é muito mais conveniente se utilizar logaritmos, uma vez que produtos transformam-se em somas, pode-se resumir o procedimento para a análise seqüencial para o teste de hipóteses em (1) da seguinte forma:


  1. De acordo com o famoso lema fundamental de Jerzy Neyman e Egon S. Pearson: Seja 0 < \(\small \alpha\) < 1 o tamanho do teste. Se existe k > 0 de modo que \(\small P(A_k|\theta) = \alpha\), onde \(\small A_k = \{x; x \in \mathbb{R}, \lambda_n \ge k\}\) e \(\small \lambda_n=L(\theta_1)/L(\theta_0)\) é a razão de verossimilhança, então o teste que possui como região crítica \(\small A_k\) é o melhor teste (no sentido de ser o teste mais poderoso, ou seja, com o máximo valor de \(\small 1-\beta\)) de tamanho \(\small \alpha\). Em outras palavras, restringindo-nos às regiões críticas para as quais \(\small \alpha\) possui um valor fixo, escolhemos aquela região que implica no valor mínimo para \(\small \beta\).

  2. As ideias básicas de testes seqüenciais de hipótese foram introduzidas por Abraham Wald que é, também, responsável por várias noções fundamentais da teoria estatística da decisão.

  3. Trabalho submetido ao Painel de Matemática Aplicada, do Comitê de Pesquisa para a Defesa Nacional dos EUA. A classificação do documento só foi removida em maio de 1945.