Teste de Hipóteses

Introdução

Muitas vezes, em problemas práticos, o objetivo principal do pesquisador não é a estimação em si, mas sim, fazer afirmações a respeito de algum parâmetro de interesse.

Exemplo 1: Um operador de uma máquina de empacotar café, monitora o peso dos pacotes pesando um determinado número de pacotes periodicamente. A norma diz que a máquina deve continuar operando a menos que a amostra indique que a máquina não esteja funcionando normalmente. Neste caso, a máquina deve ser desligada e ajustada. A condição requerida para a máquina continuar funcionando é que \(\mu = 500g\).

Nota: O operador, neste caso, não está interessado em estimar \(\mu\), mas sim determinar se há evidência suficiente na amostra para concluir que \(\mu \neq 500g\)

Introdução

Exemplo 2: Pesquisadores afirmam que a temperatura média do corpo é \(98.6F\) (\(37ºC\)). Uma amostra de \(n=106\) indivíduos foi escolhida aleatoriamente e foi observada uma média de \(\bar x = 98.2F\) com desvio-padrão \(s=0.62F\).

Pergunta: A amostra constitui evidência suficiente para rejeitar a crença de que \(\mu=98.6F\)?

Exemplo 3: Uma pessoa diz que sabe diferenciar entre Coca-Cola Zero e Coca-Cola Normal. Um teste foi feito em que essa pessoa experimentou, em ordem aleatória, 20 amostras e foi anotado a quantidade de acertos. Ocorreram 17 acertos.

Pergunta: A amostra traz evidência de que a pessoa realmente sabe a diferença entre os tipos de Coca-Cola?

Teste de Hipóteses

Teste de Hipótese: (ou teste estatístico) é um procedimento para determinar se a evidência que uma amostra fornece é suficiente para validar suposições/afirmações a respeito de um parâmetro populacional.

Afirmações a serem testadas: hipóteses estatística.

Hipótese estatística: é uma afirmação ou conjectura sobre um parâmetro(s). Pode também referir-se ao tipo ou natureza da população.

Parâmetro populacional: característica da população que queremos investigar. Por exemplo: média \(\mu\) ou uma proporção \(p\).

Componentes de um Teste de Hipótese

  • 1. Suposições: O teste é válido sob algumas suposições. A mais importante assume que os dados foram obtidos através de um processo de aleatorização.

  • 2. Hipóteses: O teste de hipótese tem sempre duas hipóteses a respeito do parâmetro populacional as quais chamaremos de hipótese nula e hipótese alternativa.

    Hipótese Nula (\(H_0\)): afirma que o parâmetro assume um determinado valor. \[H_0: \mu = \mu_0\]

    Em teste de hipóteses, mantém-se a favor de \(H_0\) a menos que os dados tragam evidência contra.

    A Hipótese Nula é conservadora!

Componentes de um Teste de Hipótese

Hipótese Alternativa (\(H_1\)): afirma que o parâmetro assume outros valores diferente de \(H_0\). É, em geral, uma das três seguintes: \[ \begin{aligned} H_1: &\mu \neq \mu_0 && \qquad \mbox{hipótese bilateral}\\ H_1: &\mu > \mu_0 && \qquad \mbox{hipótese unilateral à direita}\\ H_1: &\mu < \mu_0 && \qquad \mbox{hipótese unilateral à esquerda} \end{aligned} \]

Obs.: As hipóteses devem ser formuladas antes da realização do experimento e coleta de dados. Portanto, os valores especificados nas hipóteses não devem ter nada a ver com valores observados na amostra.

Tipos de Erro

Quando realizamos um teste de hipóteses, podemos cometer 2 tipos de erros:

  1. Erro Tipo I: Rejeitar \(H_0\), quando ela é verdadeira. (Erro mais grave!)

  2. Erro Tipo II: Não rejeitar a \(H_0\), quando ela é falsa.

Tipos de Erro

\(H_0: \mbox{você não está grávida(o)} \quad \mbox{vs} \quad H_1: \mbox{você está grávida(o)}\)

Tipos de Erro e Nível de Significância

Podemos calcular a probabilidade dos dois tipos de erro, \(\alpha\) e \(\beta\):

\(\alpha = P(\mbox{Erro Tipo I}) = P(\mbox{Rejeitar } H_0| H_0 \mbox{ verdadeira})\)

\(\beta = P(\mbox{Erro Tipo II}) = P(\mbox{Não Rejeitar } H_0| H_0 \mbox{ falsa})\)

Na situação ideal, ambas as probabilidades de erro seriam próximas de zero. Entretanto, à medida que diminuímos \(\alpha\), a probabilidade \(\beta\) tende a aumentar.

Levando isso em conta, em teste de hipóteses tentamos controlar a probabilidade do erro do tipo I, já que esse é o erro considerado mais grave.

A probabilidade \(\alpha\) é chamada de nível de significância, que geralmente é fixado em \(5\%\).

Componentes de um Teste de Hipótese

  • 3. Estatística do Teste: é uma estatística, cujo valor é calculado baseado nos dados, que descreve quão longe a estimativa está do parâmetro populacional em \(H_0\). Está associada à distribuição amostral do estimador do parâmetro de interesse.

    Num teste de hipótese para a média populacional \(\mu\), utiliza-se uma das seguintes estatísticas:

    \[Z = \frac{\bar X - \mu}{\sigma/\sqrt{n}} \overset{H_0}{\sim} N(0,1), \qquad \mbox{se a variância é conhecida.}\]

    \[t = \frac{\bar X - \mu}{s/\sqrt{n}} \overset{H_0}{\sim} t_{n-1}, \qquad \mbox{se a variância é desconhecida.}\]

    A distribuição de probabilidade da estatística do teste é conhecida.

Componentes de um Teste de Hipótese

  • 4a. Região Crítica (ou região de rejeição): conjunto de valores da estatística do teste para os quais a hipótese nula é rejeitada. É definida de acordo com \(H_1\) e para um nível de significância \(\alpha\) fixado.

    No caso do teste bilateral para a média (\(H_1: \mu \neq \mu_0\)), a região crítica para \(\alpha=0.05\) é a área azul.

Decisão: Rejeitamos \(H_0\) se \(z_{obs} < -1.96\) ou \(z_{obs} > 1.96\).

Componentes de um Teste de Hipótese

  • 4b. Valor-de-p: (nível descritivo do teste) é a probabilidade de que se observe ao acaso um valor da estatística do teste pelo menos tão extremo quanto o valor observado, dado que \(H_0\) é verdadeira.

    Essa probabilidade que mede quão forte é a evidência contra \(H_0\).

    No caso do teste de hipótese para média populacional: \[ \begin{aligned} H_1: &\mu \neq \mu_0 && \qquad \mbox{valor-de-p} = P(|Z| \geq |z_{obs}|) \\ H_1: &\mu > \mu_0 && \qquad \mbox{valor-de-p} = P(Z \geq z_{obs}) \\ H_1: &\mu < \mu_0 && \qquad \mbox{valor-de-p} = P(Z \leq z_{obs}) \end{aligned} \]

Região Crítica e Valor-de-p - Teste Bilateral

Decisão: Rejeita \(H_0\) (figura à esquerda) e não rejeita \(H_0\) (figura à direita)

Região Crítica e Valor-de-p - Teste Unilateral

Decisão: Rejeita \(H_0\) (figura à esquerda) e não rejeita \(H_0\) (figura à direita)

Componentes de um Teste de Hipótese

  • 5. Conclusão: Baseado na região crtícia ou no valor-de-p, decidir se rejeita ou não a hipótese nula.

    Note que a conclusão é sempre em termos de \(H_0\): rejeitar ou não \(H_0\).

    Para um dado nível de significância (\(\alpha\)), rejeitamos \(H_0\) se:

    • valor-de-p \(\leq \alpha\) ou a estatística do teste pertence à região crítica.

    Se o valor-de-p obtido é bem pequeno, por exemplo, \(0.01\), isto quer dizer que se \(H_0\) é verdadeira, então seria incomum obter uma amostra com os resultados como o observado. Um valor-de-p muito baixo traz fortes evidências contra \(H_0\).

Teste de hipóteses para média (\(\sigma\) conhecido)

Exemplo

Vamos voltar no problema em que um operador é responsável para verificar se uma máquina que empacota café precisa ser ajustada. O peso nominal do pacote de café é de 500g. Assume-se que o desvio-padrão é conhecido (\(\sigma = 10\)).

O operador retira uma amostra de 25 pacotes e observa um peso médio de 485g.

Isso nos traz evidência de que a máquina precisa ser ajustada?

Já calculamos o IC de 95% para esse problema: \[IC(\mu, 0.95) = [481.08, 488.92]\]

Vamos agora testar as hipóteses: \[H_0: \mu = 500 \quad \mbox{vs} \quad H_1: \mu \neq 500\]

Exemplo

Suposições: Seja \(X_i\) o peso do \(i\)-ésimo pacote de café. Sabemos que \(\mathbb E(X_i)=\mu\) e \(Var(X_i)=\sigma^2\). Coletou-se uma amostra de tamanho \(n=25\). Pelo TLC: \[\bar{X}\sim N(\mu,\sigma^2/n)\]

Hipóteses: \(H_0: \mu = \mu_0 = 500 \quad \mbox{vs} \quad H_1: \mu \neq \mu_0 = 500\)

Estatística do teste: \[Z = \frac{\bar{X}-\mu_0}{\sigma/\sqrt{n}} \overset{H_0}{\sim} N(0,1)\]

Considerando a amostra obtida: \[z_{obs} = \frac{485-500}{10/5}=-7.5\]

Teste de hipóteses para média (\(\sigma\) conhecido)

Como medir se \(-7.5\) é evidência contra \(H_0\)?

O teste é bilateral, portanto o valor-de-p é calculado como:

Valor-de-p: \(P(|Z| \geq 7.5) = 2P(Z \geq 7.5) \approx 0\)

Conclusão: Como o valor-de-p é praticamente zero, rejeitamos \(H_0\), ou seja, rejeitamos a hipótese de que a média é 500g.

Região Crítica: Teste Bilateral

\(H_0: \mu=\mu_0\) vs \(H_1: \mu \neq \mu_0\) e um nível de significância \(\alpha\), definimos a região crítica do teste: \[RC = \{z \in \mathbb R \mid |z| > z_{\alpha/2}\} = \{z \in \mathbb R \mid z < -z_{\alpha/2} \mbox{ ou } z > z_{\alpha/2}\}\]

Região Crítica: Teste Unilateral à Direita

\(H_0: \mu=\mu_0\) vs \(H_1: \mu > \mu_0\) e um nível de significância \(\alpha\), definimos a região crítica do teste: \[RC = \{z \in \mathbb R \mid z > z_{\alpha}\}\]

Região Crítica: Teste Unilateral à Esquerda

\(H_0: \mu=\mu_0\) vs \(H_1: \mu < \mu_0\) e um nível de significância \(\alpha\), definimos a região crítica do teste: \[RC = \{z \in \mathbb R \mid z < z_{\alpha}\}\]

Região Crítica: Teste Bilateral

Quando o teste for bilateral: \(H_0: \mu = 500 \quad \mbox{vs} \quad H_1: \mu \neq 500\).

A região critíca, para \(\alpha=0.05\), é dada por: \[RC = \{z \in \mathbb R \mid z < -1.96 \mbox{ ou } z > 1.96\}\]

Decisão: Rejeitamos \(H_0\) se \(z_{obs} < -1.96\) ou \(z_{obs} > 1.96\). No nosso exemplo, \(z_{obs}=-7.5\). Portanto, rejeitamos \(H_0\).

Região Crítica: Teste Unilateral à Esquerda

Quando o teste for unilateral à esquerda: \(H_0: \mu = \mu_0 \quad \mbox{vs} \quad H_1: \mu < \mu_0\)

A região critíca, para \(\alpha=0.05\), é a dada por: \[RC = \{z \in \mathbb R \mid z < -1.645\}\]

Decisão: Rejeitamos \(H_0\) se \(z_{obs} < -1.645\).

Região Crítica: Teste Unilateral à Direita

Quando o teste for unilateral à direita: \(H_0: \mu = \mu_0 \quad \mbox{vs} \quad H_1: \mu > \mu_0\)

A região critíca, para \(\alpha=0.05\), é dada por: \[RC = \{z \in \mathbb R \mid z > 1.645 \}\]

Decisão: Rejeitamos \(H_0\) se \(z_{obs} > 1.645\).

Teste de hipóteses para média (\(\sigma\) desconhecido)

Teste de hipóteses para média (\(\sigma\) desconhecido)

No caso de testar \(\qquad H_0: \mu = \mu_0 \quad \mbox{vs} \quad H_1: \mu \neq \mu_0\)

quando \(\sigma\) é desconhecido e a amostra é pequena (\(n<30\)) devemos utilizar a distribuição \(t\).

Estatística do teste: \[t = \frac{\bar{X}-\mu_0}{s/\sqrt{n}} \overset{H_0}{\sim} t_{n-1}\]

Valor-de-p: \(P(|t_{n−1}| ≥ |t_{obs}|) = 2P(t_{n−1} ≥ t_{obs})\)

Região Crítica: \(RC = \{t \in \mathbb R \mid |t| > t_{n-1, \alpha/2}\}\)

Para as hipóteses unilaterais, o raciocínio é semelhante ao que foi feito anteriormente quando \(\sigma\) é conhecido.

Teste de hipóteses para média (\(\sigma\) desconhecido)

No nosso exemplo, suponha que não sabemos o valor de \(\sigma\), mas o desvio padrão da amostra é 7.1g. Queremos testar \[H_0: \mu = 500 \quad \mbox{vs} \quad H_1: \mu \neq 500\]

Estatística do teste: \[t_{obs} = \frac{\bar{X}-\mu_0}{s/\sqrt{n}} = \frac{485-500}{7.1/5} = -10.56\]

valor-de-p: \(P(|t_{24}| ≥ 10.56) = 2P(t_{24} ≥ 10.56) \approx 0\)

Conclusão: Rejeitamos a hipótese de que a média é 500g e, portanto, a máquina precisa ser ajustada.

Exemplo: Dieta com poucos carboidratos

  • 41 pacientes obesos, selecionados aleatoriamente, foram submetidos a uma dieta com baixa quantidade de carboidratos.
  • Pesquisadores responsáveis pelo estudo acreditam que essa dieta faz com que os pacientes apresentem uma redução de peso.
  • Após 16 semanas, a diferença média de peso foi \(-9.7\)kg, com desvio padrão \(3.4\) kg.
  • O que podemos concluir deste estudo?

Detalhes do estudo podem ser encontrados no artigo: Effect of 6-month adherence to a very low carbohydrate diet program.

Teste de hipóteses para média

Suposições: \(X_i\) é a diferença entre peso inicial e final do \(i\)-ésimo obeso. Sabemos que \(\mathbb E(X_i)=\mu\) e \(Var(X_i)=\sigma^2\). Coletou-se uma amostra de tamanho \(n=41\). Pelo TLC: \[\bar{X}\sim N(\mu,\sigma^2/n)\]

Hipóteses: \(H_0: \mu= 0 \quad \mbox{vs} \quad H_1:\mu < 0\)

Ou seja, estamos testando se não há diferença no peso após a dieta versus a hipótese que há redução no peso após a dieta.

Estatística do teste: Como \(n=41\), podemos usar a aproximação normal \[z_{obs}=\frac{\bar{X}-\mu_0}{s/\sqrt{n}}=\frac{-9.7-0}{3.4/\sqrt{41}}=-18.3\]

Teste de hipóteses para média

Valor-de-p: Como o teste é unilateral à esquerda \[\mbox{valor-de-p}=P(Z<-18.3) \approx 0\]

Conclusão: Como o valor-de-p é bem pequeno (<0.05) rejeitamos \(H_0\), ou seja, rejeitamos a hipótese de que a dieta não produz diferença no peso.

Exemplo: Acidentes de trabalho

A associação dos proprietários de indústrias metalúrgicas está muito preocupada com o tempo perdido com acidentes de trabalho, cuja média, nos últimos tempos, tem sido da ordem de 60 horas/homem por ano e desvio padrão de 20 horas/homem.

Tentou-se um programa de prevenção de acidentes, após o qual foi tomada uma amostra de nove indústrias e medido o número de horas/homens perdidos por acidentes, que foi de 50 horas.

Você diria, no nível de \(5\%\), que há evidência de melhoria?

Fonte: Morettin & Bussab, Estatística Básica \(5^a\) edição, pág 334.

Exemplo: Acidentes de trabalho

Queremos testar a hipótese que \(\mu\), o número médio de horas perdidas com acidentes de trabalho, tenha permanecido o mesmo. Ou seja, \[H_0: \mu = 60 \quad \mbox{vs} \quad H_1: \mu < 60\]

Estatística do teste: \[z_{obs} = \frac{\bar{X}-\mu_0}{\sigma/\sqrt{n}} = \frac{50-60}{20/3} = -1.5 \]

valor-de-p: \(P(Z \leq -1.5) = 0.067\)

Conclusão: Como o valor-de-p é maior que 0.05, não rejeitamos a hipótese de que a média é 60. Ou seja, não há evidência contra da hipótese de que o número médio de horas perdidas tenha se mantido o mesmo.

Exemplo: Acidentes de trabalho

Podemos também determinar a região crítica.

Como temos um teste unilateral à esquerda, para um nível de significância de \(5\%\), rejeitamos \(H_0\) se \(z_{obs} < -z_{0.05} = -1.645\).

Como \(z_{obs}=-1.5 > -1.645\), então não rejeitamos \(H_0\).

Resumo: Teste de hipóteses para média

Leituras

  • Ross: capítulo 9.
  • OpenIntro: seção 5.1.
  • Magalhães: capítulo 8.

Slides produzidos pelos professores:

  • Samara Kiihl

  • Tatiana Benaglia

  • Benilton Carvalho