Inferência estatística

As bases dos testes de hipóteses

Prof. Letícia Raposo

UNIRIO

Introdução

Exemplos

  • 🚬 Na problemática de verificar se existe relação entre tabagismo e sexo, em certa região, pode-se lançar a seguinte hipótese: na região em estudo, a propensão de fumar nos homens é diferente da que ocorre nas mulheres.

  • 💰 Para se verificar o efeito de uma propaganda nas vendas de certo produto, tem-se interesse em verificar a veracidade da hipótese: a propaganda produz um efeito positivo nas vendas.

  • 📔 Na condução de uma política educacional, pode-se ter interesse em comparar dois métodos de ensino. Hipótese: os métodos de ensino tendem a produzir resultados diferentes de aprendizagem.

Introdução

A aplicação de um teste estatístico serve para verificar se os dados fornecem evidência suficiente para que se possa considerar como verdadeira a hipótese de pesquisa, precavendo-se, com certa segurança, de que as diferenças observadas nos dados não são meramente casuais.

As hipóteses de um teste estatístico

Hipótese nula


Hipótese nula, H0: descrita em termos de parâmetros populacionais e é, basicamente, uma negação daquilo que o pesquisador deseja provar. Sob essa hipótese, as diferenças observadas nos dados são consideradas casuais. Podemos ter as seguintes hipóteses nulas para os problemas descritos anteriormente.


  • H0: A proporção de homens fumantes é igual (não difere) à proporção de mulheres fumantes, na população em estudo.
  • H0: Em média, as vendas não aumentam com a introdução da propaganda.
  • H0: Em média, os dois métodos de ensino produzem os mesmos resultados (não diferem).

Hipótese alternativa


Quando os dados mostrarem evidência suficiente de que a hipótese nula, H0, é falsa, o teste a rejeita; considerando em seu lugar a chamada Hipótese Alternativa, HA ou H1. A hipótese alternativa é, em geral, aquilo que o pesquisador quer provar, ou seja, a própria hipótese de pesquisa, considerando a forma de planejamento da pesquisa.


  • H1: A proporção de homens fumantes é diferente da proporção de mulheres fumantes, na população em estudo.
  • H1: Em média, as vendas aumentam com a introdução da propaganda.
  • H1: Em média, os dois métodos de ensino produzem resultados diferentes.

Hipótese alternativa

É comum a H0 ser apresentada em termos de igualdade de parâmetros populacionais, enquanto a H1 em forma de desigualdade (maior, menor ou diferente).

Quando especificamos uma direção (maior ou menor), dizemos que o teste é unicaudal ou unilateral. Mas se não especificarmos uma direção e dissermos apenas que difere, temos um teste bicaudal ou bilateral.

Conceitos básicos

Conceitos básicos

Suponha, por exemplo, que se suspeite que um certo baralho seja viciado, isto é, há uma tendência de ocorrerem mais cartas vermelhas do que pretas, ou mais pretas do que vermelhas. Entendendo-se como baralho honesto aquele que tem a mesma probabilidade de sair carta vermelha ou preta, pois metade das cartas são vermelhas (copas e ouros) e metade são pretas (paus e espadas), podemos formular as hipóteses da seguinte maneira:

🃏 H0: o baralho é honesto

🃏 H1: o baralho é viciado ️

Se chamarmos \(\pi\) à probabilidade de ocorrer um naipe vermelho na escolha aleatória de uma carta, podemos escrever:

\[𝐻0:𝜋=0,5\ 𝑒\ 𝐻1: 𝜋≠0,5\]

Conceitos básicos

  • Suponhamos, inicialmente, H0 como verdadeira.
    • H0 somente vai ser rejeitada em favor de H1 se houver evidência suficiente que a contradiga.
  • O número de cartas vermelhas retiradas em n cartas selecionadas aleatoriamente será a nossa estatística do teste.
  • A estatística do teste poderá ser usada na definição de um critério de decisão: não rejeitar H0 ou rejeitar H0 em favor de H1.

Cenário #1

Vamos imaginar que a gente retire 10 cartas aleatoriamente com reposição. Ao registrarmos as cores dos naipes, todas são vermelhas. Logo, a estatística do teste é 10. Podemos dizer então que o nosso baralho é viciado?


Cenário #1

Supondo que a hipótese nula seja verdadeira, ou seja, a probabilidade de tirar uma carta vermelha é 0,5, sabemos então que a distribuição de probabilidades da estatística do teste seguirá uma distribuição binomial.

Podemos observar que, se H0 for verdadeira, os resultados mais prováveis estão em torno de 5 cartas vermelhas. Chamaremos este valor central da distribuição de probabilidades de valor esperado ou valor médio.

Cenário #1

E qual seria a probabilidade de observar resultados tão ou mais distantes que o observado em relação ao valor esperado?

Verificamos que tão ou mais distante que o valor observado na amostra (𝑌 = 10), encontra-se o valor 0 e o próprio valor 10. Somando estas probabilidades, teríamos 0,002, ou, 0,2%.

Cenário #1

Ou seja, se a H0 é verdadeira, a probabilidade de tirar 10 cartas vermelhas ou nenhuma carta vermelha (10 cartas pretas) é de apenas 0,2%.

Logo, é tão improvável tirar 10 cartas vermelhas na seleção de 10 cartas que a gente desconfia que a H0 seja falsa.

Valor-p

A probabilidade de a estatística do teste acusar um resultado tão ou mais distante do valor esperado, supondo H0 verdadeira, é o famoso valor-p.

Valor-p

Quando consideramos a H0 verdadeira (o baralho é honesto) e ao depararmos com 10 cartas vermelhas, a probabilidade de ocorrer valores tão extremos ou mais (0 ou 10 cartas vermelhas) é tão pequena que a gente acaba rejeitando a H0 de que o baralho é honesto.

Ou seja, é tão improvável escolher 10 cartas vermelhas quando a gente seleciona aleatoriamente 10 cartas que isso só pode dar indícios de que o baralho é viciado.

Valor-p

Mas, ao rejeitar H0, é certo de que fizemos a coisa certa? Não, pois pode ocorrer 10 cartas vermelhas quando o baralho é honesto, porém é muito improvável.

Por isso o pesquisador define um nível de aceitação de erro, ou seja, o quanto ele aceita rejeitar H0 sendo ela verdadeira.

Tipo de teste

E por que somamos as probabilidades das duas caudas da distribuição?

Porque não especificamos a direção da diferença na nossa hipótese alternativa. Falamos em uma propabilidade diferente de 0,5 e não maior ou menor que 0,5. Logo, temos um teste bilateral.

Caso tivéssemos definido na H1 que p > 0,5 (teste unilateral), por exemplo, utilizaríamos apenas a probabilidade referente a dez cartas vermelhas, ou seja, a metade do valor que encontramos, visto que a distribuição é simétrica e \(p(0) = p(10)\).

Cenário #2

E se tivéssemos sorteado 7 cartas vermelhas e 3 pretas?

Cenário #2

No cenário 2, em que observamos 𝑌 = 7 cartas vermelhas em 𝑛 = 10 retiradas, tão ou mais distante do que o valor 𝑌= 7 são encontrados os valores: 7, 8, 9, 10, 0, 1, 2 e 3. E, portanto, o valor-p é 0,001 + 0,010 + 0,044 + 0,117 + 0,117 + 0,044 + 0,010 + 0,001 = 0,344 (34,4%).

E agora, rejeitaríamos a hipótese nula? É muito improvável de observar 7 cartas vermelhas em 10 retiradas aleatórias?

Nível de significância

Quem irá responder nossa pergunta anterior é o nível de significância.

Ainda na fase do planejamento de uma pesquisa, quando desejamos confirmar ou refutar alguma hipótese, é comum estabelecer o valor da probabilidade tolerável de incorrer no erro de rejeitar H0, quando H0 é verdadeira.

Nível de significância

Este valor é conhecido como nível de significância do teste e é designado pela letra grega \(\alpha\).

É muito comum adotar nível de significância de 5% , isto é, \(\alpha=0,05\). Ou seja, em média, 95 vezes em 100 você terá rejeitado corretamente H0, e 5 vezes em 100 você estará errado.

Nível de significância

Seja o nível de significância de 5% (\(\alpha=0,05\)).

  • No cenário 1, quando observamos dez cartas vermelhas em dez retiradas, o teste estatístico rejeita H0, em favor de H1 (pois a probabilidade de significância, calculada com base na amostra, foi 𝑝 = 0,002 e, portanto, menor do que o valor adotado para 𝛼).
  • No cenário 2, quando observamos sete cartas vermelhas em dez retiradas, o teste estatístico não rejeita H0, porque a probabilidade de significância, calculada com base na amostra, foi 𝑝 = 0,344; que não é menor do que o valor adotado para 𝛼.

Nível de significância

  • Quando o teste rejeita H0 em favor de H1 (𝑝<𝛼), a probabilidade de se estar tomando a decisão errada é, no máximo, igual ao nível de significância 𝛼 adotado. Desta forma, temos certa garantia da veracidade de H1.
  • Quando o teste não rejeita a H0 (𝑝>𝛼), podemos dizer que os dados não mostraram evidência suficiente para rejeitá-la e, por isso, continuamos acreditando em sua veracidade.

Mas podemos errar com a nossa decisão…

Erros tipo I e II


  • Erro do tipo I (\(\alpha\)) - falso positivo: rejeitar HO quando ela é verdadeira.
    • Portanto, outra maneira de definir o valor-p é a probabilidade de obter um falso positivo com o que você observou, se a hipótese nula for verdadeira.
  • Erro do tipo II (\(\beta\)) - falso negativo: não rejeitar a hipótese nula, mesmo que ela não seja verdadeira.
    • É por isso que nunca dizemos que nossos dados mostram que a hipótese nula é verdadeira; tudo o que podemos dizer é que não rejeitamos a hipótese nula.

Poder estatístico

  • O poder estatístico é uma medida da capacidade do teste de detectar um efeito real.
    • Ele é dado por 1 - erro do tipo II, ou seja, é a probabilidade de rejeitar corretamente a hipótese nula.
    • O poder pode variar de 0 a 1, em que 0 significa que o estudo não tem nenhuma chance de detectar um efeito genuíno na população e 1 significa que um estudo irá, definitivamente, detectá-lo.

Poder estatístico

  • O poder estatístico está relacionado ao tamanho da amostra, ao tamanho do efeito e ao nível de confiança escolhido.
    • O tamanho do efeito se refere ao tamanho da diferença entre dois ou mais grupos ou a força de um relacionamento entre duas ou mais variáveis.
    • Conforme o tamanho do efeito aumenta, ou conforme o número de observações que coletamos aumenta, ou conforme o nível de confiança aumenta, o poder do teste aumenta.

Limitações

Limitações

  • Se tivermos muitas observações, mesmo pequenos efeitos podem ser relatados como significativos. Por isso é importante observar o tamanho do efeito e as considerações práticas.
  • Alguns autores descrevem que os intervalos de confiança (IC) podem ser usados como uma abordagem alternativa.
    • Por exemplo, se quisermos comparar as médias de dois grupos para ver se eles são estatisticamente diferentes, usaremos um teste específico, calcularemos um valor-p e tiraremos uma conclusão.
    • Uma abordagem alternativa seria construir IC95% ou IC99% sobre a média de cada grupo.
    • Se os IC dos dois grupos não se sobrepõem, temos justificativa para chamá-los de estatisticamente diferentes.
    • Da mesma forma, se o IC95% para alguma estatística inclui o valor zero, podemos concluir que a estatística não é significativamente diferente de zero.

Relatando seus resultados

Relatando seus resultados

  • Não basta dizer se o valor-p é maior ou menor que 0,05 (ou algum outro valor). Se puder, forneça o valor-p como um número.
  • Se você calculou muitos valores-p, mostre todos eles. Informe, no mínimo, o número de comparações que você fez.
  • Muitas pessoas adicionam asteriscos às tabelas e gráficos para mostrar quão baixo é o valor-p. Costuma-se usar um asterisco para p < 0,05, dois asteriscos para p < 0,01 e três asteriscos para p < 0,001.
  • Se você colocar um asterisco em um gráfico, é preciso que fique claro exatamente qual comparação foi feita.

Relatando seus resultados

  • Algumas revistas escrevem o valor-p sem o zero antes da vírgula (ou ponto, no inglês), outras com o zero: “.001” e “0.001”.
  • Em geral, valores-p maiores que 0,01 devem ser relatados com duas casas decimais, aqueles entre 0,01 e 0,001 com três casas decimais.
  • Valores-p menores que 0,001 devem ser relatados como p < 0,001.
  • Não há estilo uniforme. Em inglês, temos diversas formas: “p value” (p em itálico e em hífen), “P value” (p maiúsculo, sem itálico e sem hífen), e “p-value” (com hífen).

Testes paramétricos

Testes paramétricos

  • Fazem suposições sobre os parâmetros da população subjacente.
  • São geralmente os mais sensíveis que podemos usar.
  • Usados quando a variável dependente é intervalar/razão.

Suposições dos testes paramétricos

As suposições variam entre os testes, mas seguem uma discussão geral.

  • Amostragem aleatória
  • Distribuição normal dos dados ou resíduos
  • Homogeneidade da variância (homocedasticidade)

Testes não paramétricos

Testes não paramétricos

  • Não têm suposições rígidas sobre as distribuições da população.
  • Geralmente, contêm resultados estatísticos provenientes de suas ordenações, o que os torna mais fáceis de entender.
  • Tendem a ter uma menor probabilidade para detectar um efeito que existe na população de interesse, sendo menos poderosos.

Testes não paramétricos

  • Não fornecem intervalos de confiança (já que para o cálculo desses intervalos, precisamos conhecer a distribuição dos dados).
  • Determinam se há uma diferença sistemática entre os grupos.
    • Isso pode ser devido a uma diferença na localização (por exemplo, mediana) ou na forma ou dispersão da distribuição dos dados.

E como avaliar as suposições de normalidade e homocedasticidade?

Normalidade dos dados

Inspeção visual

Gráfico de densidades: permitirá observarmos se a distribuição da variável quantitativa se assemelha a um sino.

Código em R
library(palmerpenguins)
library(dplyr)
library(ggplot2)
penguins %>%
  ggplot(aes(x = flipper_length_mm)) +
  geom_density(
    position = "identity",
    fill = "purple",
    color = "black",
  ) +
  labs(fill = "Ilhas",
       y = "Densidade",
       x = "Comprimento das nadadeiras dos pinguins (milímetros)",
       title = "Distribuição dos comprimentos das nadadeiras dos pinguins (milímetros)") +
  theme_minimal() 

Inspeção visual

Gráfico Quantil-Quantil (Q-Q) Normal: desenha a relação entre uma determinada amostra e a distribuição normal. Uma linha de referência de 45 graus também é plotada. Se os pontos ficarem muito próximos da linha, temos indícios de que a distribuição segue a normalidade.

Código em R
library(palmerpenguins)
library(car)

qqPlot(penguins$flipper_length_mm)
[1] 216 154

Inspeção visual

Gráfico Quantil-Quantil (Q-Q) Normal: é apenas uma verificação visual, não uma prova, por isso é um tanto subjetivo. Mas nos permite ver rapidamente se nossa suposição é plausível e, se não, como a suposição é violada e quais pontos de dados contribuem para a violação.

Testes de significância

  • Existem vários testes para avaliar normalidade, como o teste de normalidade Kolmogorov-Smirnov (K-S) e o teste de Shapiro-Wilk.
  • São sensíveis ao tamanho da amostra. Amostras pequenas geralmente passam nos testes de normalidade.
    • Importante combinar inspeção visual e teste de significância para tomar a decisão certa.

Teste de Shapiro-Wilk

Samuel Shapiro (1930 - 2023)

Martin Wilk (1922–2013)

Teste de Shapiro-Wilk

Para o teste de Shapiro-Wilk, temos:

H0: os dados vêm de uma distribuição normal.

HA: os dados não vêm de uma distribuição normal.

Se o valor-p do teste é menor que o \(\alpha\), temos que os dados não seguem a normalidade. Se valor-p > \(\alpha\), temos dados normais.

Homogeneidade das variâncias

Homogeneidade das variâncias

Outra suposição que muitos testes paramétricos apresentam é a homogeneidade das variâncias entre os grupos (homocedasticidade).

  • Teste F: compara as variâncias de duas amostras. Os dados devem ser normalmente distribuídos.
  • Teste de Bartlett: compara as variâncias de k amostras, em que \(k \geq 2\). Os dados devem ser normalmente distribuídos.
  • Teste de Levene: compara as variâncias de k amostras, em que \(k \geq 2\). É uma alternativa ao teste de Bartlett, sendo menos sensível a desvios da normalidade.

Teste de Levene

Howard Levene (1914 - 2003)

Teste de Levene

Para o teste de Levene, temos:

H0: todas as variâncias populacionais são iguais.

HA: pelo menos uma das variâncias é diferente.

Se o valor-p do teste é menor que o \(\alpha\), temos dados heterocedásticos. Se valor-p > \(\alpha\), temos homocedasticidade.

📚 Referências bibliográficas

  • BARBETTA, Pedro Alberto. Estatística aplicada às ciências sociais. Ed. UFSC, 2008.

  • DANCEY, Christine P.; REIDY, John G.; ROWE, Richard. Estatística Sem Matemática para as Ciências da Saúde. Penso Editora, 2017.

  • HAIR, J. F. et al. Multivariate data analysis. Cengage. Hampshire, United Kingdom, 2019.