Teste de hipótese

12/10/2016

Testes de hipótese: noções gerais

Testes de hipótese

Teste estatístico sobre a relação entre conjuntos de variáveis
- Ex.: qual a relação entre as alturas de homens e mulheres?
Confronta duas hipóteses sobre a variável
- H0, hipótese nula: as diferenças observadas entre as variáveis são devidas ao acaso, coincidência
- Ha, hipótese alternativa: as diferenças observadas são influenciadas por alguma causa não-aleatórias

Testes de hipótese

O resultado do teste é o p-valor, i.e., a probabilidade de o resultado observado caso H0 seja verdadeira – P(resultado|H0)
- Se p-valor < alfa, rejeitamos H0
- Se p-valor >= alfa, não há evidências para rejeitar H0
O valor alfa é o nível de significância do teste; é comum usar 0.05 (5%).

Testes de hipótese: exemplo

Uma moeda é lançada 30 vezes e resulta em 22 caras. A moeda é justa?
Formulação das hipóteses:
- H0: a moeda é justa, i.e., P(cara) = P(coroa) = 0.5
- Ha: a moeda é enviesada, i.e., P(cara) ≠ P(coroa)
p-valor = P(22 caras | moeda justa)
- Nesse caso, p = 0.01762 (pode ser calculado com base em regras de probabilidade)
Rejeitamos a hipótese nula, e concluímos que há evidências significativas de que a moeda é enviesada

Testes de hipótese: exemplo em R

prop.test(22, 30)

## 
##  1-sample proportions test with continuity correction
## 
## data:  22 out of 30, null probability 0.5
## X-squared = 5.6333, df = 1, p-value = 0.01762
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
##  0.5382722 0.8702456
## sample estimates:
##         p 
## 0.7333333

Testes de hipótese: o que não dizer

Exemplo: P(22 caras | moeda justa) = 0.01762
"Há 1.76% de chance de a moeda ser justa"
Por que essa afirmação é imprecisa?

xkcd

https://xkcd.com/892

Erros de decisão

Os testes eventualmente podem levar a conclusões erradas:

Erro tipo I: rejeitar H0 quando ela é verdadeira.
- P(erro tipo I) = alfa
Erro tipo II: não rejeitar H0 quando ela é falsa.
- P(erro tipo II) é chamado de beta

Poder do teste

Normalmente se deseja rejeitar H0
- Isso significa encontrar evidências de que sua hipótese sobre uma relação entre variáveis é verdadeira
Por isso, buscamos usar o teste estatístico com maior poder que pudermos usar

Teste T

Escolha de testes de hipótese

Cada teste serve para um tipo de hipótese
Cada teste é adequado para certos tipos de variáveis (categóricas, numéricas…)
Cada teste possui pressupostos (assumptions) que devem ser atendidos
- Do contrário, o p-valor não tem significado

Teste de t-Student (teste T) para 2 amostras independentes

Avalia a hipótese alternativa de que duas populações possuem médias diferentes
Pressupostos:
- Independência: os dados de uma amostra são independentes dos dados da outra
- Normalidade: as duas populações seguem distribuições normais
- Homocedasticidade: as duas populações possuem a mesma variância (desvio-padrão^2)
O teste T é robusto a desvios pequenos e médios dos pressupostos

Teste T: exemplo em R

masc <- survey %>% filter(Sex == 'Male')
fem <- survey %>% filter(Sex == 'Female')

# OBS.: conf.level = 1 - alfa. O padrão é 0.95
t.test(masc$Height, fem$Height, conf.level = 0.95)

## 
##  Welch Two Sample t-test
## 
## data:  masc$Height and fem$Height
## t = 12.924, df = 192.7, p-value < 2.2e-16
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  11.13420 15.14454
## sample estimates:
## mean of x mean of y 
##  178.8260  165.6867

Teste T: exemplo em R (outra forma)

Teste T pode ser pensado como uma hipótese sobre a relação entre uma variável numérica e uma variável binária (categórica com 2 valores possíveis):

t.test(survey$Height ~ survey$Sex)

## 
##  Welch Two Sample t-test
## 
## data:  survey$Height by survey$Sex
## t = -12.924, df = 192.7, p-value < 2.2e-16
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -15.14454 -11.13420
## sample estimates:
## mean in group Female   mean in group Male 
##             165.6867             178.8260

Teste T: exemplo em R (considerações)

Note que esse estudo possui uma ameaça à validade externa (generalização das conclusões):
- Os dados são de estudantes de estatística da Universidade de Adelaide, Australia (veja no R: ?MASS::survey)
- A amostra estudada não é uma amostra aleatória de toda a população mundial

Teste T: avaliando os pressupostos

Independência: é uma consequência da forma como os dados foram obtidos
Normalidade: pode ser avaliado usando testes de normalidade como shapiro.test e ks.test (ou graficamente com um histograma ou um Q-Q plot)
Homocedasticidade: pode ser avaliado usando testes de variância como o var.test (ou graficamente com um Q-Q plot)

Teste T: avaliando normalidade

H0: população possui distribuição normal

shapiro.test(masc$Height)

## 
##  Shapiro-Wilk normality test
## 
## data:  masc$Height
## W = 0.99175, p-value = 0.7719

shapiro.test(fem$Height)

## 
##  Shapiro-Wilk normality test
## 
## data:  fem$Height
## W = 0.98027, p-value = 0.1313

Teste T: avaliando normalidade

hist(masc$Height)

Teste T: avaliando normalidade

hist(fem$Height)

Teste T: avaliando normalidade

qqnorm(masc$Height)
qqline(masc$Height)

Teste T: avaliando normalidade

qqnorm(fem$Height)
qqline(fem$Height)

Teste T: avaliando homocedasticidade

var.test(masc$Height, fem$Height)

## 
##  F test to compare two variances
## 
## data:  masc$Height and fem$Height
## F = 1.8557, num df = 105, denom df = 101, p-value = 0.001951
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
##  1.257430 2.734627
## sample estimates:
## ratio of variances 
##           1.855722

Teste T: avaliando homocedasticidade

Os dados são heterocedásticos!
Não tem problema; nesse caso a função t.test do R usa o teste T de Welch
- adaptação do teste t-Student que lida com o problema da heterocedasticidade

Teste T: avaliando homocedasticidade

Note a linha: "Welch Two Sample t-test"

t.test(survey$Height ~ survey$Sex)

## 
##  Welch Two Sample t-test
## 
## data:  survey$Height by survey$Sex
## t = -12.924, df = 192.7, p-value < 2.2e-16
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -15.14454 -11.13420
## sample estimates:
## mean in group Female   mean in group Male 
##             165.6867             178.8260

Teste T: avaliando pressupostos (dica)

Em um artigo, você não precisa mostrar todos esses gráficos e análises para justificar o uso do teste T
Simplesmente diga que verificou o pressuposto de normalidade com o teste (insira aqui o nome do teste que você usou)

Teste T pareado

Igual ao teste T, só que para duas amostras dependentes
- duas amostras de mesmo tamanho, cada valor em uma amostra está relacionado ao valor na outra
- ex.: medir o desempenho de uma pessoa usando a ferramenta X e usando a ferramenta Y
Hipóteses:
- H0: a diferença (xi - yi) tem média 0
- Ha: a diferença é diferente de 0

Teste T pareado

Pressupostos:
- Dependência: os dados são pareados
- Normalidade: a diferença entre as variáveis segue uma distribuição normal

Teste T pareado: checando normalidade

Exemplo: a mão que escreve (Wr.Hnd) e a outra mão (NW.Hnd) possuem tamanhos diferentes, medidos da ponta do polegar à ponta do dedo mínimo?

Teste T pareado: checando normalidade

hist(survey$Wr.Hnd - survey$NW.Hnd)

Teste T pareado: checando normalidade

shapiro.test(survey$Wr.Hnd - survey$NW.Hnd)

## 
##  Shapiro-Wilk normality test
## 
## data:  survey$Wr.Hnd - survey$NW.Hnd
## W = 0.8757, p-value = 5.786e-13

Teste T pareado: exemplo em R

A mão que escreve (Wr.Hnd) e a outra mão (NW.Hnd) possuem tamanhos diferentes, medidos da ponta do polegar à ponta do dedo mínimo?

Teste T pareado: exemplo em R

(OBS.: nesse caso não devemos usar o teste T pois não atendemos ao pressuposto de normalidade!)

t.test(survey$Wr.Hnd, survey$NW.Hnd, paired=TRUE)

## 
##  Paired t-test
## 
## data:  survey$Wr.Hnd and survey$NW.Hnd
## t = 2.1268, df = 235, p-value = 0.03448
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  0.006367389 0.166513967
## sample estimates:
## mean of the differences 
##              0.08644068

Testes não-paramétricos

Paramétrico vs não-paramétrico

O teste T é um teste paramétrico, pois assume que os dados seguem uma determinada distribuição
E se esse pressuposto não puder ser atendido?
Podemos usar testes não-paramétricos

Teste Mann-Whitney

Equivalente ao teste T para duas amostras independentes
- Compara as medianas de duas amostras (mais ou menos)
Pressupostos:
- As duas amostras são independentes
- A variável estudada é no mínimo ordinal
- As duas amostras possuem a mesma forma (ver discussão detalhada)

Teste Mann-Whitney: exemplo em R

Número de testes executados é diferente comparando projetos em Java e em Ruby?

Teste Mann-Whitney: exemplo em R

boxplot(builds100$tr_tests_run ~ builds100$gh_lang)

Teste Mann-Whitney: exemplo em R

wilcox.test(builds100$tr_tests_run ~ builds100$gh_lang)

## Warning in wilcox.test.default(x = c(0L, 3L, 1148L, 136L, 179L, 147L), y =
## c(718L, : cannot compute exact p-value with ties

## 
##  Wilcoxon rank sum test with continuity correction
## 
## data:  builds100$tr_tests_run by builds100$gh_lang
## W = 68, p-value = 0.09294
## alternative hypothesis: true location shift is not equal to 0

Teste de Wilcoxon pareado

Similar ao teste de Mann-Whitney, para dados pareados
Análogo ao teste T pareado, porém não paramétrico

Teste de Wilcoxon: exemplo em R

Existe diferença entre o número de arquivos adicionados e o número de arquivos removidos em cada build?

Teste de Wilcoxon: exemplo em R

boxplot(1+builds100$gh_files_added, 1+builds100$gh_files_modified, log="y")

Teste de Wilcoxon: exemplo em R

wilcox.test(builds100$gh_files_added, builds100$gh_files_modified, paired=T)

## 
##  Wilcoxon signed rank test with continuity correction
## 
## data:  builds100$gh_files_added and builds100$gh_files_modified
## V = 105.5, p-value = 7.472e-16
## alternative hypothesis: true location shift is not equal to 0

Sumário: testes para duas amostras, variáveis numéricas

Testes

	paramétrico	não-paramétrico
independentes	Teste T	Teste U (Mann-Whitney)
pareados	Teste T pareado	Teste de Wilcoxon pareado

Observações:

nos testes não paramétricos, as variáveis podem ser ordinais
quando podem ser aplicados, os testes paramétricos geralmente possuem poder maior que os não-paramétricos

Funções em R

	paramétrico	não-paramétrico
independentes	`t.test(...)`	`wilcox.test(...)`
pareados	`t.test(..., paired=T)`	`wilcox.test(..., paired=T)`

Tópicos avançados sobre teste de hipótese

Múltiplos testes

Você quer avaliar se a moeda usada na Copa do Mundo de 2014 é enviesada através de um experimento: lança a moeda 30 vezes e conta número de caras.
Com um lançamento, não foi possível rejeitar H0.
Você repete o experimento 100 vezes, até que finalmente o resultado é 22 caras (p < 0.05).
Você escreve um artigo dizendo que provou que a moeda da copa é enviesada.
O que está errado?

xkcd

https://xkcd.com/882/

Correção de Bonferroni

No caso de múltiplos testes de hipótese, deve ser aplicado um fator de correção ao alfa (para rejeitar H0, p < alfa * fator)
O método de correção mais simples é a correção de Bonferroni, na qual fator = 1 / n, onde n é o número de repetições
Assim, se vamos considerar alfa = 5% e realizar 10 repetições, então só rejeitamos H0 se p < 0,5%
A correção de Bonferroni é muito conservadora (existem outras)
- i.e., diminui o poder do teste
- i.e., fica mais difícil rejeitar H0

p-hacking

https://xkcd.com/1478/

http://fivethirtyeight.com/features/science-isnt-broken/

Tamanho do efeito e relevância

Resultado estatisticamente significativo nem sempre é significativo:

A diferença observada pode ser muito pequena
- Ex.: A diferença de tempo entre P1 e P2 é de 1 segundo, em média.
O resultado pode não ter implicações práticas ou teóricas interessantes
O tamanho do efeito pode ser calculado com o Delta de Cliff (ver pacote compute.es do R)

Variáveis de confusão

Uso de protetor solar está causa câncer de pele?
Significância estatística ≠ causa
Exposição ao sol está associado tanto com uso de protetor solar quanto à incidência de câncer de pele
Exposição ao sol é uma variável de confusão

Testes para mais de duas amostras

Discussão sobre número de amostras

Até agora, estudamos testes para comparar duas amostras
- i.e., uma variável numérica vs. uma variável binária
- i.e., consideramos um fator com dois tratamentos
- ex.: fator linguagem de programação, tratamentos Java e Ruby
E se quisermos comparar três amostras?
- ex.: fator linguagem de programação, tratamentos Java, Ruby e Python
Solução 1: comparar as amostras duas a duas
- Problema: múltiplos testes

ANOVA

ANOVA (ANalysis Of VAriance) é um teste para comparar mais de duas amostras
Tipos:
- 1-way ANOVA: um fator com 3 ou mais tratamentos (ex.: linguagem = Java, Ruby ou Python)
- 2-way ANOVA: dois fatores (ex.: linguagem = Java ou Ruby, tamanho da equipe = pequeno ou grande – nesse caso são quatro amostras)
- n-way ANOVA: n fatores

1-way ANOVA

Hipóteses:
- H0: todas as amostras possuem a mesma média para a variável analisada
- Ha: pelo menos uma das amostras possui média diferente
Pressupostos: normalidade, homocedasticidade, independência (como no teste T)

1-way ANOVA: exemplo em R

A taxa de batimentos cardíacos depende da frequência de exercício dos alunos (frequente, algum, nenhum)?

summary(aov(survey$Pulse ~ survey$Exer))

##              Df Sum Sq Mean Sq F value Pr(>F)  
## survey$Exer   2    900   450.2   3.378 0.0362 *
## Residuals   189  25188   133.3                 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 45 observations deleted due to missingness

2-way ANOVA e n-way ANOVA

Ver http://rtutorialseries.blogspot.com.br/2011/02/r-tutorial-series-two-way-anova-with.html

Alternativas não-paramétricas ao ANOVA

Kruskall-Wallis (1-way)
Friedman (2-way, unreplicated complete block design)

Testes de hipótese para números: resumo

Resumo

Para duas amostras:
- paramétrico: teste T (pareado ou não)
- não-paramétrico: Wilcoxon (pareado ou não)
Para mais de duas amostras:
- paramétrico: ANOVA (1-way, 2-way ou n-way)
- não-paramétrico: Kruskall-Wallis (1-way) ou Friedman (2-way)

Testes para variáveis nominais

Exemplo de dados nominais

Considere os bugs de um projeto de software, que podem ser classificados quanto à severidade (severo ou não-severo) e prioridade (prioritário e não-prioritário). Podemos sumarizar os dados através de uma tabela de contingência 2x2:

bugs2 <- bugs %>% mutate(prioritario = priority %in% c('P1', 'P2'),
         severo = severity %in% c('blocker', 'critical', 'major'))
tab <- xtabs(~ prioritario + severo, data=bugs2)
tab

##            severo
## prioritario FALSE  TRUE
##       FALSE  3471 16908
##       TRUE    511  6529

Exemplo de dados nominais

As duas variáveis (severidade e prioridade) são nomais. Será que elas são independentes? Podemos visualizar com um mosaic plot:

mosaicplot(tab, shade=T)

Teste de independência com qui-quadrado

O teste do qui-quadrado (chi-squared) pode ser usado para determinar se duas variáveis nominais são independentes ou, equivalentemente, se eles seguem a mesma distribuição
Pressupostos:
- Menos de 20% das células da tabela de contingência possuem valor < 5.
- Os dados não são pareados

Qui-quadrado: exemplo em R

A distribuição dos status das builds depende da linguagem de programação? Status = canceled, errored, failed, passed ou started; linguagem = Java ou Ruby.

tab <- xtabs(~ gh_lang + tr_status, data=builds)
tab

##        tr_status
## gh_lang canceled errored failed passed started
##    java       78    3197   4191  17733       2
##    ruby      885   11114  17732  74831       0

Qui-quadrado: exemplo em R

A distribuição dos status das builds depende da linguagem de programação? Status = canceled, errored, failed, passed ou started; linguagem = Java ou Ruby.

tab <- xtabs(~ gh_lang + tr_status, data=builds)
chisq.test(tab)

## Warning in chisq.test(tab): Chi-squared approximation may be incorrect

## 
##  Pearson's Chi-squared test
## 
## data:  tab
## X-squared = 170.46, df = 4, p-value < 2.2e-16

Teste de McNemar

Versão do qui-quadrado para testes pareados

Teste de McNemar: exemplo em R

Existe dependência entre as variáveis binárias prioridade e severidade em bugs?

tab <- xtabs(~ prioritario + severo, data=bugs2)
chisq.test(tab)

## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  tab
## X-squared = 401.86, df = 1, p-value < 2.2e-16

Tamanho do efeito

Pode ser medido com o V de Cramer.

Sumário

Os testes de hipótese relacionam uma variável numérica ou categórica com uma variável categórica usada para agrupar os dados.
- Ex.: teste T é variável numérica vs. categórica
- Ex.: teste qui-quadrado é variável categórica vs. categórica
E se quisermos relacionar duas variáveis numéricas?
- Devemos usar correlação e análise de regressão

Sumário

https://marcoarmello.wordpress.com/2012/05/17/qualteste/

Testes de hipótese: noções gerais

Testes de hipótese

Testes de hipótese

Testes de hipótese: exemplo

Testes de hipótese: exemplo em R

Testes de hipótese: o que não dizer

xkcd

Erros de decisão

Poder do teste

Teste T

Escolha de testes de hipótese

Teste de t-Student (teste T) para 2 amostras independentes

Teste T: exemplo em R

Teste T: exemplo em R (outra forma)

Teste T: exemplo em R (considerações)

Teste T: avaliando os pressupostos

Teste T: avaliando normalidade

Teste T: avaliando normalidade

Teste T: avaliando normalidade

Teste T: avaliando normalidade

Teste T: avaliando normalidade

Teste T: avaliando homocedasticidade

Teste T: avaliando homocedasticidade

Teste T: avaliando homocedasticidade

Teste T: avaliando pressupostos (dica)

Teste T pareado

Teste T pareado

Teste T pareado: checando normalidade

Teste T pareado: checando normalidade

Teste T pareado: checando normalidade

Teste T pareado: exemplo em R

Teste T pareado: exemplo em R

Testes não-paramétricos

Paramétrico vs não-paramétrico

Teste Mann-Whitney

Teste Mann-Whitney: exemplo em R

Teste Mann-Whitney: exemplo em R

Teste Mann-Whitney: exemplo em R

Teste de Wilcoxon pareado

Teste de Wilcoxon: exemplo em R

Teste de Wilcoxon: exemplo em R

Teste de Wilcoxon: exemplo em R

Sumário: testes para duas amostras, variáveis numéricas

Testes

Funções em R

Tópicos avançados sobre teste de hipótese

Múltiplos testes

xkcd

Correção de Bonferroni

p-hacking

Tamanho do efeito e relevância

Variáveis de confusão

Testes para mais de duas amostras

Discussão sobre número de amostras

ANOVA

1-way ANOVA

1-way ANOVA: exemplo em R

2-way ANOVA e n-way ANOVA

Alternativas não-paramétricas ao ANOVA

Testes de hipótese para números: resumo

Resumo

Testes para variáveis nominais

Exemplo de dados nominais

Exemplo de dados nominais

Teste de independência com qui-quadrado

Qui-quadrado: exemplo em R

Qui-quadrado: exemplo em R

Teste de McNemar

Teste de McNemar: exemplo em R

Tamanho do efeito

Sumário

Sumário

Sumário

Referências

Referências