#Entrada dos dados no R
observados <- c(120, 48, 38, 13)
esperados <- c(122, 41, 41, 14)
chisq.test(x = observados, y = esperados)
Pearson's Chi-squared test
data: observados and esperados
X-squared = 8, df = 6, p-value = 0.2381
EST212 - Bioestatística
Antes de iniciar nossa aula:
Abra o RStudio.
Crie um novo script.
Crie uma pasta na área de trabalho com seu nome.
Defina a pasta como diretório de trabalho
Salve o script criado na pasta com o nome "aula20_est212.R"
.
Baixe do Moodle o arquivo peso_gestacao.csv
.
Leia o arquivo listado acima para o objeto peso
.
Na última aula estudamos o teste qui-quadrado e a possibilidade de testar se duas variáveis são significativas.
Nessa aula, estudaremos mais uma aplicação do teste qui-quadrado, suas limitações e alternativas.
Podemos utilizar o teste qui-quadrado para verificar a aderência de uma variável a uma determinada distribuição de probabilidade.
A aderência indica que a amostra em estudo é advinda de uma determinada população, com uma dada distribuição de probabilidades.
Esse teste é semelhante ao teste de normalidade. Entretanto, diferente do teste de normalidade, é necessário conhecer os quantis da distribuição. Por esse motivo, é bastante utilizado em distribuições discretas.
A técnica utilizada é a mesma, a comparação de valores observados e esperados.
Porém, não mais se compara uma tabela de contingência, e sim dois vetores de valores observados e esperados.
O teste de aderência testa as seguintes hipóteses:
\(H_0\): Os dados observados provém da distribuição teórica.
\(H_1\): Os dados observados não provém da distribuição teórica.
Ou seja, se trata de um teste de homogeneidade. Se não rejeitamos a hipótese nula, concluímos que os dados observados são homogêneos com a distribuição teórica, ou com a população de referência. Caso contrário, conclui-se que há diferenças entre as distribuições, e consequentemente, entre as populações em estudo.
Para entender melhor, vamos aplicar o teste a um exemplo.
Em um experimento de criação de ratos, um geneticista tentou manipular o código genético de ratos para variar características de pelagem e cor dos olhos. Após o experimento, ele obteve 120 ratos marrons de olhos rosa, 48 ratos marrons de olhos castanhos, 36 ratos brancos com olhos rosa e 13 ratos brancos com olhos castanhos.
A teoria prediz que tais combinações de pelo e olhos são obtidos, respectivamente, nas proporções 56,25%, 18,75%, 18,75%, 6,25%.
Teste, ao nível de 5% de significância, se houve uma variação significativa da características dps ratos durante o experimento.
Foram gerados 217 ratos, conforme listado acima. Se as proporções teóricas fossem observadas, em 217 ratos teríamos os seguintes valores esperados, em comparação com os observados:
Pelo/Olhos | Marrom/Rosa | Marrom/Castanho | Branco/Rosa | Branco/Castanho |
Valores esperados | 122 | 41 | 41 | 14 |
Valores observados | 120 | 48 | 38 | 13 |
Queremos testar as seguintes hipóteses:
\(H_0\): Houve mudança significativa nas características dos ratos.
\(H_1\): Não houve mudança significativa nas características dos ratos.
Vamos realizar o teste qui-quadrado para concluir sobre as hipóteses.
Nesse caso, como são dois vetores separados, utilizamos a função chisq.test(x, y)
, em que x
e y
são os vetores em análise.
#Entrada dos dados no R
observados <- c(120, 48, 38, 13)
esperados <- c(122, 41, 41, 14)
chisq.test(x = observados, y = esperados)
Pearson's Chi-squared test
data: observados and esperados
X-squared = 8, df = 6, p-value = 0.2381
Como o p-valor é maior que o nível de significância, temos evidências que nos levam a não rejeitar a hipótse nula, ao nível de 5%. Logo, o experimento genético não foi exitoso na alteração das características dos ratos.
O teste qui-quadrado é uma excelente opção para testar se duas variáveis nominais estão associadas.
Entretanto, o teste apresenta algumas limitações:
O teste determina apenas a relação entre as variáveis, não a causalidade.
O teste é sensível ao tamanho da amostra. amostras muito grandes podem fazer diferenças pequenas serem consideradas estatisticamente significativas.
O teste é pouco confiável quando a tabela de contingência apresenta mais de 20% das frequências menores do que 5.
Dentre essas limitações, a terceira pode ser contornada com o uso do Teste Exatod e Fisher.
O Teste Exato de Fisher é uma versão alternativa ao teste qui quadrado.
Ao invés de aproximar a estatística de teste por uma distribuição qui-quadrado, ele calcula a distribuição exata de todas as possíveis combinações de níveis.
Por se tratar de um teste exato, em grandes amostras ele demanda uma quantidade muito grande de cálculos. Por esse motivo, geralmente é aplicado em pequenas amostras, ou quando observa-se mais de 20% das frequências da tabela de contingência iguais ou menores que 5.
Sua definição matemática é ainda mais complexa que a do teste qui-quadrado, portanto não a apresentaremos. Veremos apenas como executá-la no R.
Assim como o teste qui-quadrado, o teste exato de Fisher testa as seguintes hipóteses:
\(H_0:\) As variáveis X e Y são independentes
\(H_1:\) As variáveis X e Y não são independentes
Sua aplicação é realizada por meio da função fisher.test(x)
, em que x
é uma tabela de contingência.
Vamos refazer o exemplo da última aula, dos bebês de baixo peso com mães fumantes.
Vamos nos recordar que, em nossa tabela de contingência, haviam frequências baixas. Uma delas igual a 5:
Mãe hipertensa | Mãe saudável | Sum | |
---|---|---|---|
Baixo peso | 7 | 52 | 59 |
Peso normal | 5 | 125 | 130 |
Sum | 12 | 177 | 189 |
Nesse caso, o teste exato de Fisher é mais adequado.
Vamos testar as hipóteses ao nível de 5% de significância usando o teste exato de Fisher. Vamos testar as seguintes hipóteses:
\(H_0:\) Não há nenhuma associação entre baixo peso do recém nascido e a ocorrência de hipertensão na mãe (são independentes).
\(H_1:\) Existe associação entre baixo peso do recém nascido e a ocorrência de hipertensão na mãe (não são independentes).
Fisher's Exact Test for Count Data
data: tab_peso_hiper
p-value = 0.05161
alternative hypothesis: true odds ratio is not equal to 1
95 percent confidence interval:
0.8679484 13.9894703
sample estimates:
odds ratio
3.340866
Como o p-valor é maior que o nível de significância, mantemos a mesma conclusão do teste qui-quadrado. Não há associação entre hipertensão materna e baixo peso do recém nascido.
Note que o p-valor foi menor que o obtido no teste qui-quadrado, que foi 0,07625.
Com isso, encerramos nossa disciplina. Para finalizar, vamos verificar um diagrama que pode ser utilizado para a escolha do teste de hipóteses adequado para cada situação.
O diagrama pode ser acessado clicando AQUI.