EST212 - Bioestatística
Antes de iniciar nossa aula:
Abra o RStudio.
Crie um novo script.
Crie uma pasta na área de trabalho com seu nome.
Defina a pasta como diretório de trabalho
Salve o script criado na pasta com o nome "aula15_est212.R"
.
Baixe do Moodle os arquivos enem.csv
e violencia.csv
e salve na pasta criada.
Leia o arquivo enem.csv
para o objeto enem
e o arquivo violencia.csv
para o objeto violencia
.
Assim como visto em nossa aula 10, sobre o teste t para comparação de médias, muitas vezes é necessário comparar o comportamento de duas populações independentes. Alguns exemplos:
Crianças que utilizam celulares por mais de 5 horas por dia, apresentam maior índice de ansiedade?
Jogar vídeo game reduz a probabilidade de desenvolver a doença de Alzheimer?
Comer em pratos pequenos aumenta a sensação de saciedade?
Para responder às perguntas acima, podemos pensar em experimentos para comparar as populações com e sem o efeito em análise.
Entretanto, todos os experimentos acima podem fornecer dados que tendem a não ser normais:
Crianças que utilizam celulares por mais de 5 horas por dia, apresentam maior índice de ansiedade?
Jogar vídeo game reduz a probabilidade de desenvolver a doença de Alzheimer?
Comer em pratos pequenos aumenta a sensação de saciedade?
Nesses casos, o teste t não se aplica. Em casos dessa natureza, é necessário utilizar métodos não paramétricos para testar a diferença entre as populações em teste.
O teste não paramétrico equivalente ao teste t, para variáveis que não apresentam normalidade, é o Teste de Mann-Whitney.
O teste de Mann-Whitney é mais um teste baseado no ranqueamento dos dados.
Suponha a existência de duas populações independentes.
Seja \(X_1, X_2, \cdots, X_{n_1}\) e \(Y_1, Y_2, \cdots, Y_{n_2}\) suas amostras dessas populações com \(n_1\) e \(n_2\) observações, respectivamente.
A ideia do teste de Mann-Whitney é verificar se ambas amostras são oriundas de uma mesma distribuição de probabilidades.
Assim como os testes anteriores, o teste de Mann-Whitney é construído com base na posição dos elementos em uma amostra conjunta ordenada.
Ou seja, para realizar o teste, os seguintes procedimentos são realizados:
Realiza-se a união das amostras.
A nova amostra é ordenada e ranqueada.
Soma-se os ranks dos elementos de cada população e se compara as somas.
Caso as populações sejam iguais, espera-se que a soma dos ranks sejam iguais, ou pelo menos próximas o suficiente.
Queremos testar as seguintes hipóteses:
\(H_0:\) Os dados são oriundos da mesma distribuição.
\(H_1:\) Os dados são oriundos de distribuições diferentes
A estatística de teste do teste de Mann-Whitney é dada por:
\[ U = \sum\limits_{j=1}^{n_1}\sum\limits_{i=1}^{n_2}D_{ij} \]
em que \(D_{ij} = 1 \text{ se } Y_j < X_i\) e \(D_{ij} = 0 \text.{ se } Y_j > X_i\)
Em caso de empates, é aplicada uma estratégia de ajuste.
Note que a estatística na verdade contabiliza a soma do rank apenas de uma das populações. Se a soma for muito maior do que o esperado, que seria a igualdade, rejeita-se a hipóteses de igualdade das populações.
O teste de Mann-Whitney apresenta semelhanças com outro teste não paramétrico, o teste de soma de ranks de Wilcoxon.
Na verdade, eles são o mesmo teste, mas com formulações ligeiramente distintas, com vantagem para a formulação do teste de Mann-Whitney por sua formulação mais simples.
Na própria literatura é comum encontrarmos referências ao teste como Teste de Wilcoxon-Man-Whitney
Por este motivo, o teste de Mann-Whitiney pode ser realizado por meio da função wilcox.test
, a mesma que usamos para os testes de mediana e para amostras pareadas.
Do mesmo modo que para amostras pareadas, teremos duas formulações.
Quando as duas populações estão em colunas distintas do banco de dados, utilizamos a seguinte formulação:
wilcox.test(x, y)
, em que:
x
- amostra da população 1
y
-amostra da população 2
Em dados independentes, este formato é menos comum.
Quando as amostras estão em uma mesma coluna e uma segunda variável é utilizada para identificar quais são os grupos, utilizamos a notação de fórmula que já estamos habituados
wilcox.test(x ~ grupo, data = dados)
, em que:
x
- amostra da população 1
y
-amostra da população 2
Em amostras independentes, essa formulação tende a ser mais comum, pois possibilita a agregação de outras variáveis de forma mais simples.
A seguir, faremos alguns exemplos de aplicação do teste de Mann-Whitiney.
Num experimento comparou-se ratos treinados e ratos sem treinamento (controle) com relação ao tempo que cada rato leva para realizar uma determinada tarefa. Desconfia-se que os ratos treinados levam um tempo menor. Teste esta desconfiança ao nível de 5% de significância.
Treinados | 78 | 64 | 75 | 45 | 82 |
Controle | 110 | 70 | 53 | 51 |
Primeiramente, precisamos ingressar com os dados no R:
Vamos fazer um boxplot dos dados. Para incluir o nome de cada grupo nos gráficos, utilizamos o parâmetro names
:
Aparentemente existem diferenças entre os dois grupos. A mediana dos treinados aparenta ser maior, mas sua variabilidade menor. Vamos realizar o teste de Mann-Whitiney ao nível de 5% de significância:
Wilcoxon rank sum exact test
data: treinados and controle
W = 11, p-value = 0.9048
alternative hypothesis: true location shift is not equal to 0
Logo, ao nível de 5% de significância, não temos evidências suficientes para rejeitar a hipótese nula. Logo, podemos afirmar que as amostras são oriundas da mesma população, portanto, o treinamento não afeta o tempo de realização da tarefa.
Um estudo comparou o desempenho de alunos do terceiro ano de escolas publicas e particulares na prova do ENEM. Usando os dados da tabela abaixo, verifique, ao nível de 5% de significância, se o desempenho dos alunos de escolas publicas e particulares na prova do ENEM é o mesmo.
Os dados estão disponíveis no arquivo enem.csv
.
A primeira coisa a ser feita é a visualização dos dados. Vamos verificar a estrutura dos dados.
'data.frame': 14 obs. of 3 variables:
$ particular : int 806 705 757 690 584 902 507 643 688 700 ...
$ publica : int 600 573 554 623 641 800 552 498 500 662 ...
$ publica_cursinho: int 625 613 670 719 797 979 609 591 732 817 ...
Perceba que temos três variáveis. Nosso interesse, no momento, se concentra nas duas primeiras variáveis: particular
e publica
.
Vamos comparar as variáveis particular
e publica
por meio de boxplots:
Visualmente, percebe-se que as notas de alunos de escola particular são superiores. De todo modo, a comprovação estatística se dá por meio do teste de hipóteses.
Vamos realizar o teste de hipóteses usando a formulação 1, pois os dados estão em colunas distintas. Vamos testar as seguintes hipóteses:
\(H_0:\) As notas tem origem na mesma população (comportamento igual)
\(H_1:\) As notas não tem origem na mesma população (comportamento diferente)
Wilcoxon rank sum exact test
data: enem$particular and enem$publica
W = 128, p-value = 0.004194
alternative hypothesis: true location shift is not equal to 0
Ao nível de 5% de significância, temos evidências que nos levam a concluir que as notas de alunos de escola pública e particular no ENEM apresentam comportamento distinto (p-valor < 0,05). A estatística descritiva indica que as notas de alunos de escola pública tendem a ser superiores.
Um estudo para verificar a possível influência de conteúdos violentos sob tolerância à violência foi realizado nos anos 90. Um grupo de crianças assistiu a uma versão editada do filme Karate Kid, enquanto outro grupo assistiu a uma série de competições olímpicas. A suposição é de que ambas oferecem um conteúdo empolgante, enquanto apenas uma delas oferece o adicional da violência.
Após a visualização do vídeo, as crianças eram levadas a um quarto em que supostamente vigiariam duas crianças em uma sala por meio de uma câmera, ao vivo. Mas na verdade se tratava de uma gravação. As crianças deveriam alertar os pesquisadores ao primeiro sinal de violência. No vídeo, as crianças escalavam o nível de agressividade (chingamentos, empurrões e agressões). O tempo até o alerta foi medido em segundos para os dois grupos, cada um com 21 crianças.
Verifique, ao nível de 5% de significância, se o tempo de alerta é diferente entre os dois grupos. Os dados estão disponíveis no arquivo violencia.csv
.
A primeira coisa é visualizar o comportamento descritivo dos grupos, vamos verificar as medianas e seus boxplots:
estimulo tempo_alerta
1 filme 36
2 olimpiada 19
O tempo mediano de alerta para crianças que assistiram competições olímpicas apresenta mediana menor, se comparada à mediana das crianças que assistiram ao filme.
O boxplot indica também que a variabilidade do tempo entre as crianças que assistiram ao filme é maior se comparada às que assistiram aos jogos olímpicos.
Perceba que a presença de outliers achata a visualização. Podemos removê-los da visualização por meio d parâmetro outline = F.
Agora as diferenças ficam mais nítidas. Vamos verificar se elas são suficientes para constatar a diferença nos comportamentos por meio do teste de Mann-Whitney.
Vamos testar as seguintes hipóteses, com \(\alpha = 0,05\):
\(H_0:\) Os tempos até o alerta entre as crianças que receberam diferentes estímulos são originários da mesma distribuição (comportamento similar).
\(H_1:\) Os tempos até o alerta entre as crianças que receberam diferentes estímulos não são originários da mesma distribuição (comportamento distinto).
Wilcoxon rank sum test with continuity correction
data: tempo_alerta by estimulo
W = 276.5, p-value = 0.1625
alternative hypothesis: true location shift is not equal to 0
Como o p-valor é maior que o nível de significância, temos evidências ao nível de 5% de significância de que os tempos até o alerta não apresentam diferença significativa entre si, do que se conclui que os diferentes estímulos não afetam a percepção de violência das crianças na população em estudo.
Refaça os exemplos 1 e 2 e o exercício prático.
Utilize o banco de dados violencia
para verificar as seguintes hipóteses, ao nível de 5% de significância:
O tempo mediano de alerta das crianças em geral é menor ou igual a 60 segundos
O tempo mediano de alerta das crianças em geral é igual a 20 segundos
Para verificar se a diferença das notas entre alunos de escola pública e privada era efeito da preparação, um curso intensivo de 4 semanas foi aplicado aos mesmos alunos de escola pública avaliados previamente. Após esse período, eles fizeram uma prova de mesmo nível de dificuldade da prova do ENEM. Os dados estão disponíveis na coluna publica_cursinho
, do banco de dados enem
. Compare com boxplots e teste ao nível de 5% de significância as seguintes hipóteses:
As notas dos alunos de escola pública aumentaram após o curso intensivo.
As notas dos alunos de escola particular e pública, após a realização do curso, são iguais.
Utilize o banco de dados de síndrome metabólica para testar as hipóteses abaixo utilizando o teste t e o teste de Mann-Whitney. Antes de realizar os testes, analise os boxplots e os interprete. Compare os resultados dos dois testes.
Se a pressão arterial apresenta diferença significativa na média a depender do turno de trabalho.
Se o peso pré intervenção apresenta diferença significativa na média a depender da existência ou não de síndrome metabólica.
Se o peso pré intervenção apresenta diferença significativa na média a depender do turno de trabalho.
Se a pressão arterial antes e depois da intervenção apresenta diferenças significativas.