grupo peso
1 ctrl 5.032
2 trt1 4.661
3 trt2 5.526
EST212 - Bioestatística
Antes de iniciar nossa aula:
Abra o RStudio.
Crie um novo script.
Crie uma pasta na área de trabalho com seu nome.
Defina a pasta como diretório de trabalho
Salve o script criado na pasta com o nome "aula11_est212.R"
.
Baixe do Moodle o arquivocrescimento_plantas.csv
e salve na pasta criada.
Leia o arquivo crescimento_plantas.csv
para o objeto plantas
.
Observação: Ao ler os arquivos, na função read.csv
, utilize o parâmetro (stringsAsFactors = TRUE)
. Ele garante que as variáveis de texto sejam importadas como fatores.
Na última aula, estudamos testes que nos permitiram comparar as médias de 2 populações, sejam elas independentes ou pareadas. A divisão dessa população é definida por meio de uma segunda variável categórica, que denominamos como fator.
Entretanto, existem muitos experimentos nos quais a presença de 2 grupos apenas não é suficiente.
Quando o número de grupos/populações é maior que dois, os métodos aprendidos na aula anterior se tornam insuficientes. Em casos como esse, utiliza-se uma metodologia denominada Análise de Variância, que chamaremos de ANOVA (do inglês ANalysis Of VAriance).
Nessa aula estudaremos seus fundamentos básicos.
A Análise de Variância é uma técnica que permite a comparação de médias para 3 grupos ou mais.
Note que, apesar de ser uma técnica para inferência sobre médias, seu nome indica que ela realiza a análise das variâncias de uma variável.
Após compreender o funcionamento do método, você perceberá que esse nome faz sentido.
A variância é a principal medida de variabilidade utilizada em dados contínuos. Conforme visto em disciplinas anteriores, ela é calculada como:
\[ S^2 = \sum\limits_{i = 1}^n\dfrac{(X_i - \bar{X})^2}{n-1} \]
Ou seja, é uma média das distâncias de cada ponto à média de todos os pontos.
Em termos práticos, a variância indica o quão distante da média, em média, estão todos os pontos de um conjunto de dados.
Observe a diferença entre dois conjuntos de dados de mesma média, mas variâncias diferentes
A análise de variância parte da hipótese de que todos as populações ou grupos de uma mesma população em estudo possuem a mesma média. Ou seja, dada a existência de j grupos, teríamos:
\[ H_0: \mu_1 = \mu_2 = \cdots = \mu_j \]
Ao contrário do que seria intuitivo, a hipótese alternativa não é a de que todos os grupos apresentam médias diferentes. Para negar a hipótese nula, basta que um dos grupos apresente média diferente, ou seja:
\[ H_1: \exists~ i \neq j ~| ~ \mu_i \neq \mu_j \]
Assim, poderíamos formular as seguintes hipóteses:
\(H_0\): As médias de todos os grupos são iguais
\(H_1\): Pelo menos um dos grupos apresenta média diferente dos demais.
É importante reiterar que a negação da hipótese nula implica na existência de pelo menos um grupo com média diferente. Por exemplo, em um ANOVA com três grupos, ao se rejeitar a hipótese nula podemos ter as seguintes situações:
Dois grupos com médias iguais e um com média diferente.
Três grupos com médias diferentes entre si.
Assim como em todos os testes de hipóteses, a construção da ANOVA parte da suposição que a hipótese nula é válida.
Para ilustrar, vamos trabalhar com 3 grupos. Considere que uma população foi dividida em três grupos, supostamente com médias iguais.
Cada grupo possui uma média:
Grupo 1 - \(\mu_1\)
Grupo 2 - \(\mu_2\)
Grupo 3 - \(\mu_3\)
Sob a hipótese nula teríamos
\[ \mu_1 = \mu_2 = \mu_3 \]
Vamos ilustrar a situação com um conjunto de dados. Em uma escola de ensino médio, as alturas de 30 alunos, selecionados aleatóriamente, foram medidas, 10 em cada ano letivo (1º, 2º e 3º anos). As alturas, em ordem crescente, estão registradas no gráfico a seguir, com cores distintas para cada ano.
Os dados foram agrupados considerando duas variáveis:
Turmas: Primeiro, segundo e terceiro ano
Grupo: Grupos 1, 2 e 3, com 10 membros cada, sorteados aleatoriamente entre todas as turmas.
Vejamos algumas estatísticas descritivas das alturas agrupadas por grupo e idade:
grupos | altura média |
---|---|
Grupo 1 | 1.603 |
Grupo 2 | 1.606 |
Grupo 3 | 1.553 |
Todos | 1.587 |
turma | altura média |
---|---|
1º Ano | 1.512 |
2º Ano | 1.588 |
3º Ano | 1.661 |
Todos | 1.587 |
Se considerarmos que cada grupo é homogêneo entre seus elementos, poderíamos pensar na altura média como uma medida de resumo do grupo.
Nesse caso, poderíamos calcular a variância amostral entre os grupos em relação à media geral, que seria dada por
\[ S^2_{entre} = \sum\limits_{j = 1}^n\dfrac{ n_j(\bar{X}_j - \bar{X})^2}{N_j - 1} \]
Em que:
\(\bar{X}_j\) - média do grupo j
\(n_j\) - número de elementos do grupo j
\(\bar{X}\) - média geral
\(N_j\) - número de grupos
Essa seria uma fonte de variação dos dados baseada em cada grupo.
Uma outra forma de calcular uma fonte de variação geral, mas baseada nos grupos separadamente, seria considerar a variância dentro dos grupos, ou seja, a variação dentro de cada grupo em relação à sua média:
\[ S^2_{dentro} = \sum\limits_{j = 1}^n\dfrac{ (\bar{X}_{ij} - \bar{X}_j)^2}{N - N_j} \]
Em que:
\(\bar{X}_{ij}\) - elemento i do grupo j
\(\bar{X}_j\) - média do grupo j
\(N\) - tamanho da amostra
\(N_j\) - número de grupos
Essa também é uma fonte de variação dos dados, mas considera todos os elementos dentro de seus respectivos grupos.
Com base nas duas fontes de variação, podemos calcular sua razão, dada por:
\[ F = \dfrac{S^2_{entre}}{S^2_{dentro}} \]
A lógica da ANOVA é a seguinte: se os grupos forem semelhantes entre si, em relação à média, as duas fontes de variação oferecerão resultados próximos, portanto, sua razão seria próxima de 1.
Caso os grupos sejam muito diferentes entre si, em relação à média, mas semelhantes dentro de si (seus elementos individuais forem semelhantes), a variância entre eles seria muito maior que a soma das variâncias de cada grupo, logo sua razão seria diferente de 1.
Toda essa lógica funciona se a variabilidade de cada grupo for semelhante à dos demais.
Vejamos um exemplo de cada uma das situações com nossos dados de alturas:
No primeiro gráfico, perceba que as médias dos grupos estão próximas da média geral. Logo, ao se comparar a média de cada grupo com a média geral (variância entre) teria um efeito semelhante de se comparar cada valor com a média de seu respectivo grupo (variância dentro).
Por outro lado, quando se avalia as alturas por turma, as médias por grupo estão distantes da média geral. Como os grupos apresentam certa homogeneidade dentre si, provavelmente a soma das variâncias de cada grupo seria menor que a variância entre os grupos. Vejamos os valores calculados:
Fonte de variação | Grupo | Altura |
---|---|---|
Variância entre | 0,0089 | 0,0590 |
Variância dentro | 0,0120 | 0,0858 |
Razão de variâncias | 0,7416 | 6,5140 |
Note que ao agrupar as alturas em grupos semelhantes, a razão de variâncias se aproxima de 1. Já em grupos distintos, a razão de variâncias cresce.
Essa lógica permite a realização do teste de hipóteses da análise de variância. Vamos recordar nossas hipóteses:
\(H_0\): As médias de todos os grupos são iguais
\(H_1\): Pelo menos um dos grupos apresenta média diferente dos demais.
A razão de variâncias entre e dentro segue uma distribuição \(F_{N_j-1, N-N_j}\). A partir dessa distribuição é possível calcular o p-valor. Se o p-valor for significativo (menor que \(\alpha\)), rejeitamos a hipótese nula e concluímos que pelo menos uma das médias é verdadeira. Caso contrário, não rejeitamos a hipótese nula e concluímos que todos os grupos apresentam a mesma média.
No nosso exemplo, vejamos como ficariam os p-valores:
Fonte de variação | Grupo | Altura |
---|---|---|
Variância entre | 0,0089 | 0,0590 |
Variância dentro | 0,0120 | 0,0858 |
Razão de variâncias | 0,7416 | 6,5140 |
P-valor | 0,488 | 0,00491 |
Ou seja, ao nível de 5% de significância, poderíamos concluir que não existem diferenças nas alturas médias entre os grupos, mas que pelo menos uma das turmas apresenta uma altura média diferente das demais.
Para que a ANOVA apresente resultados válidos, é necessário que alguns requisitos sejam atendidos:
A variável resposta deve ser numérica, enquanto a variável dependente deve ser qualitativa.
As observações devem ser independentes entre si e entre os grupos. Esse requisito geralmente é atingido no planejamento e coleta do experimento por meio da aleatorização.
Esses dois primeiros requisitos estão relacionados ao experimento, portanto, devem ser atingidos antes da análise. Antes da análise, verificaremos apenas a igualdade de variâncias.
Os resíduos devem apresentar normalidade. Na ANOVA, os resíduos são a diferença entre cada indivíduo e a média de seu grupo. Em casos de grandes amostras (30 ou mais observações em cada grupo), esse requisito pode ser dispensado graças ao Teorema Central do Limite).
As variâncias dos grupos devem ser estatisticamente iguais, ou seja, deve ocorrer a homogeneidade de variâncias.
Aprenderemos a verificar os requisitos na próxima aula. Por enquanto, vamos aprender um pouco sobre como explorar nossos dados agrupados.
Para ilustrar uma análise prévia à ANOVA, vamos utilizar nosso banco de dados plantas, que contém duas variáveis:
peso
- peso da planta.
grupo
- controle (ctrl
), tratamento 1 (trt1
) e tratamento 2 (trt2
).
O objetivo é verificar se os tratamentos afetaram o crescimento das plantas.
A primeira coisa que podemos fazer é comparar suas médias. Podemos fazer isso por meio da função aggregate()
. Basta utilizarmos a estrutura de fórmula que estamos acostumados, os dados em uso e a função utilizada no parâmetro FUN
. No nosso caso, queremos a média, logo, utilizamos FUN = mean
.
grupo peso
1 ctrl 5.032
2 trt1 4.661
3 trt2 5.526
O peso médio é menor para o tratamento 1 e maior para o tratamento 2, se comparados com a planta sem intervenção (controle).
Podemos usar a função aggregate para verificar também o desvio padrão dos dados por grupo. Basta utilizarmos a função sd
, que calcula o desvio padrão (standard deviation) (FUN = sd
).
grupo peso
1 ctrl 0.5830914
2 trt1 0.7936757
3 trt2 0.4425733
O desvio padrão também apresenta valores próximos para os três tratamentos. É um indício de homogeneidade das variâncias.
Outra forma de comparar o comportamento dos dados agrupados é por meio de um boxplot. Podemos gerar os boxplot por grupos por meio da função boxplot
. Utilizaremos a mesma notação de fórmula:
O gráfico reforça a conclusão da tabela de médias.
Entretanto, esse gráfico nos dá uma segunda informação, a variabilidade, que pode ser resumida pela altura da caixa central (distância interquartílica). Aparentemente elas tem alturas semelhantes em todos os grupos, o que indica que os dados apresentam variabilidade semelhante.
As análises realizadas nos dão algumas evidências úteis:
Aparentemente os grupos apresentam pesos médios distintos.
Existem evidências de que as variâncias são semelhantes.
Entretanto, as análises visuais não são suficientes para garantir que os requisitos sejam atendidos. É necessário verificá-los formalmente por meio de testes. Na próxima aula, veremos como verificá-los utilizando o R.