Análise de Variância - Fundamentos

EST212 - Bioestatística

Helgem de Souza

Introdução

Antes de iniciar nossa aula:

  1. Abra o RStudio.

  2. Crie um novo script.

  3. Crie uma pasta na área de trabalho com seu nome.

  4. Defina a pasta como diretório de trabalho

  5. Salve o script criado na pasta com o nome "aula11_est212.R".

  6. Baixe do Moodle o arquivocrescimento_plantas.csv e salve na pasta criada.

  7. Leia o arquivo crescimento_plantas.csv para o objeto plantas.

Observação: Ao ler os arquivos, na função read.csv, utilize o parâmetro (stringsAsFactors = TRUE). Ele garante que as variáveis de texto sejam importadas como fatores.

Introdução

Na última aula, estudamos testes que nos permitiram comparar as médias de 2 populações, sejam elas independentes ou pareadas. A divisão dessa população é definida por meio de uma segunda variável categórica, que denominamos como fator.

Entretanto, existem muitos experimentos nos quais a presença de 2 grupos apenas não é suficiente.

Quando o número de grupos/populações é maior que dois, os métodos aprendidos na aula anterior se tornam insuficientes. Em casos como esse, utiliza-se uma metodologia denominada Análise de Variância, que chamaremos de ANOVA (do inglês ANalysis Of VAriance).

Nessa aula estudaremos seus fundamentos básicos.

Análise de Variância - ANOVA

A Análise de Variância é uma técnica que permite a comparação de médias para 3 grupos ou mais.

Note que, apesar de ser uma técnica para inferência sobre médias, seu nome indica que ela realiza a análise das variâncias de uma variável.

Após compreender o funcionamento do método, você perceberá que esse nome faz sentido.

Revisão - Variância Amostral

A variância é a principal medida de variabilidade utilizada em dados contínuos. Conforme visto em disciplinas anteriores, ela é calculada como:

\[ S^2 = \sum\limits_{i = 1}^n\dfrac{(X_i - \bar{X})^2}{n-1} \]

Ou seja, é uma média das distâncias de cada ponto à média de todos os pontos.

Em termos práticos, a variância indica o quão distante da média, em média, estão todos os pontos de um conjunto de dados.

Revisão - Variância Amostral

Observe a diferença entre dois conjuntos de dados de mesma média, mas variâncias diferentes

Hipóteses da Análise de Variância

A análise de variância parte da hipótese de que todos as populações ou grupos de uma mesma população em estudo possuem a mesma média. Ou seja, dada a existência de j grupos, teríamos:

\[ H_0: \mu_1 = \mu_2 = \cdots = \mu_j \]

Ao contrário do que seria intuitivo, a hipótese alternativa não é a de que todos os grupos apresentam médias diferentes. Para negar a hipótese nula, basta que um dos grupos apresente média diferente, ou seja:

\[ H_1: \exists~ i \neq j ~| ~ \mu_i \neq \mu_j \]

Hipóteses da Análise de Variância

Assim, poderíamos formular as seguintes hipóteses:

  • \(H_0\): As médias de todos os grupos são iguais

  • \(H_1\): Pelo menos um dos grupos apresenta média diferente dos demais.

É importante reiterar que a negação da hipótese nula implica na existência de pelo menos um grupo com média diferente. Por exemplo, em um ANOVA com três grupos, ao se rejeitar a hipótese nula podemos ter as seguintes situações:

  • Dois grupos com médias iguais e um com média diferente.

  • Três grupos com médias diferentes entre si.

Análise de Variância - Intuição

Assim como em todos os testes de hipóteses, a construção da ANOVA parte da suposição que a hipótese nula é válida.

Para ilustrar, vamos trabalhar com 3 grupos. Considere que uma população foi dividida em três grupos, supostamente com médias iguais.

Cada grupo possui uma média:

  • Grupo 1 - \(\mu_1\)

  • Grupo 2 - \(\mu_2\)

  • Grupo 3 - \(\mu_3\)

Sob a hipótese nula teríamos

\[ \mu_1 = \mu_2 = \mu_3 \]

Análise de Variância - Intuição

Vamos ilustrar a situação com um conjunto de dados. Em uma escola de ensino médio, as alturas de 30 alunos, selecionados aleatóriamente, foram medidas, 10 em cada ano letivo (1º, 2º e 3º anos). As alturas, em ordem crescente, estão registradas no gráfico a seguir, com cores distintas para cada ano.

Análise de Variância - Intuição

Os dados foram agrupados considerando duas variáveis:

  • Turmas: Primeiro, segundo e terceiro ano

  • Grupo: Grupos 1, 2 e 3, com 10 membros cada, sorteados aleatoriamente entre todas as turmas.

Vejamos algumas estatísticas descritivas das alturas agrupadas por grupo e idade:

grupos altura média
Grupo 1 1.603
Grupo 2 1.606
Grupo 3 1.553
Todos 1.587
turma altura média
1º Ano 1.512
2º Ano 1.588
3º Ano 1.661
Todos 1.587

Variância entre os grupos

Se considerarmos que cada grupo é homogêneo entre seus elementos, poderíamos pensar na altura média como uma medida de resumo do grupo.

Nesse caso, poderíamos calcular a variância amostral entre os grupos em relação à media geral, que seria dada por

\[ S^2_{entre} = \sum\limits_{j = 1}^n\dfrac{ n_j(\bar{X}_j - \bar{X})^2}{N_j - 1} \]

Em que:

  • \(\bar{X}_j\) - média do grupo j

  • \(n_j\) - número de elementos do grupo j

  • \(\bar{X}\) - média geral

  • \(N_j\) - número de grupos

Essa seria uma fonte de variação dos dados baseada em cada grupo.

Variância dentro dos grupos

Uma outra forma de calcular uma fonte de variação geral, mas baseada nos grupos separadamente, seria considerar a variância dentro dos grupos, ou seja, a variação dentro de cada grupo em relação à sua média:

\[ S^2_{dentro} = \sum\limits_{j = 1}^n\dfrac{ (\bar{X}_{ij} - \bar{X}_j)^2}{N - N_j} \]

Em que:

  • \(\bar{X}_{ij}\) - elemento i do grupo j

  • \(\bar{X}_j\) - média do grupo j

  • \(N\) - tamanho da amostra

  • \(N_j\) - número de grupos

Essa também é uma fonte de variação dos dados, mas considera todos os elementos dentro de seus respectivos grupos.

Comparação das fontes de variação

Com base nas duas fontes de variação, podemos calcular sua razão, dada por:

\[ F = \dfrac{S^2_{entre}}{S^2_{dentro}} \]

A lógica da ANOVA é a seguinte: se os grupos forem semelhantes entre si, em relação à média, as duas fontes de variação oferecerão resultados próximos, portanto, sua razão seria próxima de 1.

Caso os grupos sejam muito diferentes entre si, em relação à média, mas semelhantes dentro de si (seus elementos individuais forem semelhantes), a variância entre eles seria muito maior que a soma das variâncias de cada grupo, logo sua razão seria diferente de 1.

Toda essa lógica funciona se a variabilidade de cada grupo for semelhante à dos demais.

Comparação das fontes de variação

Vejamos um exemplo de cada uma das situações com nossos dados de alturas:

Comparação das fontes de variação

No primeiro gráfico, perceba que as médias dos grupos estão próximas da média geral. Logo, ao se comparar a média de cada grupo com a média geral (variância entre) teria um efeito semelhante de se comparar cada valor com a média de seu respectivo grupo (variância dentro).

Por outro lado, quando se avalia as alturas por turma, as médias por grupo estão distantes da média geral. Como os grupos apresentam certa homogeneidade dentre si, provavelmente a soma das variâncias de cada grupo seria menor que a variância entre os grupos. Vejamos os valores calculados:

Fonte de variação Grupo Altura
Variância entre 0,0089 0,0590
Variância dentro 0,0120 0,0858
Razão de variâncias 0,7416 6,5140

Note que ao agrupar as alturas em grupos semelhantes, a razão de variâncias se aproxima de 1. Já em grupos distintos, a razão de variâncias cresce.

ANOVA - Teste de hipóteses

Essa lógica permite a realização do teste de hipóteses da análise de variância. Vamos recordar nossas hipóteses:

  • \(H_0\): As médias de todos os grupos são iguais

  • \(H_1\): Pelo menos um dos grupos apresenta média diferente dos demais.

A razão de variâncias entre e dentro segue uma distribuição \(F_{N_j-1, N-N_j}\). A partir dessa distribuição é possível calcular o p-valor. Se o p-valor for significativo (menor que \(\alpha\)), rejeitamos a hipótese nula e concluímos que pelo menos uma das médias é verdadeira. Caso contrário, não rejeitamos a hipótese nula e concluímos que todos os grupos apresentam a mesma média.

ANOVA - Teste de hipóteses

No nosso exemplo, vejamos como ficariam os p-valores:

Fonte de variação Grupo Altura
Variância entre 0,0089 0,0590
Variância dentro 0,0120 0,0858
Razão de variâncias 0,7416 6,5140
P-valor 0,488 0,00491

Ou seja, ao nível de 5% de significância, poderíamos concluir que não existem diferenças nas alturas médias entre os grupos, mas que pelo menos uma das turmas apresenta uma altura média diferente das demais.

Análise de Variância - Requisitos

Para que a ANOVA apresente resultados válidos, é necessário que alguns requisitos sejam atendidos:

  • A variável resposta deve ser numérica, enquanto a variável dependente deve ser qualitativa.

  • As observações devem ser independentes entre si e entre os grupos. Esse requisito geralmente é atingido no planejamento e coleta do experimento por meio da aleatorização.

Esses dois primeiros requisitos estão relacionados ao experimento, portanto, devem ser atingidos antes da análise. Antes da análise, verificaremos apenas a igualdade de variâncias.

Análise de Variância - Requisitos

  • Os resíduos devem apresentar normalidade. Na ANOVA, os resíduos são a diferença entre cada indivíduo e a média de seu grupo. Em casos de grandes amostras (30 ou mais observações em cada grupo), esse requisito pode ser dispensado graças ao Teorema Central do Limite).

  • As variâncias dos grupos devem ser estatisticamente iguais, ou seja, deve ocorrer a homogeneidade de variâncias.

Aprenderemos a verificar os requisitos na próxima aula. Por enquanto, vamos aprender um pouco sobre como explorar nossos dados agrupados.

ANOVA - Análises preliminares

Para ilustrar uma análise prévia à ANOVA, vamos utilizar nosso banco de dados plantas, que contém duas variáveis:

  • peso - peso da planta.

  • grupo - controle (ctrl), tratamento 1 (trt1) e tratamento 2 (trt2).

O objetivo é verificar se os tratamentos afetaram o crescimento das plantas.

A primeira coisa que podemos fazer é comparar suas médias. Podemos fazer isso por meio da função aggregate(). Basta utilizarmos a estrutura de fórmula que estamos acostumados, os dados em uso e a função utilizada no parâmetro FUN. No nosso caso, queremos a média, logo, utilizamos FUN = mean.

#Cálculo da média por grupos
aggregate(peso ~ grupo, data = plantas, FUN = mean) 
  grupo  peso
1  ctrl 5.032
2  trt1 4.661
3  trt2 5.526

O peso médio é menor para o tratamento 1 e maior para o tratamento 2, se comparados com a planta sem intervenção (controle).

ANOVA - Análises preliminares

Podemos usar a função aggregate para verificar também o desvio padrão dos dados por grupo. Basta utilizarmos a função sd, que calcula o desvio padrão (standard deviation) (FUN = sd).

#Cálculo da média por grupos
aggregate(peso ~ grupo, data = plantas, FUN = sd) 
  grupo      peso
1  ctrl 0.5830914
2  trt1 0.7936757
3  trt2 0.4425733

O desvio padrão também apresenta valores próximos para os três tratamentos. É um indício de homogeneidade das variâncias.

ANOVA - Análises preliminares

Outra forma de comparar o comportamento dos dados agrupados é por meio de um boxplot. Podemos gerar os boxplot por grupos por meio da função boxplot. Utilizaremos a mesma notação de fórmula:

#Boxplot dos dados por grupo
boxplot(peso ~ grupo, data = plantas)

ANOVA - Análises preliminares

O gráfico reforça a conclusão da tabela de médias.

Entretanto, esse gráfico nos dá uma segunda informação, a variabilidade, que pode ser resumida pela altura da caixa central (distância interquartílica). Aparentemente elas tem alturas semelhantes em todos os grupos, o que indica que os dados apresentam variabilidade semelhante.

ANOVA - Análises preliminares

As análises realizadas nos dão algumas evidências úteis:

  • Aparentemente os grupos apresentam pesos médios distintos.

  • Existem evidências de que as variâncias são semelhantes.

Entretanto, as análises visuais não são suficientes para garantir que os requisitos sejam atendidos. É necessário verificá-los formalmente por meio de testes. Na próxima aula, veremos como verificá-los utilizando o R.