Introdução

ANOVA é uma coleção de modelos estatísticos no qual a variância amostral é particionada em diversos componentes devido a diferentes fatores (variáveis), que nas aplicações estão associados a um processo, produto ou serviço. A análise de variância consiste em decompor a variação total das observações do experimento em partes que podem ser atribuídas a causas conhecidas (tratamentos, etc) e em partes atribuídas a causas não controladas ou não controláveis(erro ou resíduo). Ou seja, a variação é vista de modo que:

Variação Total = Variação Controlada + Variação não Controlada.

Metodologia

Referencial teórico

Análise de variância (Anova) é uma técnica utilizada com a finalidade de comparar os efeitos de diferentes tratamentos. Para que os resultados da análise sejam válidos é preciso respeitar os pressupostos de:

Análise de variância (ANOVA)

Modelo estatístico

O modelo para descrever os dados de um experimento pode ser escrito como \(y_{ij} = \mu + \epsilon_{ij}\),

sendo \(i = 1,...,a\), \(j = 1, ..., n\) \((1)\)

onde,

  • \(y_{ij}\) representa a \(ij - ésima\) observação
  • \(\mu_{i}\) é a média do \(i-ésima\) nível do fator ou tratamento
  • \(\epsilon_{ij}\) é o erro aleatório que incorpora todas as outras fontes de variabilidade no experimento (medição, fatores não controlados, diferenças entre unidades experimentais, ruídos, etc). Assume-se que \(E(\epsilon_{ij})\) = 0 de modo que \(E(\epsilon_{ij})\) = \(\mu_{i}\)

Observação: O modelo na Equação (1) é chamado Modelo de médias.

Formas alternativas do modelo

Seja \(\mu_{1}\) = \(\mu + \tau\) \(i= 1,2,...,a\)

A Equação (1) torna-se o Modelo de efeitos, escrito como

\(y_{ij} = \mu + \tau + \epsilon_{ij}\), \(\\ i = 1,...,a\), \(\\ j = 1,...,n\), \((2)\),

onde

  • \(y_{ij}\) é o valor observado na unidade j que recebeu o tratamento i

  • \(\mu\) é um parâmetro constante, comum a todos os tratamentos, chamado média geral (quando os dados são balanceados)

  • \(\tau\) é um parâmetro único que representa o efeito do i-ésimo tratamento

  • \(\epsilon\) é um componente do erro aleatório, associado à j-ésima repetição do i-ésimo tratamento.

Objetivo

  • Se os a tratamentos foram selecionados especificamente pelo experimentador, o interesse é testar hipóteses sobre as médias dos tratamentos e as conclusões aplicam apenas aos níveis do fator considerados na análise. Interessa também estimar os parâmetros do modelo \((\mu, \tau_{i}\), \(\sigma^{2})\) \(=>\) Modelo de efeitos fixos.

  • Se os a tratamentos foram selecionados como uma amostra aleatória de uma população maior de tratamentos, o interesse é estender as conclusões a todos os tratamentos na população. Nesse caso, os \(\tau_{i}\) são variáveis aleatórias e os testes de hipóteses recaem sobre a variabilidade de \(\tau_{i}\) tentando-se estimar essa variabilidade \(=>\) Modelo de efeitos aleatórios ou Modelo de componentes de variância.

ANOVA para um único fator

Vamos apresentar uma ferramenta para analisar o comportamento de diversos tratamentos de um fator aplicados a um processo, produto ou serviço. Suponha-se que há tratamentos e diferentes níveis de um único fator para comparação. Considere um processo, produto ou serviço no qual queremos avaliar o impacto do fator A , tal que A tenha k níveis, sendo que esses níveis são fixos. Suponha que uma amostra de N unidades experimentais é selecionada completamente aleatória de uma população de unidades experimentai que há tratamentos ou diferentes níveis de um único fator a serem comparados.

Tratamento(Níveis) Observações Total Média
1 \(y_{11} y_{12} · · · y_{1n}\) \(y_{1.}\) \(\overline{y}_{1}\)
2 \(y_{21} y_{22} · · · y_{2n}\) \(y_{2.}\) \(\overline{y}_{2}\)
. . . . . . .
. . . . . . .
. . . . . . .
k \(y_{k1} y_{k2} . . . y_{kn}\) \(y_{k.}\) \(\overline{y}_{k}\)
\(y_{..}\) \(\overline{y}_{..}\)
  • \(y_{ij}\) representa a j-ésima observação do nível ou do tratamento \(i\).
  • \(y_{i}\)= \(\sum_{j=1}^{n}\), \(y_{i}\) = \(\sum_{j=1}^{n}\) \(\frac{y_{ij}}{n}\) \(\overline{y}_{..}\) = \(\sum ^{a}_{i=1} \sum _{j=1}^{n}\) \(\frac{y_{ij}}{kn}\)

Exemplo

Considere um experimento cujo objetivo é verificar se a inclusão de raízes e tubérculos, como suplementação de inverno na alimentação de vacas em lactação, aumenta a produção de leite. Consideram-se 24 animais, três tipos de suplementos e uma testemunha (placebo), que são:

  • Sem suplemento (S)
  • Mandioca (M)
  • Araruta (A)
  • Batata doce (B).

Para definir o tipo de suplemento que será dado a cada animal, realiza-se um sorteio aleatório enumerando cada um dos 24 animais (parcelas) que participarão do estudo (1 a 24) e, em seguida, colocam-se os tratamentos em uma sequência, como a dada a seguir:

  • S1 S2 S3 S4 S5 S6
  • M1 M2 M3 M4 M5 M6
  • A1 A2 A3 A4 A5 A6
  • B1 B2 B3 B4 B5 B6

Utilizando um gerador de números aleatórios, aloca-se o tipo de suplemento a cada animal. Suponha que a sequência de números aleatórios sorteada, tenha sido

  • 24 23 22 14 1 13
  • 6 20 8 7 9 4
  • 21 15 17 16 19 2
  • 11 5 10 3 18 12.

Assim, tem-se a configuração do experimento:

Vaca Trat Vaca Trat Vaca Trat Vaca Trat
1 \(S_{5}\) 7 \(M_{4}\) 13 \(S_{6}\) 19 \(S_{5}\)
2 \(A_{6}\) 8 \(M_{3}\) 14 \(S_{4}\) 20 \(S_{5}\)
3 \(B_{4}\) 9 \(M_{5}\) 15 \(A_{2}\) 21 \(S_{5}\)
4 \(M_{6}\) 10 \(B_{3}\) 16 \(A_{4}\) 22 \(S_{5}\)
5 \(B_{2}\) 11 \(B_{1}\) 17 \(A_{3}\) 23 \(S_{5}\)
6 \(M_{1}\) 12 \(B_{6}\) 18 \(B_{5}\) 24 \(S_{5}\)

Considerem-se as seguintes produções médias diárias (kg) de leite a 4% de gordura das vacas submetidas a administração de raízes e tubérculos, como suplementação de inverno na alimentação de vacas em lactação.

Id. Prod. Id. Prod. Id. Prod. Id. Prod.
1 22,81 7 25,12 13 23,54 19 35,04
2 35,19 8 24,36 14 25,42 20 22,37
3 20,37 9 22,94 15 32,47 21 35,42
4 24,80 10 26,54 16 34,48 22 23,43
5 24,37 11 22,15 17 35,04 23 21,07
6 23,40 12 24,06 18 19,54 24 19,58
Trat. Observações Média
S 19,58 21,07 23,43 25,42 22,81 23,54 22,64
M 23,40 22,37 24,36 25,12 22,94 21,56 23,29
A 35,42 32,47 34,48 33,79 35,04 35,19 34,39
B 22,15 24,37 26,54 20,37 19,54 24,06 22,83

Seja \(y_{ij}\) o valor da produção de leite da j-ésima vaca que recebeu o j-ésima tratamento. Os valores das produções (kg) de leite a 4% de gordura das vacas que participaram do estudo podem ser resumidos na forma:

Objetivo: Testar se há diferença na produção média de leite de acordo com o tipo de suplementação.

Análise descritiva

suple<-factor(rep(c('A','B','M','S'), each=6))
x<-c(19.58,21.07,23.43,25.42,22.81,23.54,23.40,22.37,24.36,25.12,22.94,
     21.56,35.42,32.47,34.48,33.79,35.04,35.19,22.15,24.37,26.54,20.37,
     19.54,24.06)
dados<-data.frame(x,suple)

media<-tapply(x,suple,mean)
dp<-tapply(x,suple,sd)
var<-tapply(x,suple,var)
summary(x)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   19.54   22.32   23.80   25.79   28.02   35.42
media
##        A        B        M        S 
## 22.64167 23.29167 34.39833 22.83833
dp
##        A        B        M        S 
## 2.050360 1.301360 1.111529 2.645233
var
##        A        B        M        S 
## 4.203977 1.693537 1.235497 6.997257

Box-Plot

Medida descritiva

Tratamento Média Desvio padrão
S 22,64 2,05
M 23,29 1,30
A 34,40 1,11
B 22,84 2,65

Análise

Para amostras independentes aplicamos o teste t e analisamos todos os pares de médias. Assim, vamos construir as hipóteses.

  • Hipóteses:

\(H_{0}\) : \(\mu_{1}\) - \(\mu_{2}\) = 0 vs. \(H_{1}\) : \(\mu_{1}\) - \(\mu_ {2}\) \(\neq 0\).

  • Estatística de teste:

\(t_{0}\) = \(\frac{ (\overline{y1} - \overline{y2} ) - (\mu_{1} - \mu_{2})}{Sp\sqrt[]{\frac{1}{n1}+\frac{1}{n2}}}\),

onde

\(S{p}^{2}\) = \(\sqrt{\frac{(n_{1}-1)S_{}1{p}^{2} + (n_{2}-1)S_{2}{p}^{2}}{n_{1} +n_{2} - 2 }}\)

A seguir apresentaremos os resultados das hipóteses ditas acima.

Resultados

S M A B
S \(-\) ND \(**\) ND
M \(-\) \(-\) \(**\) ND
A \(-\) \(-\) \(-\) \(**\)
B \(-\) \(-\) \(-\) \(-\)
  • Onde ND significa SEM DIFERENÇA SIGNIFICATIVA

  • ** significa DIFERENÇA SIGNIFICATIVA AO NÍVEL DE 5%.

Assim vemos que essa solução não é eficaz, esssa solução está incorreta pois nos leva a distorção do erro tipo I. Vejamos a explicação para isso. Suponha que seja testada a igualdade das quatro médias usando comparações pareadas. Há 6 pares possíveis e, se a probabilidade de aceitar corretamente a hipótese nula para cada par testado é de (1 - \(\alpha\)) = 0,95, então a probabilidade de aceitar corretamente a hipótese nula para todos os 6 pares é \((0,95)^{6}\) = \(0,7359\), se os testes forem independentes.

Solução para testar a igualdade de varias médias

Referências

[1] Damodar N. Gujarati Dawn C. Porter. Econometria Básica. 5ªe, 2011.

[2] Portal action. ANOVA. http://www.portalaction.com.br/anova.