ANOVA é uma coleção de modelos estatísticos no qual a variância amostral é particionada em diversos componentes devido a diferentes fatores (variáveis), que nas aplicações estão associados a um processo, produto ou serviço. A análise de variância consiste em decompor a variação total das observações do experimento em partes que podem ser atribuídas a causas conhecidas (tratamentos, etc) e em partes atribuídas a causas não controladas ou não controláveis(erro ou resíduo). Ou seja, a variação é vista de modo que:
Variação Total = Variação Controlada + Variação não Controlada.
Análise de variância (Anova) é uma técnica utilizada com a finalidade de comparar os efeitos de diferentes tratamentos. Para que os resultados da análise sejam válidos é preciso respeitar os pressupostos de:
O modelo para descrever os dados de um experimento pode ser escrito como \(y_{ij} = \mu + \epsilon_{ij}\),
sendo \(i = 1,...,a\), \(j = 1, ..., n\) \((1)\)
onde,
Observação: O modelo na Equação (1) é chamado Modelo de médias.
Seja \(\mu_{1}\) = \(\mu + \tau\) \(i= 1,2,...,a\)
A Equação (1) torna-se o Modelo de efeitos, escrito como
\(y_{ij} = \mu + \tau + \epsilon_{ij}\), \(\\ i = 1,...,a\), \(\\ j = 1,...,n\), \((2)\),
onde
\(y_{ij}\) é o valor observado na unidade j que recebeu o tratamento i
\(\mu\) é um parâmetro constante, comum a todos os tratamentos, chamado média geral (quando os dados são balanceados)
\(\tau\) é um parâmetro único que representa o efeito do i-ésimo tratamento
\(\epsilon\) é um componente do erro aleatório, associado à j-ésima repetição do i-ésimo tratamento.
Se os a tratamentos foram selecionados especificamente pelo experimentador, o interesse é testar hipóteses sobre as médias dos tratamentos e as conclusões aplicam apenas aos níveis do fator considerados na análise. Interessa também estimar os parâmetros do modelo \((\mu, \tau_{i}\), \(\sigma^{2})\) \(=>\) Modelo de efeitos fixos.
Se os a tratamentos foram selecionados como uma amostra aleatória de uma população maior de tratamentos, o interesse é estender as conclusões a todos os tratamentos na população. Nesse caso, os \(\tau_{i}\) são variáveis aleatórias e os testes de hipóteses recaem sobre a variabilidade de \(\tau_{i}\) tentando-se estimar essa variabilidade \(=>\) Modelo de efeitos aleatórios ou Modelo de componentes de variância.
Vamos apresentar uma ferramenta para analisar o comportamento de diversos tratamentos de um fator aplicados a um processo, produto ou serviço. Suponha-se que há tratamentos e diferentes níveis de um único fator para comparação. Considere um processo, produto ou serviço no qual queremos avaliar o impacto do fator A , tal que A tenha k níveis, sendo que esses níveis são fixos. Suponha que uma amostra de N unidades experimentais é selecionada completamente aleatória de uma população de unidades experimentai que há tratamentos ou diferentes níveis de um único fator a serem comparados.
| Tratamento(Níveis) | Observações | Total | Média |
|---|---|---|---|
| 1 | \(y_{11} y_{12} · · · y_{1n}\) | \(y_{1.}\) | \(\overline{y}_{1}\) |
| 2 | \(y_{21} y_{22} · · · y_{2n}\) | \(y_{2.}\) | \(\overline{y}_{2}\) |
| . | . . . . | . | . |
| . | . . . . | . | . |
| . | . . . . | . | . |
| k | \(y_{k1} y_{k2} . . . y_{kn}\) | \(y_{k.}\) | \(\overline{y}_{k}\) |
| \(y_{..}\) | \(\overline{y}_{..}\) |
Considere um experimento cujo objetivo é verificar se a inclusão de raízes e tubérculos, como suplementação de inverno na alimentação de vacas em lactação, aumenta a produção de leite. Consideram-se 24 animais, três tipos de suplementos e uma testemunha (placebo), que são:
Para definir o tipo de suplemento que será dado a cada animal, realiza-se um sorteio aleatório enumerando cada um dos 24 animais (parcelas) que participarão do estudo (1 a 24) e, em seguida, colocam-se os tratamentos em uma sequência, como a dada a seguir:
Utilizando um gerador de números aleatórios, aloca-se o tipo de suplemento a cada animal. Suponha que a sequência de números aleatórios sorteada, tenha sido
Assim, tem-se a configuração do experimento:
| Vaca | Trat | Vaca | Trat | Vaca | Trat | Vaca | Trat |
|---|---|---|---|---|---|---|---|
| 1 | \(S_{5}\) | 7 | \(M_{4}\) | 13 | \(S_{6}\) | 19 | \(S_{5}\) |
| 2 | \(A_{6}\) | 8 | \(M_{3}\) | 14 | \(S_{4}\) | 20 | \(S_{5}\) |
| 3 | \(B_{4}\) | 9 | \(M_{5}\) | 15 | \(A_{2}\) | 21 | \(S_{5}\) |
| 4 | \(M_{6}\) | 10 | \(B_{3}\) | 16 | \(A_{4}\) | 22 | \(S_{5}\) |
| 5 | \(B_{2}\) | 11 | \(B_{1}\) | 17 | \(A_{3}\) | 23 | \(S_{5}\) |
| 6 | \(M_{1}\) | 12 | \(B_{6}\) | 18 | \(B_{5}\) | 24 | \(S_{5}\) |
Considerem-se as seguintes produções médias diárias (kg) de leite a 4% de gordura das vacas submetidas a administração de raízes e tubérculos, como suplementação de inverno na alimentação de vacas em lactação.
| Id. | Prod. | Id. | Prod. | Id. | Prod. | Id. | Prod. |
|---|---|---|---|---|---|---|---|
| 1 | 22,81 | 7 | 25,12 | 13 | 23,54 | 19 | 35,04 |
| 2 | 35,19 | 8 | 24,36 | 14 | 25,42 | 20 | 22,37 |
| 3 | 20,37 | 9 | 22,94 | 15 | 32,47 | 21 | 35,42 |
| 4 | 24,80 | 10 | 26,54 | 16 | 34,48 | 22 | 23,43 |
| 5 | 24,37 | 11 | 22,15 | 17 | 35,04 | 23 | 21,07 |
| 6 | 23,40 | 12 | 24,06 | 18 | 19,54 | 24 | 19,58 |
| Trat. | Observações | Média |
|---|---|---|
| S | 19,58 21,07 23,43 25,42 22,81 23,54 | 22,64 |
| M | 23,40 22,37 24,36 25,12 22,94 21,56 | 23,29 |
| A | 35,42 32,47 34,48 33,79 35,04 35,19 | 34,39 |
| B | 22,15 24,37 26,54 20,37 19,54 24,06 | 22,83 |
Seja \(y_{ij}\) o valor da produção de leite da j-ésima vaca que recebeu o j-ésima tratamento. Os valores das produções (kg) de leite a 4% de gordura das vacas que participaram do estudo podem ser resumidos na forma:
Objetivo: Testar se há diferença na produção média de leite de acordo com o tipo de suplementação.
suple<-factor(rep(c('A','B','M','S'), each=6))
x<-c(19.58,21.07,23.43,25.42,22.81,23.54,23.40,22.37,24.36,25.12,22.94,
21.56,35.42,32.47,34.48,33.79,35.04,35.19,22.15,24.37,26.54,20.37,
19.54,24.06)
dados<-data.frame(x,suple)
media<-tapply(x,suple,mean)
dp<-tapply(x,suple,sd)
var<-tapply(x,suple,var)
summary(x)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 19.54 22.32 23.80 25.79 28.02 35.42
media
## A B M S
## 22.64167 23.29167 34.39833 22.83833
dp
## A B M S
## 2.050360 1.301360 1.111529 2.645233
var
## A B M S
## 4.203977 1.693537 1.235497 6.997257
| Tratamento | Média | Desvio padrão |
|---|---|---|
| S | 22,64 | 2,05 |
| M | 23,29 | 1,30 |
| A | 34,40 | 1,11 |
| B | 22,84 | 2,65 |
Para amostras independentes aplicamos o teste t e analisamos todos os pares de médias. Assim, vamos construir as hipóteses.
\(H_{0}\) : \(\mu_{1}\) - \(\mu_{2}\) = 0 vs. \(H_{1}\) : \(\mu_{1}\) - \(\mu_ {2}\) \(\neq 0\).
\(t_{0}\) = \(\frac{ (\overline{y1} - \overline{y2} ) - (\mu_{1} - \mu_{2})}{Sp\sqrt[]{\frac{1}{n1}+\frac{1}{n2}}}\),
onde
\(S{p}^{2}\) = \(\sqrt{\frac{(n_{1}-1)S_{}1{p}^{2} + (n_{2}-1)S_{2}{p}^{2}}{n_{1} +n_{2} - 2 }}\)
A seguir apresentaremos os resultados das hipóteses ditas acima.
| S | M | A | B | |
|---|---|---|---|---|
| S | \(-\) | ND | \(**\) | ND |
| M | \(-\) | \(-\) | \(**\) | ND |
| A | \(-\) | \(-\) | \(-\) | \(**\) |
| B | \(-\) | \(-\) | \(-\) | \(-\) |
Onde ND significa SEM DIFERENÇA SIGNIFICATIVA
** significa DIFERENÇA SIGNIFICATIVA AO NÍVEL DE 5%.
Assim vemos que essa solução não é eficaz, esssa solução está incorreta pois nos leva a distorção do erro tipo I. Vejamos a explicação para isso. Suponha que seja testada a igualdade das quatro médias usando comparações pareadas. Há 6 pares possíveis e, se a probabilidade de aceitar corretamente a hipótese nula para cada par testado é de (1 - \(\alpha\)) = 0,95, então a probabilidade de aceitar corretamente a hipótese nula para todos os 6 pares é \((0,95)^{6}\) = \(0,7359\), se os testes forem independentes.
[1] Damodar N. Gujarati Dawn C. Porter. Econometria Básica. 5ªe, 2011.
[2] Portal action. ANOVA. http://www.portalaction.com.br/anova.