Introdução

Nesta aula, vou mostrar como fazer algumas análises em DBC no R, desde importar o banco de dados, estatística descritiva, ANOVA até verificar os pressupostos e realizar múltiplas testagens.

Dados

Um melhorista de plantas instalou um experimento visando selecionar as melhores progênies para dar continuidade ao seu programa de melhoramento. Na instalação do experimento, ele verificou que a área a ser utilizada não era completamente homogênea.

Então dividiu a área em 4 sub-áreas de tal forma que cada uma fosse completamente homogênea e pudesse conter todas as progênies em teste. Após esta divisão, as progênies foram distribuídas ao acaso dentro de cada sub-área. Na época da colheita ele avaliou a produção de grãos por planta (kg/planta), cujos resultados foram:

ID Bloco Tratamento Resposta
1 1 1 2,7
2 1 2 2,7
3 1 3 2,6
4 1 4 2,6
5 1 5 2,7
6 2 1 2,8
7 2 2 2,5
8 2 3 3,2
9 2 4 3,1
10 2 5 2,8
11 3 1 2,9
12 3 2 2,8
13 3 3 3,0
14 3 4 2,8
15 3 5 2,8
16 4 1 3,3
17 4 2 2,4
18 4 3 3,5
19 4 4 2,5
20 4 5 2,5

Estatística Descritiva

Tratamento média desvpad
1 2.9 0.3
2 2.6 0.2
3 3.1 0.4
4 2.8 0.3
5 2.7 0.1

Podemos notar que as médias amostrais apresentam algumas diferenças. O tratamento 2 tem a menor média (\(\bar{y}=138, dp=5,7\)).

ANOVA - Análise de Variância

##             Df Sum Sq Mean Sq F value Pr(>F)
## Tratamento   4  0.573 0.14325   2.020  0.156
## Bloco        3  0.154 0.05133   0.724  0.557
## Residuals   12  0.851 0.07092
  1. Podemos ver as fontes de variação, graus de liberdade, soma de quadrados, quadrados médios, valor F observado e o p-valor, nesta ordem
  2. Vemos que o valor F é de 2,02
  3. Como vimos, se fixarmos um nível de significância de \(\alpha = 0,05\), se o p-valor é maior do que \(0,05\), rejeitamos a hipótese nula
  4. A hipótese nula é \(H_0: \tau_1=\tau_2=\tau_3=\tau_4=0\), em que \(\tau_i\) é o efeito do tratamento \(i\).
  5. Note que o p-valor foi de 0.156, maior do que 0,05, logo aceitamos \(H_0\)
  6. Concluímos que há evidências o suficiente para dizer que os tratamentos não afetam de forma significativa na produção média de grãos.
  7. Note também que os blocos foram testados também, e que o p-valor foi de 0,557, o que pode ser interpretado como não havendo evidências para dizer que os blocos são diferentes
  8. Para confirmar esta conclusão e estas análises, devemos avaliar os pressupostos da ANOVA.

Verificação dos pressupostos

Normalidade

## [1]  4 12
  1. Podemos ver que alguns pontos se desviam do esperado para normalidade, mas a ANOVA é relativamente robusta com relação a desvios da normalidade
  2. Vamos fazer um teste de hipóteses em que a hipótese nula é \(H_0:\text{os dados são normais}\), para trazer mais evidências se os dados fogem muito da normalidade
## 
##  Shapiro-Wilk normality test
## 
## data:  dados$Resposta
## W = 0.92948, p-value = 0.1509
  1. Podemos ver que o p-valor é 0,1509, ou seja, não rejeitamos \(H_0:\text{os dados são normais}\), não ha evidências o suficiente para dizer que os dados não são normais
  2. Concluímos que ao pressuposto de normalidade está ok.

Homogeneidade das variâncias

Um gráfico que podemos analisar é o do resíduos padronizados versus valores ajustados.

Visualmente, não é possível enxergar um padrão muito claro nos resíduos, o que nos fornece indícios de que há homocedasticidade (homogeneidade das variâncias). Assim como no pressuposto de normalidade, podemos realizar um teste de hipóteses (teste de Bartlett) para \(H_0: \text{o variâncias são homogêneas}\).

## 
##  Bartlett test of homogeneity of variances
## 
## data:  dados$Resposta and dados$Tratamento
## Bartlett's K-squared = 2.8504, df = 4, p-value = 0.5832

Note que o p-valor foi de 0.5832, logo concluímos que não ha evidências o suficiente para dizer que não há homocedasticidade. Concluímos que o pressuposto de homogeneidade das variâncias está ok.

Independência dos erros

Vamos supor que os dados foram coletados do 1 ao 20, então:

Comparações múltiplas

Verificamos os pressupostos da ANOVA e, assim, concluímos que de fato os tratamentos não influenciam na resposta.Em contraponto, vamos realizar as comparações múltiplas a fim de detectar se de fato não há diferenças entre os pares de tratamentos.

Teste de Tukey

diff lwr upr p adj
2-1 -0.325 -0.925 0.275 0.455
3-1 0.150 -0.450 0.750 0.927
4-1 -0.175 -0.775 0.425 0.880
5-1 -0.225 -0.825 0.375 0.754
3-2 0.475 -0.125 1.075 0.149
4-2 0.150 -0.450 0.750 0.927
5-2 0.100 -0.500 0.700 0.982
4-3 -0.325 -0.925 0.275 0.455
5-3 -0.375 -0.975 0.225 0.326
5-4 -0.050 -0.650 0.550 0.999

Na tabela acima, vemos a comparação, a diferença entre as médias amostrais, os limites mínimo e máximo do intervalo de confiança e o p-valor, nesta ordem. É possível identificar que, considerando \(\alpha=0,05\), as comparações não foram significativas.

Vamos fazer o gráfico com os intervalos de confiança para uma melhor visualização.

Portanto, as conclusões são as mesmas, vemos que todas as linhas tem intervalos de confiança que contém o 0 (zero).

Conclusão

Vimos pela ANOVA que não há uma diferença significativa entre os tratamentos, ou seja, eles não influenciam produção de grãos, mais especificamente, no peso médio dos grãos por planta.

Estes resultados são consistentes, uma vez que os pressupostos da ANOVA foram verificados.

Realizando as comparações múltiplas de Tukey, confirmamos que de fato nenhuma outra diferença foi encontrada.