Os blocos ao acaso, ao blocos casualizados, constituem talvez o tipo mais importante de delineamento.
O controle local neste caso é representado pelos blocos, cada um dos quais incui todos os tratamentos.
Para que o experimento seja eficiente, cada bloco deverá ser tão uniforme quanto possível, mas os blocos poderão diferir bastante uns dos outros.
Por exemplo, se nos interessa estudar a adubação dos canaviais de uma usina de açúcar, escolheremos para cada bloco um terreno bem uniforme, mas poderemos espalhar os blocos por toda a propriedade, obtendo, assim, conclusões válidas para toda a área cultivada, e não apenas para determinado local.
O experimento abaixo foi realizado pelo contrato AGROCERES/DNOCS no Posto Experimental de Área Seca do Lameiro (Piauí) e consiste no estudo sobre produção de leguminosas.
Foram testadas 3 leguminosas: Siratro (A), Stylosanthes.Guyanensis (B) e Kudzu Tropical (C).
Estudamos então a produção total de massa verde em kg/ha durante o primeiro ano (7 cortes). O plantio foi feito em 5 diferentes tipos de terreno. Os dados são:
producao_dbc <- read.csv("C:/Users/Carol/Dropbox/UFGD/2019.01_Disciplinas/Topicos de Estatistica/11_Aula/producao_dbc.csv", sep=";")
Variedade | Terreno | Producao |
---|---|---|
Siratro | Terreno 1 | 10667 |
Stylosanthes.Guyanensis | Terreno 1 | 8100 |
Kudzu Tropical | Terreno 1 | 2308 |
Siratro | Terreno 2 | 12083 |
Stylosanthes.Guyanensis | Terreno 2 | 4500 |
Kudzu Tropical | Terreno 2 | 2767 |
Siratro | Terreno 3 | 4308 |
Stylosanthes.Guyanensis | Terreno 3 | 6667 |
Kudzu Tropical | Terreno 3 | 2008 |
Siratro | Terreno 4 | 8292 |
Stylosanthes.Guyanensis | Terreno 4 | 6717 |
Kudzu Tropical | Terreno 4 | 1800 |
Siratro | Terreno 5 | 6517 |
Stylosanthes.Guyanensis | Terreno 5 | 7400 |
Kudzu Tropical | Terreno 5 | 1292 |
Considere o modelo:
\[Y_{ij} = \mu + \tau_i + \beta_j + \epsilon_{ij}\] Em que:
\(Y_{ij}\) - produção no j-ésimo terreno na i-ésima variedade;
\(\mu\) - média geral da produção
\(\tau_i\) - efeito da i-ésima variedade;
\(\beta_j\) - efeito do i-ésimo terreno;
\(\epsilon_{ij}\) - efeito alatório inerente a observação \(Y_{ij}\)
summary(producao_dbc$Producao)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1292 2538 6517 5695 7750 12083
sd(producao_dbc$Producao)
## [1] 3329.263
sd(producao_dbc$Producao)/mean(producao_dbc$Producao)
## [1] 0.5845872
aggregate(Producao ~ Variedade,
data = producao_dbc,
FUN=mean)
## Variedade Producao
## 1 Kudzu Tropical 2035.0
## 2 Siratro 8373.4
## 3 Stylosanthes.Guyanensis 6676.8
aggregate(Producao ~ Variedade,
data = producao_dbc,
FUN=sd)
## Variedade Producao
## 1 Kudzu Tropical 551.8958
## 2 Siratro 3122.5814
## 3 Stylosanthes.Guyanensis 1349.8784
require(ggplot2)
## Loading required package: ggplot2
ggplot(producao_dbc, aes(x = Variedade, y = Producao)) +
geom_boxplot()
Através da Análise de Variância (ANOVA) podemos testar o efeitos dos tratamentos (variedades) analisando as seguintes hipóteses.
\[H_0: \tau_1 = \tau_2 = \tau_3 = 0 \]
\[H_1: \mbox{Pelo menos um } \tau_i \neq 0, ~~~ i=\{1,2,3\}\].
modelo = aov(Producao ~ Variedade + Terreno,
data = producao_dbc)
anova(modelo)
## Analysis of Variance Table
##
## Response: Producao
## Df Sum Sq Mean Sq F value Pr(>F)
## Variedade 2 107666789 53833394 12.7851 0.003225 **
## Terreno 4 13824094 3456023 0.8208 0.546863
## Residuals 8 33685006 4210626
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Pelo teste F, o valor p (Pr(>F)), para Variedade, foi igual a \(0,003225\), o qual é inferior ao nível de \(5\%\) de significância, concluindo deste forma que existe diferente significativa entre as variedades quanto a produção.
require(car)
## Loading required package: car
## Loading required package: carData
qqPlot(modelo$residuals)
## [1] 4 5
Por meio do gráfico que compara os quantis empíricos e teóricos, tem-se evidências que os resíduos podem ser modelados por uma distribuição Normal.
shapiro.test(modelo$residuals)
##
## Shapiro-Wilk normality test
##
## data: modelo$residuals
## W = 0.94534, p-value = 0.4542
O teste de normalidade Shapiro-Wilk forneceu um valor p de \(0,4542\), indicando que, ao nível de \(5\%\) de siginificância, que a hipótese nula (“os resíduos são normais”) não deve ser rejeitada.
bartlett.test(Producao ~ Variedade,
data = producao_dbc)
##
## Bartlett test of homogeneity of variances
##
## data: Producao by Variedade
## Bartlett's K-squared = 8.7822, df = 2, p-value = 0.01239
O teste de Bartlett forneceu um valor p de \(0,01239\), indicando que, ao nível de \(1\%\) de siginificância, que a hipótese nula (“as variâncias são iguais”) não deve ser rejeitada.
require(agricolae)
## Loading required package: agricolae
## Warning: package 'agricolae' was built under R version 3.5.3
out <- HSD.test(modelo,
"Variedade",
main="",
alpha = 0.05)
out
## $statistics
## MSerror Df Mean CV MSD
## 4210626 8 5695.067 36.03085 3708.353
##
## $parameters
## test name.t ntr StudentizedRange alpha
## Tukey Variedade 3 4.041036 0.05
##
## $means
## Producao std r Min Max Q25 Q50 Q75
## Kudzu Tropical 2035.0 551.8958 5 1292 2767 1800 2008 2308
## Siratro 8373.4 3122.5814 5 4308 12083 6517 8292 10667
## Stylosanthes.Guyanensis 6676.8 1349.8784 5 4500 8100 6667 6717 7400
##
## $comparison
## NULL
##
## $groups
## Producao groups
## Siratro 8373.4 a
## Stylosanthes.Guyanensis 6676.8 a
## Kudzu Tropical 2035.0 b
##
## attr(,"class")
## [1] "group"
bar.group(out$groups,
ylim=c(0,10000),
density=10,
las=1,
border="blue")
Ao nível de \(5\%\) de significância, as médias seguídas das mesmas letras, não difere estatísticamente entre si.
testeSNK <- SNK.test(modelo,
"Variedade",
main="",
alpha = 0.05)
testeSNK
## $statistics
## MSerror Df Mean CV
## 4210626 8 5695.067 36.03085
##
## $parameters
## test name.t ntr alpha
## SNK Variedade 3 0.05
##
## $snk
## Table CriticalRange
## 2 3.261182 2992.702
## 3 4.041036 3708.353
##
## $means
## Producao std r Min Max Q25 Q50 Q75
## Kudzu Tropical 2035.0 551.8958 5 1292 2767 1800 2008 2308
## Siratro 8373.4 3122.5814 5 4308 12083 6517 8292 10667
## Stylosanthes.Guyanensis 6676.8 1349.8784 5 4500 8100 6667 6717 7400
##
## $comparison
## NULL
##
## $groups
## Producao groups
## Siratro 8373.4 a
## Stylosanthes.Guyanensis 6676.8 a
## Kudzu Tropical 2035.0 b
##
## attr(,"class")
## [1] "group"
bar.group(out$groups,
ylim=c(0,10000),
density=10,
las=1,
border="blue")
Considere o seguinte conjunto de dados em que foi obtido o conteúdo de óleo em percentagem em vários estágios de crescimento da planta S. Linicola.
Neste experimento, os diferentes estágios de crescimento foram estudados com o intuito de descobrir em qual estágio de crescimento a planta produz o maior percentual de óleo.
Os blocos, nesse caso, podem ser considerados como diferentes posições dos vaso de plantas dentro de uma estufa.
oleo_dbc <- read.csv("C:/Users/Carol/Dropbox/UFGD/2019.01_Disciplinas/Topicos de Estatistica/11_Aula/oleo_dbc.csv", sep=";", dec=",")
Estagio | Bloco | Oleo |
---|---|---|
Estágio 1 | Bloco 1 | 4.4 |
Estágio 2 | Bloco 1 | 3.3 |
Estágio 3 | Bloco 1 | 4.4 |
Estágio 4 | Bloco 1 | 6.8 |
Estágio 5 | Bloco 1 | 6.3 |
Estágio 6 | Bloco 1 | 6.4 |
Estágio 1 | Bloco 2 | 5.9 |
Estágio 2 | Bloco 2 | 1.9 |
Estágio 3 | Bloco 2 | 4.0 |
Estágio 4 | Bloco 2 | 6.6 |
Estágio 5 | Bloco 2 | 4.9 |
Estágio 6 | Bloco 2 | 7.3 |
Estágio 1 | Bloco 3 | 6.0 |
Estágio 2 | Bloco 3 | 4.9 |
Estágio 3 | Bloco 3 | 4.5 |
Estágio 4 | Bloco 3 | 7.0 |
Estágio 5 | Bloco 3 | 5.9 |
Estágio 6 | Bloco 3 | 7.7 |
Estágio 1 | Bloco 4 | 4.1 |
Estágio 2 | Bloco 4 | 7.1 |
Estágio 3 | Bloco 4 | 3.1 |
Estágio 4 | Bloco 4 | 6.4 |
Estágio 5 | Bloco 4 | 7.1 |
Estágio 6 | Bloco 4 | 6.7 |
Considere o modelo:
\[Y_{ij} = \mu + \tau_i + \beta_j + \epsilon_{ij}\] Em que:
\(Y_{ij}\) - percentual de óleo no j-ésimo bloco no i-ésimo estágio;
\(\mu\) - média geral do percentual
\(\tau_i\) - efeito do i-ésimo estágio;
\(\beta_j\) - efeito do i-ésimo bloco;
\(\epsilon_{ij}\) - efeito alatório inerente a observação \(Y_{ij}\)
summary(oleo_dbc$Oleo)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1.900 4.400 5.950 5.529 6.725 7.700
sd(oleo_dbc$Oleo)
## [1] 1.539475
sd(oleo_dbc$Oleo)/mean(oleo_dbc$Oleo)
## [1] 0.278428
aggregate(Oleo ~ Estagio,
data = oleo_dbc,
FUN=mean)
## Estagio Oleo
## 1 Estágio 1 5.100
## 2 Estágio 2 4.300
## 3 Estágio 3 4.000
## 4 Estágio 4 6.700
## 5 Estágio 5 6.050
## 6 Estágio 6 7.025
aggregate(Oleo ~ Estagio,
data = oleo_dbc,
FUN=sd)
## Estagio Oleo
## 1 Estágio 1 0.9899495
## 2 Estágio 2 2.2330846
## 3 Estágio 3 0.6377042
## 4 Estágio 4 0.2581989
## 5 Estágio 5 0.9146948
## 6 Estágio 6 0.5852350
require(ggplot2)
ggplot(oleo_dbc, aes(x = Estagio, y = Oleo)) +
geom_boxplot()
Através da Análise de Variância (ANOVA) podemos testar o efeitos dos tratamentos (estágio) analisando as seguintes hipóteses.
\[H_0: \tau_1 = \tau_2 = \tau_3 = \tau_4 = \tau_5 = \tau_6 = 0 \]
\[H_1: \mbox{Pelo menos um } \tau_i \neq 0, ~~~ i=\{1,2,3,4,5,6\}\].
modelo = aov(Oleo ~ Bloco + Estagio,
data = oleo_dbc)
anova(modelo)
## Analysis of Variance Table
##
## Response: Oleo
## Df Sum Sq Mean Sq F value Pr(>F)
## Bloco 3 3.141 1.0471 0.7966 0.514715
## Estagio 5 31.652 6.3304 4.8161 0.007964 **
## Residuals 15 19.716 1.3144
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Pelo teste F, o valor p (Pr(>F)), para estágio, foi igual a \(0,007964\), o qual é inferior ao nível de \(5\%\) de significância, concluindo deste forma que existe diferente significativa entre os estágios quanto o percentual de óleo.
require(car)
qqPlot(modelo$residuals)
## [1] 20 8
Por meio do gráfico que compara os quantis empíricos e teóricos, tem-se evidências que os resíduos podem ser modelados por uma distribuição Normal.
shapiro.test(modelo$residuals)
##
## Shapiro-Wilk normality test
##
## data: modelo$residuals
## W = 0.96331, p-value = 0.5084
O teste de normalidade Shapiro-Wilk forneceu um valor p de \(0,5084\), indicando que, ao nível de \(5\%\) de siginificância, que a hipótese nula (“os resíduos são normais”) não deve ser rejeitada.
bartlett.test(Oleo ~ Estagio,
data = oleo_dbc)
##
## Bartlett test of homogeneity of variances
##
## data: Oleo by Estagio
## Bartlett's K-squared = 12.494, df = 5, p-value = 0.02861
O teste de Bartlett forneceu um valor p de \(0,02861\), indicando que, ao nível de \(1\%\) de siginificância, que a hipótese nula (“as variâncias são iguais”) não deve ser rejeitada.
require(agricolae)
out <- HSD.test(modelo,
"Estagio",
main="",
alpha = 0.05)
out
## $statistics
## MSerror Df Mean CV MSD
## 1.314417 15 5.529167 20.73513 2.633886
##
## $parameters
## test name.t ntr StudentizedRange alpha
## Tukey Estagio 6 4.594735 0.05
##
## $means
## Oleo std r Min Max Q25 Q50 Q75
## Estágio 1 5.100 0.9899495 4 4.1 6.0 4.325 5.15 5.925
## Estágio 2 4.300 2.2330846 4 1.9 7.1 2.950 4.10 5.450
## Estágio 3 4.000 0.6377042 4 3.1 4.5 3.775 4.20 4.425
## Estágio 4 6.700 0.2581989 4 6.4 7.0 6.550 6.70 6.850
## Estágio 5 6.050 0.9146948 4 4.9 7.1 5.650 6.10 6.500
## Estágio 6 7.025 0.5852350 4 6.4 7.7 6.625 7.00 7.400
##
## $comparison
## NULL
##
## $groups
## Oleo groups
## Estágio 6 7.025 a
## Estágio 4 6.700 ab
## Estágio 5 6.050 abc
## Estágio 1 5.100 abc
## Estágio 2 4.300 bc
## Estágio 3 4.000 c
##
## attr(,"class")
## [1] "group"
bar.group(out$groups,
ylim=c(0,10),
density=10,
las=1,
border="blue")
Ao nível de \(5\%\) de significância, as médias seguídas das mesmas letras, não difere estatísticamente entre si.
testeSNK <- SNK.test(modelo,
"Estagio",
main="",
alpha = 0.05)
testeSNK
## $statistics
## MSerror Df Mean CV
## 1.314417 15 5.529167 20.73513
##
## $parameters
## test name.t ntr alpha
## SNK Estagio 6 0.05
##
## $snk
## Table CriticalRange
## 2 3.014325 1.727932
## 3 3.673378 2.105727
## 4 4.075974 2.336511
## 5 4.366985 2.503331
## 6 4.594735 2.633886
##
## $means
## Oleo std r Min Max Q25 Q50 Q75
## Estágio 1 5.100 0.9899495 4 4.1 6.0 4.325 5.15 5.925
## Estágio 2 4.300 2.2330846 4 1.9 7.1 2.950 4.10 5.450
## Estágio 3 4.000 0.6377042 4 3.1 4.5 3.775 4.20 4.425
## Estágio 4 6.700 0.2581989 4 6.4 7.0 6.550 6.70 6.850
## Estágio 5 6.050 0.9146948 4 4.9 7.1 5.650 6.10 6.500
## Estágio 6 7.025 0.5852350 4 6.4 7.7 6.625 7.00 7.400
##
## $comparison
## NULL
##
## $groups
## Oleo groups
## Estágio 6 7.025 a
## Estágio 4 6.700 a
## Estágio 5 6.050 ab
## Estágio 1 5.100 ab
## Estágio 2 4.300 b
## Estágio 3 4.000 b
##
## attr(,"class")
## [1] "group"
bar.group(out$groups,
ylim=c(0,10),
density=10,
las=1,
border="blue")
- Entretanto, devemos “enviar” estes dados ao R, colocando cada Fonte de Variação em uma única coluna.
prod_bat_dbc <- read.csv("C:/Users/Carol/Dropbox/UFGD/2019.01_Disciplinas/Topicos de Estatistica/11_Aula/prod_bat_dbc.csv", sep=";", dec=",")
Variedades | Blocos | Prod |
---|---|---|
Kennebec | Bloco I | 9.2 |
Huinkul | Bloco I | 21.1 |
S. Rafaela | Bloco I | 22.6 |
Buena Vista | Bloco I | 15.4 |
B 25-50 E | Bloco I | 12.7 |
B 1-52 | Bloco I | 20.0 |
B 116-51 | Bloco I | 23.1 |
B 72-53 A | Bloco I | 18.0 |
Kennebec | Bloco II | 13.4 |
Huinkul | Bloco II | 27.0 |
S. Rafaela | Bloco II | 29.9 |
Buena Vista | Bloco II | 11.9 |
B 25-50 E | Bloco II | 18.0 |
B 1-52 | Bloco II | 21.1 |
B 116-51 | Bloco II | 24.2 |
B 72-53 A | Bloco II | 24.6 |
Kennebec | Bloco III | 11.0 |
Huinkul | Bloco III | 26.4 |
S. Rafaela | Bloco III | 24.2 |
Buena Vista | Bloco III | 10.1 |
B 25-50 E | Bloco III | 18.2 |
B 1-52 | Bloco III | 20.0 |
B 116-51 | Bloco III | 26.4 |
B 72-53 A | Bloco III | 24.0 |
Kennebec | Bloco IV | 9.2 |
Huinkul | Bloco IV | 25.7 |
S. Rafaela | Bloco IV | 25.1 |
Buena Vista | Bloco IV | 12.3 |
B 25-50 E | Bloco IV | 17.1 |
B 1-52 | Bloco IV | 28.0 |
B 116-51 | Bloco IV | 16.3 |
B 72-53 A | Bloco IV | 24.6 |
Considere o modelo:
\[Y_{ij} = \mu + \tau_i + \beta_j + \epsilon_{ij}\] Em que:
\(Y_{ij}\) - produção (t/ha) no j-ésimo bloco e na i-ésima variedade;
\(\mu\) - média geral da produção
\(\tau_i\) - efeito da i-ésima variedade;
\(\beta_j\) - efeito do i-ésimo bloco;
\(\epsilon_{ij}\) - efeito alatório inerente a observação \(Y_{ij}\)
summary(prod_bat_dbc$Prod)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 9.20 14.90 20.55 19.71 24.60 29.90
sd(prod_bat_dbc$Prod)
## [1] 6.089957
sd(prod_bat_dbc$Prod)/mean(prod_bat_dbc$Prod)
## [1] 0.3089389
aggregate(Prod ~ Variedades,
data = prod_bat_dbc,
FUN=mean)
## Variedades Prod
## 1 B 1-52 22.275
## 2 B 116-51 22.500
## 3 B 25-50 E 16.500
## 4 B 72-53 A 22.800
## 5 Buena Vista 12.425
## 6 Huinkul 25.050
## 7 Kennebec 10.700
## 8 S. Rafaela 25.450
aggregate(Prod ~ Variedades,
data = prod_bat_dbc,
FUN=sd)
## Variedades Prod
## 1 B 1-52 3.851731
## 2 B 116-51 4.355074
## 3 B 25-50 E 2.578113
## 4 B 72-53 A 3.212476
## 5 Buena Vista 2.202082
## 6 Huinkul 2.686385
## 7 Kennebec 1.989975
## 8 S. Rafaela 3.141656
require(ggplot2)
ggplot(prod_bat_dbc, aes(x = Variedades, y = Prod)) +
geom_boxplot()
Através da Análise de Variância (ANOVA) podemos testar o efeitos dos tratamentos (Variedades) analisando as seguintes hipóteses.
\[H_0: \tau_1 = \tau_2 = \tau_3 = \tau_4 = \tau_5 = \tau_6 = \tau_7 = \tau_8 =0 \]
\[H_1: \mbox{Pelo menos um } \tau_i \neq 0, ~~~ i=\{1,2,3,4,5,8\}\].
modelo = aov(Prod ~ Blocos + Variedades,
data = prod_bat_dbc)
anova(modelo)
## Analysis of Variance Table
##
## Response: Prod
## Df Sum Sq Mean Sq F value Pr(>F)
## Blocos 3 50.53 16.843 1.9709 0.1493
## Variedades 7 919.72 131.389 15.3744 5.723e-07 ***
## Residuals 21 179.46 8.546
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Pelo teste F, o valor p (Pr(>F)), para Variedades, foi igual a \(5.723e-07 = 0,0000005723\), o qual é inferior ao nível de \(5\%\) de significância, concluindo deste forma que existem, pelos meno, duas variedades que diferenciam entre si.
require(car)
qqPlot(modelo$residuals)
## [1] 31 30
Por meio do gráfico que compara os quantis empíricos e teóricos, tem-se evidências que os resíduos podem ser modelados por uma distribuição Normal.
shapiro.test(modelo$residuals)
##
## Shapiro-Wilk normality test
##
## data: modelo$residuals
## W = 0.96895, p-value = 0.471
O teste de normalidade Shapiro-Wilk forneceu um valor p de \(0,471\), indicando que, ao nível de \(5\%\) de siginificância, que a hipótese nula (“os resíduos são normais”) não deve ser rejeitada.
bartlett.test(Prod ~ Variedades,
data = prod_bat_dbc)
##
## Bartlett test of homogeneity of variances
##
## data: Prod by Variedades
## Bartlett's K-squared = 2.6431, df = 7, p-value = 0.9159
O teste de Bartlett forneceu um valor p de \(0,9159\), indicando que, ao nível de \(5\%\) de siginificância, que a hipótese nula (“as variâncias são iguais”) não deve ser rejeitada.
require(agricolae)
out <- HSD.test(modelo,
"Variedades",
main="",
alpha = 0.05)
out
## $statistics
## MSerror Df Mean CV MSD
## 8.545952 21 19.7125 14.82991 6.933413
##
## $parameters
## test name.t ntr StudentizedRange alpha
## Tukey Variedades 8 4.743477 0.05
##
## $means
## Prod std r Min Max Q25 Q50 Q75
## B 1-52 22.275 3.851731 4 20.0 28.0 20.00 20.55 22.825
## B 116-51 22.500 4.355074 4 16.3 26.4 21.40 23.65 24.750
## B 25-50 E 16.500 2.578113 4 12.7 18.2 16.00 17.55 18.050
## B 72-53 A 22.800 3.212476 4 18.0 24.6 22.50 24.30 24.600
## Buena Vista 12.425 2.202082 4 10.1 15.4 11.45 12.10 13.075
## Huinkul 25.050 2.686385 4 21.1 27.0 24.55 26.05 26.550
## Kennebec 10.700 1.989975 4 9.2 13.4 9.20 10.10 11.600
## S. Rafaela 25.450 3.141656 4 22.6 29.9 23.80 24.65 26.300
##
## $comparison
## NULL
##
## $groups
## Prod groups
## S. Rafaela 25.450 a
## Huinkul 25.050 a
## B 72-53 A 22.800 ab
## B 116-51 22.500 ab
## B 1-52 22.275 ab
## B 25-50 E 16.500 bc
## Buena Vista 12.425 c
## Kennebec 10.700 c
##
## attr(,"class")
## [1] "group"
bar.group(out$groups,
ylim=c(0,30),
density=10,
las=1,
border="blue")
Ao nível de \(5\%\) de significância, as médias seguídas das mesmas letras, não difere estatísticamente entre si.