**EL parcial se resolvio con los numeros U =7 y T = 2.
| SS | df | MS | F-value | |
|---|---|---|---|---|
| Tratamientos | 6000 | 8 | 750 | |
| Residuales | ||||
| TOTAL |
Ecuaciones:
Numero de repeticiones = 8
df(tramientos) = 8
MS(tratamientos) = 750
df(residuales) = 63
SS(residuales) = 54999
F-value = 0.86
| SS | df | MS | F-value | ||
|---|---|---|---|---|---|
| Tratamientos | 6000 | 8 | 750 | 0.86 | |
| Residuales | 54999 | 63 | 873 | ||
| TOTAL | 60999 | 71 |
\[H_0 : \mu_1 = \mu_2 \cdots =\mu_9\]
\[H_a : La \ Hipotesis \ Nula \ es \ falsa\]
pf(q=0.86,df1=8,df=63,lower.tail=F)
## [1] 0.5546508
EL valor P es mayor al 5% y el valor F es menor al F tabulado, eso quiere decir que no hay diferencias entre los tratamientos por lo que no se rechazaria la hipotesis nula. Sin embargo, al no tener los datos disponibles y no realizarse las puebas de los supuestos de normalidad de los residuales, igualdad de varianza e independencia de los residuales, no se puede concluir que no se rechaze la hipotesis nula pues se podria incurrir en un error tipo II. En ese orden de ideas no es recomendable.
Al ser el valor F menor al F tabulado se puede decir que los datos de los tratamientos varian 0.86 veces mas que los datos intra-tratamientos y, ademas, al ser un resultado menor a 1, la relacion indica que el causante de la variabilidad se da por el error experimetal, lo cual es fatal para el experiemento realizado pues se esperan que sean repeticiones con medias homogeneas.
qf(p=0.01,df1=8,df=63,lower.tail=F)
## [1] 2.807614
Por medio de esta funcion se busco llegar a un F tabulado de 2.8 y para ello se necesito de un nivel de confianza aproximado del 1%.
Es necesario primero realizar las pruebas de los supuestos, pero en el caso de que los supuestos se cumplan se podria usar el valor P y, por consiguiente, no seria necesario realizar la prueba de comparacion de medias porque al no existir diferencias entre las medias de los tratamientos la prueba de Tukey no develaria quien es el causante de la diferencia.
set.seed(2020)
data = c(rnorm(8,407,sqrt(873)),rnorm(8,417,sqrt(873)),
rnorm(8,427,sqrt(873)),rnorm(8,437,sqrt(873)),
rnorm(8,447,sqrt(873)),rnorm(8,457,sqrt(873)),
rnorm(8,467,sqrt(873)),rnorm(8,477,sqrt(873)),rnorm(8,487,sqrt(873)))
trt<- rep(c("trt1","trt2","trt3","trt4","trt5","trt6","trt7","trt8","trt9"),
c(8,8,8,8,8,8,8,8,8))
dtf=data.frame(data,trt)#;View(dt)
anova = aov(data~trt);summary(anova)
## Df Sum Sq Mean Sq F value Pr(>F)
## trt 8 68521 8565 8.049 2.06e-07 ***
## Residuals 63 67038 1064
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
shapiro.test(anova$residuals)
##
## Shapiro-Wilk normality test
##
## data: anova$residuals
## W = 0.98276, p-value = 0.4291
bartlett.test(anova$residuals~trt)
##
## Bartlett test of homogeneity of variances
##
## data: anova$residuals by trt
## Bartlett's K-squared = 22.007, df = 8, p-value = 0.004903
oneway.test(anova$residuals~trt)
##
## One-way analysis of means (not assuming equal variances)
##
## data: anova$residuals and trt
## F = 3.3483e-30, num df = 8.000, denom df = 25.981, p-value = 1
Al realizar la prueba de igualdad de varianza entre los tratamientos se obtuvo un valor P menor al 5% y debido a que se incumple este supuesto se realizo la prueba Welch para reajustar los residuales dentro de los valores de los grados de libertad y de esta forma obtener un valor F mas bajo.
A partir de los resultados de la prueba Welch se evidencia que el valor P es del 100%. Esto sugiere que no hay evidencia que permita pensar que la varianza entre los diferentes tratamientos sean estadisticamente diferentes, y por lo tanto se asume la homocedasticidad de varianzas entre tratamientos de estres hidrico.
plot(anova, 1)
En la grafica Residuals vs Fitted se evidencia la igualdad de varianzas con los valores de las medias ajustados con solo 3 valores atipicos.
resid = anova$residuals
plot(resid, pch=16)
Aunque aproximadamente entre la observacion 40 y la 60 se percibe cierto patron, en general el grafico permite observar la independencia de los residuales.
TukeyHSD(anova)
## Tukey multiple comparisons of means
## 95% family-wise confidence level
##
## Fit: aov(formula = data ~ trt)
##
## $trt
## diff lwr upr p adj
## trt2-trt1 37.147143 -15.2416699 89.53596 0.3710577
## trt3-trt1 30.593579 -21.7952335 82.98239 0.6324123
## trt4-trt1 46.954183 -5.4346298 99.34300 0.1137565
## trt5-trt1 65.125288 12.7364753 117.51410 0.0051064
## trt6-trt1 53.756085 1.3672721 106.14490 0.0400157
## trt7-trt1 76.693087 24.3042746 129.08190 0.0004682
## trt8-trt1 89.119699 36.7308863 141.50851 0.0000288
## trt9-trt1 108.292607 55.9037949 160.68142 0.0000003
## trt3-trt2 -6.553564 -58.9423761 45.83525 0.9999783
## trt4-trt2 9.807040 -42.5817724 62.19585 0.9995436
## trt5-trt2 27.978145 -24.4106672 80.36696 0.7349339
## trt6-trt2 16.608942 -35.7798704 68.99775 0.9826814
## trt7-trt2 39.545945 -12.8428680 91.93476 0.2892226
## trt8-trt2 51.972556 -0.4162563 104.36137 0.0534437
## trt9-trt2 71.145465 18.7566524 123.53428 0.0015181
## trt4-trt3 16.360604 -36.0282088 68.74942 0.9842506
## trt5-trt3 34.531709 -17.8571036 86.92052 0.4713858
## trt6-trt3 23.162506 -29.2263069 75.55132 0.8858221
## trt7-trt3 46.099508 -6.2893044 98.48832 0.1281756
## trt8-trt3 58.526120 6.1373073 110.91493 0.0175941
## trt9-trt3 77.699028 25.3102160 130.08784 0.0003763
## trt5-trt4 18.171105 -34.2177073 70.55992 0.9699357
## trt6-trt4 6.801902 -45.5869106 59.19071 0.9999711
## trt7-trt4 29.738904 -22.6499081 82.12772 0.6668534
## trt8-trt4 42.165516 -10.2232964 94.55433 0.2136497
## trt9-trt4 61.338425 8.9496123 113.72724 0.0105222
## trt6-trt5 -11.369203 -63.7580157 41.01961 0.9986653
## trt7-trt5 11.567799 -40.8210132 63.95661 0.9984898
## trt8-trt5 23.994411 -28.3944015 76.38322 0.8644190
## trt9-trt5 43.167320 -9.2214929 95.55613 0.1887493
## trt7-trt6 22.937002 -29.4518100 75.32581 0.8912529
## trt8-trt6 35.363614 -17.0251983 87.75243 0.4384758
## trt9-trt6 54.536523 2.1477103 106.92534 0.0351445
## trt8-trt7 12.426612 -39.9622008 64.81542 0.9974962
## trt9-trt7 31.599520 -20.7892921 83.98833 0.5912299
## trt9-trt8 19.172909 -33.2159038 71.56172 0.9587692
#Medias de los tratamientos
mean_trt=tapply(data,trt,mean);mean_trt
## trt1 trt2 trt3 trt4 trt5 trt6 trt7 trt8
## 396.2298 433.3770 426.8234 443.1840 461.3551 449.9859 472.9229 485.3495
## trt9
## 504.5224
#Media global
mean_global_trt = mean(mean_trt);mean_global_trt
## [1] 452.6389
#Grafico de Medias
boxplot(data~trt)
abline(h=mean_global_trt)
Despues de realizar la prueba de Tuckey se observa que los pares de medias con mas diferencias se encuentran en los cuales se comparo con el tratamiento 1 de estres hidrico, siendo la comparacion los tratamientos 1 y 9 los mas significativos. Mediante el grafico de cajas se comprueba que el peor tratamiento y por ende los niveles de clorofila mas bajos se ncuetran en el tratamiento 1, al contario del tratamiento 9 siendo este el mejor de todos. Se observa que la comparacion 4 y 9 es significativa, la 5 y 9 no lo es, en 6 y 9 es significativa de nuevo y a partir de ahi las comparaciones se mantienen por encima del valor p y graficamente tambien se mantienen por encima de la media global. Por lo tanto, los tratamientos que lograron mayor contenido de clorofila fueron los tratameintos 5, 7, 8 y 9.
Use la funcion de R para generar de la distribucin uniforme unos datos de carbono orgnico del suelo medida a 5 cm y 10 cm de profundidad. Suponga que la medida de la capa superior oscila entre 3.0 y 3.7+0.1 y de la capa inferior oscil entre 2 y 2.4+0.2. Use expand.grid para generar una ventana de observacin de 0 a 100 m para la longitud y de 0 a 200 m para la latitud. Genere 50 datos en cada capa. Use la funcin sort.int de R para ordenar los datos de cada capa con la opcion partial=25+U dentro de la propia funcin sort.int. Una vez cree los datos realice algun diagrama de color (preferiblemente 3D) que permita visualizar las medidas de carbono en cada capa generadas por computadora. Compare si se encuentran diferencias en la media de carbono entre capas utilizando un nivel de confianza del 95%.
#Datos de Capa Superior
#set.seed(123)
Capa_sup_5 = round(runif(50, min =3.0, max = 3.8),1)
#Datos de Capa Inferior
set.seed(123)
Capa_inf_10 = round(runif(50, 2.0, 2.4),1);
#Sort.int
Capa_sup_5 = sort.int(Capa_sup_5,partial = 32);Capa_sup_5
## [1] 3.0 3.0 3.1 3.1 3.1 3.0 3.1 3.1 3.0 3.1 3.1 3.2 3.2 3.2 3.2 3.2 3.2 3.3 3.4
## [20] 3.4 3.4 3.5 3.5 3.4 3.5 3.3 3.4 3.3 3.5 3.5 3.5 3.5 3.5 3.5 3.5 3.5 3.6 3.6
## [39] 3.7 3.6 3.7 3.7 3.8 3.7 3.7 3.8 3.7 3.8 3.8 3.7
Capa_inf_10 = sort.int(Capa_inf_10,partial = 32);Capa_inf_10
## [1] 2.1 2.1 2.1 2.0 2.1 2.0 2.1 2.1 2.1 2.1 2.1 2.0 2.1 2.1 2.0 2.1 2.1 2.1 2.2
## [20] 2.2 2.2 2.2 2.2 2.2 2.2 2.2 2.2 2.2 2.2 2.3 2.2 2.3 2.3 2.3 2.3 2.3 2.3 2.3
## [39] 2.3 2.3 2.4 2.4 2.4 2.4 2.4 2.4 2.4 2.4 2.4 2.4
#wwe=expand.grid(height = seq(60, 80, 5), weight = seq(100, 300, 50),
# sex = c("Male","Female"));View(wwe)
#Ventana de Observacion
S = expand.grid( longitud = c(0,100), latitud = c(0,200));View(S)
ventana1 = rbind(S,S,S,S,S,S,S,S,S,S,S,S,S,S,S,S,S,S,S,S,S,S,S,S,S)
ventana1=ventana1 [order (sample (1:100)), ]
View(ventana1)
#Creacion del data frame
#carbono_1= data.frame(carbon_sup=Capa_sup_5 , longitud, latitud);carbono_1
#View(carbono_1)
#carbono_2= data.frame(carbon_inf=Capa_inf_10 , longitud, #latitud);carbono_2
#View(carbono_2)
#library(scatterplot3d)
#scatterplot3d( carbono_1$carbon_sup, carbono_2$carbon_inf, xlab = "l", ylab = "f", zlab = "Profundidad")
\[H_o: \mu_{CapaSup} = \mu_{CapaInf}\\ H_a: \mu_{CapaSup} \neq \mu_{CapaInf}\]
prueba_t = t.test(Capa_sup_5, Capa_inf_10, alternative='t', paired = T, conf.level = 0.95)
prueba_t
##
## Paired t-test
##
## data: Capa_sup_5 and Capa_inf_10
## t = 60.242, df = 49, p-value < 2.2e-16
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## 1.14837 1.22763
## sample estimates:
## mean of the differences
## 1.188
ifelse(prueba_t$p.value<0.05, 'Rechazo Ho', 'No Rechazo Ho')
## [1] "Rechazo Ho"
Se rechaza la hipotesis nula por lo que las dos cantidades de carbono organico en las dos capas son desiguales.
D = expand.grid(F1 = c(3.25, 3.75, 4.25), F2 = c(4, 5, 6));#View(D)
D = rbind(D, D);View(D)
set.seed(2020)
D = D[order(sample(1:18)), ];#View(D)
class(D)
## [1] "data.frame"
D$biomasa=sort.int(rnorm(18,3,0.3),partial = 9);#View(D)
View(D)
View(D$biomasa)
\[y_{ijk}=\mu+\tau_i+\beta_j+(\tau\beta)_{ij}+\epsilon_{ijk}\\i:1\cdots 3\\ j:1\cdots 3\\ k:1,2\\Condiciones~Laterales~Respectivas\]
modelo=aov(D$biomasa~D$F1*D$F2)
summary(modelo)
## Df Sum Sq Mean Sq F value Pr(>F)
## D$F1 1 0.3803 0.3803 4.548 0.0511 .
## D$F2 1 0.3160 0.3160 3.780 0.0722 .
## D$F1:D$F2 1 0.0013 0.0013 0.015 0.9042
## Residuals 14 1.1705 0.0836
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Tras realizar la prueba ANOVA se observa que no hay interaccion y por lo que se puede analizar los resultados de los factores. Los valores p de lso factores son mayores al 5% por lo que no es necesaria la prueba de comparaciones de medias.
#Medias del Factor F1
mean_F1=tapply(D$biomasa,D$F1,mean)
mean_F1
## 3.25 3.75 4.25
## 2.730881 3.003515 3.086911
#Media Global del Factor F1
global_mean_F1=mean(mean_F1);global_mean_F1
## [1] 2.940436
#Efectos (Cambio de la media global respecto cada tratamiento)
efectos_F1=mean_F1-global_mean_F1
efectos_F1
## 3.25 3.75 4.25
## -0.20955449 0.06307941 0.14647508
Se evidencia un efecto negativo de -0.21 en la biomasa de las plantas en la dosis 3.25, mientras que el mejor fue la dosis 4.25.
#Medias del Factor F2
mean_F2=tapply(D$biomasa,D$F2,mean)
mean_F2
## 4 5 6
## 3.129864 2.886150 2.805294
#Media Global del Factor F2
global_mean_F2=mean(mean_F2);global_mean_F2
## [1] 2.940436
#Efectos (Cambio de la media global respecto cada tratamiento)
efectos_F2=mean_F2-global_mean_F2
efectos_F2
## 4 5 6
## 0.18942777 -0.05428588 -0.13514189
Se evidencia un efecto negativo en la biomasa de las plantas de -0.05 en la aplicacion 5 y de -0.14 en la aplicacion 6. Mientras que la mejor aplicacion fue la 4.
#library(lattice)
coefficients(modelo)
## (Intercept) D$F1 D$F2 D$F1:D$F2
## 2.88681292 0.23067920 -0.25629761 0.02507008
interaction.plot(D$F1,D$F2,D$biomasa, xlab ="Dosis del insecticida", ylab= "Medias de la biomasa", main = "Grafica de interacciones", ylim = c(2.5,3.5), trace.label = "Aplicaciones", type="b", col=c("red","green"),pch = c(19,17), fixed = TRUE)
#bwplot(D$biomasa~D$F1|D$F2)
table_means = tapply(D$biomasa,list(D$F1,D$F2), mean);table_means
## 4 5 6
## 3.25 2.965294 2.634592 2.592757
## 3.75 3.080186 3.128949 2.801410
## 4.25 3.344110 2.894908 3.021714
mean_F2=tapply(D$biomasa,D$F2,mean);mean_F2
## 4 5 6
## 3.129864 2.886150 2.805294
mean_F1=tapply(D$biomasa,D$F1,mean);mean_F1
## 3.25 3.75 4.25
## 2.730881 3.003515 3.086911
A pesar de que segun el grafico se pueden apreciar unas presuntas interacciones al calcular las medias de las dosis se observa que la dosis 4.25 y la aplicacion 4 es el mejor tratamiento como tambien se demostro por tener los mejores efectos en biomasa lo cual indica que no hubo interaccion ya que los margenes rinden el mismo resultado del cuerpo de la tabla quire decir que no hay interaccion como se establecio en el analisis de varianza. El grafico confirma tambien que el mejor fue el de la dosis 4.25 y aplicacion 4.
library(tidyverse)
## Warning: package 'tidyverse' was built under R version 4.0.3
## -- Attaching packages ------------------------------------------------------------------------------- tidyverse 1.3.0 --
## v ggplot2 3.3.2 v purrr 0.3.4
## v tibble 3.0.3 v dplyr 1.0.2
## v tidyr 1.1.2 v stringr 1.4.0
## v readr 1.3.1 v forcats 0.5.0
## Warning: package 'tidyr' was built under R version 4.0.3
## Warning: package 'dplyr' was built under R version 4.0.3
## -- Conflicts ---------------------------------------------------------------------------------- tidyverse_conflicts() --
## x dplyr::filter() masks stats::filter()
## x dplyr::lag() masks stats::lag()
library(ggpubr)
## Warning: package 'ggpubr' was built under R version 4.0.3
library(rstatix)
## Warning: package 'rstatix' was built under R version 4.0.3
##
## Attaching package: 'rstatix'
## The following object is masked from 'package:stats':
##
## filter
library(broom)
## Warning: package 'broom' was built under R version 4.0.3
set.seed(123)
dt_arcilla = sort.int(runif(n=18, min=0.2, max=0.4))
dt_arcilla
## [1] 0.2084119 0.2091113 0.2205849 0.2492175 0.2575155 0.2817954 0.2906668
## [8] 0.2913229 0.3056211 0.3102870 0.3145267 0.3355141 0.3576610 0.3766035
## [15] 0.3784838 0.3799650 0.3880935 0.3913667
tabla_arcilla = data.frame (D, dt_arcilla);
View(tabla_arcilla)
\[y_{ijk}=\mu+\tau_i+\alpha_j+\beta(x_{ijk}-\bar{x_{...}})+(\tau\alpha)_{ijk}+\epsilon_{ijk}\\i:1\cdots 3\\ j:1\cdots 3\\ k:1,2\\Condiciones~Laterales~Respectivas\]
Donde \(\mu\) es la media general, \(\tau_i\) es el efecto del i -ésimo nivel del factor dosis de insecticida, \(\alpha_j\) se asocia al efecto del j -ésimo nivel del factor de número de aplicaciones, \((\tau\beta)_{ij}\) es la interacción entre los dos factores, en \(\beta(x_{ijk}-\bar{x_{...}})\), \(\beta\) es la pendiente y \(\bar{x}\) es la media global de la covariable \(X\), y \(\varepsilon_{ijk}\) es el error asociado a las repeticiones en la j-ésima observación en el i-ésimo grupo.
library(tidyverse)
library(ggpubr)
library(rstatix)
library(broom)
res.aov0 <- anova_test(tabla_arcilla,biomasa ~ dt_arcilla + F1*F2)
## Coefficient covariances computed by hccm()
get_anova_table(res.aov0)
## ANOVA Table (type II tests)
##
## Effect DFn DFd F p p<.05 ges
## 1 dt_arcilla 1 13 19.090 0.00076 * 0.595
## 2 F1 1 13 0.302 0.59200 0.023
## 3 F2 1 13 9.099 0.01000 * 0.412
## 4 F1:F2 1 13 0.732 0.40800 0.053
#library(lme4)
#modelo <- lmer( respuesta ~ 1 + (1|ue) + (1|ue:finca)+
# + (1|ue:finca:variedad), data = data.frame)
#summary(modelo)
En el enlace https://cran.r-project.org/web/packages/asbio/asbio.pdf se tienen unos datos de potasio de muestras de suelos medidas en 8 diferentes laboratorios. Compare descriptivamente (medidas, tablas y graficos) para representar los datos. que prueba me recomendaria para comparar la medida que usted seleccione. Proponga una solucion. Sabiendo que son muestras mezcladas de una misma finca, Se perciben diferencias en las medidas como consecuencia probable de los laboratorios Sugerencia: Use el enfoque no parametrico considerado en clase y su respectiva prueba de comparacion por pares (Nemenyi)
library(asbio)
## Warning: package 'asbio' was built under R version 4.0.3
## Loading required package: tcltk
##
## Attaching package: 'asbio'
## The following object is masked from 'package:broom':
##
## bootstrap
data(K)
View(K)
#Medias
mediaslab=tapply(K$K, K$lab, mean)
mediaslab
## B D E F G H I J
## 326.1111 321.1111 316.5556 315.6667 304.1111 229.3333 313.2222 336.2222
#Media Global
global_m=mean(mediaslab)
boxplot(K$K~K$lab, main="Cantidad de potasio en el suelo", xlab = "Laboratorios", ylab = "Cantidad de Potasio")
abline(h=global_m)
Para la hipotesis nula los analisis de laboratorio de cantidad de potasio en el suelo en cada laboratorio no evidencian diferencias en su media para al menos uno de ellos. La hipotesis nula dicta que almenos un laboratorio presenta diferencias significativas en sus anilisis de potasio en el suelo.
\[H_0 : \mu_1 = \mu_2 \cdots =\mu_8\\ H_a : La \ Hipotesis \ Nula \ es \ falsa\]
modelo<-aov(K$K~K$lab)
summary(modelo)
## Df Sum Sq Mean Sq F value Pr(>F)
## K$lab 7 68930 9847 6.472 8.92e-06 ***
## Residuals 64 97370 1521
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Segun el analisis de varianza existe evidencia para rechazar la hipotesis nula al presentarse un p valor menor del 5%.
resid = modelo$residuals
shapiro.test(resid)
##
## Shapiro-Wilk normality test
##
## data: resid
## W = 0.94688, p-value = 0.004268
bartlett.test(modelo$residuals~K$lab)
##
## Bartlett test of homogeneity of variances
##
## data: modelo$residuals by K$lab
## Bartlett's K-squared = 32.201, df = 7, p-value = 3.727e-05
plot(modelo, 1)
resid = modelo$residuals
plot(resid, pch=16)
Tras realizar las pruebas de los supuestos se evidencia que los residuales no tienen una distribucion normal y tampoco se cumple la igualdad de varianzasy se decide realizar un analisis de varianza no parametrico.
kruskal.test(K$K~K$lab)
##
## Kruskal-Wallis rank sum test
##
## data: K$K by K$lab
## Kruskal-Wallis chi-squared = 24.482, df = 7, p-value = 0.000937
Segun la prueba no parametrica de analisis de varianza Kruskal-Wallis existen diferencias entre algunos de los laboratorios por lo que a un nivel de significancia del 5% se puede rechazar la hipotesis nula de que las medias de los resultados de los laboratorios sean todas iguales a pesar de que las muestras provengan de una sola mezcla.
library(PMCMR)
## Warning: package 'PMCMR' was built under R version 4.0.3
## PMCMR is superseded by PMCMRplus and will be no longer maintained. You may wish to install PMCMRplus instead.
PMCMR::posthoc.kruskal.nemenyi.test(K$K~K$lab)
## Warning in posthoc.kruskal.nemenyi.test.default(c(296, 260, 341, 359, 323, :
## Ties are present, p-values are not corrected.
##
## Pairwise comparisons using Tukey and Kramer (Nemenyi) test
## with Tukey-Dist approximation for independent samples
##
## data: K$K by K$lab
##
## B D E F G H I
## D 1.0000 - - - - - -
## E 1.0000 1.0000 - - - - -
## F 0.9999 0.9999 0.9998 - - - -
## G 0.9324 0.9324 0.9222 0.9943 - - -
## H 0.0098 0.0098 0.0087 0.0397 0.2764 - -
## I 0.9993 0.9993 0.9989 1.0000 0.9984 0.0600 -
## J 0.9893 0.9893 0.9916 0.9051 0.4405 0.0003 0.8461
##
## P value adjustment method: none
La comparacion por pares de la prueba Nemenyi arroja resultados significativos para el laboratorio H, es decir sus valores p ajustados se encuetran por debajo del 5% por lo que se corrobora el rechazo de la hipotesis nula pues el laboratorio H en su analisis de las muestras de suelo esta provocando diferencias debido a un mal metodo experimental.
Diseñe un experimento en parcelas divididas en bloques completos (diseño en franjas o strip plot design). Genere los datos usted mismo y esquematice el diseño. Expliqué las razones de colocar el primer factor en la parcela principal y el segundo en la subparcela. Genere unos datos asociados a una covariable y corra el análisis de covarianza respectivo.
#library(readxl)
#striplot <- read_excel("C:/Users/Public/parcial/ggg.xlsx")
#View(striplot)
library(readr)
striplot <- read_delim("C:/Users/Public/parcial/datospapa.csv",
";", escape_double = FALSE, trim_ws = TRUE)
## Parsed with column specification:
## cols(
## bloque = col_double(),
## Riego = col_character(),
## Variedades = col_character(),
## biomasa = col_double()
## )
View(striplot)
str(striplot)
## tibble [48 x 4] (S3: spec_tbl_df/tbl_df/tbl/data.frame)
## $ bloque : num [1:48] 1 1 1 1 1 1 1 1 1 1 ...
## $ Riego : chr [1:48] "sin_riego" "sin_riego" "sin_riego" "sin_riego" ...
## $ Variedades: chr [1:48] "V1" "V2" "V3" "V4" ...
## $ biomasa : num [1:48] 3.16 2.64 3 3.21 4.47 4.3 3.21 4.02 4.82 4.45 ...
## - attr(*, "spec")=
## .. cols(
## .. bloque = col_double(),
## .. Riego = col_character(),
## .. Variedades = col_character(),
## .. biomasa = col_double()
## .. )
striplot$Riego = as.factor(striplot$Riego)
striplot$Variedades = as.factor(striplot$Variedades)
attach(striplot)
library(agricolae)
## Warning: package 'agricolae' was built under R version 4.0.3
##
## Attaching package: 'agricolae'
## The following object is masked from 'package:PMCMR':
##
## durbin.test
strip_model = strip.plot(BLOCK = bloque,
COL = Riego,
ROW = Variedades,
Y = biomasa)
##
## ANALYSIS STRIP PLOT: biomasa
## Class level information
##
## Riego : sin_riego parcial completo
## Variedades : V1 V2 V3 V4
## bloque : 1 2 3 4
##
## Number of observations: 48
##
## model Y: biomasa ~ bloque + Riego + Ea + Variedades + Eb + Variedades:Riego + Ec
##
## Analysis of Variance Table
##
## Response: biomasa
## Df Sum Sq Mean Sq F value Pr(>F)
## bloque 3 1.2492 0.4164 1.9872 0.152025
## Riego 2 6.5929 3.2964 11.8308 0.008277 **
## Ea 6 1.6718 0.2786 1.3298 0.294767
## Variedades 3 2.8222 0.9407 3.2481 0.074111 .
## Eb 9 2.6067 0.2896 1.3823 0.266451
## Variedades:Riego 6 1.6142 0.2690 1.2840 0.313475
## Ec 18 3.7716 0.2095
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## cv(a) = 13.6 %, cv(b) = 13.8 %, cv(c) = 11.8 %, Mean = 3.891458
modelo11.2 <-aov(biomasa~Riego*Variedades+bloque,data=striplot)
summary(modelo11.2)
## Df Sum Sq Mean Sq F value Pr(>F)
## Riego 2 6.593 3.296 12.521 7.91e-05 ***
## Variedades 3 2.822 0.941 3.573 0.0235 *
## bloque 1 0.085 0.085 0.322 0.5741
## Riego:Variedades 6 1.614 0.269 1.022 0.4274
## Residuals 35 9.215 0.263
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
summary(lm(modelo11.2))
##
## Call:
## lm(formula = modelo11.2)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.14887 -0.10883 0.01879 0.16200 1.24621
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 4.37104 0.30536 14.315 3.38e-16 ***
## Riegoparcial 0.00500 0.36282 0.014 0.9891
## Riegosin_riego -0.88250 0.36282 -2.432 0.0203 *
## VariedadesV2 -0.10250 0.36282 -0.283 0.7792
## VariedadesV3 -0.46750 0.36282 -1.289 0.2060
## VariedadesV4 -0.16500 0.36282 -0.455 0.6521
## bloque 0.03758 0.06624 0.567 0.5741
## Riegoparcial:VariedadesV2 -0.06750 0.51310 -0.132 0.8961
## Riegosin_riego:VariedadesV2 -0.10750 0.51310 -0.210 0.8353
## Riegoparcial:VariedadesV3 -0.79250 0.51310 -1.545 0.1315
## Riegosin_riego:VariedadesV3 0.22500 0.51310 0.439 0.6637
## Riegoparcial:VariedadesV4 -0.28500 0.51310 -0.555 0.5821
## Riegosin_riego:VariedadesV4 -0.14000 0.51310 -0.273 0.7866
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.5131 on 35 degrees of freedom
## Multiple R-squared: 0.5467, Adjusted R-squared: 0.3913
## F-statistic: 3.518 on 12 and 35 DF, p-value: 0.001788
set.seed(12345)
clay = sort.int(runif(48, 0.25, 0.80)); clay
## [1] 0.2506251 0.2532932 0.2689945 0.2739010 0.2831073 0.3237174 0.3338054
## [8] 0.3415045 0.3484300 0.3532418 0.3745569 0.3928247 0.4266736 0.4288025
## [15] 0.4297138 0.4488941 0.4535573 0.4634792 0.4644057 0.4651618 0.4713668
## [22] 0.4860594 0.4995504 0.5010645 0.5043721 0.5165068 0.5300734 0.5492318
## [29] 0.5895835 0.6044985 0.6250085 0.6341990 0.6391150 0.6464971 0.6502379
## [36] 0.6546267 0.6685403 0.6752838 0.6802063 0.6861539 0.7278372 0.7316753
## [43] 0.7373685 0.7472851 0.7600007 0.7734123 0.7809784 0.7943553
strip_cova = data.frame(striplot, clay)
View(strip_cova)
library(tidyverse)
library(ggpubr)
library(rstatix)
library(broom)
data("striplot", package = "datarium")
## Warning in data("striplot", package = "datarium"): data set 'striplot' not found
striplot %>% sample_n_by(Riego, Variedades)
## # A tibble: 12 x 4
## bloque Riego Variedades biomasa
## <dbl> <fct> <fct> <dbl>
## 1 1 completo V1 4.82
## 2 4 completo V2 3.27
## 3 4 completo V3 4.45
## 4 3 completo V4 4.38
## 5 2 parcial V1 4.47
## 6 1 parcial V2 4.3
## 7 1 parcial V3 3.21
## 8 3 parcial V4 4.02
## 9 3 sin_riego V1 4.27
## 10 1 sin_riego V2 2.64
## 11 3 sin_riego V3 3.65
## 12 1 sin_riego V4 3.21
res.aov <- anova_test(strip_cova,biomasa ~ clay + Riego*Variedades)
## Coefficient covariances computed by hccm()
get_anova_table(res.aov)
## ANOVA Table (type II tests)
##
## Effect DFn DFd F p p<.05 ges
## 1 clay 1 35 0.428 0.517000 0.012
## 2 Riego 2 35 11.037 0.000192 * 0.387
## 3 Variedades 3 35 3.644 0.022000 * 0.238
## 4 Riego:Variedades 6 35 1.028 0.424000 0.150
Se realizo un experimento donde se tienen como factores el tipo de riego y la variedad de papa, y la variable respuesta medida fue la biomasa los tubérculos medida en kilogramos. Se realizo un diseño de parcelas divididas en bloques completos, para ello se estableció al tipo de riego en la parcela principal en tres niveles: sin riego, parcial y completo. En la subparcela se establecieron las cuatro variedades de papa, y se colocaron tres bloques. Se decidió colocar al riego en la parcela principal debido a su dificultad de aleatorizar en campo y el costo que representa comparado con las variedades, pues en una parcela se puede cambiar el orden de las variedades sin ningún problema mientras reciben un tipo de riego.
Se corrió el análisis de varianza para este diseño de parcelas por franjas y se detectaron diferencias significativas en el tipo de riego con un intervalo de confianza del 95%. Mientras que en las variedades no se detectaron diferencias significativas, aunque su p valor fue del 7% (cercano al 5%).
Se generaron unos datos de porcentaje de arcilla que se cree puede afectar el rendimiento de los cultivares pues el tipo de riego puede estar correlacionado con esta covariable ya que a bajo porcentaje de arcillas del suelo y un pobre riego puede afectar la absorción de nutrientes por parte de las plantas.
Se realizo el análisis de covarianza respectivo timando en cuenta el porcentaje de arcilla como covariable. Se detectaron diferencias significativas en ambos factores.
¿se justifica el uso de la covariable en el modelo? ¿se justifica el bloque en el modelo? ¿ se tiene interacción de factores? De no presentarse interacción , reduzca el modelo a la presencia de solo términos cuyos p_ valores sean menores al 6%. Escriba el modelo final e interprete el resultado desde un punto de vista agronómico seleccionando el “mejor tratamiento” en la mejor condición de bloqueo y con la presencia de la covariable. No olvide ordenar datos de la covariable. Revise los supuestos necesarios para el análisis estadístico que está proponiendo.
cor.test(clay,biomasa)
##
## Pearson's product-moment correlation
##
## data: clay and biomasa
## t = 1.3338, df = 46, p-value = 0.1888
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## -0.0964622 0.4522978
## sample estimates:
## cor
## 0.1929612
cor(strip_cova$clay, strip_cova$biomasa)
## [1] 0.1929612
plot(x = strip_cova$clay, y = strip_cova$biomasa,
main = "Regresión lineal entre biomasa y porcentaje de arcilla",
xlab = "Porcentaje de arcilla", ylab = "Biomasa")
abline(lm(strip_cova$biomasa~strip_cova$clay), col = "red")
text(x=0.5, y=5.0, label="r=0.19")
media_riego=tapply(striplot$biomasa,striplot$Riego,mean)
media_riego
## completo parcial sin_riego
## 4.281250 4.000000 3.393125
var_riego=tapply(striplot$biomasa,striplot$Riego,var)
var_riego
## completo parcial sin_riego
## 0.5138517 0.2494400 0.1524229
media_Variedades=tapply(striplot$biomasa,striplot$Variedades,mean)
media_Variedades
## V1 V2 V3 V4
## 4.172500 4.011667 3.515833 3.865833
tabla_medias = tapply(striplot$biomasa,list(striplot$Riego,striplot$Variedades), mean);tabla_medias
## V1 V2 V3 V4
## completo 4.4650 4.3625 3.9975 4.3000
## parcial 4.4700 4.3000 3.2100 4.0200
## sin_riego 3.5825 3.3725 3.3400 3.2775
stripchart(biomasa ~ Variedades, vertical = TRUE, pch = 1, xlab = "Variedades", data = striplot)
boxplot(biomasa~Variedades)
Al realizarce la revision del supuesto de relacion lineal entre la variable respuesta y la covariable se obtiene un coeficiente de correlacion del 19%, lo cual indica que no existe correlacion y por lo tanto introducir la covariable al modelo no es necesario y tampoco se deben tomar los resultados de la prueba ANCOVA a pesar de no existir interacciones entre los factores, por lo que las unicas diferencias existentes serian para las encontradas en los tipos de riego y no en las variedades. Otra razon para no considerar la covariable en este modelo es debido a que las variedades fueron asigndas a las subparcelas por lo que el error experimental es pequeño y su precisión para estimar los efectos es mayor que la de las parcelas principales (riego),sin embargo, no fueron encontradas diferencias signifcativas para las subparcelas.
De igual modo, se hallaron las medias para los dos factores y se creo un boxplot para las medias de las cuatro variedades de estudio. Descriptivamente se observa que el tratamiento sin riego obtuvo resultados por debajo en comparación con los demas tipos de riego. Por el otro lado, las variedades muetran medias y varianzas mas similares entre si.
\[y_{ijk}=\mu+\alpha_i+\beta_j+(\alpha\beta)_{ij}+\delta_k+\eta_{ik}+\varepsilon_{ijk}\\i:1,2,3\\ j:1\cdots 4\\ k:1,2,3\\Condiciones~Laterales~Respectivas\]
Donde \(\mu\) es la media general, \(\alpha_i\) es el efecto del i -ésimo nivel del factor riego, \(\beta_j\) se asocia al efecto del j -ésimo nivel del factor variedades, \((\alpha\beta)_{ij}\) es la interacción entre los dos factores, \(\delta_k\) es el efecto del k -ésimo bloque, \(\eta_{ik}\) es el error aleatorio de la parcela principal, y \(\varepsilon_{ijk}\) es el error aleatorio de la subparcela.
El mejor tratamiento segun el cuerpo de la tabla es para el riego parcial, ademas la varianza encontrada en este tipo de riego es de 24% mientras que en el riego completo es de 51%
EL uso correcto del diseño de parcelas divididas puede generar beneficios al maximizar la información obtenida bajo presupuestos apretados y en tiempos más cortos de experimentación, esto debido a que muchas veces cuando el experimentador se enfrenta a un factor difícil de aleatorizar o cambiar es preferible realizar el menor numero de cambios para este factor y en cambio realizar mas cambios en el factor que tiene facilidades en su aleatorización. EL factor difícil de aleatorizar se le llama whole plot o parcela principal, mientras que al factor fácil de aleatorizar se le denomina subplot o subparcela; esto debido a su origen en la agricultura cuando se hace referencia a plot con parcelas de tierra. Ya que las métricas de cuantificación de un diseño se basan en el presupuesto y el tiempo se hace relevante el correcto entendimiento de los diseños por parcelas divididas pues su estudio en cursos de estadística y de diseño de experimentos es muy superficial. Partiendo del correcto entendimiento de estos diseños hay que dejar claro que el número de parcelas principales debe ser igual al numero de veces que este sea aleatorizado, y el número de experimentos será igual al número de subparcelas. Un tipo de diseño por parcelas divididas es el inadvertent split-plot design o diseño por parcelas divididas equivocado, y se llama de esta manera porque su análisis es fácilmente confundido por el de un diseño completamente al azar, pues cada experimento es corrido de manera independiente cuando no es lo correcto y puede llevar a conclusión falsas. Es por esta razón, que un diseño por parcelas divididas es consecuencia de la conveniencia que el experimentador observe sea necesaria al encontrar factores que sean complicados de modificar en experimentos independientes, por lo que un enfoque de parcelas divididas este inconveniente es reducido y es posible correr el mismo número de experimentos, pero en un orden distinto donde sean las subparcelas las que se aleatoricen dentro de las parcelas principales.
Dentro del diseño por parcelas divididas existen dos tipos separados de aleatorización: la que se les realiza a las parcelas principales y la que se realiza en las subparcelas. Debido que hay dos aleatorizaciones esto conlleva a que se generen dos errores. Investigadores han determinado un nivel de eficiencia del 50% para el inadvertent split-plot comparado con el diseño de parcelas divididas correcto, basándose en el tamaño del error de estos diseños. Se deben tener en cuenta las diferentes prioridades que se derivan de cada tipo de diseño, por lo que se debe dar foco a los criterios relevantes para cada uno de ellos, para ello se toman diferentes criterios tanto cualitativos como cuantitativos. Cualitativos como el balanceo del numero de observaciones por parcela principal y el número de niveles por factor, o cuantitativamente en cuanto a las estimaciones de los parámetros hallados, de los errores en las parcelas principales y en las subparcelas y el rendimiento relativo (r). El rendimiento relativo mide el costo que tiene la modificación de las subparcelas en relación con la parcela principal, dividiendo el número de niveles de la subparcela por el número de niveles de la parcela principal; de esta forma se puede cuantificar el costo de realizar la aleatorización en la subparcela, buscando que esta relación sea entonces lo más cercano a cero y de esta forma sea considerablemente mas barato realizar los cambios en la subparcela.
https://www.sciencedirect.com/science/article/pii/S002203021630621X
En la literatura la unidad experimental también se le puede llamar unidad de replicación, y la define como: la entidad más pequeña que se asigna independientemente de las demás unidades de un tratamiento en particular. Se entiende que las unidades experimentales son intercambiables, no difieren de ninguna forma al recibir el mismo tratamiento. Se puede ejemplificar con vacas, cada una como unidades experimentales o en el caso de un corral con varias vacas, donde el corral actúa como una unidad experimental a la cual se le puede comparar con otro corral con un tratamiento distinto. Las diferencias en los efectos resultantes pudieron haber sido causados por los efectos ocasionados por las dietas suministradas, por efecto confundido del corral o por una combinación de ambos efectos. Para separar le efecto causado por los corrales y el causado por las dietas es necesario mayor cantidad de corrales, por lo cual se generan dos variabilidades: una causada entre los corrales y otra causada dentro de cada corral en cada vaca. La unidad experimental se define como la entidad física a la cual una respuesta de interés es medida en un experimento. Siguiendo con el ejemplo de los corrales y las vacas, los corrales son las unidades experimentales las cuales reciben el tratamiento, mientras que las vacas son las unidades observacionales pues de estas es que se les mide la respuesta. Es importante señalar que en este caso el diseño es anidado pues cada vaca en cada corral tiene una correlación con el corral en el que se encuentre, por lo que cada vaca depende de su corral, y en este caso la separación del efecto debido por la dieta y el efecto debido por el corral no es posible con solo dos corrales. En diseños anidados las unidades observacionales reciben el nombre de submuestras, pseudoreplicantes y replicantes técnicas. Es necesario, para obtener un experimento confiable realizar repeticiones lo cual conlleva a que los resultados sean reproducibles y no se obtengan resultados no previstos. Estas medidas de repetición generan una variabilidad que resulta útil a la hora de estimar el error experimental o para calibrar pruebas de hipótesis. Según los casos presentados por Robinson se dan dos tipos de escenarios, en dónde los tratamientos son aplicados a todo el corral, el cual se denominó A, y un escenario B donde se realizo los tratamientos para cada vaca de cada corral de forma independientemente. Para el escenario A cada corral es una unidad experimental produciendo un error experimental entre cada unidad experimental. Para el escenario B la vaca actúa tanto como unidad experimental como unidad observacional, y el corral funciona como una estructura de bloqueo. Luego se considera el uso de diseños latinos cuadrado de 3x3 sin repeticiones en el cual se considera al periodo como elemento de diseño experimental o como estructura del tratamiento. Al considerar el periodo como elemento de la estructura del tratamiento del diseño de latinos cuadrados se evidencia que los efectos de la dieta dependen de la etapa de lactación con lo cual se enfoca en diferencias de los tratamientos dentro de los periodos. Cualquier unidad experimental usado en un estudio se le considera una muestra representativa de una población, cualquier entidad física puede funcionar como una unidad experimental o una unidad observacional dentro de un mismo experimento. Sin embargo, la apropiada identificación de la unidad de experimentación en un estudio debe ser contextualizado de forma que su identificación se vea reducida a ser siempre la misma en todos los casos, esto con el fin de asegurar experimentos científicos con resultados que sean reproducibles y replicados en la vida real.
https://online.stat.psu.edu/stat502/lesson/6/6.1-0
Para el ejemplo de dos acuarios cada uno con 50 peces y dos niveles del tratamiento de agua, las unidades experimentales son los acuarios pues estos son los que reciben los tratamientos. Una replicación se le denomina a cada aplicación completa de los tratamientos, en este caso de los dos niveles de agua, por lo que a este experimento solo tiene una réplica. Cada pez atrapado se le considera como una unidad muestral; para la realización de la ANOVA se requiere calcular las medias de este conjunto de unidades muestrales antes de calcular suma de cuadrados de los tratamientos. Uno de los problemas que pueden originarse al no reconocer las unidades muestrales es la pseudoreplicacion, donde erróneamente a cada unidad muestral se le considera una unidad experimental lo cual conlleva a que el error de los grados de libertad se infle provocando que el error de la media cuadrado se reduzca y el estadístico F sea mayor.
https://acsess.onlinelibrary.wiley.com/doi/full/10.2134/agronj2013.0114
De los tres tipos de experimentos los comparativos o manipulativos son en los que los científicos basan sus estudios biológicos agregando matemáticas y estadística. En este tipo de experimentos el científico postula una hipótesis o pregunta; luego, estos son llevados a un modelo estadístico para poder ser desarrollado hasta convertirse en un diseño estadístico, el cual incluye el diseño de tratamientos y el diseño de experimentos. Es de esta forma que por medio de el diseño experimental se puede obtener un conjunto de procedimientos para llevar a cabo el experimento. Luego de que el experimento ha sido realizado se debe ejecutar un análisis estadístico concluir alguna interpretación de estos resultados los cuales muchas veces se generan aun mas preguntas que las originales. Además, un importante paso posterior a la finalización del análisis son los procedimientos de retroalimentación en donde surge nueva información que podrá usada en futuros experimentos y de esta forma ser más eficiente. Debido al alto costo que representa la ejecución de experimentos en el área biológica, el fracaso no es una opción por lo que un resultado negativo en donde no se detecten diferencias se le considera un fracaso y es muy probable que no sea admitido en revistas científicas. La revisión propone revisar la literatura disponible y proveer información concerniente para evitar el fracaso en la experimentación comparativa. Para este propósito, se presentaron cuatro conceptos considerados como los pilares de un buen diseño experimental: replicación, aleatorización, bloqueo y unidades experimentales. Para el caso de la replicación se dan cuatro funciones que desempeñan en la experimentación comparativa. La primera función de la replicación es servir como base para la estimación del error experimental para luego mediante análisis estadístico se validar o no una hipótesis. La segunda función es incrementar la precisión del experimento pues al incrementar el numero de observaciones se hace más fácil encontrar diferencias. La tercera función indica que al realizar mas replicas el espectro o rango de los valores encontrados se incrementa. Por último, la cuarta función es brindar al experimentador del control del error y de esta forma también logra regular la precisión del experimento. La selección de muestras aleatorias asegura que la inferencia coincida con la hipótesis, esto mediante la definición y aplicación de los tratamientos. Otro aspecto en la aleatorización es la aplicación de r replicantes en t tratamientos y al multiplicarlos se obtiene rt unidades experimentales que tendrán una estructura totalmente aleatoria. Las principales funciones de la aleatorización es la estimación no sesgada de la media de un tratamiento y los errores experimentales y previene la intrusión o ruido entre los datos observados por variables que hayan podido afectar la media global, de forma que permite el control del experimento al no permitir que fuentes de variación externas afecten los resultados. Al existir patrones de variación espacial correlacionados al plan de aleatorización muchas veces los resultados pueden parecer amontonados por lo que es recomendable la interspersion, donde el experimentador trata de generar un balanceo y evitar estos agrupamientos. Cuando el experimento presenta ambos métodos aleatorización e interspersion, los diseños tienden a ser espacialmente más balceados.
En una forma parecida a la aleatorización esta previenen la interferencia de fuentes de variación no deseados en el experimento. Se genera mayor precisión pues se agrupan en bloques que permite la homogeneización de las unidades experimentales. también puede ser usado a conveniencia del experimentador cuando son necesarias áreas de experimentación de mayor tamaño. Puede representar una reducción de costos cuando hay un menor número de tratamientos e incrementando la precisión en las pruebas de hipótesis. No se debe realizar un ordenamiento en bloques de manera lineal sin conocimiento de la variación espacial de las unidades experimentales pues esto pude ocasionar que el experimento no sea exitoso. El bloqueo bidireccional realizado en grandes campos uniformes resultan excelentes ante equivocaciones en la formulación errónea del método de bloqueo. Los diseños de bloqueos en repeticiones y repeticiones en bloqueos son diseñados útiles en programas de mejoramiento animal y de plantas.
Es importante señalar que la correlación entre complejidad y eficiencia, siendo los diseños más complejos los que mejores resultados obtendrán, esto sucede cuando el efecto de la variabilidad espacial es muy grande y para nada previsible para el experimentador. Punto que difiere con los diseños en bloques pues cuando hay un numero de tratamientos mayores a 20, los bloque incrementan radicalmente la eficiencia del diseño, siendo este un método de control ante variación espacial no previsible.
En cuanto al tamaño de la unidad experimental hay poco conocimiento teórico, pero se conoce que cambios en una unidad muestral pequeña tiene grandes repercusiones en la mediad de a varianza y al contrario un cabio en una unidad experimental grande genera poco o ningún impacto en la media de la varianza. El método de estimación de Smith permite comparar diseños experimentales besándose en el tamaño de la parcela, numero de tratamientos, numero de replicas y el tamaño total del experimento; para ello es necesario el coeficiente de suelo heterogéneo de Smith. Se recomienda ser hábil en diseño de experimentos y manejo de data y su análisis y acompañarse de amigos que tengan estas habilidades. Comenzar por experimentos con grandes unidades experimentales tanto como este dentro de las capacidades. Siempre comenzar haciendo un análisis de poder antes de cada experimento. Si se encuentra con diseños de gran tamaño se recomienda usar diseño por bloque debido a su fácil manejo y su flexibilidad. Salir de la zona de confort e ir mas allá de los límites de la creatividad.