library(agricolae)
## Warning: package 'agricolae' was built under R version 4.0.3
El paquete agricolae ofrece una amplia funcionalidad en el diseño de experimentos, especialmente en experimentos agrícolas para la mejora de las plantas, las cuales también pueden ser utilizadas para otros fines. Contiene las siguientes opciones: lattice, alfa, diseño de bloques incompletos balanceados, cíclicos, bloques completos al azar, cuadrado latino, greco latino, diseño de bloques aumentados, parcelas divididas, bloques divididos. También cuenta con varios procedimientos de análisis de datos experimentales, tales como las comparaciones de tratamientos de Waller-Duncan, Bonferroni, Duncan, Student-Newman-Keuls, Ryan-Einot-Gabriel-Welsch (REGW) Scheffe, o la diferencia mínima de significación (DLS) clásica y de Tukey; asi también las comparaciones no paramétricas como: Kruskal-Wallis, Friedman, Durbin, Waerden y la prueba de la Mediana; análisis de estabilidad, y otros procedimientos aplicados en la genética, así como los procedimientos de la biodiversidad y la estadística descriptiva.
En este exámen se emplearon 7 diseños estadísticos de la librería agricolae correspondientes a los diseños: BIB, Cuadrado latino, Greco-latino, Diseño en bloques completos aleatorizados, strip plot, split plot y por último el diseño de cuadrados de youden.
En este tipo de diseños puede suceder que no sea posible realizar todos los tratamientos en cada bloque. En estos casos es posible usar diseños en bloques aleatorizados en los que cada tratamiento no está presente en cada bloque. Para este caso se utiliza el diseño en bloque incompleto balanceado (BIB), el cual compara todos los tratamientos con igual precisión y se debe verificar que:
El diseño BIB consiste en reducir el numero de unidades experimentales usadas en el experimento. Aunque este diseño es muy eficiente no es apropiado para situaciones en las que se tiene un número de tratamientos alto.
Se realizó un estudio a 3 variedades del cultivo de tomate, donde se les aplicó 7 dosis de fertilizante para la prevención del marchitamiento de la planta bajo estrés hídrico, sin embargo, cada lote es apenas lo suficientemente grande para permitir que se prueben apenas 3 tratamientos. Por ello se empleó un Análisis de diseño aleatorizado por bloques incompletos (BIB).
Los datos obtenidos del bloque aleatorizado se encuentran a continuación.
datos <- c(10,15,11,4,12,15,5,14,10,14,19,19,8,10,17,6,11,12,5,14,21) #Variable respuesta
trts <- c(1,2,4,2,3,5,3,4,6,4,5,7,1,5,6,2,6,7,1,3,7) #tratamientos aleatorizados
bloque <- gl(7,3) #7 tratamientos o niveles y 3 repeticiones
Primero, para este análisis se plantea el efecto nulo de la interacción de los tratamientos
\[H_o: \tau_1 = \tau_2 = \tau_3 = ... =\tau_7 = 0 \] La hipótesis nula indica la igualdad de tratamientos en el experimento.
Modelo: \[y_{ijk}=\mu+\tau_i+\beta_j+\epsilon_{ij}\] \(y_{ijk}=\) Es la i-ésima observación del j-ésimo bloque
\(\mu=\) Es la media general
\(\tau_i =\) Es el efecto del i-ésimo tratamiento
\(\beta_j =\) Es el efecto del j-ésimo bloque
\(\epsilon_{ij} =\) Es la componente del error aleatorio
Para comprobar esto, realizamos la prueba de BIB para esta situación,
prueba_BIB <- BIB.test(bloque, trts, datos, test="tukey", console= TRUE); prueba_BIB
##
## ANALYSIS BIB: datos
## Class level information
##
## Block: 1 2 3 4 5 6 7
## Trt : 1 2 4 3 5 6 7
##
## Number of observations: 21
##
## Analysis of Variance Table
##
## Response: datos
## Df Sum Sq Mean Sq F value Pr(>F)
## block.unadj 6 132 22.000 1.3134 0.3508
## trt.adj 6 196 32.667 1.9502 0.1877
## Residuals 8 134 16.750
##
## coefficient of variation: 34.1 %
## datos Means: 12
##
## trts, statistics
##
## datos mean.adj SE r std Min Max
## 1 7.666667 6 2.636414 3 2.516611 5 10
## 2 8.333333 9 2.636414 3 5.859465 4 15
## 3 10.333333 11 2.636414 3 4.725816 5 14
## 4 13.000000 12 2.636414 3 1.732051 11 14
## 5 14.666667 14 2.636414 3 4.509250 10 19
## 6 12.666667 15 2.636414 3 3.785939 10 17
## 7 17.333333 17 2.636414 3 4.725816 12 21
##
## Tukey
## Alpha : 0.05
## Std.err : 2.679286
## HSD : 14.46579
## Parameters BIB
## Lambda : 1
## treatmeans : 7
## Block size : 3
## Blocks : 7
## Replication: 3
##
## Efficiency factor 0.7777778
##
## <<< Book >>>
##
## Comparison between treatments means
## Difference pvalue sig.
## 1 - 2 -3 0.9794
## 1 - 3 -5 0.8266
## 1 - 4 -6 0.6959
## 1 - 5 -8 0.4254
## 1 - 6 -9 0.3157
## 1 - 7 -11 0.1642
## 2 - 3 -2 0.9974
## 2 - 4 -3 0.9794
## 2 - 5 -5 0.8266
## 2 - 6 -6 0.6959
## 2 - 7 -8 0.4254
## 3 - 4 -1 0.9999
## 3 - 5 -3 0.9794
## 3 - 6 -4 0.9252
## 3 - 7 -6 0.6959
## 4 - 5 -2 0.9974
## 4 - 6 -3 0.9794
## 4 - 7 -5 0.8266
## 5 - 6 -1 0.9999
## 5 - 7 -3 0.9794
## 6 - 7 -2 0.9974
##
## Treatments with the same letter are not significantly different.
##
## datos groups
## 7 17 a
## 6 15 a
## 5 14 a
## 4 12 a
## 3 11 a
## 2 9 a
## 1 6 a
## $parameters
## lambda treatmeans blockSize blocks r alpha test
## 1 7 3 7 3 0.05 BIB
##
## $statistics
## Mean Efficiency CV
## 12 0.7777778 34.10564
##
## $comparison
## NULL
##
## $means
## datos mean.adj SE r std Min Max Q25 Q50 Q75
## 1 7.666667 6 2.636414 3 2.516611 5 10 6.5 8 9.0
## 2 8.333333 9 2.636414 3 5.859465 4 15 5.0 6 10.5
## 3 10.333333 11 2.636414 3 4.725816 5 14 8.5 12 13.0
## 4 13.000000 12 2.636414 3 1.732051 11 14 12.5 14 14.0
## 5 14.666667 14 2.636414 3 4.509250 10 19 12.5 15 17.0
## 6 12.666667 15 2.636414 3 3.785939 10 17 10.5 11 14.0
## 7 17.333333 17 2.636414 3 4.725816 12 21 15.5 19 20.0
##
## $groups
## datos groups
## 7 17 a
## 6 15 a
## 5 14 a
## 4 12 a
## 3 11 a
## 2 9 a
## 1 6 a
##
## attr(,"class")
## [1] "group"
Como el F valor es de 1.95, es decir que es mayor al p-valor que es de 0.18, podemos decir que se rechaza la hipotesis nula teniendo el cuenta el nivel de eficiencia de \(\alpha\)= 0.05. Por lo tanto, cada tratamiento arroja una respuesta diferente sobre el nivel de marchitamiento en tomate.
Observando el data frame podemos decir el mejor grupo de tratamiento son los realizados en el bloque 1 ya que presenta un valor de la menor media significativa y una desviación estandar aceptable frente a los demás.
Los tratamientos realizados en el bloque 5 y 7 presentan diferencias honestamente significativas, ya que superan el valor HSD arrojado por la prueba Tukey. Eso quiere decir que los tratamientos usados en estos bloques no son eficientes para evitar el marchitamiento de las plantas de tomate bajo estrés hídrico y se podría prescindir de estos bloques. Al observar el coeficiente de variación se puede decir que existe mucha heterogeneidad en los datos, lo que pondría en discusión la efectividad del 77% del experimento.
Los tratamientos no tienen interacción, es decir que no hay relación entre ellos.
Se necesitarían mayor cantidad de observaciones en el experimento para tener discusiones más concluyentes en el diseño. En este caso se recomendaría otro tipo de diseño experimental, debido a que en la medida de estos parametros no es eficiente el análisis de BIB por la falta de tratamientos por cada bloque.
Los diseños en cuadrados latinos son apropiados cuando es necesario controlar dos fuentes de variabilidad. En estos diseños el número de niveles del factor principal tiene que coincidir con el número de niveles de las dos variables de bloque o factores secundarios y además hay que suponer que no existe interacción entre ninguna pareja de factores.
Recibe el nombre de cuadrado latino de orden n a una disposición en filas y columnas de n letras latinas, de tal forma que cada letra aparece una sola vez en cada fila y en cada columna.
En resumen, podemos decir que un diseño en cuadrado latino tiene las siguientes características:
Se estudia el rendimiento de papa en la produccion de clorofila, en 6 tiempos de reposo (A,B,C,D,E,F) en concentraciones de \(CO_2\) distintas. Para ello se consideran 6 lotes de materia prima que reaccionan con 6 concentraciones de \(CO_2\) distinta, de manera que, cada lote de materia prima en cada concentracion de \(CO_2\) se somete a un tiempo de reposo. Tanto la asignacion de los tiempos de reposo a los lotes de materia prima, como la concentracion de \(CO_2\) se hizo de forma aleatoria.
tiempo_de_reposo <- c("A","B","C","D", "E", "F")
disennio_lsd <- design.lsd(tiempo_de_reposo, serie=2,seed=23, kinds = "default")
lsd <- disennio_lsd$book
print(disennio_lsd$sketch)
## [,1] [,2] [,3] [,4] [,5] [,6]
## [1,] "C" "E" "B" "A" "F" "D"
## [2,] "B" "D" "A" "F" "E" "C"
## [3,] "A" "C" "F" "E" "D" "B"
## [4,] "F" "B" "E" "D" "C" "A"
## [5,] "E" "A" "D" "C" "B" "F"
## [6,] "D" "F" "C" "B" "A" "E"
print(lsd)
## plots row col tiempo_de_reposo
## 1 101 1 1 C
## 2 102 1 2 E
## 3 103 1 3 B
## 4 104 1 4 A
## 5 105 1 5 F
## 6 106 1 6 D
## 7 201 2 1 B
## 8 202 2 2 D
## 9 203 2 3 A
## 10 204 2 4 F
## 11 205 2 5 E
## 12 206 2 6 C
## 13 301 3 1 A
## 14 302 3 2 C
## 15 303 3 3 F
## 16 304 3 4 E
## 17 305 3 5 D
## 18 306 3 6 B
## 19 401 4 1 F
## 20 402 4 2 B
## 21 403 4 3 E
## 22 404 4 4 D
## 23 405 4 5 C
## 24 406 4 6 A
## 25 501 5 1 E
## 26 502 5 2 A
## 27 503 5 3 D
## 28 504 5 4 C
## 29 505 5 5 B
## 30 506 5 6 F
## 31 601 6 1 D
## 32 602 6 2 F
## 33 603 6 3 C
## 34 604 6 4 B
## 35 605 6 5 A
## 36 606 6 6 E
observaciones <-as.numeric(lsd[,1])
print(matrix(observaciones,byrow = TRUE, ncol = 4))
## [,1] [,2] [,3] [,4]
## [1,] 101 102 103 104
## [2,] 105 106 201 202
## [3,] 203 204 205 206
## [4,] 301 302 303 304
## [5,] 305 306 401 402
## [6,] 403 404 405 406
## [7,] 501 502 503 504
## [8,] 505 506 601 602
## [9,] 603 604 605 606
El objetivo principal es estudiar la influencia de 6 tiempos de reposo en el rendimiento de producción de clorofila en papa. Por lo que se trata de un factor con 6 niveles. Sin embargo, como los lotes de materia y las concentraciones son fuentes de variabilidad potencial, consideramos dos factores de bloque con 6 niveles cada uno.
A continuación, se leen los datos que fueron puestos en un bloc de notas previamente:
tabla_datos <- read.table("C:/Users/paula/Desktop/DE/latin_square.txt", header = TRUE, dec=","); tabla_datos
## Observaciones Lote Concentraciones Tiempo_de_reposo
## 1 12 Lote1 1 A
## 2 24 Lote1 2 B
## 3 10 Lote1 3 C
## 4 18 Lote1 4 D
## 5 21 Lote1 5 E
## 6 18 Lote1 6 F
## 7 21 Lote2 1 B
## 8 26 Lote2 2 C
## 9 24 Lote2 3 D
## 10 16 Lote2 4 E
## 11 20 Lote2 5 F
## 12 21 Lote2 6 A
## 13 20 Lote3 1 C
## 14 16 Lote3 2 D
## 15 19 Lote3 3 E
## 16 18 Lote3 4 F
## 17 16 Lote3 5 A
## 18 19 Lote3 6 B
## 19 22 Lote4 1 D
## 20 15 Lote4 2 E
## 21 14 Lote4 3 F
## 22 19 Lote4 4 A
## 23 27 Lote4 5 B
## 24 17 Lote4 6 C
## 25 15 Lote5 1 E
## 26 13 Lote5 2 F
## 27 17 Lote5 3 A
## 28 25 Lote5 4 B
## 29 21 Lote5 5 C
## 30 22 Lote5 6 D
## 31 17 Lote6 1 F
## 32 11 Lote6 2 A
## 33 12 Lote6 3 B
## 34 22 Lote6 4 C
## 35 14 Lote6 5 D
## 36 20 Lote6 6 E
Variable respuesta: Rendimiento
Factor: Tiempo de reposo que tiene seis niveles. Es un factor de efectos fijos ya que viene decidido que niveles concretos se van a utilizar.
Bloques: Lotes y Concentraciones, ambos con seis niveles y ambos son factores de efectos fijos.
Tamaño del experimento: Número total de observaciones (36).
Ahora cambiamos la clase de los datos a factores para que puedan ser usados en el diseño cuadrado latino
tabla_datos$Lote <- factor(tabla_datos$Lote)
tabla_datos$Concentraciones <- factor(tabla_datos$Concentraciones)
tabla_datos$Tiempo_de_reposo <- factor(tabla_datos$Tiempo_de_reposo)
Se realiza la tabla ANOVA en base al modelo estadístico de este diseño:
\[y_{ijk}=\mu+\alpha_i+\beta_j+\gamma_j+\epsilon_{ijk}\]
anova_latino <- aov(Observaciones~ Lote + Concentraciones + Tiempo_de_reposo, data = tabla_datos )
anova_latino
## Call:
## aov(formula = Observaciones ~ Lote + Concentraciones + Tiempo_de_reposo,
## data = tabla_datos)
##
## Terms:
## Lote Concentraciones Tiempo_de_reposo Residuals
## Sum of Squares 99.5556 70.5556 117.8889 346.5556
## Deg. of Freedom 5 5 5 20
##
## Residual standard error: 4.162665
## Estimated effects may be unbalanced
Observaciones: Nombre de la columna de las observaciones
Lote : Nombre de la columna en la que están representados los tratamientos
Concentraciones : Nombre de la columna en la que está representado el primer factor bloque
Tiempo_de_reposo: Nombre de la columna en la que está representado el segundo factor bloque
tabla_datos: Data frame en el que se guardaron los datos
Posteriormente, se muestra un resumen de los resultados del análisis de varianza
summary(anova_latino)
## Df Sum Sq Mean Sq F value Pr(>F)
## Lote 5 99.6 19.91 1.149 0.368
## Concentraciones 5 70.6 14.11 0.814 0.553
## Tiempo_de_reposo 5 117.9 23.58 1.361 0.281
## Residuals 20 346.6 17.33
Al observar los valores de p_valor de lote (0.368), concentraciones (0.553) y tiempo de reposo (0.281), se puede evidenciar que son mayores al nivel de significancia del 5% que comparados con el F valor, deducimos que ningun efecto de los tratamientos a diferente concentraciones de \(CO_2\) y tiempo de reposo es significativo.
El diseño greco-latino, a diferencia del diseño cuadrado latino, incluye una variable adicional de control o de bloque. En este caso todos los factores deben tener el mismo numero de niveles, y de igual modo el número de observaciones necesarias para este experimentos debe ser el cuadrado de los niveles.
Este tipo de diseños se describe con el siguiente modelo estadístico:
\[y_{ij(kh)}=\mu+ \tau_i+\beta_j+\gamma_{h}+\delta_{h}+\epsilon_{ij(kh)}\] donde,
\(\mu=\) Efecto común de todas la unidades
\(\tau_i=\) Efecto producido por el i-ésimo nicel del factor fila
\(\beta_j=\) Efecto producido por el j-ésimo nivel del factor columna
\(\gamma_{h}=\) Efecto producido por el h-ésimo nivel del factor letra latina
\(\delta_{h}=\) Efecto producido por el p-ésimo nivel del factor letra griega
\(\epsilon_{ij(kh)}=\) Variables aleatorias independientes con distribución normal
En un invernadero se está estudiando el crecimiento de determinadas plantas, para ello se quiere controlar los efectos del terreno, abono, insecticida y semilla. El estudio se realiza con cuatro tipos de semillas diferentes que se plantan en cuatro tipos de terreno, se les aplican cuatro tipos de abonos y cuatro tipos de insecticidas. La asignación de los tratamientos a las plantas se realiza de forma aleatoria. Para controlar estas posibles fuentes de variabilidad se decide plantear un diseño por cuadrados greco-latinos.
Definimos las variables aleatorizadas:
rm(list = ls(all = TRUE))
datos_greco3 <- read.table("C:/Users/paula/Desktop/DE/greco3.txt", header = TRUE, dec=",")
datos_greco3
## Crecimiento Tipo_abono Tipo_semilla Tipo_insecticida Tipo_terreno
## 1 6 C beta Insecticida1 Terreno1
## 2 12 B alfa Insecticida2 Terreno1
## 3 13 A delta Insecticida3 Terreno1
## 4 13 D gamma Insecticida4 Terreno1
## 5 6 B gamma Insecticida1 Terreno2
## 6 10 C delta Insecticida2 Terreno2
## 7 16 D alfa Insecticida3 Terreno2
## 8 11 A beta Insecticida4 Terreno2
## 9 7 D delta Insecticida1 Terreno3
## 10 5 A gamma Insecticida2 Terreno3
## 11 5 B beta Insecticida3 Terreno3
## 12 7 C alfa Insecticida4 Terreno3
## 13 11 A alfa Insecticida1 Terreno4
## 14 11 D beta Insecticida2 Terreno4
## 15 8 C gamma Insecticida3 Terreno4
## 16 9 B delta Insecticida4 Terreno4
Ahora cambiamos la clase de los datos de las variedades y las condiciones experimentales a factores para poder realizar el diseño greco-latino:
datos_greco3$Tipo_abono <- as.factor(datos_greco3$Tipo_abono)
datos_greco3$Tipo_terreno <- as.factor(datos_greco3$Tipo_terreno)
datos_greco3$Tipo_semilla <- as.factor(datos_greco3$Tipo_terreno)
datos_greco3$Tipo_insecticida <- as.factor(datos_greco3$Tipo_insecticida)
Después realizamos la tabla ANOVA usando la funcion aov de la siguiente forma:
modelo_greco <- aov(Crecimiento~ Tipo_abono + Tipo_semilla + Tipo_insecticida + Tipo_terreno, data = datos_greco3)
modelo_greco
## Call:
## aov(formula = Crecimiento ~ Tipo_abono + Tipo_semilla + Tipo_insecticida +
## Tipo_terreno, data = datos_greco3)
##
## Terms:
## Tipo_abono Tipo_semilla Tipo_insecticida Residuals
## Sum of Squares 42.25 64.25 20.75 32.50
## Deg. of Freedom 3 3 3 6
##
## Residual standard error: 2.327373
## 3 out of 13 effects not estimable
## Estimated effects may be unbalanced
summary(modelo_greco)
## Df Sum Sq Mean Sq F value Pr(>F)
## Tipo_abono 3 42.25 14.083 2.600 0.1473
## Tipo_semilla 3 64.25 21.417 3.954 0.0716 .
## Tipo_insecticida 3 20.75 6.917 1.277 0.3642
## Residuals 6 32.50 5.417
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Para este experimento los efectos de todos los factores son significativos. Como el F valor en cada tratamiento de Tipo_abono (2.6), Tipo_semilla (3.954) y el Tipo_insecticida (1.277) es para cada p-valor el cual es de 0.14, 0.07 y 0.36 respectivamente. Con un nivel de significancia del 95% podemos decir que cada tratamiento arroja una respuesta diferente sobre el nivel de crecimiento de las plantas estudiadas.
La palabra bloque se refiere al hecho de que se ha agrupado a las unidades experimentales en función de alguna variable extraña; aleatorizado se refiere al hecho de que los tratamientos se asignan aleatoriamente dentro de los bloques; completo implica que se utiliza cada tratamiento exactamente una vez dentro de cada bloque y el término efectos fijos se aplica a bloques y tratamientos. Es decir, se supone que ni los bloques ni los tratamientos se eligen aleatoriamente. Además una caracterización de este diseño es que los efectos bloque y tratamiento son aditivos; es decir no hay interacción entre los bloques y los tratamientos.
Se realiza un estudio sobre el efecto del fotoperiodo y del genotipo en el periodo latente de infección del moho de cebada aislado AB3. Se obtienen cincuenta hojas de cuatro genotipos distintos. Cada grupo es infectado y posteriormente expuesto a diferente fotoperiodo. Los distintos fotoperiodos se trataron como bloques y se obtuvieron los siguientes datos de los totales para los bloques y tratamientos. La respuesta anotada es el número de días hasta la aparición de síntomas visibles.
Este modelo tiene que verificar los siguientes supuestos:
Variable respuesta: Número de días hasta la aparición de síntomas visibles
Factor: Genotipo que tiene cuatro niveles. Es un factor de efectos fijos ya que viene decidido qué niveles concretos se van a utilizar.
Bloque:* Fotoperiodo que tiene cinco niveles. Es un factor de efectos fijos ya que viene decidido qué niveles concretos se van a utilizar.
Modelo completo: Los cuatro tratamientos se prueban en cada bloque exactamente una vez.
Tamaño del experimento: Número total de observaciones (20).
Se introducen los datos del experimento en un bloc de notas y se cargan a continuación usando la función read.table:
dato_ejem <- read.table("C:/Users/paula/Desktop/DE/bloq_incom_alea.txt", header = TRUE); dato_ejem
## Dias Fotoperiodo Genotipo
## 1 630 1 1
## 2 640 1 2
## 3 640 1 3
## 4 660 1 4
## 5 610 2 1
## 6 630 2 2
## 7 630 2 3
## 8 660 2 4
## 9 560 3 1
## 10 600 3 2
## 11 650 3 3
## 12 620 3 4
## 13 570 4 1
## 14 620 4 2
## 15 620 4 3
## 16 610 4 4
## 17 590 5 1
## 18 620 5 2
## 19 580 5 3
## 20 630 5 4
Se plantea la hipótesis nula para el experimento:
Tratamientos
\[H_o: \tau_1 = \tau_2 = \tau_3 =...=\tau_i \]
Bloques
\[H_o: \beta_1 = \beta_2 = \beta_3 =...=\beta_i \]
Los datos de fotoperiodo y genotipo se cambian de clase a factores para que puedan ser usados en el análisis de varianza,
dato_ejem$Fotoperiodo = factor(dato_ejem$Fotoperiodo)
dato_ejem$Genotipo = factor(dato_ejem$Genotipo)
Realizamos el modelo estadístico en base al análisis de varianza
mod = aov(Dias ~ Fotoperiodo + Genotipo, data = dato_ejem)
Por último, se muestra un resumen de los datos presentados del análisis de varianza (Tabla ANOVA),
summary(mod)
## Df Sum Sq Mean Sq F value Pr(>F)
## Fotoperiodo 4 5030 1257.5 3.619 0.0371 *
## Genotipo 3 5255 1751.7 5.041 0.0173 *
## Residuals 12 4170 347.5
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
En la Tabla ANOVA, el valor del estadístico de contraste de igualdad de medias de tratamientos, F = 5.041 deja a su derecha un p-valor igual a 0.017, menor que el nivel de significación del 5%, por lo que se rechaza la Hipótesis nula de igualdad de medias de tratamientos. Es decir, existen diferencias significativas en el número de días hasta la aparición de la infección entre los cuatro genotipos.
En esta Tabla ANOVA, también se observa que el valor del estadístico de contraste de igualdad de medias de bloques, F = 3.619 deja a su derecha un p-valor igual a 0.037, menor que el nivel de significación del 5%, por lo que se rechaza la Hipótesis nula de igualdad de medias de bloques. Es decir, existen diferencias significativas en el número de días hasta la aparición de la infección entre los cinco tipos de fotoperiodos. Por lo tanto, se concluye que los niveles de ambos factores influyen de forma significativa en el número de días hasta la aparición de los síntomas de infección del moho.
El diseño de strip plot en particular esta adecuado para experimentos donde tengan dos factores. En estos análisis, la presición que se quiere obtener para medir el efecto de la interacción entre los dos factores es mayor que para medir el efecto principal de cualquiera de los dos factores. Para lograr esto se emplean los siguientes tamaños de parcela:
Hay que tener en cuenta que tanto el strip plot vertical como el horizontal siempre son perpendiculares entre sí. Sin embargo, en cuanto a sus tamaños no existe relación, en comparación del caso de la parcela principal y secundaria del diseño de parcela dividida.
En el diseño de strip plot, los niveles de un factor se asignan a parcelas de franjas en una dirección y los niveles del segundo factor a las franjas perpendiculares a la primera franja. Se realiza una aleatorización separada para cada bloque para cada factor A y B.
En base al ejemplo tomado del documento de la libreria agricolae; se quiere realizar un estudio en tres variedades del cultivo de trigo los cuales se les aplica 4 diferentes fertilizantes fosfatados. Se quiere saber los mejores niveles de rendimiento dependiendo en qué variedad fue aplicada y qué fertilizante se usó.
Hipótesis nula:
\[ H_o: \tau_1 = \tau_2 =\tau_{ij}...= \tau_i = 0 \]
En este caso \(\tau_{ij}\) hace referencia a la interacción de los dos tratamientos, es decir, de Fertilizante y Variedades.
Variable respuesta: Rendimiento del cultivo de trigo (Resultados)
Factor: Variedades de trigo, el cual tiene tres niveles (comun, kamut y cucus)
Bloque: Tipos de fertilizantes el cual tiene 4 niveles (F1, F2, F3 y F4)
Modelo completo: Las tres variedades probadas con los cuatro fertilizantes
Tamaño del experimento: Número total de observaciones (48)
Primero, definimos los dos factores del experimento, en este caso las variedades y los fertilizantes:
Variedades <-c("comun","kamut","cuscus")
Fertilizante <-c("F1","F2","F3","F4")
r <- 4 # número de repeticiones o bloques
strip_plot <- design.strip(Variedades,Fertilizante,r = 4, serie=2,seed=45,kinds ="Super-Duper")
book <- strip_plot$book
book <- cbind(book, "Resultados" = runif(48,6,12)) # asignación de datos aleatorizados al experimento
book
## plots block Variedades Fertilizante Resultados
## 1 101 1 cuscus F2 8.409961
## 2 102 1 cuscus F3 6.257269
## 3 103 1 cuscus F4 9.947710
## 4 104 1 cuscus F1 6.674594
## 5 105 1 comun F2 6.776402
## 6 106 1 comun F3 11.833193
## 7 107 1 comun F4 10.267095
## 8 108 1 comun F1 6.006805
## 9 109 1 kamut F2 10.380308
## 10 110 1 kamut F3 6.444450
## 11 111 1 kamut F4 9.412794
## 12 112 1 kamut F1 7.129461
## 13 201 2 kamut F3 8.783689
## 14 202 2 kamut F4 7.948670
## 15 203 2 kamut F2 6.275684
## 16 204 2 kamut F1 9.856967
## 17 205 2 cuscus F3 8.428726
## 18 206 2 cuscus F4 10.020877
## 19 207 2 cuscus F2 9.858567
## 20 208 2 cuscus F1 7.884084
## 21 209 2 comun F3 11.567291
## 22 210 2 comun F4 8.037868
## 23 211 2 comun F2 10.330321
## 24 212 2 comun F1 6.632095
## 25 301 3 comun F1 7.134105
## 26 302 3 comun F2 6.221634
## 27 303 3 comun F3 10.467722
## 28 304 3 comun F4 7.149191
## 29 305 3 kamut F1 6.935182
## 30 306 3 kamut F2 8.711153
## 31 307 3 kamut F3 7.630981
## 32 308 3 kamut F4 9.064709
## 33 309 3 cuscus F1 10.333519
## 34 310 3 cuscus F2 11.255870
## 35 311 3 cuscus F3 8.248108
## 36 312 3 cuscus F4 9.545971
## 37 401 4 comun F1 7.632916
## 38 402 4 comun F3 8.267975
## 39 403 4 comun F2 10.010635
## 40 404 4 comun F4 11.704303
## 41 405 4 cuscus F1 6.762804
## 42 406 4 cuscus F3 8.161947
## 43 407 4 cuscus F2 7.522832
## 44 408 4 cuscus F4 8.820738
## 45 409 4 kamut F1 9.415768
## 46 410 4 kamut F3 8.382967
## 47 411 4 kamut F2 10.673800
## 48 412 4 kamut F4 8.666932
str(book)
## 'data.frame': 48 obs. of 5 variables:
## $ plots : num 101 102 103 104 105 106 107 108 109 110 ...
## $ block : Factor w/ 4 levels "1","2","3","4": 1 1 1 1 1 1 1 1 1 1 ...
## $ Variedades : Factor w/ 3 levels "comun","cuscus",..: 2 2 2 2 1 1 1 1 3 3 ...
## $ Fertilizante: Factor w/ 4 levels "F1","F2","F3",..: 2 3 4 1 2 3 4 1 2 3 ...
## $ Resultados : num 8.41 6.26 9.95 6.67 6.78 ...
dataf_trigo <- data.frame(book$block, Variedades, Fertilizante, book$Resultados)
dataf_trigo$block <- as.integer(book$block)
dataf_trigo$Variedades <- as.factor(dataf_trigo$Variedades)
dataf_trigo$Fertilizante <- as.factor(dataf_trigo$Fertilizante)
dataf_trigo
## book.block Variedades Fertilizante book.Resultados block
## 1 1 comun F1 8.409961 1
## 2 1 kamut F2 6.257269 1
## 3 1 cuscus F3 9.947710 1
## 4 1 comun F4 6.674594 1
## 5 1 kamut F1 6.776402 1
## 6 1 cuscus F2 11.833193 1
## 7 1 comun F3 10.267095 1
## 8 1 kamut F4 6.006805 1
## 9 1 cuscus F1 10.380308 1
## 10 1 comun F2 6.444450 1
## 11 1 kamut F3 9.412794 1
## 12 1 cuscus F4 7.129461 1
## 13 2 comun F1 8.783689 2
## 14 2 kamut F2 7.948670 2
## 15 2 cuscus F3 6.275684 2
## 16 2 comun F4 9.856967 2
## 17 2 kamut F1 8.428726 2
## 18 2 cuscus F2 10.020877 2
## 19 2 comun F3 9.858567 2
## 20 2 kamut F4 7.884084 2
## 21 2 cuscus F1 11.567291 2
## 22 2 comun F2 8.037868 2
## 23 2 kamut F3 10.330321 2
## 24 2 cuscus F4 6.632095 2
## 25 3 comun F1 7.134105 3
## 26 3 kamut F2 6.221634 3
## 27 3 cuscus F3 10.467722 3
## 28 3 comun F4 7.149191 3
## 29 3 kamut F1 6.935182 3
## 30 3 cuscus F2 8.711153 3
## 31 3 comun F3 7.630981 3
## 32 3 kamut F4 9.064709 3
## 33 3 cuscus F1 10.333519 3
## 34 3 comun F2 11.255870 3
## 35 3 kamut F3 8.248108 3
## 36 3 cuscus F4 9.545971 3
## 37 4 comun F1 7.632916 4
## 38 4 kamut F2 8.267975 4
## 39 4 cuscus F3 10.010635 4
## 40 4 comun F4 11.704303 4
## 41 4 kamut F1 6.762804 4
## 42 4 cuscus F2 8.161947 4
## 43 4 comun F3 7.522832 4
## 44 4 kamut F4 8.820738 4
## 45 4 cuscus F1 9.415768 4
## 46 4 comun F2 8.382967 4
## 47 4 kamut F3 10.673800 4
## 48 4 cuscus F4 8.666932 4
model = with(dataf_trigo, strip.plot(book$block, Variedades, Fertilizante, book.Resultados))
##
## ANALYSIS STRIP PLOT: book.Resultados
## Class level information
##
## Variedades : comun kamut cuscus
## Fertilizante : F1 F2 F3 F4
## book$block : 1 2 3 4
##
## Number of observations: 48
##
## model Y: book.Resultados ~ book$block + Variedades + Ea + Fertilizante + Eb + Fertilizante:Variedades + Ec
##
## Analysis of Variance Table
##
## Response: book.Resultados
## Df Sum Sq Mean Sq F value Pr(>F)
## book$block 3 2.267 0.7557 0.3126 0.81600
## Variedades 2 13.999 6.9995 3.4750 0.09946 .
## Ea 6 12.086 2.0143 0.8333 0.55979
## Fertilizante 3 6.235 2.0783 0.8960 0.47997
## Eb 9 20.876 2.3195 0.9596 0.50198
## Fertilizante:Variedades 6 24.430 4.0716 1.6845 0.18218
## Ec 18 43.507 2.4171
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## cv(a) = 16.5 %, cv(b) = 17.7 %, cv(c) = 18 %, Mean = 8.622638
El rendimiento se ve afectado significativamente por los efectos principales y de interacción. Debido a que el F valor de cada tratamiento (variedades y fertilizante) en ambos casos supera los valores del p-valor. Así mismo, el F valor de la interacción de Fertilizante:Variedades supera el p-valor, lo que quiere decir que por todos los medios se rechaza la hipótesis nula.
El diseño split plot o también conocido como diseño en parcelas divididas usualmente es empleado para experimentos factoriales los cuales pueden incorporar uno o más de los diseños de bloques completamente aleatorizados, completamentente aleatorizados y cuadrados latinos. El principio de este diseño es la existencia de parcelas enteras o unidades completas a las cuales se les aplican los niveles de uno o más factores. Dado esto, cada parcela completa entonces se convierte en un bloque para los tratamientos de subparcela.
También cabe resaltar de este diseño que, existen factores los cuales no se pueden variar facilmente los cuales son llamados como factores de parcela completa, por otro lado, los factores que sí se pueden variar facilmente se les denomina factores de subparcela.
Un investigador está interesado en comparar 2 variedades de arroz y tres edades de plántulas (2S, 3S y 4S ). Se realizó un experimento en un diseño completamente al azar con 3 repeticiones mientras las variedades se mantuvieron en la parcela principal y la edad de las plántulas en las subparcelas. La variable de respuesta se registró como el tiempo en días desde el nacimiento hasta la madurez de las plantas de arroz.
Variable respuesta: Número de días desde el nacimiento hasta la madurez de las plantas de arroz
Factor: Variedad de arroz, el cual tiene dos niveles (redondo y rojo)
Bloque: Edades de las plántulas (2S, 3S, 4S)
Modelo completo: Las dos variedades de prueba con cada edad
Tamaño del experimento: Número total de observaciones (24)
Edad <-c("2S","3S","4S")
Variedades_pl <- c("redondo","rojo")
outdesign <- design.split(Edad, Variedades_pl, r=4,serie=2,seed=1,kinds ="Super-Duper")
book_age <- outdesign$book
book_age <- cbind(book_age, "Resultados" = runif(24,50,100))
book_age
## plots splots block Edad Variedades_pl Resultados
## 1 101 1 1 2S redondo 75.52068
## 2 101 2 1 2S rojo 91.09491
## 3 102 1 1 3S rojo 67.11741
## 4 102 2 1 3S redondo 79.30464
## 5 103 1 1 4S rojo 50.30312
## 6 103 2 1 4S redondo 67.74146
## 7 104 1 2 4S redondo 96.65829
## 8 104 2 2 4S rojo 82.90694
## 9 105 1 2 3S rojo 71.98988
## 10 105 2 2 3S redondo 89.81461
## 11 106 1 2 2S rojo 67.20276
## 12 106 2 2 2S redondo 80.47933
## 13 107 1 3 2S redondo 62.23045
## 14 107 2 3 2S rojo 66.71630
## 15 108 1 3 3S redondo 52.04073
## 16 108 2 3 3S rojo 51.70962
## 17 109 1 3 4S redondo 76.19903
## 18 109 2 3 4S rojo 72.33821
## 19 110 1 4 3S redondo 93.46248
## 20 110 2 4 3S rojo 97.15374
## 21 111 1 4 4S rojo 51.09560
## 22 111 2 4 4S redondo 78.46897
## 23 112 1 4 2S redondo 88.50975
## 24 112 2 4 2S rojo 57.76103
Para poder realizar el análisis de varianza con la función sp.plot pasamos las Variedades a factores y los datos de bloques y los resultados a valores enteros:
book_age$Variedades_pl <- as.factor(book_age$Variedades_pl)
book_age$block <- as.integer(book_age$block)
book_age$Resultados <- as.integer(book_age$Resultados)
str(book_age)
## 'data.frame': 24 obs. of 6 variables:
## $ plots : num 101 101 102 102 103 103 104 104 105 105 ...
## $ splots : Factor w/ 2 levels "1","2": 1 2 1 2 1 2 1 2 1 2 ...
## $ block : int 1 1 1 1 1 1 2 2 2 2 ...
## $ Edad : Factor w/ 3 levels "2S","3S","4S": 1 1 2 2 3 3 3 3 2 2 ...
## $ Variedades_pl: Factor w/ 2 levels "redondo","rojo": 1 2 2 1 2 1 1 2 2 1 ...
## $ Resultados : int 75 91 67 79 50 67 96 82 71 89 ...
dataf_split <- data.frame(Edad, book_age$Variedades_pl, book_age$Resultados, book_age$block)
dataf_split
## Edad book_age.Variedades_pl book_age.Resultados book_age.block
## 1 2S redondo 75 1
## 2 3S rojo 91 1
## 3 4S rojo 67 1
## 4 2S redondo 79 1
## 5 3S rojo 50 1
## 6 4S redondo 67 1
## 7 2S redondo 96 2
## 8 3S rojo 82 2
## 9 4S rojo 71 2
## 10 2S redondo 89 2
## 11 3S rojo 67 2
## 12 4S redondo 80 2
## 13 2S redondo 62 3
## 14 3S rojo 66 3
## 15 4S redondo 52 3
## 16 2S rojo 51 3
## 17 3S redondo 76 3
## 18 4S rojo 72 3
## 19 2S redondo 93 4
## 20 3S rojo 97 4
## 21 4S rojo 51 4
## 22 2S redondo 78 4
## 23 3S redondo 88 4
## 24 4S rojo 57 4
Realizamos el diseño de split plot en este experimento con la función de la librería agricolae sp.plot
modelo_split <- with(dataf_split, sp.plot(book_age$block, book_age$Variedades_pl, Edad, book_age$Resultados))
##
## ANALYSIS SPLIT PLOT: book_age$Resultados
## Class level information
##
## book_age$Variedades_pl : redondo rojo
## Edad : 2S 3S 4S
## book_age$block : 1 2 3 4
##
## Number of observations: 24
##
## Analysis of Variance Table
##
## Response: book_age$Resultados
## Df Sum Sq Mean Sq F value Pr(>F)
## book_age$block 3 1073.46 357.82 3.6280 0.1590
## book_age$Variedades_pl 1 532.04 532.04 5.3945 0.1028
## Ea 3 295.88 98.63
## Edad 2 764.42 382.21 2.2775 0.1450
## book_age$Variedades_pl:Edad 2 310.33 155.17 0.9246 0.4232
## Eb 12 2013.82 167.82
##
## cv(a) = 13.6 %, cv(b) = 17.7 %, Mean = 73.20833
La tabla de análisis de varianza mostró que ambos efectos principales (Variedades_pl y Edad) afectaron significativamente el tiempo transcurrido desde el espigado hasta la madurez del arroz. La interacción no fue significativa con respecto a los días desde el inicio hasta la madurez. En este caso se recomienda una mayor población de las plantas para determinar si el coeficiente de variación es significativo al evaluar la variable respuesta, es decir, el número de días.
El diseño en cuadrado latino se tiene que verificar que los tres factores tengan el mismo número de niveles, es decir que hay el mismo número de filas, de columnas y de letras latinas. Sin embargo, puede suceder que el número de niveles disponibles de uno de los factores de control sea menor que el número de tratamientos, en este caso estaríamos ante un diseño en cuadrado latino incompleto. Estos diseños fueron estudiados por W.J. Youden y se conocen con el nombre de cuadrados de Youden. Un cuadrado de Youden podemos considerarlo como un cuadrado latino al que le falta al menos una columna. Sin embargo, un cuadrado latino no se convierte en un cuadrado de Youden eliminando arbitrariamente más de una columna. Un cuadrado de Youden se puede considerar como un diseño en bloques incompletos balanceado y simétrico en el que las filas corresponden a los bloques. Un cuadrado de Youden es un diseño en bloques incompletos balanceado y simétrico en el que:
Consideremos de nuevo el experimento sobre el rendimiento de un proceso químico en el que se está interesado en estudiar seis tiempos de reposo, A, B, C, D, E y F y se desea eliminar estadísticamente el efecto de los lotes materia prima y de las concentraciones de ácido distintas. Pero supongamos que sólo se dispone de cinco tipos de concentraciones. Para analizar este experimento se decidió utilizar un cuadrado de Youden con seis filas (los lotes de materia prima), cinco columnas (las distintas concentraciones) y seis letras latinas (los tiempos de reposo).
Observaciones: Nombre de la columna de las observaciones. (Variable respuesta)
Lote: Nombre de la columna en la que están representados los tratamientos. (Bloque)
Concentraciones: Nombre de la columna en la que está representado el primer factor bloque. (Bloque)
Tiempo_de_reposo:* Nombre de la columna en la que está representado el segundo factor bloque. (Factor)
datos_youden = data.frame en el que se guardarán los datos.
Los datos correspondientes se muestran en la siguiente tabla.
datos_youden <- read.table("C:/Users/paula/Desktop/DE/youden.txt", header = TRUE)
datos_youden
## Observaciones Lote Concentraciones Tiempo_de_reposo
## 1 12 Lote1 1 A
## 2 24 Lote1 2 B
## 3 10 Lote1 3 C
## 4 18 Lote1 4 D
## 5 21 Lote1 5 E
## 6 21 Lote2 1 B
## 7 26 Lote2 2 C
## 8 24 Lote2 3 D
## 9 16 Lote2 4 E
## 10 20 Lote2 5 F
## 11 20 Lote3 1 C
## 12 16 Lote3 2 D
## 13 19 Lote3 3 E
## 14 18 Lote3 4 F
## 15 16 Lote3 5 A
## 16 22 Lote4 1 D
## 17 15 Lote4 2 E
## 18 14 Lote4 3 F
## 19 19 Lote4 4 A
## 20 27 Lote4 5 B
## 21 15 Lote5 1 E
## 22 13 Lote5 2 F
## 23 17 Lote5 3 A
## 24 25 Lote5 4 B
## 25 21 Lote5 5 C
## 26 17 Lote6 1 F
## 27 11 Lote6 2 A
## 28 12 Lote6 3 B
## 29 22 Lote6 4 C
## 30 14 Lote6 5 D
Pasamos los valores de la tabla cargada a factores:
datos_youden$Lote <- as.factor(datos_youden$Lote)
datos_youden$Concentraciones <- as.factor(datos_youden$Concentraciones)
datos_youden$Tiempo_de_reposo <- as.factor(datos_youden$Tiempo_de_reposo)
Como ya se tienen los datos necesarios en factores, lo siguiente será realizar la tabla ANOVA, es decir el análisis de varianza del problema usando el modelo estadístico correspondiente:
ANOVA_youden <- aov(Observaciones~ Tiempo_de_reposo + Lote + Concentraciones, data = datos_youden)
ANOVA_youden
## Call:
## aov(formula = Observaciones ~ Tiempo_de_reposo + Lote + Concentraciones,
## data = datos_youden)
##
## Terms:
## Tiempo_de_reposo Lote Concentraciones Residuals
## Sum of Squares 151.76667 112.73333 61.66667 282.00000
## Deg. of Freedom 5 5 4 15
##
## Residual standard error: 4.335897
## Estimated effects may be unbalanced
summary(ANOVA_youden)
## Df Sum Sq Mean Sq F value Pr(>F)
## Tiempo_de_reposo 5 151.77 30.35 1.615 0.216
## Lote 5 112.73 22.55 1.199 0.356
## Concentraciones 4 61.67 15.42 0.820 0.532
## Residuals 15 282.00 18.80
El p-valor, 0.532, es mayor que el nivel de significación del 5%, deducimos que el factor principal: Concentraciones no es significativo.
Factor Bloque: Lotes.
Para evaluar el efecto del primero de los bloques, la suma de cuadrados de bloques debe ajustarse por los tratamientos, por lo tanto primero se introducen los tratamientos y después los bloques:
ANOVA_youden2 <- aov(Observaciones~ Concentraciones + Tiempo_de_reposo + Lote, data = datos_youden)
ANOVA_youden2
## Call:
## aov(formula = Observaciones ~ Concentraciones + Tiempo_de_reposo +
## Lote, data = datos_youden)
##
## Terms:
## Concentraciones Tiempo_de_reposo Lote Residuals
## Sum of Squares 61.66667 151.76667 112.73333 282.00000
## Deg. of Freedom 4 5 5 15
##
## Residual standard error: 4.335897
## Estimated effects may be unbalanced
summary(ANOVA_youden2)
## Df Sum Sq Mean Sq F value Pr(>F)
## Concentraciones 4 61.67 15.42 0.820 0.532
## Tiempo_de_reposo 5 151.77 30.35 1.615 0.216
## Lote 5 112.73 22.55 1.199 0.356
## Residuals 15 282.00 18.80
El p-valor, 0.356, es mayor que el nivel de significación del 5%, deducimos que el Factor Bloque: Lotes no es significativo.
Factor Bloque: Tiempo_de_reposo
Para evaluar el efecto del segundo bloque, la suma de cuadrados de bloques debe ajustarse también por los tratamientos, por lo tanto primero se introducen los tratamientos y después los bloques:
ANOVA_youden3 <- aov(Observaciones~ Concentraciones + Lote +Tiempo_de_reposo , data = datos_youden )
ANOVA_youden3
## Call:
## aov(formula = Observaciones ~ Concentraciones + Lote + Tiempo_de_reposo,
## data = datos_youden)
##
## Terms:
## Concentraciones Lote Tiempo_de_reposo Residuals
## Sum of Squares 61.66667 111.36667 153.13333 282.00000
## Deg. of Freedom 4 5 5 15
##
## Residual standard error: 4.335897
## Estimated effects may be unbalanced
summary(ANOVA_youden3)
## Df Sum Sq Mean Sq F value Pr(>F)
## Concentraciones 4 61.67 15.42 0.820 0.532
## Lote 5 111.37 22.27 1.185 0.362
## Tiempo_de_reposo 5 153.13 30.63 1.629 0.213
## Residuals 15 282.00 18.80
El p-valor es 0.213; mayor que el nivel de significación del 5%, deducimos que el Factor Bloque: Tiempo_de_reposo no es significativo.