Diseño en bloques completamente aleatorizado

El diseño de bloques completamente (DBCA) tiene como objetivo principal determinar si existen diferencias entre tratamientos. Cada tratamiento se aplica a diferentes unidades experimentales (UE) dentro de cada bloque.

En muchos trabajos de tipo experimental, el DBCA es más ventajoso que el DCA, ya que el objetivo de este DBCA es aislar y eliminar del término de error la variación atribuible a los bloques, con el fin de asegurar que las mediciones hechas sobre las UE que reciben un determinado tratamiento estén libres de los efectos del bloque.

Modelo Lineal DBCA

\[ y_{ij} = \mu + \tau_i + \beta_j + e_{ij} \]

donde \(i = 1, \dots, t\) es el número de tratamientos, \(j = 1, \dots, b\) es el número de bloques.

La contribución de los bloques puede ser considerada como fija o aleatoria. El error se asume iid \(N(0, \sigma^2)\).

Ejemplo: 7 expertos califican el sabor de un vino (1: muy malo. 11: muy bueno) a tres horas del día. Los expertos no saben que es el mismo vino.

Expertos Mañana Tarde Noche
1 9 5 2
2 6 3 1
3 5 5 5
4 11 11 1
5 8 8 3
6 10 10 1
7 7 7 4

\[ y_{ij} = \mu + \tau_i + \beta_j + e_{ij} \]

donde \(i = 1, \dots, 3\) , \(j = 1, \dots, 7\).

\(y_{ijk}\): Calificación otorgada al vino, evaluado por el \(j\)-ésimo experto (o calificador), que recibió el \(i\)-ésimo tratamiento (momento del día en que se prueba el vino).

En este ejemplo, los calificadores actuarán como bloques. A menudo, se trata de expertos con autoridad para evaluar, y su juicio puede introducir variabilidad en los resultados del experimento. Por ejemplo, en este caso, cada persona que califica el vino puede percibirlo de manera diferente, generando una fuente de variación que debe controlarse. Por esta razón, se considera apropiado tratarlos como bloques. Por otro lado, los tratamientos estarán representados por el momento del día en que se prueba el vino (mañana, tarde y noche).

datos <- data.frame(
  Participante = 1:7,
  Mañana  = c(9, 6, 5, 11, 8, 10, 7),
  Tarde   = c(5, 3, 5, 11, 8, 10, 7),
  Noche   = c(2, 1, 5, 1, 3, 1, 4)
)

datos_largo <- reshape(
  datos,
  varying = c("Mañana", "Tarde", "Noche"),
  v.names = "Puntaje",
  timevar = "Horario",
  times = c("Mañana", "Tarde", "Noche"),
  idvar = "Participante",
  direction = "long"
)

datos_largo <- datos_largo[, c("Participante", "Horario", "Puntaje")]

modelo <- aov(Puntaje ~ Horario + Participante, data = datos_largo)
summary(modelo)
##              Df Sum Sq Mean Sq F value   Pr(>F)    
## Horario       2 123.52   61.76  12.879 0.000394 ***
## Participante  1  12.19   12.19   2.542 0.129272    
## Residuals    17  81.52    4.80                     
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Validación de supuestos

Varianza constante

Hipótesis de la prueba de Levene:

\[ \begin{aligned} H_0\!:\! & \quad \sigma^2_1 = \sigma^2_2 = \dots = \sigma^2_k \quad \text{(Las varianzas de los grupos son iguales)} \\\\ H_1\!:\! & \quad \exists\, i, j \text{ tal que } \sigma^2_i \neq \sigma^2_j \quad \text{(Al menos una varianza es diferente)} \end{aligned} \]

## Levene's Test for Homogeneity of Variance (center = mean)
##       Df F value Pr(>F)
## group  2  1.1812 0.3296
##       18
## Levene's Test for Homogeneity of Variance (center = median)
##       Df F value Pr(>F)
## group  2  1.2065 0.3223
##       18
Normalidad

Hipótesis de las pruebas de normalidad (Shapiro-Wilk, Anderson-Darling, Lilliefors, etc.):

\[ \begin{aligned} H_0\!:\! & \quad \text{Los datos provienen de una distribución normal} \\\\ H_1\!:\! & \quad \text{Los datos no provienen de una distribución normal} \end{aligned} \]

Resultados de pruebas de normalidad sobre los residuos del modelo
Prueba Estadístico Valor_p
Shapiro-Wilk 0.9652 0.6266
Jarque-Bera 1.0736 0.5846
Anderson-Darling 0.2748 0.6251
Cramér-von Mises 0.0425 0.6175
Lilliefors (Kolmogorov-Smirnov) 0.1056 0.7834
## Warning in replications(paste("~", xx), data = mf): non-factors ignored:
## Participante
Resultados del test de Tukey para comparaciones múltiples entre horarios
Comparación Diferencia Límite inferior Límite superior Valor-p ¿Diferencia significativa?
Noche-Mañana Noche-Mañana -5.5714 -8.5743 -2.5686 0.0005
Tarde-Mañana Tarde-Mañana -1.0000 -4.0028 2.0028 0.6753 No
Tarde-Noche Tarde-Noche 4.5714 1.5686 7.5743 0.0031

Eficiencia relativa del DCA respecto al DBCA

Modelo Lineal DCA

\[ y_{ij} = \mu + \tau_i + e_{ij} \] donde \(i = 1, \dots, t\) es el número de tratamientos, \(j = 1, \dots, k\) es el número de replicaciones.

El error se asume iid \(N(0, \sigma^2)\).

La eficiencia relativa (\(ER\)) del DCA con respecto al DBCA es:

\[ ER = \frac{CME_{DCA}}{CME_{DBCA}} \]

La varianza esperada del error en un DCA, si se ignoraran los bloques, se estima como:

\[ CME_{DCA} = \frac{(b - 1)CM_{Bloq} + (t - 1)(b - 1)CME_{DBCA}}{t(b - 1)} \]

\[ ER = \frac{CME_{DCA}}{CME_{DBCA}} = \frac{ \frac{1\times12.19 +17 \times4.80}{18}}{4.80} = 1.0854 \]

Ya que la eficiencia relativa es mayor a 1, el uso de bloques (es decir, controlar la variabilidad entre participantes) mejoró la precisión del experimento al reducir la variabilidad no explicada por los tratamientos.

Enfoque no paramétrico

Ejemplo: 10 estudiantes son evaluados bajo tres métodos distintos. Los puntajes obtenidos por cada estudiante se muestran a continuación:

Estudiante Método A Método B Método C
1 3 3 3
2 2 2 3
3 4 1 5
4 0 1 4
5 0 1 4
6 1 3 5
7 1 5 5
8 0 2 5
9 9 2 0
10 0 13 2
set.seed(123)
datos2 <- data.frame(
  Estudiante = 1:10,
  Metodo_A = round(rexp(10, rate = 0.3)),
  Metodo_B = round(rexp(10, rate = 0.3)),
  Metodo_C = round(rexp(10, rate = 0.3))
)

datos_largo_2 <- reshape(
  datos2,
  varying = list(c("Metodo_A", "Metodo_B", "Metodo_C")),
  v.names = "Puntaje",
  timevar = "Metodo",
  times = c("A", "B", "C"),
  direction = "long"
)

datos_largo_2 <- datos_largo_2[, c("Estudiante", "Metodo", "Puntaje")]

modelo_2 <- aov(Puntaje ~ Metodo + Estudiante, data = datos_largo_2)
summary(modelo_2)
##             Df Sum Sq Mean Sq F value Pr(>F)
## Metodo       2  14.47   7.233   0.911  0.415
## Estudiante   1   8.00   8.001   1.007  0.325
## Residuals   26 206.50   7.942

Validación de supuestos

Varianza constante

######## Hipótesis de la prueba de Levene:

\[ \begin{aligned} H_0\!:\! & \quad \sigma^2_1 = \sigma^2_2 = \dots = \sigma^2_k \quad \text{(Las varianzas de los grupos son iguales)} \\\\ H_1\!:\! & \quad \exists\, i, j \text{ tal que } \sigma^2_i \neq \sigma^2_j \quad \text{(Al menos una varianza es diferente)} \end{aligned} \]

## Levene's Test for Homogeneity of Variance (center = mean)
##       Df F value Pr(>F)
## group  2   0.677 0.5165
##       27
## Levene's Test for Homogeneity of Variance (center = median)
##       Df F value Pr(>F)
## group  2  0.2417  0.787
##       27

Normalidad

Hipótesis de las pruebas de normalidad (Shapiro-Wilk, Anderson-Darling, Lilliefors, etc.):

\[ \begin{aligned} H_0\!:\! & \quad \text{Los datos provienen de una distribución normal} \\\\ H_1\!:\! & \quad \text{Los datos no provienen de una distribución normal} \end{aligned} \]

Resultados de pruebas de normalidad sobre los residuos del modelo
Prueba Estadístico Valor_p
Shapiro-Wilk 0.8677 0.0015
Jarque-Bera 22.5469 0.0000
Anderson-Darling 1.0855 0.0064
Cramér-von Mises 0.1450 0.0258
Lilliefors (Kolmogorov-Smirnov) 0.1441 0.1152

Prueba

## 
##  Friedman rank sum test
## 
## data:  Puntaje and Metodo and Estudiante
## Friedman chi-squared = 7.1176, df = 2, p-value = 0.02847
Resultados del test de Nemenyi (comparaciones múltiples)
Comparación Valor.p Conclusión
A vs B 0.435 No significativa
A vs C 0.037 Diferencia significativa
B vs C 0.435 No significativa