Diseño de bloques completos al azar- ANOVA

Docente: Delio SALGADO.

2024-04-01

Diseño de bloques completos al azar

Cuando se quieren comparar ciertos tratamientos o estudiar el efecto de un factor, es deseable que las posibles diferencias se deban principalmente al factor de interés y no a otros factores que no se consideran en el estudio. Cuando esto no ocurre y existen otros factores que no se controlan o nulifican para hacer la comparación, las conclusiones podrían ser afectadas sensiblemente. Por ejemplo, supongamos que se quieren comparar varias máquinas, si cada máquina es manejada por un operador diferente y se sabe que éste tiene una influencia en el resultado, entonces es claro que el factor operador debe tomarse en cuenta si se quiere comparar a las máquinas de manera justa. Un operador más hábil puede hacer ver a su máquina (aunque ésta sea la peor) como la que tiene el mejor desempeño, lo cual impide hacer una comparación adecuada de los equipos. Para evitar este sesgo hay dos maneras de anular el posible efecto del factor operador: la manera lógica es utilizar el mismo operador en las cuatro máquinas; sin embargo, tal estrategia no siempre es aconsejable, ya que utilizar al mismo sujeto elimina el efecto del factor operador pero restringe la validez de la comparación con dicho operador, y es posible que el resultado no se mantenga al utilizar a otros operadores. La otra forma de anular el efecto operador en la comparación consiste en que cada operador trabaje durante el experimento con cada una de las máquinas. Esta estrategia es la más recomendable, ya que utilizar a todos los operadores con todas las máquinas permite tener resultados de la comparación que son válidos para todos los operadores. Esta última forma de nulificar el efecto de operadores, recibe el nombre de bloqueo.

A los factores adicionales al factor de interés que se incorporan de manera explícita en un experimento comparativo se les llama factores de bloque. Éstos tienen la particularidad de que no se incluyen en el experimento porque interese analizar su efecto, sino como un medio para estudiar de manera adecuada y eficaz al factor de interés. Los factores de bloque entran al estudio en un nivel de importancia secundaria con respecto al factor de interés y, en este sentido, se puede afirmar que se estudia un solo factor, porque es uno el factor de interés. Por ejemplo, en el caso de comparar cuatro máquinas que son manejadas por cuatro operadores, es pertinente incluir explícitamente al factor operadores (bloques) para lograr el propósito del estudio, pero esta inclusión no es con el fin de estudiar el efecto del factor operador (o comparar a los operadores). Más bien, la inclusión de los operadores es un medio y no un fin para lograr una comparación adecuada y eficaz de las máquinas.

En un Diseño de bloques completos al azar (DBCA) se consideran tres fuentes de variabilidad:

  • Factor de tratamientos.
  • Factor de bloques.
  • Error aleatorio.

La palabra completo en el nombre del diseño se debe a que cada bloque se prueba en todos los tratamientos, los bloques están completos. La aleatoriazación se hace dentro de cada bloque.

El hecho de que existan bloques hace que no sea práctico o que incluso sea imposible aleatorizar en su totalidad. Los factores de bloqueo que aparecen en la práctica son: turno, lote, día, tipo de material, línea de producción, operador, máquina, método, etc. La imposibilidad de aleatorizar de bloque a bloque se aprecia claramente cuando se bloquean factores como día o turno, ya que no tiene sentido pensar en seleccionar al azar el orden de los días o los turnos porque es imposible regresar el tiempo.

Situación inicial

Un equipo de mejora investiga el efecto de cuatro métodos de ensamble A, B, C y D, sobre el tiempo de ensamble en minutos. Se va a controlar activamente en el experimento a los operadores que realizarán el ensamble .Los tiempos de ensamble obtenidos se muestran a continuación:

Operadores
Tratamientos 1 2 3 4
A 6 9 7 8
B 7 10 11 8
C 10 16 11 14
D 10 13 11 9

Generalización del experimento y notación usada.

Para el diseño de experimentos de bloques completos al azar tenemos la siguiente tabla general:

\(Tratamiento\) \(1\) \(2\) \(3\) \(...\) \(b\) \(Totales\) \(Promedio\)
\(1\) \(y_{11}\) \(y_{12}\) \(y_{13}\) \(...\) \(y_{1b}\) \(y_{1.}\) \(\bar{y_{1.}}\)
\(2\) \(y_{21}\) \(y_{22}\) \(y_{23}\) \(...\) \(y_{2b}\) \(y_{2.}\) \(\bar{y_{2.}}\)
\(3\) \(y_{31}\) \(y_{32}\) \(y_{33}\) \(...\) \(y_{3b}\) \(y_{3.}\) \(\bar{y_{3.}}\)
\(...\) \(...\) \(...\) \(...\) \(...\) \(...\) \(...\) \(...\)
\(a\) \(y_{a1}\) \(y_{a2}\) \(y_{a3}\) \(...\) \(y_{ab}\) \(y_{a.}\) \(\bar{y_{a.}}\)
\(Totales\) \(y_{.1}\) \(y_{.2}\) \(y_{.3}\) \(...\) \(y_{.b}\) \(y_{..}\) NA
\(Promedio\) \(\bar{y_{.1}}\) \(\bar{y_{.2}}\) \(\bar{y_{.3}}\) \(...\) \(\bar{y_{.b}}\) NA \(\bar{y_{..}}\)

Para la anterior tabla tenemos lo siguiente:

  • \(a\) tratamientos, es decir, \(i=1,2,...,a\)
  • \(b\) bloques, es decir, \(j=1,2,...,b\)
  • \(N\) cantidad total de observaciones, \(N=a*b\)

Suma de observaciones para \(tratamiento~i\)

Los totales por tratamiento \(y_{i.}\) se calculan de la siguiente manera

\[y_{i.}= \sum_{j=1}^b y_{ij}\]

Media de las observaciones del \(i-ésimo\) tratamiento

\[\bar{y_{i.}}=\frac{\sum_{j=1}^b y_{ij}}{b}\]

Suma de observaciones para \(bloque~j\)

\[y_{.j}= \sum_{i=1}^a y_{ij}\]

Media de las observaciones del \(j-ésimo\) bloque

\[\bar{y_{.j}}=\frac{\sum_{i=1}^a y_{ij}}{a}\]

Suma total de las \(N\) observaciones

\[y_{..}=\sum_{i=1}^a \sum_{j=1}^b y_{ij}=\sum_{i=1}^a y{i.} = \sum_{j=1}^b y_{.j}\]

Promedio de todas las \(N\) observaciones

\[\bar{y_{..}}=\frac{y_{..}}{N}\]

Modelo de datos

Aunque el modelo estadístico se puede expresar de distintas maneras, suele utilizarse el modelo de los efectos:

\[y_{ij}=u+\tau_i+\beta_j+\epsilon_{ij} \\ i=1,2,..,a \\ j=1,2,..,b\]

Donde:

  • \(\mu:~media~global\)
  • \(\tau_i: efecto~del~i-ésimo~tratamiento\)
  • \(\beta_j: efecto~del~j-ésimo~bloque\)
  • \(\epsilon_{ij}:~error~aleatorio\)

Análisis de varianza ANOVA

1. Planteamiento de hipótesis

Las hipótesis para una diseño de experimentos de bloques completamente al azar son los siguientes:

1.1 Hipótesis basadas en las medias.

\[H_0: \mu_1 =\mu_2=...=\mu_a \\ H_1: \mu_i \neq \mu_j, ~para~al~menos~un~par ~(i,j)~con~ i\neq j\]

1.2 Hipótesis basadas en los efectos.

\[H_0: \tau_1=\tau_2=...=\tau_a=0 \\ H_1: \tau_i \neq 0,~para~al~menos~un~i \]

2. Cálculo de sumas de cuadrados \(SS\)

Los cálculos para las sumas de cuadrados son los siguientes:

\[SS_{tratamientos}=\frac{1}{b} \left[\sum_{i=1}^a y_{i.}^2 \right] - \frac {y_{..}^2}{N}\]

\[SS_{bloques} = \frac{1}{a} \left[ \sum_{j=1}^b y_{.j}^2 \right]- \frac{y_{..}^2}{N}\]

\[SS_{total}= \left[ \sum_{i=1}^a \sum_{j=1}^b y_{ij}^2 \right] - \frac{y_{..}^2}{N}\]

\[SS_{total}=SS_{tratamientos}+SS_{bloques}+SS_{error}\]

3. Cálculo de los grados de libertad \(GL\)

\[GL_{tratamientos}=a-1\]

\[GL_{bloques} = b-1\]

\[GL_{error}=(a-1)(b-1)\]

\[GL_{total}=N-1\]

4. Cálculos de cuadrados medios \(MS\)

\[MS_{tratamientos}=\frac{SS_{tratamientos}}{GL_{tratamientos}}\]

\[MS_{bloques}=\frac{SS_{bloques}}{GL_{bloques}}\]

\[MS_{error}=\frac{SS_{error}}{GL_{error}}\]

\[MS_{total} = \frac{SS_{total}}{GL_{total}}\]

5. Cálculo de estadístico de prueba \(F_0\)

\[F_0=\frac{MS_{tratamientos}}{MS_{error}}\]

Si

\[F_0> F_{\alpha,~a-1,~(a-1)(b-1)} \rightarrow Rechazo~H_0\]

Solución de situación inicial en R

Tomaremos como ejemplo para resolver en RStudio la situación inicial en la que el efecto de cuatro métodos de ensamble A, B, C y D, sobre el tiempo de ensamble, y se controla activamente en el experimento a los operadores que realizarán el ensamble.

Las hipótesis para este diseño experimental son las siguientes:

\[H_0: \mu_1 = \mu_2 = \mu_3 =\mu_4 \\ \mu_i \neq \mu_j \\ Para~al~menos~un ~i,j~con~i \neq j \]

#---- Cargar los datos del experimento y guardarlos en un data frame ----
library(readxl)
datos <- read_excel("C:/Users/000322041/OneDrive - UPB/UPB/Asignaturas_2024__1/Diseno_de_Experimentos_11951/Clases/8_Diseno_bloques/2024_1/Anova_DBCA/datos.xlsx")

#-- Establecer los factores del modelo (Factor de interés y factor bloque) --
datos$tratamiento <- as.factor(datos$tratamiento)
datos$bloque <- as.factor(datos$bloque)
datos$bloque <- as.factor(datos$bloque)

#------------------ Plantear modelo de datos ------------------
modelo <- lm(datos$observacion~(datos$tratamiento+datos$bloque))


#--------------- Análisis de varianza ANOVA  ---------------
anova <- aov (modelo)
summary(anova)
##                   Df Sum Sq Mean Sq F value  Pr(>F)   
## datos$tratamiento  3   61.5    20.5   10.25 0.00292 **
## datos$bloque       3   28.5     9.5    4.75 0.02985 * 
## Residuals          9   18.0     2.0                   
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
qf (0.05, 3, 9, lower.tail = FALSE)
## [1] 3.862548

Del análisis de varianza, con nivel de significancia \(\alpha= 0.05\), \(F_0 > F\) \((10.25>3.862548)\) se concluye que se rechaza la hipótesis nula \(H_0\): existe evidencia estadística suficiente para afirmar que al menos un par de medias de los tratamientos son distintas.