Introducción

En el siguiente Notebook se encuentran implementaciones en código de la segunda evaluación del curso de Diseño de Experimentos

Ejercicio 1

Para un diseño factorial, defina y explique: (a) efecto de un factor. (b) efecto de interacción. (c) Réplicas. (d) Importancia de los supuestos estadísticos del modelo factorial. (4 puntos)

1.a

Efecto de un Factor: Recordando que un diseño factorial es el que se desea estudiar el efecto de varios factores sobre una o varias respuestas, manteniendo el mismo interés sobre todos los factores. El efecto de un factor es el efecto o influencia de una variable independiente (que en este caso es el factor) sobre la variable dependiente, lo especial del factor como variable independiente es la capacidad de asignar niveles de tratamiento sobre su efecto hacia la variable dependiente.

1.b

Efecto de Interacción: Es cuando dos factores interactúan de manera significativa sobre la variable de respuesta cuando el efecto de uno depende del nivel en que está el otro. Esto es, por ejemplo si los factores A y B interactúan si el efecto de A es muy diferente en cada nivel de B, o viceversa.

1.c

Replicas: En el diseño factorial, son repeticiones independientes de cada combinación de los niveles de tratamiento del experimento. Por lo general se desean tener la mayoría posible dado que de esa forma se puede tener mayor seguridad de los resultados y también mejora la estimación del error experimental.

1.d

Importancia de los supuestos estadísticos del modelo factorial: Como todo modelo es natural la existencia de supuestos entre estos los de mayor relevancia son:

Independencia, Normalidad, Homogeneidad de varianzas

La independencia implica que los tratamientos fueron asignados independientemente además de que la medición de una observación no influye directamente sobre las otras.

Para el caso de la normalidad se supone que los residuos son normales, eso conduce al modelo ser normal si este es funcionalmente presentado de manera lineal, dado que toda combinación lineal de una variable aleatoria Gaussiana genera otra variable aleatoria Gaussiana, además de la importancia de este supuesto también se hace presente al hacer las pruebas de insesgadez de los cuadrados medios.

Por ultimo se espera que la varianza de la muestra en los niveles de tratamiento sean aproximadas de tratamiento, lo cual tiene relevancia por motivos de predicción al usar intervalos de confianza.


Ejercicio 2

En un laboratorio de microbiología se realiza un experimento para investigar si influye el tipo de verdura (lechuga-L, cilantro-C, zanahoria-Z) y la temperatura (8 y 20ºC) de almacenamiento en la supervivencia de la bacteria Vibrio Cholerae. Se hicieron varias réplicas. A continuación, el porcentaje de supervivencia obtenido después de 24 horas de inoculado el alimento.

  1. ¿Cuál fue el diseño experimental empleado? Explique.

  2. Formule las hipótesis que pueden ser probadas.

  3. Haga el análisis de la varianza e interprete los resultados obtenidos, desde el punto de vista práctico y estadístico.

  4. Verifique el supuesto de igualdad de varianzas. ¿Se cumple o no? De no cumplirse ¿cómo afecta las conclusiones?

  5. Transforme la variable de respuesta mediante el logaritmo. Repita el análisis de varianza. ¿Qué diferencias se observan en relación con el análisis anterior? Explique.

(5 puntos)

2.a

¿Cuál fue el diseño experimental empleado? Explique.

  • Donde la variable de respuesta es el porcentaje de supervivencia de la bacteria Vibrio Cholerae.

  • Con tres tipos de verdura (lechuga-L, cilantro-C, zanahoria-Z)

  • Y por ultimo con dos niveles de tratamiento la temperatura (8 y 20ºC) de almacenamiento en la supervivencia de la bacteria Vibrio Cholerae.

Con lo que se concluye que es un experimento factorial donde se evalúan dos factores el tipo de verdura y la temperatura de almacenamiento, siendo el primer factor el tipo de verdura, que son tres niveles y el segundo factor las temperaturas que tiene dos niveles. Esto es \(3 \times 2\)

Sea

\[A = \text{Verdura} \to \text{Tres niveles}\; (\text{lechuga-L, cilantro-C, zanahoria-Z})\] \[B = \text{Temperatura de almacenamiento} \to \text{Dos niveles}\; (\text{8 y 20ºC})\]

2.b

Formule las hipótesis que pueden ser probadas

En el factorial de dos factores, tanto los factores (o tratamientos) de fila como los de columna, A y B, son de igual interés. Específicamente, estamos interesados en probar hipótesis sobre la igualdad de los efectos del tratamiento de filas, digamos

\[H_0: \tau_1=\tau_2=...=\tau_{a}=0\] \[vs\] \[H_1 : \text{Al menos un}\; \tau_i\ne 0\]

y la igualdad de los efectos del tratamiento de columnas, digamos

\[H_0: \beta_1=\beta_2=...=\beta_{b}=0\] \[vs\] \[H_1 : \text{Al menos un}\; \beta_i\ne 0\]

También estamos interesados en determinar si interactúan los tratamientos de filas y columnas. Por lo tanto, también queremos probar

\[H_0: (\tau\beta)_{ij}=0\;\forall\; i,j\] \[vs\] \[H_1 : \text{Al menos un}\; (\tau\beta)_{ij}\ne0\]

Del modelo

\[y_{ijk} = \mu + \tau_i + \beta_j + (\tau\beta)_{ij} + \epsilon_{ijk} \begin{cases} i=1,2,...,a\\ j=1,2,...,b\\ k=1,2,...,n \end{cases}\]

Para el caso de nuestros datos se traduce a que el efecto del tipo de verdura no es significativamente distinto de cero.

Que el efecto de la temperatura de almacenamiento no es significativamente distinto de cero.

Y que la interacción entre los tipos de verduras y los niveles de temperatura de almacenamiento no son significativamente distintos de cero.

Respectivamente con los contrastes formalmente presentados con anterioridad.

2.c

  1. Haga el análisis de la varianza e interprete los resultados obtenidos, desde el punto de vista práctico y estadístico.
L <- rep("L",15)
C <- rep("C",16)
Z <- rep("Z",18)
LCZ <- c(L,C,Z)
LCZ <- as.factor(LCZ)

eigth1 <- rep(8,7)
twenty1 <- rep(20,8)
eigth2 <- rep(8,8)
twenty2 <- rep(20,8)
eigth3 <- rep(8,10)
twenty3 <- rep(20,8)
temperatura <- c(eigth1,twenty1,eigth2,twenty2,eigth3,twenty3)
temperatura <- as.factor(temperatura)

respuesta <- c(13.1,15,33.6,35.5,42,11.1,12.8,6.2,28.5,41,35.9,25,23.8,79,41.6,19,19,66.6,66.6,11,11,49,49,84.3,68.7,68.7,30.5,30.5,11,11,20,1.2,1.2,0.2,0.1,0.3,0.2,0.1,0.4,0.2,0.3,25.8,21.8,16,16,20.1,15.4,13.3,25.2)

datos <- data.frame(LCZ,temperatura,respuesta)
attach(datos)

\[y_{ijk} = \mu + \tau_i + \beta_j + (\tau\beta)_{ij} + \epsilon_{ijk} \begin{cases} i=1,2,...,a\\ j=1,2,...,b\\ k=1,2,...,n \end{cases}\]

modelo <- lm(respuesta ~ LCZ + temperatura + LCZ*temperatura,
             data = datos)
summary(aov(modelo))
##                 Df Sum Sq Mean Sq F value   Pr(>F)    
## LCZ              2   7974    3987  12.060 6.95e-05 ***
## temperatura      1   1711    1711   5.177   0.0279 *  
## LCZ:temperatura  2    448     224   0.678   0.5130    
## Residuals       43  14216     331                     
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Donde observamos que solamente los tipos de verdura y la temperatura de manera individual resultan ser significativas, y nos lleva a rechazar la hipótesis nula para estos factores, esto es, que existe evidencia en la muestra para asegurar que los tipos de verdura y los niveles de temperatura de almacenamiento afectan al porcentaje de supervivencia de la bacteria Vibrio Cholerae.

\[y_{ijk} = \mu + \tau_i + \beta_j + \epsilon_{ijk} \begin{cases} i=1,2,...,a\\ j=1,2,...,b\\ k=1,2,...,n \end{cases}\]

modelo2 <- lm(respuesta ~ LCZ + temperatura,
             data = datos)
summary(aov(modelo2))
##             Df Sum Sq Mean Sq F value   Pr(>F)    
## LCZ          2   7974    3987  12.235 5.71e-05 ***
## temperatura  1   1711    1711   5.252   0.0267 *  
## Residuals   45  14664     326                     
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

De esa forma ahora si se obtiene un modelo que es altamente significativo con los tipos de verdura y la temperatura de almacenamiento de manera individual, lo que significa que podemos explicar la supervivencia de la bacteria sin considerar la interacción del tipo de verdura y la temperatura

2.d

Verifique el supuesto de igualdad de varianzas. ¿Se cumple o no? De no cumplirse ¿cómo afecta las conclusiones?

# Gráficos de diagnostico
par(mfrow = c(2,2))
plot(aov(modelo2))

Donde observando los residuos observamos que claramente este no se cumple, dado que observamos un patrón marcado de expansión con los residuos y los valores estimados, (la varianza incrementa).

La implicación que este tiene en las conclusiones es que los intervalos de confianza a la hora de querer hacer estimaciones y predicciones no van a ser confiables dado que el modelo asume que la varianza es constante e iguales y los intervalos de confianza son el valor estimado mas o menos el nivel significancia multiplicando la desviación estándar (esta depende de la varianza)

2.e

Transforme la variable de respuesta mediante el logaritmo. Repita el análisis de varianza. ¿Qué diferencias se observan en relación con el análisis anterior? Explique.

# Logaritmo de la respuesta
l.respuesta <- log(respuesta)
# Computando el modelo
modelo3 <- lm(l.respuesta ~ LCZ + temperatura + LCZ*temperatura,
             data = datos)
summary(aov(modelo3))
##                 Df Sum Sq Mean Sq F value   Pr(>F)    
## LCZ              2  82.72   41.36   81.89 2.17e-15 ***
## temperatura      1  33.50   33.50   66.33 2.96e-10 ***
## LCZ:temperatura  2  44.21   22.11   43.77 4.28e-11 ***
## Residuals       43  21.72    0.51                     
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Donde para este caso la interacción si es significativa, esto es que para el logaritmo del porcentaje de supervivencia de la bacteria Vibrio Cholerae sí puede ser explicado por el tipo de verdura la temperatura de almacenamiento y la interacción de estos.

Ahora en relación a los supuestos

# Gráficos de diagnostico
par(mfrow = c(2,2))
plot(aov(modelo3))

Pareciera que el supuesto de normalidad mejora dado que

patchwork::wrap_plots(ggplot2::ggplot(data = datos, ggplot2::aes(x = residuals(aov(modelo3)))) +
  ggplot2::geom_histogram(ggplot2::aes(y=..density..),
                          binwidth = 1) +
  ggplot2::geom_density() +
  ggplot2::ggtitle("Histograma de los residuos")+
  ggplot2::xlab("Residuos")+
  ggplot2::ylab("Frecuencia"),
  #Q-Q Plot
  ggpubr::ggqqplot(residuals(aov(modelo3)),
                 conf.int.level = 0.95,
                 ggtheme = ggplot2::theme_gray(),
                 title = "QQ-Plot",
                 ylab = "Valores Teoricos",
                 xlab = "Valores de Muestra"),
  ncol = 2
  )

# Prueba de bondad de ajuste 
shapiro.test(resid(aov(modelo3)))
## 
##  Shapiro-Wilk normality test
## 
## data:  resid(aov(modelo3))
## W = 0.98276, p-value = 0.6846

Donde si cumplimos el supuesto de normalidad

Dado que cumplimos normalidad haciendo una prueba de Heterocedasticidad (Breusch-Pagan)

lmtest::bptest(modelo3)
## 
##  studentized Breusch-Pagan test
## 
## data:  modelo3
## BP = 6.7873, df = 5, p-value = 0.2369

Observamos que no rechazamos la \(H_0: \text{Homocedasticidad}\), con lo cual concluimos que la transformación logarítmica si ayudo a mejorar el ajuste del modelo concorde a sus supuestos, la consideración mas adelante es tener cuidado con la interpretación de el logaritmo de la supervivencia de la bacteria.

Ejercicio 3

Se realiza un experimento para mejorar el rendimiento de un proceso químico. Se cuenta con cuatro factores y se realiza un experimento completamente aleatorizado con dos réplicas. Los resultados son,

replica1 <- c(90, 74, 81 ,83 ,77 ,81 ,88 ,73,
              98, 72, 87 ,85 ,99 ,79 ,87 ,80)
replica2 <- c(93 ,78 ,85 ,80,78 ,80 ,82 ,70, 
              95 ,76 ,83 ,86 ,90 ,75 ,84 ,80)
respuestas <- data.frame(replica1, replica2)
row.names(respuestas) <- c("(1)","a" ,"b" ,"ab" ,"c" ,"ac" ,"bc" ,"abc",
                            "d" , "ad" , "bd", "abd" ,"cd" ,"acd" ,"bcd", "abcd")

DT::datatable(respuestas)
  1. Estimar los efectos de los factores. ¿Cuáles de esos efectos resultan ser mayores? Explique.

  2. Aplicar un análisis de varianza con el fin de confirmar las conclusiones obtenidas del inciso (a).

  3. Analice los residuos, ¿existen problemas evidentes? Explique.

  4. ¿Cuáles factores A, B, C o D recomendaría? Explique.

  5. Proponga un análisis mediante un diseño factorial fraccionado. Comparar los resultados con lo obtenido anteriormente. (6 puntos)

3.a

Estimar los efectos de los factores. ¿Cuáles de esos efectos resultan ser mayores? Explique.

Re-ordenando los datos, construyendo la matriz de diseño para un diseño \(2^4\)

design_matrix <- expand.grid(
  A = c(-1,1),
  B = c(-1,1),
  C = c(-1,1),
  D = c(-1,1)
)

exp <- cbind(design_matrix, respuestas)

DT::datatable(exp)

Con ello calculamos los efectos

design_matrix <- expand.grid(
  A = c(-1,1),
  B = c(-1,1),
  C = c(-1,1),
  D = c(-1,1)
)

respuestas = c(replica1, replica2)

exp <- data.frame(design_matrix, respuestas)


rap.rep <- respuestas
# Número de Replicas
n <- 2

# Individualmente
A <- exp$A
B <- exp$B
C <- exp$C
D <- exp$D

# Interacciones dobles
AB <- exp$A*exp$B
AC <- exp$A*exp$C
AD <- exp$A*exp$D
BC <- exp$B*exp$C
BD <- exp$B*exp$D
CD <- exp$C*exp$D

# Interacciones Triples
ABC <- exp$A*exp$B*exp$C
ABD <- exp$A*exp$B*exp$D
BCD <- exp$B*exp$C*exp$D
ACD <- exp$A*exp$C*exp$D

# Interacción total
ABCD <- exp$A*exp$B*exp$C*exp$D


# Presentación de los Efectos

Efectos <- t(rap.rep) %*% cbind(A,B,AB,C,AC,BC,ABC,D,AD,BD,ABD,CD,ACD,BCD,ABCD)/(8*n)
DT::datatable(Efectos)

Donde observamos que el mas alto es el de \(A\) con -9.0625, seguido de \(ABC\) con -5.1875, y de \(ABD\) con 4.6875, también la interacción \(AB\) es notable con un valor de 4.0625, otros efectos notorios son el \(C\), el \(D\) y el \(AD\) como la interacción total

3.b

Aplicar un análisis de varianza con el fin de confirmar las conclusiones obtenidas del inciso (a).

Af <- as.factor(A)
Bf <- as.factor(B)
Cf <- as.factor(C)
Df <- as.factor(D)

model3.b <- lm(formula = rap.rep ~ Af*Bf*Cf*Df, data = exp)
summary(aov(model3.b))
##             Df Sum Sq Mean Sq F value   Pr(>F)    
## Af           1  657.0   657.0  85.816 7.87e-08 ***
## Bf           1   13.8    13.8   1.800 0.198445    
## Cf           1   57.8    57.8   7.547 0.014317 *  
## Df           1  124.0   124.0  16.200 0.000979 ***
## Af:Bf        1  132.0   132.0  17.245 0.000749 ***
## Af:Cf        1    3.8     3.8   0.494 0.492302    
## Bf:Cf        1    2.5     2.5   0.331 0.573296    
## Af:Df        1   38.3    38.3   5.000 0.039945 *  
## Bf:Df        1    0.3     0.3   0.037 0.850417    
## Cf:Df        1   22.8    22.8   2.976 0.103793    
## Af:Bf:Cf     1  215.3   215.3  28.118 7.15e-05 ***
## Af:Bf:Df     1  175.8   175.8  22.959 0.000200 ***
## Af:Cf:Df     1    7.0     7.0   0.918 0.352162    
## Bf:Cf:Df     1    7.0     7.0   0.918 0.352162    
## Af:Bf:Cf:Df  1   47.5    47.5   6.208 0.024077 *  
## Residuals   16  122.5     7.7                     
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Donde el factor \(A\) con el efecto mas amplio es significativo, el factor \(C\), el \(D\) también es significativo, la interacción \(AB\) como la interacción \(AD\) la triple interacción de \(ABC\) también es significativa como la de \(ABD\) y el efecto total también con \(ABCD\)

Lo cual confirma lo que se observo sobre los efectos en el inciso (a)

3.c

Analice los residuos, ¿existen problemas evidentes? Explique.

# Gráficos de diagnostico
par(mfrow = c(2,2))
plot(aov(model3.b))

Donde se observan patrones muy marcados en los residuos del modelo, lo cual nos lleva a concluir que se viola la homocedasticidad, observando mas claramente la normalidad

patchwork::wrap_plots(ggplot2::ggplot(data = exp, ggplot2::aes(x = residuals(aov(model3.b)))) +
  ggplot2::geom_histogram(ggplot2::aes(y=..density..),
                          binwidth = 1) +
  ggplot2::geom_density() +
  ggplot2::ggtitle("Histograma de los residuos")+
  ggplot2::xlab("Residuos")+
  ggplot2::ylab("Frecuencia"),
  #Q-Q Plot
  ggpubr::ggqqplot(residuals(aov(model3.b)),
                 conf.int.level = 0.95,
                 ggtheme = ggplot2::theme_gray(),
                 title = "QQ-Plot",
                 ylab = "Valores Teoricos",
                 xlab = "Valores de Muestra"),
  ncol = 2
  )

Donde evaluando la normalidad

shapiro.test(resid(aov(model3.b)))
## 
##  Shapiro-Wilk normality test
## 
## data:  resid(aov(model3.b))
## W = 0.96135, p-value = 0.2989

La prueba de Shapiro no parece rechazar que \(H_0: \text{Normalidad}\), aunque se observa la posibilidad de una posible bimodalidad.

lmtest::bptest(model3.b)
## 
##  studentized Breusch-Pagan test
## 
## data:  model3.b
## BP = 32, df = 15, p-value = 0.006438

Ahora para contrastar a \(H_0: \text{Homocedasticidad}\), usando la prueba de Breusch-Pagan confirmamos lo observado en los gráficos residuales, con un p-value 0.006438 < 0.05, rechazamos a \(H_0\), los residuos son Heterocedasticos

Con lo que concluimos que la señal de alarma o problema evidente es la violación del supuesto de homocedasticidad, que nos lleva a tener problemas con los intervalos de confianza a la hora de hacer estimaciones y pronósticos.

3.d

¿Cuáles factores A, B, C o D recomendaría? Explique.

Entre \(A,B,C,D\) si verificamos sus efectos

DT::datatable(round(Efectos, 2))

Donde observamos que el efecto \(|A|>|D|>|C|>|B|>\), de esa forma dado que \(A\) es la que genera el mayor cambio en nuestra variable de respuesta, la recomendación seria quedarse con el factor \(A\).

3.e

Proponga un análisis mediante un diseño factorial fraccionado. Comparar los resultados con lo obtenido anteriormente.

Sí no tenemos dinero para el \(2^4\) pero si para el 8 combinaciones de tratamiento se puede plantear un \(2^{4-1}\)

Sí de un \(2^4\)

design_matrix <- expand.grid(
  A = c(-1,1),
  B = c(-1,1),
  C = c(-1,1),
  D = c(-1,1)
)
respuestas <- data.frame(replica1, replica2)
row.names(respuestas) <- c("(1)","a" ,"b" ,"ab" ,"c" ,"ac" ,"bc" ,"abc",
                            "d" , "ad" , "bd", "abd" ,"cd" ,"acd" ,"bcd", "abcd")
exp <- cbind(design_matrix, respuestas)

DT::datatable(exp)

Al ser una reducción (experimento fraccionado nos quedamos con una sola repetición)

design_matrix <- expand.grid(
  A = c(-1,1),
  B = c(-1,1),
  C = c(-1,1),
  D = c(-1,1)
)
exp <- cbind(design_matrix, replica1)
row.names(exp) <- c("(1)","a" ,"b" ,"ab" ,"c" ,"ac" ,"bc" ,"abc",
                            "d" , "ad" , "bd", "abd" ,"cd" ,"acd" ,"bcd", "abcd")
DT::datatable(exp)

Sí añadimos el efecto de interacción total \(ABCD\) y tomamos la fracción de 8 ensayos en base al criterio de tomarlos al ser positivos

design_matrix <- expand.grid(
  A = c(-1,1),
  B = c(-1,1),
  C = c(-1,1),
  D = c(-1,1)
)
ABCD <- design_matrix$A*design_matrix$B*design_matrix$C*design_matrix$D
exp <- cbind(design_matrix, ABCD, replica1)
row.names(exp) <- c("(1)","a" ,"b" ,"ab" ,"c" ,"ac" ,"bc" ,"abc",
                            "d" , "ad" , "bd", "abd" ,"cd" ,"acd" ,"bcd", "abcd")
DT::datatable(exp)

Nos quedamos con

design_matrix <- expand.grid(
  A = c(-1,1),
  B = c(-1,1),
  C = c(-1,1)
)
replica.frac <- c(90, 72, 87, 83, 99, 81, 88, 80)
exp <- cbind(design_matrix, replica.frac)
row.names(exp) <- c("(1)","ad","bd","ab","cd","ac","bc","abcd")
DT::datatable(exp)

Donde construimos la generadora \(D=A\times B\times C\)

D <- design_matrix$A*design_matrix$B*design_matrix$C
exp <- cbind(design_matrix, D, replica.frac)
row.names(exp) <- c("(1)","ad","bd","ab","cd","ac","bc","abcd")
DT::datatable(exp, colnames = c("A","B","C", "D=AxBxC", "Replica 1"))

Definimos las interacciones

# Individualmente
A <- exp$A
B <- exp$B
C <- exp$C
D <- exp$D 

# Interacciones Dobles
AB <- exp$A*exp$B
AC <- exp$A*exp$C
AD <- exp$A*exp$D
BC <- exp$B*exp$C
BD <- exp$B*exp$D
CD <- exp$C*exp$D

# Interacciones triples
ABC <- exp$A*exp$B*exp$C
ABD <- exp$A*exp$B*exp$D
BCD <- exp$B*exp$C*exp$D
ACD <- exp$A*exp$C*exp$D

# Interacción total
ABCD <- exp$A*exp$B*exp$C*exp$D

Donde sabemos que en base en la relación definitoria \(I = ABCD\) se observa el ALIAS de cada efecto principal que es una interacción trifactorial:

\[A=BCD \to IA=A+BCD\\ B=ACD \to IB=B+ACD\\ C=ABD \to IC=C+ABD\\ D=ABC \to ID=D+ABC\\ AB=CD \to IAB=AB+CD\\ AC=BD \to IAC=AC+BD\\ BC=AD \to IAD=AD+BC\]

Cont <- cbind(A,B,AB,C,AC,BC,D,replica.frac)
DT::datatable(Cont, colnames = c("A","B","AB","C","AC","BC","D","Replica I"))

Ahora calculamos los efectos

# Replicas
n <- 1

Efectos <- t(replica.frac) %*% cbind(A,B,AB,C,AC,BC,D)/(4*n)
DT::datatable(Efectos)

Donde concluimos que el factor

\[|A|>|AB|>|BC|>|C|>|B|>|D|>|AC|\]

Siendo esta una conclusión muy similar a la primera dada para el \(2^4\) la única diferencia notable es el peso que se le da a la combinación \(BC\), algo que no se observaba en esa medida en el caso de \(2^4\) completo de resto si reconoce que \(|A|\) es el mas significativo.

Si se corre un modelo ANOVA en base a esta información corremos uno con las mas significativas estas son \(A\), \(AB\), \(BC\) y \(C\)

Así es equivalente a correr

Af <- as.factor(A)
ABf <- as.factor(AB)
BCf <- as.factor(BC)
Cf <- as.factor(C)

modelo3.e <- lm(formula = replica.frac ~ Af +  Cf + ABf + BCf)
summary(aov(modelo3.e))
##             Df Sum Sq Mean Sq F value  Pr(>F)   
## Af           1    288     288     144 0.00125 **
## Cf           1     32      32      16 0.02801 * 
## ABf          1     72      72      36 0.00927 **
## BCf          1     50      50      25 0.01539 * 
## Residuals    3      6       2                   
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Lo cual confirma lo que dicen los efectos dado que todos son significativos, y basados en sus alias nos dan indicaciones de chequear en un modelo con mas ensayos los alias de \(A\),\(C\),\(AB\), y \(BC\).

Siendo estos \(BCD\), \(ABD\), \(CD\), y a \(AD\)

Ejercicio 4

Construya un diseño factorial fraccionado \(2^{6-2}\), como usted lo considere apropiado.

  1. ¿Cuántos experimentos se necesitan en su diseño? Explique.

  2. ¿Cuáles son los generadores de su diseño?

  3. ¿Cuál es la relación de definición de este diseño? (función generadora).

  4. ¿Cuáles son los efectos confundidos de su diseño?

  5. ¿Cuál es la resolución de su diseño? Explique.

(5 puntos)

4.a

¿Cuántos experimentos se necesitan en su diseño? Explique.

Al ser \(2^{6-2} = 16 \;\text{Ensayos}\) dado que se reduce lo que son dos niveles de tratamiento en 6 factores a 4.

4.b

Cuales son los generadores de su diseño

design_matrix1 <- expand.grid(
  A = c(-1,1),
  B = c(-1,1),
  C = c(-1,1),
  D = c(-1,1)
)

E <- design_matrix1$A*design_matrix1$B*design_matrix1$C
F <- design_matrix1$B*design_matrix1$C*design_matrix1$D

exp_frac <- cbind(design_matrix1, E, F)
DT::datatable(exp_frac, colnames = c("A","B","C","D","E=AxBxC","F=BxCxD"))

Dado que vamos secuencialmente como se observa los generadores del diseño son

\[E=ABC \;\;\;\wedge\;\;\; F=BCD\]

4.c

¿Cuál es la relación de definición de este diseño? (función generadora)

Sí de

\[E=ABC \to EE = ABCE \to I = ABCE\] Ademas

\[F = BCD \to FF = FBCD \to I=BCDF\]

Así sí

\[ABCE = BCDF \to (ABCE)(ABCE) = (ABCE)(BCDF) \to I = ADEF\]

De esta forma la Relación de diseño es:

\[I=ABCE = BCDF = ADEF\]

4.d

¿Cuáles son los efectos confundidos de su diseño?

Sí para los efectos principales

\[I=ABCE=BCDF=ADEF\] \[A=BCE=ABCDF=DEF\] \[B=ACE=CDF=ABEF\] \[C=ABE=BDF=ABCEF\] \[D=ABCD=BCF=AEF\] \[E=ABC=BCDFE=ADF\] \[F=ABCEF=BCD=ADE\]

Lo que implica que los efectos confundidos son

\[I \to ABCE+BCDF+ADEF\] \[I_A\to A+BCE+ABCDF+DEF\] \[I_B \to B+ACE+CDF+ABEF\] \[I_C \to C+ABE+BDF+ABCEF\] \[I_D\to D+ABCD+BCF+AEF\] \[I_E \to E+ABC+BCDFE+ADF\] \[I_F \to F+ABCEF+BCD+ADE\]

Para las interacciones dobles

\[AB=AC=ACDF=BDEF\] \[AC=BE=ABDF=CDEF\] \[AD=BCDE=ABCF=EF\] \[AE=BC=AEBCDF=DF\] \[AF=BCEF=ABCD=DE\] \[BD=ACDE=CF=ABEF\] \[BF=ACFE=CD=ABDE\]

Lo que implica que los efectos confundidos son

\[I_{AB}\to AB+AC+ACDF+BDEF\] \[I_{AC}\to AC+BE+ABDF+CDEF\] \[I_{AD} \to AD+BCDE+ABCF+EF\] \[I_{AE}\to AE+BC+AEBCDF+DF\] \[I_{AF}\to AF+BCEF+ABCD+DE\] \[I_{BD}\to BD+ACDE+CF+ABEF\] \[I_{BF}\to BF+ACFE+CD+ABDE\]

Y las interacciones triples

\[ABD=DCE=ACF=BEF\] \[ACD=BDE=ABF=CEF\]

Lo que implica que los efectos confundidos son

\[I_{ABD} \to ABD+DCE+ACF+BEF\] \[I_{ACD} \to ACD+BDE+ABF+CEF\]

4.e

¿Cuál es la resolución de su diseño? Explique.

Es de resolución 4 esto es

\[2^{6-2}_{IV}\]

Esto es por que como sabemos la resolución de diseño en un experimento factorial fraccionado está relacionada con la capacidad para separar los efectos de los factores y cómo se confunden entre sí.

Y en este caso la Relación de diseño

\[I=ABCE=BCDF=ADEF\]

Tiene cuatro factores cada uno siendo así un diseño factorial fraccionado de resolución cuatro.

Conclusión

Así finaliza la serie de ejercicios de diseños factoriales, y diseños factoriales fraccionados.