Análisis de un diseño en cuadros latinos sobre el efecto de catalizadores sobre procesos químicos (Ejercicio 18 del Capítulo 4 de Gutiérrez y De la Vara (2012))

Author

Esilda Gonzalez

Presentación del ejercicio:

Se presenta el análisis del ejercicio 18 del libro de Gutiérrez y De la Vara (2012) , donde se quiere estudiar el efecto de cinco diferentes catalizadores (A, B, C, D, E) sobre el tiempo de reacción sobre un proceso químico. Se seleccionaron 5 lotes de material para el proceso químico donde se corren los experimentos por día, donde se quiere controlar las variables lote por día, ya que cada material solo permite 5 corridas.

Descrpción de los datos:

Los datos fueron cargados en una hoja de Microsoft Excel el cual contiene las siguientes variables:

Tiempo_Reaccion: tiempo de reacción de un proceso químico, siendo ésta la variable respuesta.
Catalizadores: son los cinco diferentes catalizadores (A, B, C, D, E), la variable independiente o tratamiento
Lote: lote de material (L1, L2, L3, L4, L5) (variable bloque fila).
Dia: los días en que se corrieron los experimentos, ya que cada lote permite 5 corridas (D1, D2, D3, D4, D5) (variable bloque columna).

Lectura de los datos:

Los datos fueron leídos usando el paquete readxl

library(readxl) 
Ejercicio_Catalizador <- read_excel("C:/Users/e_ang/Documents/Estadistica_ULA/semester_III/metodos_iii/cuadrado_latino/ejercicio_18_cap_4_gutierrez_vara.xlsx") #recordar cambiar dirección del archivo para poder ejecutar 
View(Ejercicio_Catalizador)

Análisis del ejercicio:

El ejercicio corresponde a un Diseño de Cuadrados Latinos, es por ello que se sigue los pasos recomendados para el análisis de este tipo de diseños, los cuales son:

Análisis exploratorio de los datos:

1.1. Gráfico de cajas múltiples del tiempo de reacción de proceso químico (variable respuesta) según la variedad de catalizador (variable tratamiento).

1.2. Gráficos de cajas múltiples del tiempo de reacción (variable respuesta) según el lote de material químico (variable bloque fila) y según el día del experimento (variable bloque columna).
Formulación del modelo.
Ajuste del Modelo.
Verificación de la significación del Modelo.
Verificación de la significación de la diferencia en las medias del tiempo de montaje para los distintos métodos de montaje (y para los distintos operadores y para los distintos ordenes).
Pruebas a posteriori.
Análisis de residuos.
Conclusiones y recomendaciones.
Simplificación del modelo.

1. Análisis exploratorio de los datos:

Cargamos los datos en la memoria:

attach(Ejercicio_Catalizador)

1.1 Gráfico de cajas múltiples del tiempo de reacción (variable respuesta) según la variedad de catalizador (variable tratamiento):

boxplot(Tiempo_Reaccion ~ Catalizador, col = (c("pink","lightgreen","lightblue","orange","violet")) , main="Gráfico de cajas múltiples del \n tiempo de reacción según tratamiento")

En este gráfico podemos observar que los catalizadores D y E tienen un tiempo de reacción más rápido en comparación a los catalizadores A y D (con los cuales pareciera existir diferencia significativa). El catalizador B tiene un tiempo de reacción intermedio.

1.2 Gráficos de cajas múltiples del tiempo de montaje (variable respuesta) según el orden de montaje (variable bloque fila) y según el operador (variable bloque columna)

boxplot(Tiempo_Reaccion ~ Lote, col = (c("pink","lightgreen","lightblue","orange","violet")), main="Gráfico de cajas múltiples del \n tiempo de reacción según lote")

boxplot(Tiempo_Reaccion ~ Dia, col = (c("pink","lightgreen","lightblue","orange","violet")), main="Gráfico de cajas múltiples del \n tiempo de reacción según día del experimento")

En el gráfico de cajas múltiples del tiempo de reacción en el proceso químico según el lote pareciera no haber diferencias significativas para las distintas ordenaciones.

Por su parte, en el gráfico de cajas múltiples del tiempo de reacción del proceso químico a investigar, según el día en que se realizó el experimento pareciera que no hay diferencias significativas.

2. Formulación del modelo:

Este modelo corresponde a un diseño de cuadros latinos el cual se plantea de la siguiente forma:

Tomado de Montgomery (2004).

Además, este modelo presenta los siguientes supuestos:

Los errores siguen una distribución normal.
La homocedasticidad para cada uno de los valores de la variable respuesta.

3. Ajuste del modelo:

Llevamos a cabo el ajuste del modelo:

Modelo <- lm(Tiempo_Reaccion ~ Catalizador + Lote + Dia)

4. Verificación de la significación del modelo:

Llevamos a cabo el resumen del modelo ajustado:

summary(Modelo)


Call:
lm(formula = Tiempo_Reaccion ~ Catalizador + Lote + Dia)

Residuals:
   Min     1Q Median     3Q    Max 
 -2.24  -1.24  -0.24   0.96   2.36 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept)     8.440      1.275   6.619 2.47e-05 ***
CatalizadorB   -2.800      1.118  -2.504 0.027725 *  
CatalizadorC    0.400      1.118   0.358 0.726798    
CatalizadorD   -5.000      1.118  -4.471 0.000764 ***
CatalizadorE   -5.200      1.118  -4.650 0.000561 ***
LoteL2          1.000      1.118   0.894 0.388803    
LoteL3          0.600      1.118   0.537 0.601409    
LoteL4          2.000      1.118   1.788 0.098971 .  
LoteL5         -0.200      1.118  -0.179 0.861049    
DiaD2          -1.000      1.118  -0.894 0.388803    
DiaD3          -1.200      1.118  -1.073 0.304364    
DiaD4          -1.600      1.118  -1.431 0.178037    
DiaD5           0.200      1.118   0.179 0.861049    
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 1.768 on 12 degrees of freedom
Multiple R-squared:  0.8184,    Adjusted R-squared:  0.6369 
F-statistic: 4.507 on 12 and 12 DF,  p-value: 0.007157

Podemos verificar la significación del modelo con el p-valor que se presenta al final de la salida (0,007157), y al ser este valor menor a 0,05 (usando un 5% de nivel de significación,el cual debe ser previamente fijado), podemos concluir que la parte estructural (la parte derecha del modelo antes del término de error) es significativa.

En términos coloquiales, lo anterior equivale a decir que la variabilidad del tiempo de reacción del proceso químico, puede ser explicada significativamente (al 5%) a través del uso de distintos catalizadores, controlando el lote del material por día de experimentación, usando un Diseño en Cuadrados Latinos.

5. Verificación de la significación de la diferencia en las medias del tiempo de reacción para los distintos catalizadores (y para los distintos lotes por día):

Para llevar a cabo este procedimiento, realizamos el análisis de varianza a través de la siguiente tabla ANOVA:

anova(Modelo)

Analysis of Variance Table

Response: Tiempo_Reaccion
            Df Sum Sq Mean Sq F value    Pr(>F)    
Catalizador  4 141.44  35.360 11.3092 0.0004877 ***
Lote         4  15.44   3.860  1.2345 0.3476182    
Dia          4  12.24   3.060  0.9787 0.4550143    
Residuals   12  37.52   3.127                      
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

A partir de está podemos concluir lo siguiente:

Existe desigualdad significativa (al 5%) en las medias del tiempo de reacción del proceso químico (p-valor = 0.0004877).
No existe desigualdad significativa (al 5%), en las medias de los lotes de material químico (p-valor = 0.3476182, el cual es mayor a 0.05).
No existe desigualdad significativa (al 5%), en las medias en el factor día (variable a controlar) en que se realizó el experimento (p-valor = 0.4550143, el cual es mayor a 0.05).

6. Prueba a posteriori para la identificación de los pares tratamientos que generan las diferencias de las medias:

En esta ocasión se utiliza la Prueba Honesta Significativa de Tukey para determinar que pares de tratamientos presentan una diferencia siginificativa entre ellos:

TukeyHSD(aov(Modelo), which="Catalizador", ordered = TRUE)

  Tukey multiple comparisons of means
    95% family-wise confidence level
    factor levels have been ordered

Fit: aov(formula = Modelo)

$Catalizador
    diff        lwr      upr     p adj
D-E  0.2 -3.3646078 3.764608 0.9997349
B-E  2.4 -1.1646078 5.964608 0.2631551
A-E  5.2  1.6353922 8.764608 0.0041431
C-E  5.6  2.0353922 9.164608 0.0023007
B-D  2.2 -1.3646078 5.764608 0.3365811
A-D  5.0  1.4353922 8.564608 0.0055862
C-D  5.4  1.8353922 8.964608 0.0030822
A-B  2.8 -0.7646078 6.364608 0.1539433
C-B  3.2 -0.3646078 6.764608 0.0864353
C-A  0.4 -3.1646078 3.964608 0.9960012

Aquí podemos concluir y confirmar lo que en el análisis exploratorio mediante el diagrama de cajas:

La media de tiempode reacción del catalizador A es significativamente mayor que el catalizador E (p-valor = 0.0041431, menor que 0.05), y a la obtenida con el catalizador D (p-valor = 0.0055862, menor que 0.05). Además, no parece tener diferencia significativa de tiempo con el catalizador C (p-valor = 0.9960012, mayor que 0.05), de hecho, con una alta probabilidad, al igual que con el catalizador B (p-valor 0.1539433).
La media de tiempo de reacción del catalizador C es significativamente mayor que el tiempo de reacción del catalizador D (p-valor = 0.0030822, menor que 0.05) y el catalizador E (p-valor = 0.0023007).

7. Análisis de residuos:

Para la verificación del modelo procedemos con el respectivo análisis de residuos, mediante un plot del modelo:

plot(Modelo)

En el cual analizamos los dos primeros gráficos:

En el primer gráfico podemos concluir que al presentarse un patrón de “nube aleatoria”, no se viola el supuesto de homocedastidad.
En el segundo gráfico concluimos que al semejarse los puntos a una línea recta con pendiente positiva, no se viola el supuesto de normalidad de los errores.

Conclusiones y recomendaciones:

Una vez realizado los pasos para el diseño de experimentos para una cuadrado latino, podemos concluir que existe diferencia significativa (al 5%) en la media del tiempo de reacción de los catalizadores (Tratamientos), y dependiendo del proceso químico que se vaya a realizar, si se espera una reacción más rápida en el tiempo, los catalizadores D y E son los más adecuados, y se desea mantener o tener una mayor duración en el tiempo de reacción, los acatalizadores A y C son los más adecuados.

Simplificación del modelo:

La no significación de las medias del tiempo para los días de experimentación podría ser eliminada, y usar un Diseño de Bloques Aleatorizados (con lotes de material como variable tipo bloque). Esto lo podemos verificar a través de la fórmula de Eficiencia Relativa del Modelo:

# Fórmula: 1-(1/(t-1))*(1-F_Día) 
1-(1/(5-1))*(1-0.9787)

[1] 0.994675

Y al ser este valor mayor que 1, concluimos que el uso de un Cuadrado Latino es el adecuado para este experimento.

Referencias:

Gutiérrez, H & de La Vara, R. (2012). Análisis y diseños de experimentos. Tercera edición. D.F. México: McGraw Hill.

Melo, O.O., López, L.A. & Melo, S.E. (2020). Diseño de experimentos : métodos y aplicaciones. Segunda edición. Bogotá Colombia: Universidad Nacional de Colombia.

Montgomery, D.C. (2004). DISEÑO Y ANÁLISIS DE EXPERIMENTOS. Segunda edición. D.F. México: Limusa

Montgomery, D.C. (2017). Design and analysis of experiments. Novena edición. Hooboken, Estados Unidos: John Wiley & Sons, Inc.

R Core Team (2024). R: A Language and Environment for Statistical Computing. Viena, Austria: R Foundation for Statistical Computing. URL: https://www.R-project.org/.

RStudio Team (2024). RStudio: Integrated Development Environment for R. Boston, MA: RStudio, PBC. URL: http://www.rstudio.com/.