Ejercicio 5.2 de BHH2: Producción de cotufas

Author

Rafael E. Borges, borgesr@gmail.com, Profesor Titular, Escuela de Estadística, ULA, Mérida, Venezuela.

Introducción

Se presenta el análisis para la variable respuesta producción de cotufas del ejercicio 5.2 del libro de Box, Hunter y Hunter (2008) en el cual se presentan los datos correspondientes a un diseño de experimentos factorial 23, para dos variables respuesta:

y1: Producción de cotufas (en tazas).

y2: Sabor de las cotufas (en una escala del 1 al 10).

Y donde los tres factores son:

A: Tipo de grano: Normal (-) o Gourmet (+).

B: Razón maíz/aceite: Baja (-) o Alta (+).

C: Tamaño de la taza de granos: 1/3 de taza (-), 2/3 de taza (+).

Carga de los datos:

Como de trata de un diseño factorial, procederemos a la carga de las variables repuesta y los de los factores principales basados en los patrones de signos alternados para este tipo de diseño, y posteriormente se construirán a partir de estos fatores, los factores de interacción.

# Carga de las variables y los factores
# Carga de las variables:
cotufas <- matrix(c(6.25, 8, 6, 9.5, 8, 15, 9, 17, 6, 7, 10, 9, 6, 6, 9, 2),byrow=F,ncol=2)
dimnames(cotufas) <- list(c("(1)","a","b","ab","c","ac","bc","abc"),c("y1","y2"))
# factores principales:
A <- rep(c(-1,1),4)
B <- rep(c(-1,-1,1,1),2)
C <- c(rep(-1,4),rep(1,4))
# Factores de interacción:
AB <- A*B
AC <- A*C
BC <- B*C
ABC <- A*B*C
# Tabla del diseño:
cbind(cotufas,A,B,C,AB,AC,BC,ABC)
       y1 y2  A  B  C AB AC BC ABC
(1)  6.25  6 -1 -1 -1  1  1  1  -1
a    8.00  7  1 -1 -1 -1 -1  1   1
b    6.00 10 -1  1 -1 -1  1 -1   1
ab   9.50  9  1  1 -1  1 -1 -1  -1
c    8.00  6 -1 -1  1  1 -1 -1   1
ac  15.00  6  1 -1  1 -1  1 -1  -1
bc   9.00  9 -1  1  1 -1 -1  1  -1
abc 17.00  2  1  1  1  1  1  1   1

Análisis para producción

Estimación de los efectos:

# #réplicas: n=1
n <- 1
y1 <- cotufas[1:8]
# Estimación de los efectos:
Aeff <- (y1 %*% A)/(4*n)
Beff <- (y1 %*% B)/(4*n)
Ceff <- (y1 %*% C)/(4*n)
ABeff <- (y1 %*% AB)/(4*n)
ACeff <- (y1 %*% AC)/(4*n)
BCeff <- (y1 %*% BC)/(4*n)
ABCeff <- (y1 %*% ABC)/(4*n)
# Resumen:
Efectos <- t(y1) %*% cbind(A,B,C,AB,AC,BC,ABC)/(4*n)
Resumen <- rbind( cbind(A,B,C,AB,AC,BC,ABC),Efectos )
dimnames(Resumen)[[1]] <- c(dimnames(cotufas)[[1]],"Efectos")
Resumen
              A       B       C      AB      AC      BC     ABC
(1)     -1.0000 -1.0000 -1.0000  1.0000  1.0000  1.0000 -1.0000
a        1.0000 -1.0000 -1.0000 -1.0000 -1.0000  1.0000  1.0000
b       -1.0000  1.0000 -1.0000 -1.0000  1.0000 -1.0000  1.0000
ab       1.0000  1.0000 -1.0000  1.0000 -1.0000 -1.0000 -1.0000
c       -1.0000 -1.0000  1.0000  1.0000 -1.0000 -1.0000  1.0000
ac       1.0000 -1.0000  1.0000 -1.0000  1.0000 -1.0000 -1.0000
bc      -1.0000  1.0000  1.0000 -1.0000 -1.0000  1.0000 -1.0000
abc      1.0000  1.0000  1.0000  1.0000  1.0000  1.0000  1.0000
Efectos  5.0625  1.0625  4.8125  0.6875  2.4375  0.4375 -0.1875

Exploración de los datos:

La exploración de los datos puede hacerse de dos maneras:

  1. A través de la representación cúbica y el gráfico del diseño.
  2. A través de los gráficos de cajas múltiples de la variables respuesta según los niveles de cada factor, y los gráficos de interacción.

Representación cúbica

# Carga del paquete FrF2:
library(FrF2)
y1 <- cotufas[1:8]
cubePlot(y1, A, C, B, main=paste("Representación cúbica para Producción"),
    cex.title=1,cex.lab=par("cex.lab"), cex.ax=par("cex.axis"),     cex.clab=1.2, size=0.3, round=NULL,
    abbrev=4,y.margin.add=-0.2, modeled=TRUE)

En este gráfico se puede observar que las producciones más latas de cotufas se obtienen con un grano Gourmet y usando 2/3 de taza de granos de cotufas, combinaciones para las cuales se obtienen 17 tazas de cotufas cuando la razón de maíz/aceite es alta, y 15 tazas de cotufas cuando la razón de maíz/aceite es baja.

Gráfico del diseño:

Para hacer este gráfico (y para los análisis de varianzas), debemos primero efectuar una transformación de los factores principales y de interacción a variables tipo factor:

A <- as.factor(A)
B <- as.factor(B)
C <- as.factor(C)
AB <- as.factor(AB)
AC <- as.factor(AC)
BC <- as.factor(BC)
ABC <- as.factor(ABC)

Y una vez efectuada está transformación, se puede obtener el gráfico del diseño, mediante:

Form <- y1 ~ A + B + C + AB + AC + BC + ABC
plot.design(Form, main = "Gráfico del diseño para Producción", ylab = "Media de la producción")

En este gráfico se puede observar que la interacción entre A y C pareciera ser importante, y que los factores principales donde probablemente se obtengan efectos significativos sobre la producción son el A (tipo de grano) y el C (tamaño de la taza de granos).

Estos dos gráficos proporcionan suficiente información, y de manera muy compacta, para extraer los principales hallazgos del análisis, y constituyen una alternativa a las herramientas gráficas clásicas que incluyen: los gráficos de cajas múltiples para la variable respuesta (producción de cotufas) según las modalidades de cada uno de los factores (principales y de interacción) y los gráficos de interacción, que son presentados es este documentos pero para los cuales se omiten sus interpretaciones.

Gráficos de cajas múltiples:

Otra forma (menos eficiente) de visualizar los efectos de cada factor es a través de los gráficos de cajas múltiples de la variable respuesta según cada uno de los factores.

boxplot(y1 ~ A)

boxplot(y1 ~ B)

boxplot(y1 ~ C)

boxplot(y1 ~ AB)

boxplot(y1 ~ AC)

boxplot(y1 ~ BC)

boxplot(y1 ~ ABC)

Los cuales pueden complementarse xon los gráficos de interacciones.

Gráficos de interacciones:

Mediante estos gráficos podemos explorar las posibles interacciones de orden 2.

interaction.plot(A, B, y1)

interaction.plot(A, C, y1)

interaction.plot(B, C, y1)

Análisis de varianza:

Se parte del modelo que incluya los factores principales y las interacciones hasta el orden que lo permitan los grados de libertad.

Modelo 1:

anova(lm(y1 ~ A + B + C + AB + AC + BC))
Analysis of Variance Table

Response: y1
          Df Sum Sq Mean Sq  F value  Pr(>F)  
A          1 51.258  51.258 729.0000 0.02357 *
B          1  2.258   2.258  32.1111 0.11120  
C          1 46.320  46.320 658.7778 0.02479 *
AB         1  0.945   0.945  13.4444 0.16950  
AC         1 11.883  11.883 169.0000 0.04887 *
BC         1  0.383   0.383   5.4444 0.25776  
Residuals  1  0.070   0.070                   
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Eliminamos la interacción de orden mayor no significativa con mayor p-valor, en esta caso BC, y se corre un nuevo modelo.

Modelo 2:

anova(lm(y1 ~ A + B + C + AB + AC))
Analysis of Variance Table

Response: y1
          Df Sum Sq Mean Sq  F value   Pr(>F)   
A          1 51.258  51.258 226.2414 0.004391 **
B          1  2.258   2.258   9.9655 0.087392 . 
C          1 46.320  46.320 204.4483 0.004856 **
AB         1  0.945   0.945   4.1724 0.177821   
AC         1 11.883  11.883  52.4483 0.018538 * 
Residuals  2  0.453   0.227                     
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Siguiendo el procedimiento, se elimina la interacción AB y se corre un nuevo modelo.

Modelo 3:

anova(lm(y1 ~ A + B + C + AC))
Analysis of Variance Table

Response: y1
          Df Sum Sq Mean Sq  F value   Pr(>F)   
A          1 51.258  51.258 109.9609 0.001852 **
B          1  2.258   2.258   4.8436 0.115085   
C          1 46.320  46.320  99.3687 0.002148 **
AC         1 11.883  11.883  25.4916 0.014987 * 
Residuals  3  1.398   0.466                     
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Observamos que la interacción significativa en el modelo no incluye el factor B, y como éste no es significativo, se elimina y se corre un nuevo modelo.

Modelo 4:

anova(lm(y1 ~ A + C + AC))
Analysis of Variance Table

Response: y1
          Df Sum Sq Mean Sq F value   Pr(>F)   
A          1 51.258  51.258  56.077 0.001701 **
C          1 46.320  46.320  50.675 0.002058 **
AC         1 11.883  11.883  13.000 0.022646 * 
Residuals  4  3.656   0.914                    
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Y al incluir este modelo, las interacciones significativas (AC) y los factores principales significativos o incluidos en la interacción, procedemos a verificar la significación del modelo, mediante la función summary.

summary(lm(y1 ~ A + C + AC))

Call:
lm.default(formula = y1 ~ A + C + AC)

Residuals:
     1      2      3      4      5      6      7      8 
 0.125 -0.750 -0.125  0.750 -0.500 -1.000  0.500  1.000 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)   
(Intercept)    3.688      0.676   5.455  0.00549 **
A1             5.062      0.676   7.488  0.00170 **
C1             4.812      0.676   7.119  0.00206 **
AC1            2.438      0.676   3.606  0.02265 * 
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 0.9561 on 4 degrees of freedom
Multiple R-squared:  0.9677,    Adjusted R-squared:  0.9434 
F-statistic: 39.92 on 3 and 4 DF,  p-value: 0.001938

Análisis de residuos:

Luego de verificar la significación del modelo, y de verificar que el mismo incluye las interacciones significativas y los factores principales, procedemos a realizar el análisis de residuos.

par(mfrow=c(2,2))
plot(lm(y1 ~ A + C + AC))

Mediante el cual se puede observar que no pareciera violarse el supuesto de homocedasticidad (igualdad de varianza) (gráfico superio izquierdo) ni el supuesto de normalidad (gráfico superior derecho).

Calidad del ajuste:

Otro aspecto que puede visualizarse es la calidad del ajuste, la cual puede verse a través del gráfico de dispersión de los valors ajustados vs. los valores observados.

plot(y1, lm(y1 ~ A + C + AC)$fitted.values, ylab = "valores ajustados", xlab = "Valores observados")

Conclusiones

Luego de realizado el análisis podemos concluir que:

  1. Existe una interacción significativa (al 5%) entre el tipo de grano y el tamaño de la taza de granos, lo cual suguiere que se deben analizar los resultados tomando en cuenta la misma.
  2. El tipo de grano es un efecto significativo (al 5%) para la producción de cotufas.
  3. El tamaño de la taza de servicio de los granos de cotufas es un efecto significativo (al 5%) para la producción de cotufas.

Tomando en cuenta lo anterior, se puede observar que las mejores producciones de cotufas se obtienen cuando se utiliza un grano Gourmet y 2/3 de taza de granos de cotufas, y al resultar la razón de maíz/aceite un factor con efecto no significativo, se recomienda utilizar una razón de maíz/aceite alta, que es una alternativa más económica, mas sana, y en la cual se obtiene la máxima producción de cotufas (17 tazas).

Referencias

Box, G. E., Hunter, J. S. & Hunter, W. G. (2008). Estadística para Investigadores: Diseño, innovación y descubrimiento. Segunda edición. Barcelona, España: Editorial Reverté.