Diseño en bloques
Diseño de bloques completos al azar
Cuando se quieren comparar ciertos tratamientos o estudiar el efecto de un factor, es deseable que las posibles diferencias se deban principalmente al factor de interés y no a otros factores que no se consideran en el estudio. En un diseño en bloques completos al azar (DBCA) se consideran tres fuentes de variabilidad: el factor de tratamientos, el factor de bloque y el error aleatorio, es decir, se tienen tres posibles “culpables” de la variabilidad presente en los datos.
Factores de bloque: Son las variables adicionales alfactor de interés que se incorporan de manera explícita en un experimento comparativo para no sesgar la comparación.
Los factores de bloque entran al estudio en un nivel de importancia secundaria con respecto al factor de interés y, en este sentido, se puede afirmar que se estudia un solo factor, porque es uno el factor de interés.
En un diseño en bloques completos al azar (DBCA) se consideran tres fuentes de variabilidad: el factor de tratamientos, el factor de bloque y el error aleatorio, es decir, se tienen tres posibles “culpables” de la variabilidad presente en los datos. La palabra completo en el nombre del diseño se debe a que en cada bloque se prueban todos los tratamientos, o sea, los bloques están completos. La aleatorización se hace dentro de cada bloque; por lo tanto, no se realiza de manera total como en el diseño completamente al azar. El hecho de que existan bloques hace que no sea práctico o que incluso sea imposi ble aleatorizar en su totalidad.
Brazo lector – disco duro
Una de las variables críticas en el proceso de ensamble del brazo lector de un disco duro es el ángulo que éste forma con el cuerpo prin cipal de la cabeza lectora. Se corre un experimento con el objetivo de comparar dos equipos que miden dicho ángulo en unidades de radianes. Se decide utilizar como factor de bloque a los operadores de los equipos. Los resultados se muestran en la siguiente tabla:
Tabla problema 14
## Replica Equipo Operador Y
## 1 1 1 1 1.328
## 2 2 1 1 1.113
## 3 3 1 1 0.985
## 4 4 1 1 1.057
## 5 5 1 1 1.316
## 6 6 1 1 1.144
## 7 7 1 1 1.553
## 8 8 1 1 1.485
## 9 9 1 1 1.310
## 10 10 1 1 1.386
## 11 1 2 1 1.273
## 12 2 2 1 0.789
## 13 3 2 1 0.985
## 14 4 2 1 0.671
## 15 5 2 1 1.134
## 16 6 2 1 0.554
## 17 7 2 1 1.412
## 18 8 2 1 1.386
## 19 9 2 1 0.917
## 20 10 2 1 1.289
## 21 1 1 2 1.269
## 22 2 1 2 1.093
## 23 3 1 2 1.268
## 24 4 1 2 0.984
## 25 5 1 2 1.091
## 26 6 1 2 1.087
## 27 7 1 2 1.195
## 28 8 1 2 1.482
## 29 9 1 2 1.380
## 30 10 1 2 1.442
## 31 1 2 2 1.036
## 32 2 2 2 0.201
## 33 3 2 2 0.783
## 34 4 2 2 0.900
## 35 5 2 2 1.108
## 36 6 2 2 0.916
## 37 7 2 2 1.129
## 38 8 2 2 1.434
## 39 9 2 2 1.132
## 40 10 2 2 1.223
## 41 1 1 3 1.440
## 42 2 1 3 1.150
## 43 3 1 3 1.079
## 44 4 1 3 1.190
## 45 5 1 3 1.389
## 46 6 1 3 1.247
## 47 7 1 3 1.611
## 48 8 1 3 1.617
## 49 9 1 3 1.445
## 50 10 1 3 1.574
## 51 1 2 3 1.454
## 52 2 2 3 1.018
## 53 3 2 3 1.063
## 54 4 2 3 1.050
## 55 5 2 3 1.219
## 56 6 2 3 0.997
## 57 7 2 3 1.602
## 58 8 2 3 1.538
## 59 9 2 3 1.583
## 60 10 2 3 1.478
=aov(Y~Equipo+Operador,data=df)
modelosummary(modelo)
## Df Sum Sq Mean Sq F value Pr(>F)
## Equipo 1 0.493 0.4925 8.090 0.00621 **
## Operador 2 0.589 0.2944 4.835 0.01156 *
## Residuals 56 3.409 0.0609
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
En el análisis de varianza (ANOVA), se evidencia que hay diferencias significativas entre los operadores y entre los equipos , sin embargo cuando se evalua las interaciones entre operador y equipo no muestra diferencia significativas.
boxplot(Y~Equipo,data=df)
boxplot(Y~Operador,data=df)
boxplot(Y~Equipo*Operador,data=df)
Cuando se visaliza a nivel del boxplot equipos y operador, encontramos diferencias significativas entre 3-1 y 2-2 y esto rechaza la hipótesis nula que dice que no hay diferencias entre los equipos .
=TukeyHSD(modelo)
tk tk
## Tukey multiple comparisons of means
## 95% family-wise confidence level
##
## Fit: aov(formula = Y ~ Equipo + Operador, data = df)
##
## $Equipo
## diff lwr upr p adj
## 2-1 -0.1812 -0.3088231 -0.05357689 0.0062055
##
## $Operador
## diff lwr upr p adj
## 2-1 -0.04670 -0.234553611 0.1411536 0.8214765
## 3-1 0.18285 -0.005003611 0.3707036 0.0580021
## 3-2 0.22955 0.041696389 0.4174036 0.0129494
plot(tk)
qqnorm(modelo$residuals)
qqline(modelo$residuals)
shapiro.test(modelo$residuals)
##
## Shapiro-Wilk normality test
##
## data: modelo$residuals
## W = 0.96139, p-value = 0.05502
La prueba de Shapiro usa para contrastar la normalidad de un conjunto de datos,esta dió aceptable lo que no se rechaza la hipotesis nula.
require(car)
## Loading required package: car
## Loading required package: carData
leveneTest(Y~Equipo,data=df)
## Levene's Test for Homogeneity of Variance (center = median)
## Df F value Pr(>F)
## group 1 4.1246 0.04686 *
## 58
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
leveneTest(Y~Operador,data=df)
## Levene's Test for Homogeneity of Variance (center = median)
## Df F value Pr(>F)
## group 2 0.1849 0.8316
## 57
En la prueba de levene entre los equipos y operadores de la prueba de homogeneidad de varianza, no hay diferencias significativas. por lo tanto las varianzas son iguales.
plot(modelo$residuals)
abline(h=0)
En esta grádica se observa que hay independencia de los datos, ya que distribuyen de forma equitativa con respecto a la basal. a pesar de hay un par de datos aislados.
a)Plantee el modelo y las hipótesis más adecuadas al problema.
Modelo estadístico es el ANOVA La hipótesis a plantear es la siguiente:
Ho: μ1= μ2=μ3…= μk=μ
Ha: μi≠ μj para algún i ≠ j
b)¿Existen diferencias entre los equipos? Argumente estadísticamente.
Si existe diferencia entre los equipos, al obtener un valor p = 0.006 (p > 0.05), se concluye que hay diferencia significativa entre ambos equipos.
c)¿Existen diferencias entre los operadores?
Existe diferencia significativa entre el operador 2 y el operador 3, con un valor p = 0.013 (p < 0.05).
d)Dibuje los diagramas de cajas simultáneos y las gráficas de medias para ambos factores, después interprételas.
boxplot(Y~Equipo*Operador,data=df)
En la gráfica de cajas simultáneas se observa que todas se sobreponen, por lo que podemos pensar que los tratamientos son iguales.
plot(tk,col="blue")
En esta gráfica podemos ver que el único tratamiento que parece ser diferente es el 3-2 (operador 3 con equipo 2), ya que es la única que no contiene al cero.
e)Verifique los supuestos de normalidad e igualdad de varianza entre tratamientos, así como la posible presencia de puntos aberrantes.
En la prueba de Shapiro con un valor p = 0.016 se rezaha Ho, por lo que los datos no están distribuidos de manera norla. el el leveneTest para los equpos con un valor p=0.047 (p<0.05) no hay igualdad de varianzas, a diferencia de los operadores con un valor p=0.83 (p>0.05), se acepta Ho concluyendo que hay igualdad de varianza entre operadores. En las gráficas de normalidad y de independencia se puede observar que si hay puntos aberrantes.
En el ANOVA se concluye que hay diferencias significativas entre los operadores y los equipos , sin embargo cuando se evalua las interaciones entre operador y equipo no muestra diferencia significativas.
Cuando se visaliza a nivel del boxplot ##equipos y operador## encontramos diferencias significativas en entre 3.1 y 2.2 y esto rechaza la hipotesis nula que dice que no hay diferencias entre los equipos .
Cuando evaluamos el boxplot entre operdores y equipos evidenciamos tambien pequeñas diferencias
Al evaluar la curva de normalidad , la mayoria de los datos sigue la normalidad , evideciados que la prueba es bastante robusta y generalmente se acepta un rango de dispersion , para cpmprobar su aceptabilida de usa la priueba de shapiro
La prueba de Shapiro usa para contrastar la normalidad de un conjunto de datos,esta dio aceptable lo que no se rechaza la hipotesis nula.
Se evidencia que hay un problema en la normalidad de los datos, cuando se evalua las graficas de los plot(modelo residual)
En la prueba de levene entre los equipos y operadores de la prueba de homogeneidad de varianza no hay diferencias significativas .
Tiempo de reacción de un proceso químico-catalizador
Se quiere estudiar el efecto de cinco diferentes catalizadores (A, B, C, D y E) sobre el tiempo de reacción de un proceso químico. Cada lote de material sólo permite cinco corridas y cada corrida requie re aproximadamente 1.5 horas, por lo que sólo se pueden realizar cinco corridas diarias. El experimentador decide correr los ex perimentos con un diseño en cuadro latino para controlar activa mente a los lotes y días. Los datos obtenidos son:
Tabla de datos Cap.4 problema 16
=read.csv("PROBLEMA16Cap4.csv",sep=";")
df df
## Lote Dias Tratamiento Y
## 1 1 1 A 8
## 2 1 2 B 7
## 3 1 3 D 1
## 4 1 4 C 7
## 5 1 5 E 3
## 6 2 1 C 11
## 7 2 2 E 2
## 8 2 3 A 7
## 9 2 4 D 3
## 10 2 5 B 8
## 11 3 1 B 4
## 12 3 2 A 9
## 13 3 3 C 10
## 14 3 4 E 1
## 15 3 5 D 5
## 16 4 1 D 6
## 17 4 2 C 8
## 18 4 3 E 6
## 19 4 4 B 6
## 20 4 5 A 10
## 21 5 1 E 4
## 22 5 2 D 2
## 23 5 3 B 3
## 24 5 4 A 8
## 25 5 5 C 8
str(df)
## 'data.frame': 25 obs. of 4 variables:
## $ Lote : int 1 1 1 1 1 2 2 2 2 2 ...
## $ Dias : int 1 2 3 4 5 1 2 3 4 5 ...
## $ Tratamiento: chr "A" "B" "D" "C" ...
## $ Y : int 8 7 1 7 3 11 2 7 3 8 ...
$Lote=factor(df$Lote)
df$Dias=factor(df$Dias)
df$Tratamiento=factor(df$Tratamiento) df
=aov(Y~Lote+Dias+Tratamiento,data=df)
modelosummary(modelo)
## Df Sum Sq Mean Sq F value Pr(>F)
## Lote 4 15.44 3.86 1.235 0.347618
## Dias 4 12.24 3.06 0.979 0.455014
## Tratamiento 4 141.44 35.36 11.309 0.000488 ***
## Residuals 12 37.52 3.13
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
boxplot(Y~Tratamiento,data=df, col="blue")
=TukeyHSD(modelo)
tk tk
## Tukey multiple comparisons of means
## 95% family-wise confidence level
##
## Fit: aov(formula = Y ~ Lote + Dias + Tratamiento, data = df)
##
## $Lote
## diff lwr upr p adj
## 2-1 1.0 -2.564608 4.564608 0.8936609
## 3-1 0.6 -2.964608 4.164608 0.9816047
## 4-1 2.0 -1.564608 5.564608 0.4225127
## 5-1 -0.2 -3.764608 3.364608 0.9997349
## 3-2 -0.4 -3.964608 3.164608 0.9960012
## 4-2 1.0 -2.564608 4.564608 0.8936609
## 5-2 -1.2 -4.764608 2.364608 0.8166339
## 4-3 1.4 -2.164608 4.964608 0.7232162
## 5-3 -0.8 -4.364608 2.764608 0.9489243
## 5-4 -2.2 -5.764608 1.364608 0.3365811
##
## $Dias
## diff lwr upr p adj
## 2-1 -1.0 -4.564608 2.564608 0.8936609
## 3-1 -1.2 -4.764608 2.364608 0.8166339
## 4-1 -1.6 -5.164608 1.964608 0.6212723
## 5-1 0.2 -3.364608 3.764608 0.9997349
## 3-2 -0.2 -3.764608 3.364608 0.9997349
## 4-2 -0.6 -4.164608 2.964608 0.9816047
## 5-2 1.2 -2.364608 4.764608 0.8166339
## 4-3 -0.4 -3.964608 3.164608 0.9960012
## 5-3 1.4 -2.164608 4.964608 0.7232162
## 5-4 1.8 -1.764608 5.364608 0.5188508
##
## $Tratamiento
## diff lwr upr p adj
## B-A -2.8 -6.3646078 0.7646078 0.1539433
## C-A 0.4 -3.1646078 3.9646078 0.9960012
## D-A -5.0 -8.5646078 -1.4353922 0.0055862
## E-A -5.2 -8.7646078 -1.6353922 0.0041431
## C-B 3.2 -0.3646078 6.7646078 0.0864353
## D-B -2.2 -5.7646078 1.3646078 0.3365811
## E-B -2.4 -5.9646078 1.1646078 0.2631551
## D-C -5.4 -8.9646078 -1.8353922 0.0030822
## E-C -5.6 -9.1646078 -2.0353922 0.0023007
## E-D -0.2 -3.7646078 3.3646078 0.9997349
plot(tk, col="blue")
qqnorm(modelo$residuals,col="blue")
qqline(modelo$residuals,col="blue")
shapiro.test(modelo$residuals)
##
## Shapiro-Wilk normality test
##
## data: modelo$residuals
## W = 0.96606, p-value = 0.5476
library("car")
leveneTest(Y~Tratamiento,data=df)
## Levene's Test for Homogeneity of Variance (center = median)
## Df F value Pr(>F)
## group 4 0.4444 0.7751
## 20
plot(modelo$residuals)
abline(h=0)
plot(df$Tratamiento,modelo$residuals)
abline(h=0)
plot(modelo$fitted.values, modelo$residuals)
abline(h=0)
a) ¿Como se aleatorizó el experimento? R/ En este experimento el tiempo no se puede aleatorizar, los lotes fueron controlados por el investigador, el tratamiento, en este caso el catalizador pudo ser aleatorizado.
b) Anote la ecuación del modelo y las hipótesis estadísticas correspondientes. R/ Modelo: Anova H0= no existe efecto de los catalizadores sobre el el tiempo de reacción del proceso químico Ha= existe efecto de los catalizadores sobre el el tiempo de reacción del proceso químico
c) ¿Existen diferencias entre los tratamientos? ¿Cuáles tratamietos son diferentes entre sí? R/Si existe diferencia entre los tratamientos, D-A E-A D-C E-C
d) ¿Los factores de ruido, lote y día afectan el tiempo de reacción del proceso? R/ Ninguno de estos factores afectan el tiempo de reacción y lo valores de p según el análisis de anova son mayores a 0.05.
e) Dibuje los gráficos de medias para los tratamientos, los lotes y los días. ¿Cuál tratamiento es mejor? R/ El Catalizador E disminuye el tiempo de la reacción en los procesos químicos
f) Verifique los supuestos del modelo, considerando que los datos se obtuvieron columna por columna, día a día. R/Los supuestos del modelo se cumplen, la distribución normal y los residuales.
En este problema, se cumplen los supuestos para poder realizar el ANOVA. Donde los datos deben presentar distribución normal, varianzas iguales y se presenta independencia de los datos. El Catalizador E disminuye el tiempo de la reacción en los procesos químicos. *En este experimento el tiempo no se puede aleatorizar, los lotes fueron controlados por el investigador, el tratamiento, en este caso el catalizador pudo ser aleatorizado.
Peso en gramos
Se comprueba el peso en gramos de un material de tres proveedo res: A, B y C, por tres diferentes inspectores: I, II y III, utilizando tres diferentes escalas: 1, 2 y 3. El experimento se lleva a cabo como el siguiente cuadro latino:
Tabla de datos Cap.4 problema 19
=expand.grid(1:3,1:3)
df$Trat=c("A","B","C","B","C","A","C","A","B")
df$Y=c(16,15,13,10,9,11,11,14,13)
df df
## Var1 Var2 Trat Y
## 1 1 1 A 16
## 2 2 1 B 15
## 3 3 1 C 13
## 4 1 2 B 10
## 5 2 2 C 9
## 6 3 2 A 11
## 7 1 3 C 11
## 8 2 3 A 14
## 9 3 3 B 13
names(df)=c("Inspector","Escala","Trat","Y")
df
## Inspector Escala Trat Y
## 1 1 1 A 16
## 2 2 1 B 15
## 3 3 1 C 13
## 4 1 2 B 10
## 5 2 2 C 9
## 6 3 2 A 11
## 7 1 3 C 11
## 8 2 3 A 14
## 9 3 3 B 13
str(df)
## 'data.frame': 9 obs. of 4 variables:
## $ Inspector: int 1 2 3 1 2 3 1 2 3
## $ Escala : int 1 1 1 2 2 2 3 3 3
## $ Trat : chr "A" "B" "C" "B" ...
## $ Y : num 16 15 13 10 9 11 11 14 13
## - attr(*, "out.attrs")=List of 2
## ..$ dim : int [1:2] 3 3
## ..$ dimnames:List of 2
## .. ..$ Var1: chr [1:3] "Var1=1" "Var1=2" "Var1=3"
## .. ..$ Var2: chr [1:3] "Var2=1" "Var2=2" "Var2=3"
$Inspector=factor(df$Inspector)
df$Escala=factor(df$Escala)
df$Trat=factor(df$Trat) df
=aov(Y~Inspector+Escala+Trat,data=df)
modelosummary(modelo)
## Df Sum Sq Mean Sq F value Pr(>F)
## Inspector 2 0.22 0.111 1 0.50000
## Escala 2 32.89 16.444 148 0.00671 **
## Trat 2 10.89 5.444 49 0.02000 *
## Residuals 2 0.22 0.111
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
En el análisis de ANOVA , con un valor p = 0.02000 * (p < 0.05) para los proveedores, se rechaza Ho, concluyendo que hay diferencia significativa en al menos 1 proveedor.
boxplot(Y~Inspector,data=df,main="Gráfico de los Inspectores",col="blue")
boxplot(Y~Escala,data=df,main="Gráfico de la Escala",col="blue")
boxplot(Y~Trat,data=df,main="Gráfico Peso en gramos",col="blue")
=TukeyHSD(modelo)
tk tk
## Tukey multiple comparisons of means
## 95% family-wise confidence level
##
## Fit: aov(formula = Y ~ Inspector + Escala + Trat, data = df)
##
## $Inspector
## diff lwr upr p adj
## 2-1 3.333333e-01 -1.269927 1.936593 0.548184
## 3-1 1.776357e-15 -1.603260 1.603260 1.000000
## 3-2 -3.333333e-01 -1.936593 1.269927 0.548184
##
## $Escala
## diff lwr upr p adj
## 2-1 -4.666667 -6.269927 -3.0634068 0.0061007
## 3-1 -2.000000 -3.603260 -0.3967402 0.0327189
## 3-2 2.666667 1.063407 4.2699265 0.0186734
##
## $Trat
## diff lwr upr p adj
## B-A -1.000000 -2.603260 0.60325985 0.1191149
## C-A -2.666667 -4.269927 -1.06340682 0.0186734
## C-B -1.666667 -3.269927 -0.06340682 0.0464424
plot(tk,col="blue")
qqnorm(modelo$residuals,col="blue")
qqline(modelo$residuals,col="blue")
shapiro.test(modelo$residuals)
##
## Shapiro-Wilk normality test
##
## data: modelo$residuals
## W = 0.61728, p-value = 0.0001526
require(car)
leveneTest(Y~Trat,data=df)
## Levene's Test for Homogeneity of Variance (center = median)
## Df F value Pr(>F)
## group 2 0.0556 0.9464
## 6
leveneTest(Y~Escala,data=df)
## Levene's Test for Homogeneity of Variance (center = median)
## Df F value Pr(>F)
## group 2 0.1429 0.8697
## 6
plot(modelo$residuals)
abline(h=0)
a) ¿Hay diferencias entre los proveedores?
En el análisis de ANOVA , con un valor p = 0.02000 * (p < 0.05) para los proveedores, se rechaza Ho, concluyendo que hay diferencia significativa en al menos 1 proveedor.
b) ¿Hay diferencias entre los inspectores y entre las escalas? En el análisis de ANOVA , con un valor p = 0.50000 para los inspectores, se acepta Ho, concluyendo que no hay diferencia significativa entre los instructores. Entre las escalas con un valor p = 0.00671 ** (p < 0.05), se rechaza Ho, concluyendo que hay diferencias significativas en al menos 1 escala.
c) Si el peso debe ser 15 g, ¿cuál proveedor es mejor? El proveedor A, es el mejor proveedor porque es el que más se acerca al peso esperado de 15g.
d) Si algún factor de bloque es no significativo, elimínelo y haga el análisis adecuado. Se elimina el factor de bloque de los inspectores, ya que se concluyó que no tiene efecto en la variable respuesta, al tener una p < 0.05 por lo tanto no hay diferencia significativa. Al hacer los análisis nuevamente se observó que las escalas y los proveedores seguían teniendo diferencia significativa, pero con un mayor grado de significancia.
En el análisis de ANOVA , con un valor p = 0.02000 (p < 0.05) para los proveedores, se rechaza Ho, concluyendo que hay diferencia significativa en al menos 1 proveedor.
El proveedor A, es el mejor proveedor porque es el que más se acerca al peso esperado de 15g.
Es importante tomar en cuenta que los datos no cumplen con los supuestos de normalidad e independencia de la ANOVA, por lo que el estudio no es reproducible.
Diseño Factorial
El objetivo de un diseño factorial es estudiar el efecto de varios factores sobre una o varias respuestas, cuando se tiene el mismo interés sobre todos los factores.Uno de los objetivos particulares más importantes que en ocasiones tiene un diseño factorial es determinar una combinación de niveles de los factores en la que el desempeño del proceso sea mejor.
Para estudiar la manera en que influye cada factor sobre la variable de respuesta es necesario elegir al menos dos niveles de prueba para cada uno de ellos. Con el diseño factorial completo se corren aleatoriamente todas las posibles combinaciones que pueden formarse con los niveles de los factores a investigar.
Diseño factorial Diseño experimental que sirve para estudiar el efecto individual y de interacción de varios factores sobre una o varias respuestas.
Efecto Principal Es igual a la respuesta promedio observada en el nivel alto de un factor, menos la respuesta promedio en el nivel bajo.
Efecto de Interacción Dos factores interactúan de manera significativa sobre la variable de respuesta cuando el efecto de uno depende del nivel en que está el otro.
Diseños Factoriales con Dos Factores Considere los factores A y B con a y b (a, b ≥ 2) niveles de prueba, respectivamente. Con ellos se puede construir el arreglo o diseño factorial a × b, el cual consiste en a × b tratamientos. Algunos casos particulares de uso frecuente son: el factorial 22, el factorial 32 y el factorial 3 × 2. Se llama réplica a cada corrida completa del arreglo factorial. Los diseños factoriales que involucran menos de cuatro factores por lo regular se corren replicados para tener la potencia necesaria en las pruebas estadísticas sobre los efectos de interés. Si se hacen n réplicas, el número total de corridas experimentales es n(a × b).
Diseños Factoriales con Tres Factores Cuando se quiere investigar la influencia de tres factores (A, B y C) sobre una o más variables de respuesta, y el número de niveles de prueba en cada uno de los factores es a, b y c, respectivamente, se puede construir el arreglo factorial a × b × c, que consiste de a × b × c tratamientos o puntos experimentales. Entre los arreglos de este tipo que se utilizan con frecuencia en aplicaciones diversas se encuentran: el factorial 23, el factorial 33 y los factoriales mixtos con no más de cuatro niveles en dos de los factores, por ejemplo, el factorial 4 × 3 × 2 y el factorial 4 × 4 × 2, por mencionar dos de ellos.
Hinchamiento del catalizador en fabricación de botellas de polietileno
Se corre un diseño factorial 3 × 2 con 10 réplicas para investigar el hinchamiento del catalizador después de la extrusión en la fabricación de botellas de polietileno de alta densidad. El catalizador se utiliza en la obtención de dicho polietileno. Los factores investigados son: molde (con dos niveles) y B: catalizador (con tres niveles). Los datos obtenidos se muestran en la siguiente tabla:
Tabla de datos Cap.5 problema 19
=read.csv("cap5p19.csv")
df df
## Molde Catalizador Y
## 1 -1 -1 93
## 2 -1 -1 92
## 3 -1 -1 90
## 4 -1 -1 91
## 5 -1 -1 92
## 6 -1 -1 91
## 7 -1 -1 90
## 8 -1 -1 91
## 9 -1 -1 93
## 10 -1 -1 90
## 11 1 -1 88
## 12 1 -1 88
## 13 1 -1 87
## 14 1 -1 87
## 15 1 -1 88
## 16 1 -1 87
## 17 1 -1 87
## 18 1 -1 87
## 19 1 -1 87
## 20 1 -1 88
## 21 -1 0 92
## 22 -1 0 94
## 23 -1 0 90
## 24 -1 0 91
## 25 -1 0 90
## 26 -1 0 91
## 27 -1 0 92
## 28 -1 0 92
## 29 -1 0 92
## 30 -1 0 91
## 31 1 0 90
## 32 1 0 88
## 33 1 0 88
## 34 1 0 88
## 35 1 0 89
## 36 1 0 90
## 37 1 0 89
## 38 1 0 88
## 39 1 0 88
## 40 1 0 89
## 41 -1 1 95
## 42 -1 1 94
## 43 -1 1 94
## 44 -1 1 94
## 45 -1 1 94
## 46 -1 1 97
## 47 -1 1 95
## 48 -1 1 96
## 49 -1 1 94
## 50 -1 1 96
## 51 1 1 91
## 52 1 1 90
## 53 1 1 92
## 54 1 1 90
## 55 1 1 97
## 56 1 1 89
## 57 1 1 90
## 58 1 1 91
## 59 1 1 91
## 60 1 1 91
str(df)
## 'data.frame': 60 obs. of 3 variables:
## $ Molde : int -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 ...
## $ Catalizador: int -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 ...
## $ Y : int 93 92 90 91 92 91 90 91 93 90 ...
$Molde=factor(df$Molde)
df$Catalizador=factor(df$Catalizador) df
=aov(Y~Molde+Catalizador,data=df)
modelosummary(modelo)
## Df Sum Sq Mean Sq F value Pr(>F)
## Molde 1 180.27 180.27 110.89 6.79e-15 ***
## Catalizador 2 153.03 76.52 47.07 1.02e-12 ***
## Residuals 56 91.03 1.63
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
boxplot(Y~Molde,data=df)
boxplot(Y~Catalizador,data=df)
boxplot(Y~Molde*Catalizador,data=df)
interaction.plot(df$Molde,df$Catalizador,df$Y)
=TukeyHSD(modelo)
tk tk
## Tukey multiple comparisons of means
## 95% family-wise confidence level
##
## Fit: aov(formula = Y ~ Molde + Catalizador, data = df)
##
## $Molde
## diff lwr upr p adj
## 1--1 -3.466667 -4.126135 -2.807199 0
##
## $Catalizador
## diff lwr upr p adj
## 0--1 0.75 -0.2206975 1.720698 0.1598613
## 1--1 3.70 2.7293025 4.670698 0.0000000
## 1-0 2.95 1.9793025 3.920698 0.0000000
plot(tk)
qqnorm(modelo$residuals)
qqline(modelo$residuals)
shapiro.test(modelo$residuals)
##
## Shapiro-Wilk normality test
##
## data: modelo$residuals
## W = 0.87917, p-value = 2.485e-05
require(car)
leveneTest(Y~Molde,data=df)
## Levene's Test for Homogeneity of Variance (center = median)
## Df F value Pr(>F)
## group 1 0.1322 0.7175
## 58
leveneTest(Y~Catalizador,data=df)
## Levene's Test for Homogeneity of Variance (center = median)
## Df F value Pr(>F)
## group 2 2.0397 0.1394
## 57
plot(modelo$residuals)
abline(h=0)
a) Plantee las hipótesis de interés en este problema y el modelo estadístico correspondiente.
Ho : Efecto de Molde (A) = 0 HA : Efecto de Molde (A) ≠ 0
Ho : Efecto de Catalizador (B) = 0 HA : Efecto de Catalizador (B) ≠ 0
Estas hipótesis se prueban mediante la técnica de análisis de varianza (modelo estadístico: ANOVA), para un diseño factorial a × b con n réplicas.
b) Construya la tabla de análisis de varianza y determine cuáles efectos están activos. Ver el ANOVA y gráfico previo
Df Sum Sq Mean Sq F value Pr(>F)
Molde 1 180.27 180.27 110.89 6.79e-15 Catalizador 2 153.03 76.52 47.07 1.02e-12 Residuals 56 91.03 1.63
Ambos efectos el molde y el catalizador están activos.
c)Dibuje las gráficas de medias para los dos efectos de Tukey.
plot(tk,col="blue")
d)Haga la gráfica de interacción.
interaction.plot(df$Molde,df$Catalizador,df$Y)
e) Determine cuál es el mejor tratamiento. ¿Cuál es el hinchamiento predicho en el mejor tratamiento?
El mejor trata miento sería Molde A1 y el Catalizador B3, con un hinchamiento predicho de 94.9.
f) Verifique los supuestos de normalidad y varianza constante. En la prueba Shapiro con un valor p = 2.485e-05 (p<0.05), se rechaza Ho, por lo que se concluye que los datos no se distribuyen de forma normal.
En el leveneTest para catalizadores y moldes, en ambos la p > 0.05, nos indica que hay varianzas iguales.
g) Utilice la gráfica de residuos contra factores para detectar posibles efectos sobre la dispersión del hinchamiento. ¿En cuál molde parece que es menor la dispersión? Observando la gráfica de residuos contra factores, pareciera que la dispersión es menor en el molde B.
Adhesivos para componentes electrónicos
Para mejorar la resistencia a la torsión de las adhesiones de componentes electrónicos sobre placas, se estudiaron dos tipos de pegamentos (A1 y A2) y tres temperaturas de curado (60, 80 y 100°C). En cada combinación se analizaron dos componentes y los resultados obtenidos son los siguientes:
Tabla de datos Cap.5 problema 20
=read.csv("Cap5Prob20.csv")
df df
## Pegamento Temperatura Y
## 1 A1 60 2.50
## 2 A1 60 2.80
## 3 A1 80 3.80
## 4 A1 80 3.40
## 5 A1 100 4.00
## 6 A1 100 4.20
## 7 A2 60 1.60
## 8 A2 60 1.22
## 9 A2 80 3.20
## 10 A2 80 2.80
## 11 A2 100 4.30
## 12 A2 100 4.70
str(df)
## 'data.frame': 12 obs. of 3 variables:
## $ Pegamento : chr "A1" "A1" "A1" "A1" ...
## $ Temperatura: int 60 60 80 80 100 100 60 60 80 80 ...
## $ Y : num 2.5 2.8 3.8 3.4 4 4.2 1.6 1.22 3.2 2.8 ...
$Pegamento=factor(df$Pegamento)
df$Temperatura=factor(df$Temperatura)
df$Y=as.double(df$Y) df
=aov(Y~Pegamento*Temperatura,data=df)
modelosummary(modelo)
## Df Sum Sq Mean Sq F value Pr(>F)
## Pegamento 1 0.691 0.691 10.99 0.0161 *
## Temperatura 2 10.354 5.177 82.35 4.34e-05 ***
## Pegamento:Temperatura 2 1.366 0.683 10.87 0.0101 *
## Residuals 6 0.377 0.063
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
En el ANOVA con una p valor menor de 0.05 se rechaza Ho, por lo tanto existe diferencia significatica en al menos un tratamiento.
boxplot(Y~Pegamento,data=df,main="Graficos de los pegamento")
boxplot(Y~Temperatura,data=df,main="Resistencia a la torsión de las adhesiones")
boxplot(Y~Pegamento*Temperatura,data=df,main="Graficos de las variables")
interaction.plot(df$Pegamento,df$Temperatura,df$Y,col="blue")
=TukeyHSD(modelo)
tk tk
## Tukey multiple comparisons of means
## 95% family-wise confidence level
##
## Fit: aov(formula = Y ~ Pegamento * Temperatura, data = df)
##
## $Pegamento
## diff lwr upr p adj
## A2-A1 -0.48 -0.8342158 -0.1257842 0.0160877
##
## $Temperatura
## diff lwr upr p adj
## 80-60 1.27 0.7260119 1.813988 0.0009122
## 100-60 2.27 1.7260119 2.813988 0.0000343
## 100-80 1.00 0.4560119 1.543988 0.0032134
##
## $`Pegamento:Temperatura`
## diff lwr upr p adj
## A2:60-A1:60 -1.24 -2.23787597 -0.242124 0.0188874
## A1:80-A1:60 0.95 -0.04787597 1.947876 0.0613074
## A2:80-A1:60 0.35 -0.64787597 1.347876 0.7301328
## A1:100-A1:60 1.45 0.45212403 2.447876 0.0088011
## A2:100-A1:60 1.85 0.85212403 2.847876 0.0024766
## A1:80-A2:60 2.19 1.19212403 3.187876 0.0009867
## A2:80-A2:60 1.59 0.59212403 2.587876 0.0055020
## A1:100-A2:60 2.69 1.69212403 3.687876 0.0003113
## A2:100-A2:60 3.09 2.09212403 4.087876 0.0001416
## A2:80-A1:80 -0.60 -1.59787597 0.397876 0.2878599
## A1:100-A1:80 0.50 -0.49787597 1.497876 0.4368423
## A2:100-A1:80 0.90 -0.09787597 1.897876 0.0761198
## A1:100-A2:80 1.10 0.10212403 2.097876 0.0327623
## A2:100-A2:80 1.50 0.50212403 2.497876 0.0074161
## A2:100-A1:100 0.40 -0.59787597 1.397876 0.6284243
qqnorm(modelo$residuals,col="blue")
qqline(modelo$residuals,col="blue")
shapiro.test(modelo$residuals)
##
## Shapiro-Wilk normality test
##
## data: modelo$residuals
## W = 0.77302, p-value = 0.004698
require(car)
leveneTest(Y~Temperatura,data=df)
## Levene's Test for Homogeneity of Variance (center = median)
## Df F value Pr(>F)
## group 2 4.4568 0.04516 *
## 9
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
leveneTest(Y~Pegamento,data=df)
## Levene's Test for Homogeneity of Variance (center = median)
## Df F value Pr(>F)
## group 1 2.7953 0.1255
## 10
plot(modelo$residuals,col="blue")
abline(h=0)
a) Plantee las hipótesis de interés en este problema y el modelo estadístico correspondiente.
Ho : Efecto de Pegamento (A) = 0 HA : Efecto de Pegamento (A) ≠ 0
Ho : Efecto de Temperatura de curadp (B) = 0 HA : Efecto de Temperatura de curado (B) ≠ 0
Estas hipótesis se prueban mediante la técnica de análisis de varianza (modelo estadístico: ANOVA), para un diseño factorial a × b con n réplicas.
b) Construya el ANOVA y decida cuáles efectos están activos.
Al realizar el análisis de ANOVA, se observa que anto para la variable pegamento como para la temperatura de curado, se obtuvo valores p<0.05, por lo tanto se rechaza Ho, y se concluye que ambos efectos están activos.
c) Dibuje las gráficas de efectos y determine con ellas el mejor tratamiento.
interaction.plot(df$Pegamento,df$Temperatura,df$Y,main="Interaccion entre las variables",col="blue")
Según la gráfica de interacción, se puede concluir que el mejor tratamiento es el Pegaemnto A2 con una temperatura de curado de 100°C.
d) Estime la resistencia a la torsión en el mejor tratamiento. La resistencia a la torsión (promedio), en el mejor tratamiento es de 4.5.
e) Verifique residuos.
plot(modelo$residuals,main="Gráfica de Independencia de los Residuos",col="blue")
abline(h=0)
1.Se ha demostrado estadísticamente (P < 0,05) que los pegamentos tienen una influencia significativa en la resistencia a la torsión de las adhesiones componentes electrónicos sobre placas, es decir las medias son diferentes.
2.Temperatura de curado Como en P valor < 0,05; entonces se rechaza la hipótesis nula, concluyendo que las medias de resistencia a la torsión de las adhesiones de componentes electrónicos sobre placas son diferentes.
3.No existe interacción (AB) con un nivel de confianza del 95% sobre la media de resistencia a la torsión de las adhesiones de componentes electrónicos sobre placas.
Resistencia de caucho vulcanizado
Se desea investigar de qué manera afecta el tiempo de curado y el tipo del acelerante a la resistencia de caucho vulcanizado. Se realiza un experimento y se obtienen los siguientes datos:
Tabla de datos Cap.5 problema 21
=read.csv("CAP 5PROBLEM 21.csv",sep=";")
df df
## ACELERANTE TIEMPO.DE.CURA Y
## 1 -1 -1 3900
## 2 -1 -1 3600
## 3 -1 0 4100
## 4 -1 0 3500
## 5 -1 1 4000
## 6 -1 1 3800
## 7 0 -1 4300
## 8 0 -1 3700
## 9 0 0 4200
## 10 0 0 3900
## 11 0 1 4300
## 12 0 1 3600
## 13 1 -1 3700
## 14 1 -1 4100
## 15 1 0 3900
## 16 1 0 4000
## 17 1 1 3600
## 18 1 1 3800
$TIEMPO=factor(df$TIEMPO)
df$ACELERANTE=factor(df$ACELERANTE)
dfstr(df)
## 'data.frame': 18 obs. of 4 variables:
## $ ACELERANTE : Factor w/ 3 levels "-1","0","1": 1 1 1 1 1 1 2 2 2 2 ...
## $ TIEMPO.DE.CURA: int -1 -1 0 0 1 1 -1 -1 0 0 ...
## $ Y : int 3900 3600 4100 3500 4000 3800 4300 3700 4200 3900 ...
## $ TIEMPO : Factor w/ 3 levels "-1","0","1": 1 1 2 2 3 3 1 1 2 2 ...
=aov(Y~TIEMPO+ACELERANTE,data=df)
modelosummary(modelo)
## Df Sum Sq Mean Sq F value Pr(>F)
## TIEMPO 2 21111 10556 0.152 0.86
## ACELERANTE 2 114444 57222 0.825 0.46
## Residuals 13 902222 69402
boxplot(Y~TIEMPO,data=df,col="blue")
boxplot(Y~ACELERANTE,data=df)
boxplot(Y~TIEMPO+ACELERANTE,data=df,col="blue")
interaction.plot(df$TIEMPO,df$ACELERANTE,df$Y,col="blue")
=TukeyHSD(modelo)
tk tk
## Tukey multiple comparisons of means
## 95% family-wise confidence level
##
## Fit: aov(formula = Y ~ TIEMPO + ACELERANTE, data = df)
##
## $TIEMPO
## diff lwr upr p adj
## 0--1 50.00000 -351.6061 451.6061 0.9424302
## 1--1 -33.33333 -434.9394 368.2728 0.9739228
## 1-0 -83.33333 -484.9394 318.2728 0.8493245
##
## $ACELERANTE
## diff lwr upr p adj
## 0--1 183.33333 -218.2728 584.9394 0.4708685
## 1--1 33.33333 -368.2728 434.9394 0.9739228
## 1-0 -150.00000 -551.6061 251.6061 0.5979909
plot(tk,col="blue")
qqnorm(modelo$residuals,col="blue")
qqline(modelo$residuals,col="blue")
shapiro.test(modelo$residuals)
##
## Shapiro-Wilk normality test
##
## data: modelo$residuals
## W = 0.94083, p-value = 0.2994
library("car")
leveneTest(Y~TIEMPO,data=df)
## Levene's Test for Homogeneity of Variance (center = median)
## Df F value Pr(>F)
## group 2 0.1373 0.8728
## 15
leveneTest(Y~ACELERANTE,data=df)
## Levene's Test for Homogeneity of Variance (center = median)
## Df F value Pr(>F)
## group 2 1.789 0.201
## 15
plot(modelo$residuals)
abline(h=0)
plot(df$TIEMPO,modelo$residuals)
abline(h=0)
a)Señale el nombre del diseño de experimento utilizado y su modelo estadístico.
Diseño Factorial, diseño estadístico ANova
b)Formule claramente todas las hipótesis que se pueden probar.
Ho= no afecta el tiempo de curado la resistencia del caucho Ha= afecta el tiempo de curado la resistencia del caucho
Ho= No afecta el tipo de acelerante la resistencia del caucho Ha= afecta el tipo de acelerante la resistencia del caucho
c)Realice el análisis estadístico apropiado para probar las hipótesis que formuló.
Se realizó análisis de anova
d)¿Hay algún tiempo de cura que es mejor para aumentar la resistencia? Argumente su respuesta.
No existe tiempo de cura mejor ya que el análisis de anova para las medias es mayor es de 0.86 siendo mayor a 0.05 donde no se rechaza la hipótesis nula
e)¿Algún acelerante es mejor? Explique.
Entre los acelerantes no hay uno mejor ya que el análisis de anova para las medias es mayor es de 0.46 siendo mayor a 0.05 donde no se rechaza la hipótesis nula
f)¿Hay alguna combinación de tiempo y acelerante que sea mejor?
Al realizar la grafica de interacción podemos observar que la combinación del acelerante B con un tiempo de 60 minutos es el mejor aumentando la resistencia del caucho vulacanizado.
g)La gráfica boxplot en el R Ver gráfico previo
h)Verifique que se cumplan los supuestos. En caso de que no se cumpliera el supuesto varianza constante para el tiempo de cura, ¿qué significaría eso y cómo pudiera corregirse?
LOS SUPUESTOS SE CUMPLEN
Se cumplen los supuestos de la ANOVA.
Los tres tipos de acelerantés y los 3 tiempos, son iguales, no tienen un efecto significativo sobre la resitencia del caucho.
En la gráfica de interacción, se puede concluir que la combinación del acelerante B con un tiempo de 60 minutos, aumentar la resistencia del caucho vulacanizado.