El presente trabajo corresponde a una serie de análisis estadísticos dentro del Curso Diseño Experimental del Postgrado en Investigación de la Universidad Autónoma de Chiriquí, bajo la facilitación del profesor Pedro González.
En la primera parte se hace un acercamiento a la temática del diseño experimental como una de las etapas de la investigación científica, diferenciando entre ciencias naturales y sociales.
Luego se abordan los temas relacionados con los diseños experimentales desarrollados en el curso del postgrado tales como los diseños de bloques al azar, diseño de cuadrado latino y diseño grecolatino.
En una tercera parte se desarrollarán varios problemas asignados por el docente, con el fin de poner en práctica los conocimientos adquiridos. Se analizan seis problemas de los capítulos 4 y 5 del libro Análisis y Diseño de Experimentos, de H.Gutierrez y R. De la Vara (2008).
Los análisis que se realizan son aquellos correspondientes a diseños de bloques, análisis de varianzas, diseño en cuadrado latino y gregolatino.
El resultado de los análisis será presentado por medio del software RMarkdown y publicado en el sitio RPubs.
En la investigación científica, sobre todo en ciencias naturales, la experimentación es uno de los pasos fundamentales para lograr resultados efectivos y aportar al conocimiento. De ahí que el diseño experimental se desarrolle como una actividad necesaria en el proceso investigativo.
En ciencias sociales, donde se ubica el autor de este trabajo, no se realizan experimentos o en muy contadas ocasiones, debido a que el objeto de estudio es el mismo ser humano en sus interacciones sociales, lo que puede reñir éticamente con los postulados de las ciencias. Sin embargo, algunos autores siguieren que en vez de pensar ese paso del métoco científico como un laboratorio, se pueden tomar datos de la realidad pasada o presente, sin manipularla, pero tomando en cuenta los factores que pudieran intervenir en un caso específico (Fernández y López, 2013).
El diseño experimental se refiere a un esquema de cómo realizar un experimento. El objetivo fundamental de los diseños experimentales consiste en el determinar si existe una diferencia significativa entre los diferentes tratamientos del experimento y en caso que lo haya, cual sería la magnitud de esta diferencia. Otra meta de los diseños experimentales es verificar la existencia de una tendencia derivada del análisis de los datos del experimento.
La diferencia principal entre los diseños experimentales radica en la forma en que se agrupan o clasifican las unidades experimentales. En todos los diseños las unidades experimentales se clasifican por tratamientos; pero en algunos, estos se clasifican preferentemente en bloques, filas, parcelas principales y otras modalidades.
De acuerdo a su objetivo, los diseños experimentales se pueden clasificar como: 1. Diseños para comparar dos o más tratamientos. 2. Diseños para estudiar el efecto de varios factores sobre la(s) respuesta(s). 3. Diseños para determinar el punto óptimo de operación del proceso. 4. Diseños para la optimización de una mezcla. 5. Diseños para hacer el producto o proceso insensible a factores no controlables.
Diseño de bloques: se refiere a la inclusión de más de una variable en un experimento para lograr resultados más objetivos. En un experimento comparativo se le llama factores de bloque a aquellas variables adicionales al factor de interés que se incorporan de manera explícita en un experimento para no sesgar la investigación.
Análisis de varianzas: se refiere a la prueba de hipótesis a partir de dos criterios de clasificación o de variación: el factor de tratamiento y el factor de bloque.
Diseño de cuadrado latino Se refiere al diseño en el que se controlan dos factores de bloque y uno de tratamientos; los tres factores tienen la misma cantidad de niveles. Los tratamientos se representan por letras latinas y se distribuyen en forma adecuada en un cuadro.
Diseño de cuadrado grecolatino Es el diseño en el que se controlan tres factores de bloques y un factor de tratamiento; los cuatro factores utilizan la misma cantidad de niveles.
Se le llama cuadro grecolatino porque los cuatro factores involucrados se prueban en la misma cantidad de niveles, de aquí que se pueda escribir como un cuadro; además, se utilizan letras latinas para denotar a los tratamientos y letras griegas para nombrar a los niveles del tercer factor de bloque.
Se hace un estudio sobre la efectividad de tres marcas de atomizador para matar moscas. Para ello, cada producto se aplica a un grupo de 100 moscas, y se cuenta el número de moscas muertas expresado en porcentajes. Se hicieron seis réplicas, pero en días diferentes; por ello, se sospecha que puede haber algún efecto importante debido a esta fuente de variación. Los datos obtenidos se muestran a continuación:
df=read.csv("C:/Users/Hp/Desktop/Curso07-DisenoExperimental/Cap4-10-moscas.csv", sep=";")
str(df)
## 'data.frame': 18 obs. of 3 variables:
## $ Dia : int 1 1 1 2 2 2 3 3 3 4 ...
## $ Atomizador: int 1 2 3 1 2 3 1 2 2 1 ...
## $ Y : int 72 55 64 65 59 74 67 68 61 75 ...
df$Dia=factor(df$Dia)
df$Atomizador=factor(df$Atomizador)
df$Y=as.double(df$Y)
modelo=aov(Y~Dia+Atomizador,data=df)
summary(modelo)
## Df Sum Sq Mean Sq F value Pr(>F)
## Dia 5 281.3 56.27 1.139 0.4008
## Atomizador 2 316.8 158.40 3.207 0.0839 .
## Residuals 10 493.9 49.39
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
boxplot(Y~Atomizador,data=df,main="Comparacion de Tratamientos, según tipo de atomizador")
boxplot(Y~Dia,data=df, main="Comparacion de Tratamientos según día de aplicación")
tk=TukeyHSD(modelo)
tk$Atomizador
## diff lwr upr p adj
## 2-1 -9.809524 -20.527374 0.9083264 0.07297335
## 3-1 -5.466667 -17.131979 6.1986455 0.43463008
## 3-2 4.342857 -6.937355 15.6230689 0.56109563
qqnorm(modelo$residual,main="Prueba de Normalidad")
qqline(modelo$residual)
shapiro.test(modelo$residuals)
##
## Shapiro-Wilk normality test
##
## data: modelo$residuals
## W = 0.96048, p-value = 0.6109
a) Suponiendo un DBCA, formule las hipótesis adecuadas y el modelo estadístico.
Hipótesis nula (Ho): µ1=µ2=µ3.
Hipótesis alternativa (Ha): al menos una de las medias de las marcas tiene diferencias significativas.
b) ¿Existe diferencia entre la efectividad promedio de los atomizadores?
Según el modelo ANOVA para la comparación de tratamientos, en el primer gráfico se observa que la primera marca de atomizadores es la que resultó mas efectiva en el tratamiento contra las moscas llegando a un 70% aproximadamente, mientras que la menos efectiva fue la segunda, que estuvo por debajo del 60%.
c) ¿Hay algún atomizador mejor? Argumente su respuesta.
En este caso los atomizadores son estadísticamente similares en cuanto a sus medias. Aunque se puede observar que hay una mayor efectividad en la marca 1, aunque bastante leve.
d) ¿Hay diferencias significativas en los resultados de diferentes días en que se realizó el experimento? Argumente su respuesta.
En cuanto a los días de la semana con mejor comportamiento, el gráfico nos indica que los días 4 y 6 fueron los mejores, mientras que el día 5 tuvo el peor comportamiento.
e) Verifique los supuestos de normalidad y de igual varianza entre las marcas.
En la gráfica de prueba de normalidad de los datos, se observa que estos siguen una distribución normal ya que tienden a quedar cerca a la línea.
En la gráfica de prueba de independencia de error de los datos, se observa que los puntos se distribuyen de manera aleatoria alrededor de la línea, por lo que se cumple el supuesto que los tratamientos tienen igual varianza.
Se diseñó un experimento para estudiar el rendimiento de cuatro detergentes. Las siguientes lecturas de “blancura” se obtuvieron con un equipo especial diseñado para 12 cargas de lavado, distri buidas en tres modelos de lavadoras:
Y=c(45,47,50,42,43,44,49,37,51,52,57,49)
df=expand.grid(LETTERS[1:4],1:3)
df$Y=Y
names(df)=c("Detergente","Lavadora","Y")
df
## Detergente Lavadora Y
## 1 A 1 45
## 2 B 1 47
## 3 C 1 50
## 4 D 1 42
## 5 A 2 43
## 6 B 2 44
## 7 C 2 49
## 8 D 2 37
## 9 A 3 51
## 10 B 3 52
## 11 C 3 57
## 12 D 3 49
str(df)
## 'data.frame': 12 obs. of 3 variables:
## $ Detergente: Factor w/ 4 levels "A","B","C","D": 1 2 3 4 1 2 3 4 1 2 ...
## $ Lavadora : int 1 1 1 1 2 2 2 2 3 3 ...
## $ Y : num 45 47 50 42 43 44 49 37 51 52 ...
## - attr(*, "out.attrs")=List of 2
## ..$ dim : int [1:2] 4 3
## ..$ dimnames:List of 2
## .. ..$ Var1: chr [1:4] "Var1=A" "Var1=B" "Var1=C" "Var1=D"
## .. ..$ Var2: chr [1:3] "Var2=1" "Var2=2" "Var2=3"
df$Lavadora=factor(df$Lavadora)
str(df)
## 'data.frame': 12 obs. of 3 variables:
## $ Detergente: Factor w/ 4 levels "A","B","C","D": 1 2 3 4 1 2 3 4 1 2 ...
## $ Lavadora : Factor w/ 3 levels "1","2","3": 1 1 1 1 2 2 2 2 3 3 ...
## $ Y : num 45 47 50 42 43 44 49 37 51 52 ...
## - attr(*, "out.attrs")=List of 2
## ..$ dim : int [1:2] 4 3
## ..$ dimnames:List of 2
## .. ..$ Var1: chr [1:4] "Var1=A" "Var1=B" "Var1=C" "Var1=D"
## .. ..$ Var2: chr [1:3] "Var2=1" "Var2=2" "Var2=3"
modelo=aov(Y~Detergente+Lavadora,data=df)
summary(modelo)
## Df Sum Sq Mean Sq F value Pr(>F)
## Detergente 3 133.67 44.56 34.13 0.000363 ***
## Lavadora 2 170.17 85.08 65.17 8.52e-05 ***
## Residuals 6 7.83 1.31
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
boxplot(Y~Detergente,data=df,main="Comparacion de tratamientos con detergentes")
boxplot(Y~Lavadora,data=df, main="Comparacion de tratamientos según cada lavadora")
boxplot(Y~Detergente*Lavadora,data=df,main="Comparacion de tratamientos con detergentes y lavadoras")
tk=TukeyHSD(modelo)
tk
## Tukey multiple comparisons of means
## 95% family-wise confidence level
##
## Fit: aov(formula = Y ~ Detergente + Lavadora, data = df)
##
## $Detergente
## diff lwr upr p adj
## B-A 1.333333 -1.896223 4.562890 0.5274327
## C-A 5.666667 2.437110 8.896223 0.0036708
## D-A -3.666667 -6.896223 -0.437110 0.0294779
## C-B 4.333333 1.103777 7.562890 0.0138544
## D-B -5.000000 -8.229557 -1.770443 0.0069284
## D-C -9.333333 -12.562890 -6.103777 0.0002417
##
## $Lavadora
## diff lwr upr p adj
## 2-1 -2.75 -5.229002 -0.270998 0.0332955
## 3-1 6.25 3.770998 8.729002 0.0005999
## 3-2 9.00 6.520998 11.479002 0.0000770
qqnorm(modelo$residuals, main="Prueba de Normalidad")
qqline(modelo$residuals)
a) Señale el nombre del diseño experimental utilizado.
Para el presente análisis se utilizó el diseño por bloques.
b) Formule la hipótesis que se quiere probar en este problema.
Hipótesis nula (Ho): No hay diferencias entre los tratamientos utilizados con distintos detergentes (Ho:µ1=µ2=µ3=µ4). Ho: No hay diferencia en la aplicación de los detergentes en distintas lavadoras (Ho:µ1=µ2=µ3).
Hipótesis alternativa (Ha): Existen diferencias significativas tanto en la aplicación de detergentes como en el uso de distintas marcas de lavadoras (Ha:) µ1≠µ2≠µ3≠µ4; para algún i ≠ j
c) Realice el análisis estadístico más apropiado para estos datos y obtenga conclusiones.
Las medias de los diferentes tratamientos son significativamente diferentes para los siguientes casos:
Diferencia relacionadas con al aplicación de detergentes: Todas las comparaciones indican diferencias mayores a 1.33. Las mayores diferencias se dan entre los tratamientos D-C, C-A Y D-B.
Diferencias relacionadas con el factor modelo de lavadora: Las tres comparaciones resultan significativas por encima de 2.7. La mayor distancia ocurre entre los modelos de lavadora 3 y 2 con 9.00 de diferencia.
Se quiere estudiar el efecto de cinco diferentes catalizadores (A, B, C, D y E) sobre el tiempo de reacción de un proceso químico. Cada lote de material sólo permite cinco corridas y cada corrida requie re aproximadamente 1.5 horas, por lo que sólo se pueden realizar cinco corridas diarias. El experimentador decide correr los ex perimentos con un diseño en cuadro latino para controlar activa mente a los lotes y días. Los datos obtenidos son:
Problema4 - Cap 16
df=read.csv("C:/Users/Hp/Desktop/Curso07-DisenoExperimental/Cap4-P16-Catalizador.csv",sep=";")
df
## Dia Lote Catalizador Y
## 1 1 1 A 8
## 2 1 2 C 11
## 3 1 3 B 4
## 4 1 4 D 6
## 5 1 2 E 4
## 6 2 1 B 7
## 7 2 2 E 2
## 8 2 3 A 9
## 9 2 4 C 8
## 10 2 5 D 2
## 11 3 1 D 1
## 12 3 2 A 7
## 13 3 3 C 10
## 14 3 4 E 6
## 15 3 5 B 3
## 16 4 1 C 7
## 17 4 2 D 3
## 18 4 3 E 1
## 19 4 4 B 6
## 20 4 5 A 8
## 21 5 1 E 3
## 22 5 2 B 8
## 23 5 3 D 5
## 24 5 4 A 10
## 25 5 5 C 8
str(df)
## 'data.frame': 25 obs. of 4 variables:
## $ Dia : int 1 1 1 1 1 2 2 2 2 2 ...
## $ Lote : int 1 2 3 4 2 1 2 3 4 5 ...
## $ Catalizador: chr "A" "C" "B" "D" ...
## $ Y : int 8 11 4 6 4 7 2 9 8 2 ...
df$Dia=factor(df$Dia)
df$Lote=factor(df$Lote)
df$Catalizador=factor(df$Catalizador)
df$Y=as.double(df$Y)
modelo=aov(Y~Dia+Lote+Catalizador,data=df)
summary(modelo)
## Df Sum Sq Mean Sq F value Pr(>F)
## Dia 4 12.24 3.06 1.029 0.431687
## Lote 4 12.05 3.01 1.013 0.439132
## Catalizador 4 146.66 36.67 12.327 0.000328 ***
## Residuals 12 35.69 2.97
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
boxplot(Y~Catalizador,data=df,main="Comparacion de tratamientos con catalizadores")
tk=TukeyHSD(modelo)
tk
## Tukey multiple comparisons of means
## 95% family-wise confidence level
##
## Fit: aov(formula = Y ~ Dia + Lote + Catalizador, data = df)
##
## $Dia
## diff lwr upr p adj
## 2-1 -1.0 -4.476703 2.476703 0.8850511
## 3-1 -1.2 -4.676703 2.276703 0.8033390
## 4-1 -1.6 -5.076703 1.876703 0.6003527
## 5-1 0.2 -3.276703 3.676703 0.9997074
## 3-2 -0.2 -3.676703 3.276703 0.9997074
## 4-2 -0.6 -4.076703 2.876703 0.9798484
## 5-2 1.2 -2.276703 4.676703 0.8033390
## 4-3 -0.4 -3.876703 3.076703 0.9955987
## 5-3 1.4 -2.076703 4.876703 0.7055550
## 5-4 1.8 -1.676703 5.276703 0.4962009
##
## $Lote
## diff lwr upr p adj
## 2-1 0.51333333 -2.815357 3.842023 0.9866786
## 3-1 0.60000000 -2.876703 4.076703 0.9798484
## 4-1 2.00000000 -1.476703 5.476703 0.3996843
## 5-1 0.23000000 -3.457601 3.917601 0.9995971
## 3-2 0.08666667 -3.242023 3.415357 0.9999875
## 4-2 1.48666667 -1.842023 4.815357 0.6253927
## 5-2 -0.28333333 -3.831729 3.265062 0.9989345
## 4-3 1.40000000 -2.076703 4.876703 0.7055550
## 5-3 -0.37000000 -4.057601 3.317601 0.9974037
## 5-4 -1.77000000 -5.457601 1.917601 0.5640378
##
## $Catalizador
## diff lwr upr p adj
## B-A -2.8000000 -6.2767035 0.6767035 0.1393336
## C-A 0.4000000 -3.0767035 3.8767035 0.9955987
## D-A -5.0000000 -8.4767035 -1.5232965 0.0046230
## E-A -5.2607143 -8.7374177 -1.7840108 0.0031108
## C-B 3.2000000 -0.2767035 6.6767035 0.0766508
## D-B -2.2000000 -5.6767035 1.2767035 0.3148627
## E-B -2.4607143 -5.9374177 1.0159892 0.2244261
## D-C -5.4000000 -8.8767035 -1.9232965 0.0025235
## E-C -5.6607143 -9.1374177 -2.1840108 0.0017139
## E-D -0.2607143 -3.7374177 3.2159892 0.9991672
boxplot(Y~Lote,data=df,main="Comparacion de tratamientos según lotes")
tk=TukeyHSD(modelo)
tk
## Tukey multiple comparisons of means
## 95% family-wise confidence level
##
## Fit: aov(formula = Y ~ Dia + Lote + Catalizador, data = df)
##
## $Dia
## diff lwr upr p adj
## 2-1 -1.0 -4.476703 2.476703 0.8850511
## 3-1 -1.2 -4.676703 2.276703 0.8033390
## 4-1 -1.6 -5.076703 1.876703 0.6003527
## 5-1 0.2 -3.276703 3.676703 0.9997074
## 3-2 -0.2 -3.676703 3.276703 0.9997074
## 4-2 -0.6 -4.076703 2.876703 0.9798484
## 5-2 1.2 -2.276703 4.676703 0.8033390
## 4-3 -0.4 -3.876703 3.076703 0.9955987
## 5-3 1.4 -2.076703 4.876703 0.7055550
## 5-4 1.8 -1.676703 5.276703 0.4962009
##
## $Lote
## diff lwr upr p adj
## 2-1 0.51333333 -2.815357 3.842023 0.9866786
## 3-1 0.60000000 -2.876703 4.076703 0.9798484
## 4-1 2.00000000 -1.476703 5.476703 0.3996843
## 5-1 0.23000000 -3.457601 3.917601 0.9995971
## 3-2 0.08666667 -3.242023 3.415357 0.9999875
## 4-2 1.48666667 -1.842023 4.815357 0.6253927
## 5-2 -0.28333333 -3.831729 3.265062 0.9989345
## 4-3 1.40000000 -2.076703 4.876703 0.7055550
## 5-3 -0.37000000 -4.057601 3.317601 0.9974037
## 5-4 -1.77000000 -5.457601 1.917601 0.5640378
##
## $Catalizador
## diff lwr upr p adj
## B-A -2.8000000 -6.2767035 0.6767035 0.1393336
## C-A 0.4000000 -3.0767035 3.8767035 0.9955987
## D-A -5.0000000 -8.4767035 -1.5232965 0.0046230
## E-A -5.2607143 -8.7374177 -1.7840108 0.0031108
## C-B 3.2000000 -0.2767035 6.6767035 0.0766508
## D-B -2.2000000 -5.6767035 1.2767035 0.3148627
## E-B -2.4607143 -5.9374177 1.0159892 0.2244261
## D-C -5.4000000 -8.8767035 -1.9232965 0.0025235
## E-C -5.6607143 -9.1374177 -2.1840108 0.0017139
## E-D -0.2607143 -3.7374177 3.2159892 0.9991672
boxplot(Y~Dia,data=df,main="Comparacion de tratamientos según días")
tk=TukeyHSD(modelo)
tk
## Tukey multiple comparisons of means
## 95% family-wise confidence level
##
## Fit: aov(formula = Y ~ Dia + Lote + Catalizador, data = df)
##
## $Dia
## diff lwr upr p adj
## 2-1 -1.0 -4.476703 2.476703 0.8850511
## 3-1 -1.2 -4.676703 2.276703 0.8033390
## 4-1 -1.6 -5.076703 1.876703 0.6003527
## 5-1 0.2 -3.276703 3.676703 0.9997074
## 3-2 -0.2 -3.676703 3.276703 0.9997074
## 4-2 -0.6 -4.076703 2.876703 0.9798484
## 5-2 1.2 -2.276703 4.676703 0.8033390
## 4-3 -0.4 -3.876703 3.076703 0.9955987
## 5-3 1.4 -2.076703 4.876703 0.7055550
## 5-4 1.8 -1.676703 5.276703 0.4962009
##
## $Lote
## diff lwr upr p adj
## 2-1 0.51333333 -2.815357 3.842023 0.9866786
## 3-1 0.60000000 -2.876703 4.076703 0.9798484
## 4-1 2.00000000 -1.476703 5.476703 0.3996843
## 5-1 0.23000000 -3.457601 3.917601 0.9995971
## 3-2 0.08666667 -3.242023 3.415357 0.9999875
## 4-2 1.48666667 -1.842023 4.815357 0.6253927
## 5-2 -0.28333333 -3.831729 3.265062 0.9989345
## 4-3 1.40000000 -2.076703 4.876703 0.7055550
## 5-3 -0.37000000 -4.057601 3.317601 0.9974037
## 5-4 -1.77000000 -5.457601 1.917601 0.5640378
##
## $Catalizador
## diff lwr upr p adj
## B-A -2.8000000 -6.2767035 0.6767035 0.1393336
## C-A 0.4000000 -3.0767035 3.8767035 0.9955987
## D-A -5.0000000 -8.4767035 -1.5232965 0.0046230
## E-A -5.2607143 -8.7374177 -1.7840108 0.0031108
## C-B 3.2000000 -0.2767035 6.6767035 0.0766508
## D-B -2.2000000 -5.6767035 1.2767035 0.3148627
## E-B -2.4607143 -5.9374177 1.0159892 0.2244261
## D-C -5.4000000 -8.8767035 -1.9232965 0.0025235
## E-C -5.6607143 -9.1374177 -2.1840108 0.0017139
## E-D -0.2607143 -3.7374177 3.2159892 0.9991672
qqnorm(modelo$residuals,main="Prueba de Normalidad")
qqline(modelo$residuals)
shapiro.test(modelo$residuals)
##
## Shapiro-Wilk normality test
##
## data: modelo$residuals
## W = 0.96996, p-value = 0.6441
library(car)
## Loading required package: carData
leveneTest(Y~Catalizador,data=df)
## Levene's Test for Homogeneity of Variance (center = median)
## Df F value Pr(>F)
## group 4 0.4444 0.7751
## 20
a) ¿Cómo se aleatorizó el experimento? En este experimento se hicieron combinaciones de tiempo (día) y tratamiento (catalizador). Los resultados por días no marcaron mayores diferencias, por lo que se hizo el análisis de la diferencia de los lotes que marcó las diferencias.
b) Anote la ecuación del modelo y las hipótesis estadísticas correspondientes. Se utilizo modelo de ANOVA H0= NO existe diferencia en la aplicación de los distintos catalizadores, por día de aplicación. Ha= Existne diferencias significativas en la aplicación de los distintos catalizadores sobre reacción del proceso químico.
c) ¿Existen diferencias entre los tratamientos? ¿Cuáles tratamientos son diferentes entre sí? Sí existe diferencia entre los tratamientos (catalizadores). Los más relevantes son:
D-A: la diferencia es de -5.00 E-A: marcó una diferencia de -5.26 D-C: con una diferencia de -5.40 E-C: con una diferencia de -5.67 para ser la mayor como lo uertra el gráfico de cajas (Y~Catalizador).
d) ¿Los factores de ruido, lote y día afectan el tiempo de reacción del proceso? Ninguno de estos factores afectan el tiempo de reacción y lo valores de p según el análisis de ANOVA son mayores a 0.05.
e) Dibuje los gráficos de medias para los tratamientos, los lotes y los días. ¿Cuál tratamiento es mejor? R/ El Catalizador E disminuye el tiempo de la reacción del proceso químico, mientras que el catalizador C es el que más tiempo toma en reaccionar.
f) Verifique los supuestos del modelo, considerando que los datos se obtuvieron columna por columna, día a día. R/Los supuestos del modelo se cumplen, ya que la distribución es normal.
Se corre un diseño factorial 3 × 2 con 10 réplicas para investigar el hinchamiento del catalizador después de la extrusión en la fabricación de botellas de polietileno de alta densidad. El catalizador se utiliza en la obtención de dicho polietileno. Los factores investigados son: molde (con dos niveles) y B: catalizador (con tres niveles). Los datos obtenidos se muestran en la siguiente tabla:
df=read.csv("C:/Users/Hp/Desktop/Curso07-DisenoExperimental/cap5p19.csv",sep=";")
str(df)
## 'data.frame': 60 obs. of 3 variables:
## $ Molde : int -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 ...
## $ Catalizador: int -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 ...
## $ Y : int 93 92 90 91 92 91 90 91 93 90 ...
df$Molde=factor(df$Molde)
df$Catalizador=factor(df$Catalizador)
df
## Molde Catalizador Y
## 1 -1 -1 93
## 2 -1 -1 92
## 3 -1 -1 90
## 4 -1 -1 91
## 5 -1 -1 92
## 6 -1 -1 91
## 7 -1 -1 90
## 8 -1 -1 91
## 9 -1 -1 93
## 10 -1 -1 90
## 11 1 -1 88
## 12 1 -1 88
## 13 1 -1 87
## 14 1 -1 87
## 15 1 -1 88
## 16 1 -1 87
## 17 1 -1 87
## 18 1 -1 87
## 19 1 -1 87
## 20 1 -1 88
## 21 -1 0 92
## 22 -1 0 94
## 23 -1 0 90
## 24 -1 0 91
## 25 -1 0 90
## 26 -1 0 91
## 27 -1 0 92
## 28 -1 0 92
## 29 -1 0 92
## 30 -1 0 91
## 31 1 0 90
## 32 1 0 88
## 33 1 0 88
## 34 1 0 88
## 35 1 0 89
## 36 1 0 90
## 37 1 0 89
## 38 1 0 88
## 39 1 0 88
## 40 1 0 89
## 41 -1 1 95
## 42 -1 1 94
## 43 -1 1 94
## 44 -1 1 94
## 45 -1 1 94
## 46 -1 1 97
## 47 -1 1 95
## 48 -1 1 96
## 49 -1 1 94
## 50 -1 1 96
## 51 1 1 91
## 52 1 1 90
## 53 1 1 92
## 54 1 1 90
## 55 1 1 97
## 56 1 1 89
## 57 1 1 90
## 58 1 1 91
## 59 1 1 91
## 60 1 1 91
boxplot(Y~Molde,data=df,main="Comparacion de tratamientos según niveles de moldes")
boxplot(Y~Catalizador,data=df, main="Comparacion de tratamientos según hinchamiento del catalizador utilizado")
boxplot(Y~Molde*Catalizador,data=df, main="Relación entre nivel de molde e hinchamiento del catalizador")
interaction.plot(df$Molde,df$Catalizador,df$Y,main="Interacciones entre niveles de moldes e hinchamiento del catalizador")
tk=TukeyHSD(modelo)
tk
## Tukey multiple comparisons of means
## 95% family-wise confidence level
##
## Fit: aov(formula = Y ~ Dia + Lote + Catalizador, data = df)
##
## $Dia
## diff lwr upr p adj
## 2-1 -1.0 -4.476703 2.476703 0.8850511
## 3-1 -1.2 -4.676703 2.276703 0.8033390
## 4-1 -1.6 -5.076703 1.876703 0.6003527
## 5-1 0.2 -3.276703 3.676703 0.9997074
## 3-2 -0.2 -3.676703 3.276703 0.9997074
## 4-2 -0.6 -4.076703 2.876703 0.9798484
## 5-2 1.2 -2.276703 4.676703 0.8033390
## 4-3 -0.4 -3.876703 3.076703 0.9955987
## 5-3 1.4 -2.076703 4.876703 0.7055550
## 5-4 1.8 -1.676703 5.276703 0.4962009
##
## $Lote
## diff lwr upr p adj
## 2-1 0.51333333 -2.815357 3.842023 0.9866786
## 3-1 0.60000000 -2.876703 4.076703 0.9798484
## 4-1 2.00000000 -1.476703 5.476703 0.3996843
## 5-1 0.23000000 -3.457601 3.917601 0.9995971
## 3-2 0.08666667 -3.242023 3.415357 0.9999875
## 4-2 1.48666667 -1.842023 4.815357 0.6253927
## 5-2 -0.28333333 -3.831729 3.265062 0.9989345
## 4-3 1.40000000 -2.076703 4.876703 0.7055550
## 5-3 -0.37000000 -4.057601 3.317601 0.9974037
## 5-4 -1.77000000 -5.457601 1.917601 0.5640378
##
## $Catalizador
## diff lwr upr p adj
## B-A -2.8000000 -6.2767035 0.6767035 0.1393336
## C-A 0.4000000 -3.0767035 3.8767035 0.9955987
## D-A -5.0000000 -8.4767035 -1.5232965 0.0046230
## E-A -5.2607143 -8.7374177 -1.7840108 0.0031108
## C-B 3.2000000 -0.2767035 6.6767035 0.0766508
## D-B -2.2000000 -5.6767035 1.2767035 0.3148627
## E-B -2.4607143 -5.9374177 1.0159892 0.2244261
## D-C -5.4000000 -8.8767035 -1.9232965 0.0025235
## E-C -5.6607143 -9.1374177 -2.1840108 0.0017139
## E-D -0.2607143 -3.7374177 3.2159892 0.9991672
qqnorm(modelo$residuals,main="Prueba de normalidad")
qqline(modelo$residuals,col="blue")
Los datos se distribuyen normalmente en la gráfica.
shapiro.test(modelo$residuals)
##
## Shapiro-Wilk normality test
##
## data: modelo$residuals
## W = 0.96996, p-value = 0.6441
require(car)
leveneTest(Y~Molde,data=df)
## Levene's Test for Homogeneity of Variance (center = median)
## Df F value Pr(>F)
## group 1 0.1322 0.7175
## 58
leveneTest(Y~Catalizador,data=df)
## Levene's Test for Homogeneity of Variance (center = median)
## Df F value Pr(>F)
## group 2 2.0397 0.1394
## 57
plot(modelo$residuals,main="Modelo Resudual")
a) Plantee las hipótesis de interés en este problema y el modelo estadístico correspondiente.
Ho : Efecto de Molde (A) = 0
HA : Efecto de Molde (A) ≠ 0
Ho : Efecto de Catalizador (B) = 0
HA : Efecto de Catalizador (B) ≠ 0
b) Construya la tabla de análisis de varianza y determine cuáles efectos están activos.
En ambos casos (molde y catalizador) hay efectos.
c) Dibuje las gráficas de medias para los dos efectos principales con los métodos LSD y de Tukey. Compare los resultados de ambos métodos.
d) Haga la gráfica de interacción con intervalos de confianza sobrepuestos.
e) Determine cuál es el mejor tratamiento. ¿Cuál es el hinchamiento predicho en el mejor tratamiento?
El mejor trata miento es el del Molde A1 y el Catalizador B3, con un hinchamiento de 94.9.
f ) Verifique los supuestos de normalidad y varianza constante.
En la prueba Shapiro con un valor p = 2.485e-05 (p<0.05), se rechaza Ho, por lo que se concluye que los datos se distribuyen de forma normal.
En el leveneTest para catalizadores y moldes, en ambos la p > 0.05, nos indica que hay varianzas constantes.
g) Utilice la gráfica de residuos contra factores para detectar posibles efectos sobre la dispersión del hinchamiento. ¿En cuál molde parece que es menor la dispersión?
Cuando se observa la gráfica de residuos contra factores, pareciera que la dispersión es menor en el molde B.
Para mejorar la resistencia a la torsión de las adhesiones de componentes electrónicos sobre placas, se estudiaron dos tipos de pegamentos (A1 y A2) y tres temperaturas de curado (60, 80 y 100°C). En cada combinación se analizaron dos componentes y los resultados obtenidos son los siguientes:
df=read.csv("C:/Users/Hp/Desktop/Curso07-DisenoExperimental/Cap5Prob20.csv",sep = ";")
str(df)
## 'data.frame': 12 obs. of 3 variables:
## $ Pegamento : chr "A1" "A1" "A1" "A1" ...
## $ Temperatura: int 60 60 80 80 100 100 60 60 80 80 ...
## $ Y : num 2.5 2.8 3.8 3.4 4 4.2 1.6 1.2 3.2 2.8 ...
df$Pegamento=factor(df$Pegamento)
df$Temperatura=factor(df$Temperatura)
df$Y=as.double(df$Y)
modelo=aov(Y~Pegamento*Temperatura,data=df)
summary(modelo)
## Df Sum Sq Mean Sq F value Pr(>F)
## Pegamento 1 0.701 0.701 10.92 0.0163 *
## Temperatura 2 10.402 5.201 81.05 4.55e-05 ***
## Pegamento:Temperatura 2 1.382 0.691 10.77 0.0103 *
## Residuals 6 0.385 0.064
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
boxplot(Y~Pegamento,data=df,main="Graficos de aplicación de pegamento")
boxplot(Y~Temperatura,data=df,main="Resistencia a la torsión de las adhesiones según distintas temperaturas")
boxplot(Y~Pegamento*Temperatura,data=df,main="Resistencia según aplicación de pegamentos y temperaturas")
tk=TukeyHSD(modelo)
tk
## Tukey multiple comparisons of means
## 95% family-wise confidence level
##
## Fit: aov(formula = Y ~ Pegamento * Temperatura, data = df)
##
## $Pegamento
## diff lwr upr p adj
## A2-A1 -0.4833333 -0.8411927 -0.125474 0.0163089
##
## $Temperatura
## diff lwr upr p adj
## 80-60 1.275 0.7254162 1.824584 0.0009439
## 100-60 2.275 1.7254162 2.824584 0.0000360
## 100-80 1.000 0.4504162 1.549584 0.0033856
##
## $`Pegamento:Temperatura`
## diff lwr upr p adj
## A2:60-A1:60 -1.25 -2.25814056 -0.2418594 0.0190849
## A1:80-A1:60 0.95 -0.05814056 1.9581406 0.0639115
## A2:80-A1:60 0.35 -0.65814056 1.3581406 0.7372375
## A1:100-A1:60 1.45 0.44185944 2.4581406 0.0092645
## A2:100-A1:60 1.85 0.84185944 2.8581406 0.0026162
## A1:80-A2:60 2.20 1.19185944 3.2081406 0.0010182
## A2:80-A2:60 1.60 0.59185944 2.6081406 0.0056158
## A1:100-A2:60 2.70 1.69185944 3.7081406 0.0003231
## A2:100-A2:60 3.10 2.09185944 4.1081406 0.0001474
## A2:80-A1:80 -0.60 -1.60814056 0.4081406 0.2955674
## A1:100-A1:80 0.50 -0.50814056 1.5081406 0.4457102
## A2:100-A1:80 0.90 -0.10814056 1.9081406 0.0792273
## A1:100-A2:80 1.10 0.09185944 2.1081406 0.0342880
## A2:100-A2:80 1.50 0.49185944 2.5081406 0.0078111
## A2:100-A1:100 0.40 -0.60814056 1.4081406 0.6367394
qqnorm(modelo$residuals)
qqline(modelo$residuals)
shapiro.test(modelo$residuals)
##
## Shapiro-Wilk normality test
##
## data: modelo$residuals
## W = 0.7663, p-value = 0.003976
require(car)
leveneTest(Y~Temperatura,data=df)
## Levene's Test for Homogeneity of Variance (center = median)
## Df F value Pr(>F)
## group 2 4.4717 0.04483 *
## 9
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
leveneTest(Y~Pegamento,data=df)
## Levene's Test for Homogeneity of Variance (center = median)
## Df F value Pr(>F)
## group 1 2.8053 0.1249
## 10
plot(modelo$residuals)
abline(h=0)
interaction.plot(df$Pegamento,df$Temperatura,df$Y,main="Interaccion entre las variables")
Se desea investigar de qué manera afecta el tiempo de curado y el tipo del acelerante a la resistencia de caucho vulcanizado. Se realiza un experimento y se obtienen los siguientes datos:
df=read.csv("C:/Users/Hp/Desktop/Curso07-DisenoExperimental/Cap5-P21.csv", sep=";")
df
## Acelerante Tiempo Y
## 1 -1 -1 3900
## 2 -1 -1 3600
## 3 -1 0 4100
## 4 -1 0 3500
## 5 -1 1 4000
## 6 -1 1 3800
## 7 0 -1 4300
## 8 0 -1 3700
## 9 0 0 4200
## 10 0 0 3900
## 11 0 1 4300
## 12 0 1 3600
## 13 1 -1 3700
## 14 1 -1 4100
## 15 1 0 3900
## 16 1 0 4000
## 17 1 1 3600
## 18 1 1 3800
str(df)
## 'data.frame': 18 obs. of 3 variables:
## $ Acelerante: int -1 -1 -1 -1 -1 -1 0 0 0 0 ...
## $ Tiempo : int -1 -1 0 0 1 1 -1 -1 0 0 ...
## $ Y : int 3900 3600 4100 3500 4000 3800 4300 3700 4200 3900 ...
df$Acelerante=factor(df$Acelerante)
df$Tiempo=factor(df$Tiempo)
modelo=aov(Y~Acelerante+Tiempo,data=df)
summary(modelo)
## Df Sum Sq Mean Sq F value Pr(>F)
## Acelerante 2 114444 57222 0.825 0.46
## Tiempo 2 21111 10556 0.152 0.86
## Residuals 13 902222 69402
El p_valor= 0.46 y 0.86 sugiere que no hay diferencia significativa entre los acelerantes y el tiempo de curado a las resistencia de caucho volcanico.
boxplot(Y~Tiempo,data=df,main="Tratamiento según Tiempo de curado")
boxplot(Y~Acelerante,data=df, main="Tratamiento según tipo de acelerantes")
boxplot(Y~Acelerante*Tiempo,data=df,main="Relación entre tiempo de curado y tipo de acelerante")
interaction.plot(df$Acelerante,df$Tiempo,df$Y,main="Interacciones")
1- No existen diferencias significativas en la resistencia debido al tipo de acelerante A (-1) y C (1), pero sí existe diferencia de estos dos frente al acelerante B (0).
2- En la gráfica de comparación del acelerantes y tiempo de curado, se evidencia que existen algunas diferencias.
3- No existe interaccion entre los experimentos 0 y -1.
tk=TukeyHSD(modelo)
tk
## Tukey multiple comparisons of means
## 95% family-wise confidence level
##
## Fit: aov(formula = Y ~ Acelerante + Tiempo, data = df)
##
## $Acelerante
## diff lwr upr p adj
## 0--1 183.33333 -218.2728 584.9394 0.4708685
## 1--1 33.33333 -368.2728 434.9394 0.9739228
## 1-0 -150.00000 -551.6061 251.6061 0.5979909
##
## $Tiempo
## diff lwr upr p adj
## 0--1 50.00000 -351.6061 451.6061 0.9424302
## 1--1 -33.33333 -434.9394 368.2728 0.9739228
## 1-0 -83.33333 -484.9394 318.2728 0.8493245
Al comparar las medias de los diferentes valores obtenemos p_valores > 0.05 por lo que no existe diferencias significativas en entre las medias de los acelerantes y el tiempo de curado de los experimantos
qqnorm(modelo$residuals,main="Prueba de Normalidad")
qqline(modelo$residuals)
shapiro.test(modelo$residuals)
##
## Shapiro-Wilk normality test
##
## data: modelo$residuals
## W = 0.94083, p-value = 0.2994
La prueba de Shapiro Wilks arroja un valor de p=0.2994 por lo que se acepta la Ho.
require(car)
leveneTest(Y~Acelerante,data=df)
## Levene's Test for Homogeneity of Variance (center = median)
## Df F value Pr(>F)
## group 2 1.789 0.201
## 15
leveneTest(Y~Tiempo,data=df)
## Levene's Test for Homogeneity of Variance (center = median)
## Df F value Pr(>F)
## group 2 0.1373 0.8728
## 15
La prueba de levene indica que las varianzas son iguales a un nivel de significancia de 95%.
plot(modelo$residuals,main="Prueba de Independencia de errores de los datos")
abline(h=0)
En la tabla demuestra que los modelos residuales de los experiementos son diferentes a la linea 0 estan bastante dispersos.
El primer reto de este trabajo fue apropiarnos de las interpretaciones relativas a los códigos utilizados en cada uno de los modelos o diseños experimentales. Sin embargo, la práctica hizo que poco a poco nos hayamos apropiado de las herramientas básicas de este tipo de análisis estadístico.
El análisis con un factor de interés, más bloques o factores múltiples que pueden intervenir en un problema de investigación, nos permite mediante el uso de los modelos o diseños llegar a conclusiones más objetivas y comprobables estadísticamente.
El plus de este cusro ha sido el uso de la aplicación RStudio, RMarkdown y RPubs, ya que aunque no seamos programadores, nos motiva a desarrollar nuestra propia ruta de investigación sin depender de programas comerciales y nos abre un mundo nuevo del que estamos seguros no dejaremos de explorar.
Badii, M.H, J. Castillo, M. Rodríguez, A. Wong & P. Villalpando (2007). Diseños experimentales e investigación científica. InnOvaciOnes de NegOciOs 4(2): 283 – 330, UANL, México.
Fernández, Patricia y López, Guadalupe (2013). El uso del modelo experimental en ciencias sociales. VII Jornadas de Jóvenes Investigadores. Instituto de Investigaciones Gino Germani, Facultad de Ciencias Sociales, Universidad de Buenos Aires, Buenos Aires.
Gutiérrez, Humberto y Dela Vara, R. (2008). Análisis y Diseño de Experimentos. Segunda Edición. McGraw-Hill/Interamericana Editores, S.A. México.
Miller Moya, Luis (2006). Experimentos de orientación teórica. Una discusión metodológica. EMPIRIA. Revista de Metodología de las Ciencias Sociales, núm. 12, julio-diciembre, 2006, pp. 89-110, Universidad Nacional de Educación a Distancia, Madrid, España.