Introducción

El presente trabajo corresponde a una serie de análisis estadísticos dentro del Curso Diseño Experimental del Postgrado en Investigación de la Universidad Autónoma de Chiriquí, bajo la facilitación del profesor Pedro González.

En la primera parte se hace un acercamiento a la temática del diseño experimental como una de las etapas de la investigación científica, diferenciando entre ciencias naturales y sociales.

Luego se abordan los temas relacionados con los diseños experimentales desarrollados en el curso del postgrado tales como los diseños de bloques al azar, diseño de cuadrado latino y diseño grecolatino.

En una tercera parte se desarrollarán varios problemas asignados por el docente, con el fin de poner en práctica los conocimientos adquiridos. Se analizan seis problemas de los capítulos 4 y 5 del libro Análisis y Diseño de Experimentos, de H.Gutierrez y R. De la Vara (2008).

Los análisis que se realizan son aquellos correspondientes a diseños de bloques, análisis de varianzas, diseño en cuadrado latino y gregolatino.

El resultado de los análisis será presentado por medio del software RMarkdown y publicado en el sitio RPubs.

PRIMERA PARTE: El Diseño Experimental

En la investigación científica, sobre todo en ciencias naturales, la experimentación es uno de los pasos fundamentales para lograr resultados efectivos y aportar al conocimiento. De ahí que el diseño experimental se desarrolle como una actividad necesaria en el proceso investigativo.

En ciencias sociales, donde se ubica el autor de este trabajo, no se realizan experimentos o en muy contadas ocasiones, debido a que el objeto de estudio es el mismo ser humano en sus interacciones sociales, lo que puede reñir éticamente con los postulados de las ciencias. Sin embargo, algunos autores siguieren que en vez de pensar ese paso del métoco científico como un laboratorio, se pueden tomar datos de la realidad pasada o presente, sin manipularla, pero tomando en cuenta los factores que pudieran intervenir en un caso específico (Fernández y López, 2013).

El diseño experimental se refiere a un esquema de cómo realizar un experimento. El objetivo fundamental de los diseños experimentales consiste en el determinar si existe una diferencia significativa entre los diferentes tratamientos del experimento y en caso que lo haya, cual sería la magnitud de esta diferencia. Otra meta de los diseños experimentales es verificar la existencia de una tendencia derivada del análisis de los datos del experimento.

La diferencia principal entre los diseños experimentales radica en la forma en que se agrupan o clasifican las unidades experimentales. En todos los diseños las unidades experimentales se clasifican por tratamientos; pero en algunos, estos se clasifican preferentemente en bloques, filas, parcelas principales y otras modalidades.

De acuerdo a su objetivo, los diseños experimentales se pueden clasificar como: 1. Diseños para comparar dos o más tratamientos. 2. Diseños para estudiar el efecto de varios factores sobre la(s) respuesta(s). 3. Diseños para determinar el punto óptimo de operación del proceso. 4. Diseños para la optimización de una mezcla. 5. Diseños para hacer el producto o proceso insensible a factores no controlables.

SEGUNDA PARTE: Algunos Diseños Experimentales

Diseño de bloques: se refiere a la inclusión de más de una variable en un experimento para lograr resultados más objetivos. En un experimento comparativo se le llama factores de bloque a aquellas variables adicionales al factor de interés que se incorporan de manera explícita en un experimento para no sesgar la investigación.

Análisis de varianzas: se refiere a la prueba de hipótesis a partir de dos criterios de clasificación o de variación: el factor de tratamiento y el factor de bloque.

Diseño de cuadrado latino Se refiere al diseño en el que se controlan dos factores de bloque y uno de tratamientos; los tres factores tienen la misma cantidad de niveles. Los tratamientos se representan por letras latinas y se distribuyen en forma adecuada en un cuadro.

Diseño de cuadrado grecolatino Es el diseño en el que se controlan tres factores de bloques y un factor de tratamiento; los cuatro factores utilizan la misma cantidad de niveles.

Se le llama cuadro grecolatino porque los cuatro factores involucrados se prueban en la misma cantidad de niveles, de aquí que se pueda escribir como un cuadro; además, se utilizan letras latinas para denotar a los tratamientos y letras griegas para nombrar a los niveles del tercer factor de bloque.

TERCERA PARTE: Análisis Estadístico con Diseño Experimental

Entrega 1: Capítulo 4, Problema 10

Se hace un estudio sobre la efectividad de tres marcas de atomizador para matar moscas. Para ello, cada producto se aplica a un grupo de 100 moscas, y se cuenta el número de moscas muertas expresado en porcentajes. Se hicieron seis réplicas, pero en días diferentes; por ello, se sospecha que puede haber algún efecto importante debido a esta fuente de variación. Los datos obtenidos se muestran a continuación:

Entrada de Datos

df=read.csv("C:/Users/Hp/Desktop/Curso07-DisenoExperimental/Cap4-10-moscas.csv", sep=";")

str(df)
## 'data.frame':    18 obs. of  3 variables:
##  $ Dia       : int  1 1 1 2 2 2 3 3 3 4 ...
##  $ Atomizador: int  1 2 3 1 2 3 1 2 2 1 ...
##  $ Y         : int  72 55 64 65 59 74 67 68 61 75 ...
df$Dia=factor(df$Dia)
df$Atomizador=factor(df$Atomizador)
df$Y=as.double(df$Y)

modelo=aov(Y~Dia+Atomizador,data=df)
summary(modelo)
##             Df Sum Sq Mean Sq F value Pr(>F)  
## Dia          5  281.3   56.27   1.139 0.4008  
## Atomizador   2  316.8  158.40   3.207 0.0839 .
## Residuals   10  493.9   49.39                 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Boxplot: Comparación de tratamientos según los atomizadores

boxplot(Y~Atomizador,data=df,main="Comparacion de Tratamientos, según tipo de atomizador")

boxplot(Y~Dia,data=df, main="Comparacion de Tratamientos según día de aplicación")

Prueba de comparaciones múltples: TukeyHSD

tk=TukeyHSD(modelo)
tk$Atomizador
##          diff        lwr        upr      p adj
## 2-1 -9.809524 -20.527374  0.9083264 0.07297335
## 3-1 -5.466667 -17.131979  6.1986455 0.43463008
## 3-2  4.342857  -6.937355 15.6230689 0.56109563

Prueba de normalidad y de independencia de errores en los datos

qqnorm(modelo$residual,main="Prueba de Normalidad")
qqline(modelo$residual)

shapiro.test(modelo$residuals)
## 
##  Shapiro-Wilk normality test
## 
## data:  modelo$residuals
## W = 0.96048, p-value = 0.6109

Respuestas al Problema

a) Suponiendo un DBCA, formule las hipótesis adecuadas y el modelo estadístico.

Hipótesis nula (Ho): µ1=µ2=µ3.

Hipótesis alternativa (Ha): al menos una de las medias de las marcas tiene diferencias significativas.

b) ¿Existe diferencia entre la efectividad promedio de los atomizadores?

Según el modelo ANOVA para la comparación de tratamientos, en el primer gráfico se observa que la primera marca de atomizadores es la que resultó mas efectiva en el tratamiento contra las moscas llegando a un 70% aproximadamente, mientras que la menos efectiva fue la segunda, que estuvo por debajo del 60%.

c) ¿Hay algún atomizador mejor? Argumente su respuesta.

En este caso los atomizadores son estadísticamente similares en cuanto a sus medias. Aunque se puede observar que hay una mayor efectividad en la marca 1, aunque bastante leve.

d) ¿Hay diferencias significativas en los resultados de diferentes días en que se realizó el experimento? Argumente su respuesta.

En cuanto a los días de la semana con mejor comportamiento, el gráfico nos indica que los días 4 y 6 fueron los mejores, mientras que el día 5 tuvo el peor comportamiento.

e) Verifique los supuestos de normalidad y de igual varianza entre las marcas.

En la gráfica de prueba de normalidad de los datos, se observa que estos siguen una distribución normal ya que tienden a quedar cerca a la línea.

En la gráfica de prueba de independencia de error de los datos, se observa que los puntos se distribuyen de manera aleatoria alrededor de la línea, por lo que se cumple el supuesto que los tratamientos tienen igual varianza.

Entrega 2: Capítulo 4, Problem 12

Se diseñó un experimento para estudiar el rendimiento de cuatro detergentes. Las siguientes lecturas de “blancura” se obtuvieron con un equipo especial diseñado para 12 cargas de lavado, distri buidas en tres modelos de lavadoras:

Entrada de datos

Y=c(45,47,50,42,43,44,49,37,51,52,57,49)

df=expand.grid(LETTERS[1:4],1:3)
df$Y=Y

names(df)=c("Detergente","Lavadora","Y")
df
##    Detergente Lavadora  Y
## 1           A        1 45
## 2           B        1 47
## 3           C        1 50
## 4           D        1 42
## 5           A        2 43
## 6           B        2 44
## 7           C        2 49
## 8           D        2 37
## 9           A        3 51
## 10          B        3 52
## 11          C        3 57
## 12          D        3 49
str(df)
## 'data.frame':    12 obs. of  3 variables:
##  $ Detergente: Factor w/ 4 levels "A","B","C","D": 1 2 3 4 1 2 3 4 1 2 ...
##  $ Lavadora  : int  1 1 1 1 2 2 2 2 3 3 ...
##  $ Y         : num  45 47 50 42 43 44 49 37 51 52 ...
##  - attr(*, "out.attrs")=List of 2
##   ..$ dim     : int [1:2] 4 3
##   ..$ dimnames:List of 2
##   .. ..$ Var1: chr [1:4] "Var1=A" "Var1=B" "Var1=C" "Var1=D"
##   .. ..$ Var2: chr [1:3] "Var2=1" "Var2=2" "Var2=3"
df$Lavadora=factor(df$Lavadora)
str(df)
## 'data.frame':    12 obs. of  3 variables:
##  $ Detergente: Factor w/ 4 levels "A","B","C","D": 1 2 3 4 1 2 3 4 1 2 ...
##  $ Lavadora  : Factor w/ 3 levels "1","2","3": 1 1 1 1 2 2 2 2 3 3 ...
##  $ Y         : num  45 47 50 42 43 44 49 37 51 52 ...
##  - attr(*, "out.attrs")=List of 2
##   ..$ dim     : int [1:2] 4 3
##   ..$ dimnames:List of 2
##   .. ..$ Var1: chr [1:4] "Var1=A" "Var1=B" "Var1=C" "Var1=D"
##   .. ..$ Var2: chr [1:3] "Var2=1" "Var2=2" "Var2=3"

Comparación de Tratamientos con detergentes

modelo=aov(Y~Detergente+Lavadora,data=df)
summary(modelo)
##             Df Sum Sq Mean Sq F value   Pr(>F)    
## Detergente   3 133.67   44.56   34.13 0.000363 ***
## Lavadora     2 170.17   85.08   65.17 8.52e-05 ***
## Residuals    6   7.83    1.31                     
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
boxplot(Y~Detergente,data=df,main="Comparacion de tratamientos con detergentes")

boxplot(Y~Lavadora,data=df, main="Comparacion de tratamientos según cada lavadora")

boxplot(Y~Detergente*Lavadora,data=df,main="Comparacion de tratamientos con detergentes y lavadoras")

tk=TukeyHSD(modelo)
tk
##   Tukey multiple comparisons of means
##     95% family-wise confidence level
## 
## Fit: aov(formula = Y ~ Detergente + Lavadora, data = df)
## 
## $Detergente
##          diff        lwr       upr     p adj
## B-A  1.333333  -1.896223  4.562890 0.5274327
## C-A  5.666667   2.437110  8.896223 0.0036708
## D-A -3.666667  -6.896223 -0.437110 0.0294779
## C-B  4.333333   1.103777  7.562890 0.0138544
## D-B -5.000000  -8.229557 -1.770443 0.0069284
## D-C -9.333333 -12.562890 -6.103777 0.0002417
## 
## $Lavadora
##      diff       lwr       upr     p adj
## 2-1 -2.75 -5.229002 -0.270998 0.0332955
## 3-1  6.25  3.770998  8.729002 0.0005999
## 3-2  9.00  6.520998 11.479002 0.0000770

Prueba de normalidad

qqnorm(modelo$residuals, main="Prueba de Normalidad")
qqline(modelo$residuals)

Respuestas al problema:

a) Señale el nombre del diseño experimental utilizado.

Para el presente análisis se utilizó el diseño por bloques.

b) Formule la hipótesis que se quiere probar en este problema.

Hipótesis nula (Ho): No hay diferencias entre los tratamientos utilizados con distintos detergentes (Ho:µ1=µ2=µ3=µ4). Ho: No hay diferencia en la aplicación de los detergentes en distintas lavadoras (Ho:µ1=µ2=µ3).

Hipótesis alternativa (Ha): Existen diferencias significativas tanto en la aplicación de detergentes como en el uso de distintas marcas de lavadoras (Ha:) µ1≠µ2≠µ3≠µ4; para algún i ≠ j

c) Realice el análisis estadístico más apropiado para estos datos y obtenga conclusiones.

Las medias de los diferentes tratamientos son significativamente diferentes para los siguientes casos:

Diferencia relacionadas con al aplicación de detergentes: Todas las comparaciones indican diferencias mayores a 1.33. Las mayores diferencias se dan entre los tratamientos D-C, C-A Y D-B.

Diferencias relacionadas con el factor modelo de lavadora: Las tres comparaciones resultan significativas por encima de 2.7. La mayor distancia ocurre entre los modelos de lavadora 3 y 2 con 9.00 de diferencia.

Entrega 3: Capítulo 4, Problema 16

Se quiere estudiar el efecto de cinco diferentes catalizadores (A, B, C, D y E) sobre el tiempo de reacción de un proceso químico. Cada lote de material sólo permite cinco corridas y cada corrida requie re aproximadamente 1.5 horas, por lo que sólo se pueden realizar cinco corridas diarias. El experimentador decide correr los ex perimentos con un diseño en cuadro latino para controlar activa mente a los lotes y días. Los datos obtenidos son:

Problema4 - Cap 16

Entrada de Datos

df=read.csv("C:/Users/Hp/Desktop/Curso07-DisenoExperimental/Cap4-P16-Catalizador.csv",sep=";")
df
##    Dia Lote Catalizador  Y
## 1    1    1           A  8
## 2    1    2           C 11
## 3    1    3           B  4
## 4    1    4           D  6
## 5    1    2           E  4
## 6    2    1           B  7
## 7    2    2           E  2
## 8    2    3           A  9
## 9    2    4           C  8
## 10   2    5           D  2
## 11   3    1           D  1
## 12   3    2           A  7
## 13   3    3           C 10
## 14   3    4           E  6
## 15   3    5           B  3
## 16   4    1           C  7
## 17   4    2           D  3
## 18   4    3           E  1
## 19   4    4           B  6
## 20   4    5           A  8
## 21   5    1           E  3
## 22   5    2           B  8
## 23   5    3           D  5
## 24   5    4           A 10
## 25   5    5           C  8
str(df)
## 'data.frame':    25 obs. of  4 variables:
##  $ Dia        : int  1 1 1 1 1 2 2 2 2 2 ...
##  $ Lote       : int  1 2 3 4 2 1 2 3 4 5 ...
##  $ Catalizador: chr  "A" "C" "B" "D" ...
##  $ Y          : int  8 11 4 6 4 7 2 9 8 2 ...
df$Dia=factor(df$Dia)
df$Lote=factor(df$Lote)
df$Catalizador=factor(df$Catalizador)
df$Y=as.double(df$Y)

modelo=aov(Y~Dia+Lote+Catalizador,data=df)
summary(modelo)
##             Df Sum Sq Mean Sq F value   Pr(>F)    
## Dia          4  12.24    3.06   1.029 0.431687    
## Lote         4  12.05    3.01   1.013 0.439132    
## Catalizador  4 146.66   36.67  12.327 0.000328 ***
## Residuals   12  35.69    2.97                     
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Boxplot: Comparación de datos

boxplot(Y~Catalizador,data=df,main="Comparacion de tratamientos con catalizadores")

tk=TukeyHSD(modelo)
tk
##   Tukey multiple comparisons of means
##     95% family-wise confidence level
## 
## Fit: aov(formula = Y ~ Dia + Lote + Catalizador, data = df)
## 
## $Dia
##     diff       lwr      upr     p adj
## 2-1 -1.0 -4.476703 2.476703 0.8850511
## 3-1 -1.2 -4.676703 2.276703 0.8033390
## 4-1 -1.6 -5.076703 1.876703 0.6003527
## 5-1  0.2 -3.276703 3.676703 0.9997074
## 3-2 -0.2 -3.676703 3.276703 0.9997074
## 4-2 -0.6 -4.076703 2.876703 0.9798484
## 5-2  1.2 -2.276703 4.676703 0.8033390
## 4-3 -0.4 -3.876703 3.076703 0.9955987
## 5-3  1.4 -2.076703 4.876703 0.7055550
## 5-4  1.8 -1.676703 5.276703 0.4962009
## 
## $Lote
##            diff       lwr      upr     p adj
## 2-1  0.51333333 -2.815357 3.842023 0.9866786
## 3-1  0.60000000 -2.876703 4.076703 0.9798484
## 4-1  2.00000000 -1.476703 5.476703 0.3996843
## 5-1  0.23000000 -3.457601 3.917601 0.9995971
## 3-2  0.08666667 -3.242023 3.415357 0.9999875
## 4-2  1.48666667 -1.842023 4.815357 0.6253927
## 5-2 -0.28333333 -3.831729 3.265062 0.9989345
## 4-3  1.40000000 -2.076703 4.876703 0.7055550
## 5-3 -0.37000000 -4.057601 3.317601 0.9974037
## 5-4 -1.77000000 -5.457601 1.917601 0.5640378
## 
## $Catalizador
##           diff        lwr        upr     p adj
## B-A -2.8000000 -6.2767035  0.6767035 0.1393336
## C-A  0.4000000 -3.0767035  3.8767035 0.9955987
## D-A -5.0000000 -8.4767035 -1.5232965 0.0046230
## E-A -5.2607143 -8.7374177 -1.7840108 0.0031108
## C-B  3.2000000 -0.2767035  6.6767035 0.0766508
## D-B -2.2000000 -5.6767035  1.2767035 0.3148627
## E-B -2.4607143 -5.9374177  1.0159892 0.2244261
## D-C -5.4000000 -8.8767035 -1.9232965 0.0025235
## E-C -5.6607143 -9.1374177 -2.1840108 0.0017139
## E-D -0.2607143 -3.7374177  3.2159892 0.9991672
boxplot(Y~Lote,data=df,main="Comparacion de tratamientos según lotes")

tk=TukeyHSD(modelo)
tk
##   Tukey multiple comparisons of means
##     95% family-wise confidence level
## 
## Fit: aov(formula = Y ~ Dia + Lote + Catalizador, data = df)
## 
## $Dia
##     diff       lwr      upr     p adj
## 2-1 -1.0 -4.476703 2.476703 0.8850511
## 3-1 -1.2 -4.676703 2.276703 0.8033390
## 4-1 -1.6 -5.076703 1.876703 0.6003527
## 5-1  0.2 -3.276703 3.676703 0.9997074
## 3-2 -0.2 -3.676703 3.276703 0.9997074
## 4-2 -0.6 -4.076703 2.876703 0.9798484
## 5-2  1.2 -2.276703 4.676703 0.8033390
## 4-3 -0.4 -3.876703 3.076703 0.9955987
## 5-3  1.4 -2.076703 4.876703 0.7055550
## 5-4  1.8 -1.676703 5.276703 0.4962009
## 
## $Lote
##            diff       lwr      upr     p adj
## 2-1  0.51333333 -2.815357 3.842023 0.9866786
## 3-1  0.60000000 -2.876703 4.076703 0.9798484
## 4-1  2.00000000 -1.476703 5.476703 0.3996843
## 5-1  0.23000000 -3.457601 3.917601 0.9995971
## 3-2  0.08666667 -3.242023 3.415357 0.9999875
## 4-2  1.48666667 -1.842023 4.815357 0.6253927
## 5-2 -0.28333333 -3.831729 3.265062 0.9989345
## 4-3  1.40000000 -2.076703 4.876703 0.7055550
## 5-3 -0.37000000 -4.057601 3.317601 0.9974037
## 5-4 -1.77000000 -5.457601 1.917601 0.5640378
## 
## $Catalizador
##           diff        lwr        upr     p adj
## B-A -2.8000000 -6.2767035  0.6767035 0.1393336
## C-A  0.4000000 -3.0767035  3.8767035 0.9955987
## D-A -5.0000000 -8.4767035 -1.5232965 0.0046230
## E-A -5.2607143 -8.7374177 -1.7840108 0.0031108
## C-B  3.2000000 -0.2767035  6.6767035 0.0766508
## D-B -2.2000000 -5.6767035  1.2767035 0.3148627
## E-B -2.4607143 -5.9374177  1.0159892 0.2244261
## D-C -5.4000000 -8.8767035 -1.9232965 0.0025235
## E-C -5.6607143 -9.1374177 -2.1840108 0.0017139
## E-D -0.2607143 -3.7374177  3.2159892 0.9991672
boxplot(Y~Dia,data=df,main="Comparacion de tratamientos según días")

tk=TukeyHSD(modelo)
tk
##   Tukey multiple comparisons of means
##     95% family-wise confidence level
## 
## Fit: aov(formula = Y ~ Dia + Lote + Catalizador, data = df)
## 
## $Dia
##     diff       lwr      upr     p adj
## 2-1 -1.0 -4.476703 2.476703 0.8850511
## 3-1 -1.2 -4.676703 2.276703 0.8033390
## 4-1 -1.6 -5.076703 1.876703 0.6003527
## 5-1  0.2 -3.276703 3.676703 0.9997074
## 3-2 -0.2 -3.676703 3.276703 0.9997074
## 4-2 -0.6 -4.076703 2.876703 0.9798484
## 5-2  1.2 -2.276703 4.676703 0.8033390
## 4-3 -0.4 -3.876703 3.076703 0.9955987
## 5-3  1.4 -2.076703 4.876703 0.7055550
## 5-4  1.8 -1.676703 5.276703 0.4962009
## 
## $Lote
##            diff       lwr      upr     p adj
## 2-1  0.51333333 -2.815357 3.842023 0.9866786
## 3-1  0.60000000 -2.876703 4.076703 0.9798484
## 4-1  2.00000000 -1.476703 5.476703 0.3996843
## 5-1  0.23000000 -3.457601 3.917601 0.9995971
## 3-2  0.08666667 -3.242023 3.415357 0.9999875
## 4-2  1.48666667 -1.842023 4.815357 0.6253927
## 5-2 -0.28333333 -3.831729 3.265062 0.9989345
## 4-3  1.40000000 -2.076703 4.876703 0.7055550
## 5-3 -0.37000000 -4.057601 3.317601 0.9974037
## 5-4 -1.77000000 -5.457601 1.917601 0.5640378
## 
## $Catalizador
##           diff        lwr        upr     p adj
## B-A -2.8000000 -6.2767035  0.6767035 0.1393336
## C-A  0.4000000 -3.0767035  3.8767035 0.9955987
## D-A -5.0000000 -8.4767035 -1.5232965 0.0046230
## E-A -5.2607143 -8.7374177 -1.7840108 0.0031108
## C-B  3.2000000 -0.2767035  6.6767035 0.0766508
## D-B -2.2000000 -5.6767035  1.2767035 0.3148627
## E-B -2.4607143 -5.9374177  1.0159892 0.2244261
## D-C -5.4000000 -8.8767035 -1.9232965 0.0025235
## E-C -5.6607143 -9.1374177 -2.1840108 0.0017139
## E-D -0.2607143 -3.7374177  3.2159892 0.9991672

Prueba de Normalidad

qqnorm(modelo$residuals,main="Prueba de Normalidad")
qqline(modelo$residuals)

shapiro.test(modelo$residuals)
## 
##  Shapiro-Wilk normality test
## 
## data:  modelo$residuals
## W = 0.96996, p-value = 0.6441
library(car)
## Loading required package: carData
leveneTest(Y~Catalizador,data=df)
## Levene's Test for Homogeneity of Variance (center = median)
##       Df F value Pr(>F)
## group  4  0.4444 0.7751
##       20

Respuestas al problema 16 del Capítulo 4:

a) ¿Cómo se aleatorizó el experimento? En este experimento se hicieron combinaciones de tiempo (día) y tratamiento (catalizador). Los resultados por días no marcaron mayores diferencias, por lo que se hizo el análisis de la diferencia de los lotes que marcó las diferencias.

b) Anote la ecuación del modelo y las hipótesis estadísticas correspondientes. Se utilizo modelo de ANOVA H0= NO existe diferencia en la aplicación de los distintos catalizadores, por día de aplicación. Ha= Existne diferencias significativas en la aplicación de los distintos catalizadores sobre reacción del proceso químico.

c) ¿Existen diferencias entre los tratamientos? ¿Cuáles tratamientos son diferentes entre sí? Sí existe diferencia entre los tratamientos (catalizadores). Los más relevantes son:
D-A: la diferencia es de -5.00 E-A: marcó una diferencia de -5.26 D-C: con una diferencia de -5.40 E-C: con una diferencia de -5.67 para ser la mayor como lo uertra el gráfico de cajas (Y~Catalizador).

d) ¿Los factores de ruido, lote y día afectan el tiempo de reacción del proceso? Ninguno de estos factores afectan el tiempo de reacción y lo valores de p según el análisis de ANOVA son mayores a 0.05.

e) Dibuje los gráficos de medias para los tratamientos, los lotes y los días. ¿Cuál tratamiento es mejor? R/ El Catalizador E disminuye el tiempo de la reacción del proceso químico, mientras que el catalizador C es el que más tiempo toma en reaccionar.

f) Verifique los supuestos del modelo, considerando que los datos se obtuvieron columna por columna, día a día. R/Los supuestos del modelo se cumplen, ya que la distribución es normal.

Entrega 4: Capítulo 5, Problema 19

Se corre un diseño factorial 3 × 2 con 10 réplicas para investigar el hinchamiento del catalizador después de la extrusión en la fabricación de botellas de polietileno de alta densidad. El catalizador se utiliza en la obtención de dicho polietileno. Los factores investigados son: molde (con dos niveles) y B: catalizador (con tres niveles). Los datos obtenidos se muestran en la siguiente tabla:

Entrada de datos

df=read.csv("C:/Users/Hp/Desktop/Curso07-DisenoExperimental/cap5p19.csv",sep=";")
str(df)
## 'data.frame':    60 obs. of  3 variables:
##  $ Molde      : int  -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 ...
##  $ Catalizador: int  -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 ...
##  $ Y          : int  93 92 90 91 92 91 90 91 93 90 ...
df$Molde=factor(df$Molde)
df$Catalizador=factor(df$Catalizador)
df
##    Molde Catalizador  Y
## 1     -1          -1 93
## 2     -1          -1 92
## 3     -1          -1 90
## 4     -1          -1 91
## 5     -1          -1 92
## 6     -1          -1 91
## 7     -1          -1 90
## 8     -1          -1 91
## 9     -1          -1 93
## 10    -1          -1 90
## 11     1          -1 88
## 12     1          -1 88
## 13     1          -1 87
## 14     1          -1 87
## 15     1          -1 88
## 16     1          -1 87
## 17     1          -1 87
## 18     1          -1 87
## 19     1          -1 87
## 20     1          -1 88
## 21    -1           0 92
## 22    -1           0 94
## 23    -1           0 90
## 24    -1           0 91
## 25    -1           0 90
## 26    -1           0 91
## 27    -1           0 92
## 28    -1           0 92
## 29    -1           0 92
## 30    -1           0 91
## 31     1           0 90
## 32     1           0 88
## 33     1           0 88
## 34     1           0 88
## 35     1           0 89
## 36     1           0 90
## 37     1           0 89
## 38     1           0 88
## 39     1           0 88
## 40     1           0 89
## 41    -1           1 95
## 42    -1           1 94
## 43    -1           1 94
## 44    -1           1 94
## 45    -1           1 94
## 46    -1           1 97
## 47    -1           1 95
## 48    -1           1 96
## 49    -1           1 94
## 50    -1           1 96
## 51     1           1 91
## 52     1           1 90
## 53     1           1 92
## 54     1           1 90
## 55     1           1 97
## 56     1           1 89
## 57     1           1 90
## 58     1           1 91
## 59     1           1 91
## 60     1           1 91

Comparación de tratamientos e interacciones

boxplot(Y~Molde,data=df,main="Comparacion de tratamientos según niveles de moldes")

boxplot(Y~Catalizador,data=df, main="Comparacion de tratamientos según hinchamiento del catalizador utilizado")

boxplot(Y~Molde*Catalizador,data=df, main="Relación entre nivel de molde e hinchamiento del catalizador")

interaction.plot(df$Molde,df$Catalizador,df$Y,main="Interacciones entre niveles de moldes e hinchamiento del catalizador")

Prueba TukeyHSD

tk=TukeyHSD(modelo)
tk
##   Tukey multiple comparisons of means
##     95% family-wise confidence level
## 
## Fit: aov(formula = Y ~ Dia + Lote + Catalizador, data = df)
## 
## $Dia
##     diff       lwr      upr     p adj
## 2-1 -1.0 -4.476703 2.476703 0.8850511
## 3-1 -1.2 -4.676703 2.276703 0.8033390
## 4-1 -1.6 -5.076703 1.876703 0.6003527
## 5-1  0.2 -3.276703 3.676703 0.9997074
## 3-2 -0.2 -3.676703 3.276703 0.9997074
## 4-2 -0.6 -4.076703 2.876703 0.9798484
## 5-2  1.2 -2.276703 4.676703 0.8033390
## 4-3 -0.4 -3.876703 3.076703 0.9955987
## 5-3  1.4 -2.076703 4.876703 0.7055550
## 5-4  1.8 -1.676703 5.276703 0.4962009
## 
## $Lote
##            diff       lwr      upr     p adj
## 2-1  0.51333333 -2.815357 3.842023 0.9866786
## 3-1  0.60000000 -2.876703 4.076703 0.9798484
## 4-1  2.00000000 -1.476703 5.476703 0.3996843
## 5-1  0.23000000 -3.457601 3.917601 0.9995971
## 3-2  0.08666667 -3.242023 3.415357 0.9999875
## 4-2  1.48666667 -1.842023 4.815357 0.6253927
## 5-2 -0.28333333 -3.831729 3.265062 0.9989345
## 4-3  1.40000000 -2.076703 4.876703 0.7055550
## 5-3 -0.37000000 -4.057601 3.317601 0.9974037
## 5-4 -1.77000000 -5.457601 1.917601 0.5640378
## 
## $Catalizador
##           diff        lwr        upr     p adj
## B-A -2.8000000 -6.2767035  0.6767035 0.1393336
## C-A  0.4000000 -3.0767035  3.8767035 0.9955987
## D-A -5.0000000 -8.4767035 -1.5232965 0.0046230
## E-A -5.2607143 -8.7374177 -1.7840108 0.0031108
## C-B  3.2000000 -0.2767035  6.6767035 0.0766508
## D-B -2.2000000 -5.6767035  1.2767035 0.3148627
## E-B -2.4607143 -5.9374177  1.0159892 0.2244261
## D-C -5.4000000 -8.8767035 -1.9232965 0.0025235
## E-C -5.6607143 -9.1374177 -2.1840108 0.0017139
## E-D -0.2607143 -3.7374177  3.2159892 0.9991672

Prueba de Normalidad

qqnorm(modelo$residuals,main="Prueba de normalidad")
qqline(modelo$residuals,col="blue")

Los datos se distribuyen normalmente en la gráfica.

Prueba Shapiro

shapiro.test(modelo$residuals)
## 
##  Shapiro-Wilk normality test
## 
## data:  modelo$residuals
## W = 0.96996, p-value = 0.6441

Prueba de Levene

require(car)
leveneTest(Y~Molde,data=df)
## Levene's Test for Homogeneity of Variance (center = median)
##       Df F value Pr(>F)
## group  1  0.1322 0.7175
##       58
leveneTest(Y~Catalizador,data=df)
## Levene's Test for Homogeneity of Variance (center = median)
##       Df F value Pr(>F)
## group  2  2.0397 0.1394
##       57
plot(modelo$residuals,main="Modelo Resudual")

Respuestas a las preguntas del problema 5-19

a) Plantee las hipótesis de interés en este problema y el modelo estadístico correspondiente.

Ho : Efecto de Molde (A) = 0

HA : Efecto de Molde (A) ≠ 0

Ho : Efecto de Catalizador (B) = 0

HA : Efecto de Catalizador (B) ≠ 0

b) Construya la tabla de análisis de varianza y determine cuáles efectos están activos.

En ambos casos (molde y catalizador) hay efectos.

c) Dibuje las gráficas de medias para los dos efectos principales con los métodos LSD y de Tukey. Compare los resultados de ambos métodos.

d) Haga la gráfica de interacción con intervalos de confianza sobrepuestos.

e) Determine cuál es el mejor tratamiento. ¿Cuál es el hinchamiento predicho en el mejor tratamiento?

El mejor trata miento es el del Molde A1 y el Catalizador B3, con un hinchamiento de 94.9.

f ) Verifique los supuestos de normalidad y varianza constante.

En la prueba Shapiro con un valor p = 2.485e-05 (p<0.05), se rechaza Ho, por lo que se concluye que los datos se distribuyen de forma normal.

En el leveneTest para catalizadores y moldes, en ambos la p > 0.05, nos indica que hay varianzas constantes.

g) Utilice la gráfica de residuos contra factores para detectar posibles efectos sobre la dispersión del hinchamiento. ¿En cuál molde parece que es menor la dispersión?

Cuando se observa la gráfica de residuos contra factores, pareciera que la dispersión es menor en el molde B.

Entrega 5: Capítulo 5, Problema 20

Para mejorar la resistencia a la torsión de las adhesiones de componentes electrónicos sobre placas, se estudiaron dos tipos de pegamentos (A1 y A2) y tres temperaturas de curado (60, 80 y 100°C). En cada combinación se analizaron dos componentes y los resultados obtenidos son los siguientes:

Entrada de Datos

df=read.csv("C:/Users/Hp/Desktop/Curso07-DisenoExperimental/Cap5Prob20.csv",sep = ";")

str(df)
## 'data.frame':    12 obs. of  3 variables:
##  $ Pegamento  : chr  "A1" "A1" "A1" "A1" ...
##  $ Temperatura: int  60 60 80 80 100 100 60 60 80 80 ...
##  $ Y          : num  2.5 2.8 3.8 3.4 4 4.2 1.6 1.2 3.2 2.8 ...
df$Pegamento=factor(df$Pegamento)
df$Temperatura=factor(df$Temperatura)
df$Y=as.double(df$Y)

Modelo ANOVA para el tratamiento de las variables

modelo=aov(Y~Pegamento*Temperatura,data=df)
summary(modelo)
##                       Df Sum Sq Mean Sq F value   Pr(>F)    
## Pegamento              1  0.701   0.701   10.92   0.0163 *  
## Temperatura            2 10.402   5.201   81.05 4.55e-05 ***
## Pegamento:Temperatura  2  1.382   0.691   10.77   0.0103 *  
## Residuals              6  0.385   0.064                     
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Comparación de variables

boxplot(Y~Pegamento,data=df,main="Graficos de aplicación de pegamento")

boxplot(Y~Temperatura,data=df,main="Resistencia a la torsión de las adhesiones según distintas temperaturas")

boxplot(Y~Pegamento*Temperatura,data=df,main="Resistencia según aplicación de pegamentos y temperaturas")

Prueba TukeyHSD

tk=TukeyHSD(modelo)
tk
##   Tukey multiple comparisons of means
##     95% family-wise confidence level
## 
## Fit: aov(formula = Y ~ Pegamento * Temperatura, data = df)
## 
## $Pegamento
##             diff        lwr       upr     p adj
## A2-A1 -0.4833333 -0.8411927 -0.125474 0.0163089
## 
## $Temperatura
##         diff       lwr      upr     p adj
## 80-60  1.275 0.7254162 1.824584 0.0009439
## 100-60 2.275 1.7254162 2.824584 0.0000360
## 100-80 1.000 0.4504162 1.549584 0.0033856
## 
## $`Pegamento:Temperatura`
##                diff         lwr        upr     p adj
## A2:60-A1:60   -1.25 -2.25814056 -0.2418594 0.0190849
## A1:80-A1:60    0.95 -0.05814056  1.9581406 0.0639115
## A2:80-A1:60    0.35 -0.65814056  1.3581406 0.7372375
## A1:100-A1:60   1.45  0.44185944  2.4581406 0.0092645
## A2:100-A1:60   1.85  0.84185944  2.8581406 0.0026162
## A1:80-A2:60    2.20  1.19185944  3.2081406 0.0010182
## A2:80-A2:60    1.60  0.59185944  2.6081406 0.0056158
## A1:100-A2:60   2.70  1.69185944  3.7081406 0.0003231
## A2:100-A2:60   3.10  2.09185944  4.1081406 0.0001474
## A2:80-A1:80   -0.60 -1.60814056  0.4081406 0.2955674
## A1:100-A1:80   0.50 -0.50814056  1.5081406 0.4457102
## A2:100-A1:80   0.90 -0.10814056  1.9081406 0.0792273
## A1:100-A2:80   1.10  0.09185944  2.1081406 0.0342880
## A2:100-A2:80   1.50  0.49185944  2.5081406 0.0078111
## A2:100-A1:100  0.40 -0.60814056  1.4081406 0.6367394

Prueba de Normalidad y Test de Shapiro

qqnorm(modelo$residuals)
qqline(modelo$residuals)

shapiro.test(modelo$residuals)
## 
##  Shapiro-Wilk normality test
## 
## data:  modelo$residuals
## W = 0.7663, p-value = 0.003976

Prueba de Levene

require(car)
leveneTest(Y~Temperatura,data=df)
## Levene's Test for Homogeneity of Variance (center = median)
##       Df F value  Pr(>F)  
## group  2  4.4717 0.04483 *
##        9                  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
leveneTest(Y~Pegamento,data=df)
## Levene's Test for Homogeneity of Variance (center = median)
##       Df F value Pr(>F)
## group  1  2.8053 0.1249
##       10
plot(modelo$residuals)
abline(h=0)

Interacciones de las variables

interaction.plot(df$Pegamento,df$Temperatura,df$Y,main="Interaccion entre las variables")

Entrega 6: Capítulo 5, Problema 21

Se desea investigar de qué manera afecta el tiempo de curado y el tipo del acelerante a la resistencia de caucho vulcanizado. Se realiza un experimento y se obtienen los siguientes datos:

Entrada de los Datos

df=read.csv("C:/Users/Hp/Desktop/Curso07-DisenoExperimental/Cap5-P21.csv", sep=";")
df
##    Acelerante Tiempo    Y
## 1          -1     -1 3900
## 2          -1     -1 3600
## 3          -1      0 4100
## 4          -1      0 3500
## 5          -1      1 4000
## 6          -1      1 3800
## 7           0     -1 4300
## 8           0     -1 3700
## 9           0      0 4200
## 10          0      0 3900
## 11          0      1 4300
## 12          0      1 3600
## 13          1     -1 3700
## 14          1     -1 4100
## 15          1      0 3900
## 16          1      0 4000
## 17          1      1 3600
## 18          1      1 3800
str(df)
## 'data.frame':    18 obs. of  3 variables:
##  $ Acelerante: int  -1 -1 -1 -1 -1 -1 0 0 0 0 ...
##  $ Tiempo    : int  -1 -1 0 0 1 1 -1 -1 0 0 ...
##  $ Y         : int  3900 3600 4100 3500 4000 3800 4300 3700 4200 3900 ...
df$Acelerante=factor(df$Acelerante)
df$Tiempo=factor(df$Tiempo)

Análisis de ANOVA

modelo=aov(Y~Acelerante+Tiempo,data=df)
summary(modelo)
##             Df Sum Sq Mean Sq F value Pr(>F)
## Acelerante   2 114444   57222   0.825   0.46
## Tiempo       2  21111   10556   0.152   0.86
## Residuals   13 902222   69402

El p_valor= 0.46 y 0.86 sugiere que no hay diferencia significativa entre los acelerantes y el tiempo de curado a las resistencia de caucho volcanico.

Boxplot: Comparacion de Experimentos

boxplot(Y~Tiempo,data=df,main="Tratamiento según Tiempo de curado")

boxplot(Y~Acelerante,data=df, main="Tratamiento según tipo de acelerantes")

boxplot(Y~Acelerante*Tiempo,data=df,main="Relación entre tiempo de curado y tipo de acelerante")

interaction.plot(df$Acelerante,df$Tiempo,df$Y,main="Interacciones")

1- No existen diferencias significativas en la resistencia debido al tipo de acelerante A (-1) y C (1), pero sí existe diferencia de estos dos frente al acelerante B (0).

2- En la gráfica de comparación del acelerantes y tiempo de curado, se evidencia que existen algunas diferencias.

3- No existe interaccion entre los experimentos 0 y -1.

Prueba de Comparaciones Multiples: TukeyHSD

tk=TukeyHSD(modelo)
tk
##   Tukey multiple comparisons of means
##     95% family-wise confidence level
## 
## Fit: aov(formula = Y ~ Acelerante + Tiempo, data = df)
## 
## $Acelerante
##            diff       lwr      upr     p adj
## 0--1  183.33333 -218.2728 584.9394 0.4708685
## 1--1   33.33333 -368.2728 434.9394 0.9739228
## 1-0  -150.00000 -551.6061 251.6061 0.5979909
## 
## $Tiempo
##           diff       lwr      upr     p adj
## 0--1  50.00000 -351.6061 451.6061 0.9424302
## 1--1 -33.33333 -434.9394 368.2728 0.9739228
## 1-0  -83.33333 -484.9394 318.2728 0.8493245

Al comparar las medias de los diferentes valores obtenemos p_valores > 0.05 por lo que no existe diferencias significativas en entre las medias de los acelerantes y el tiempo de curado de los experimantos

Prueba de Normalidad

qqnorm(modelo$residuals,main="Prueba de Normalidad")
qqline(modelo$residuals)

shapiro.test(modelo$residuals)
## 
##  Shapiro-Wilk normality test
## 
## data:  modelo$residuals
## W = 0.94083, p-value = 0.2994

La prueba de Shapiro Wilks arroja un valor de p=0.2994 por lo que se acepta la Ho.

Prueba de Levene para la Igualdad de Varianza

require(car)
leveneTest(Y~Acelerante,data=df)
## Levene's Test for Homogeneity of Variance (center = median)
##       Df F value Pr(>F)
## group  2   1.789  0.201
##       15
leveneTest(Y~Tiempo,data=df)
## Levene's Test for Homogeneity of Variance (center = median)
##       Df F value Pr(>F)
## group  2  0.1373 0.8728
##       15

La prueba de levene indica que las varianzas son iguales a un nivel de significancia de 95%.

Prueba de Indepencia de Los Errores de los Datos

plot(modelo$residuals,main="Prueba de Independencia de errores de los datos")
abline(h=0)

En la tabla demuestra que los modelos residuales de los experiementos son diferentes a la linea 0 estan bastante dispersos.

Conclusiones

El primer reto de este trabajo fue apropiarnos de las interpretaciones relativas a los códigos utilizados en cada uno de los modelos o diseños experimentales. Sin embargo, la práctica hizo que poco a poco nos hayamos apropiado de las herramientas básicas de este tipo de análisis estadístico.

El análisis con un factor de interés, más bloques o factores múltiples que pueden intervenir en un problema de investigación, nos permite mediante el uso de los modelos o diseños llegar a conclusiones más objetivas y comprobables estadísticamente.

El plus de este cusro ha sido el uso de la aplicación RStudio, RMarkdown y RPubs, ya que aunque no seamos programadores, nos motiva a desarrollar nuestra propia ruta de investigación sin depender de programas comerciales y nos abre un mundo nuevo del que estamos seguros no dejaremos de explorar.

Bibliografía

Badii, M.H, J. Castillo, M. Rodríguez, A. Wong & P. Villalpando (2007). Diseños experimentales e investigación científica. InnOvaciOnes de NegOciOs 4(2): 283 – 330, UANL, México.

Fernández, Patricia y López, Guadalupe (2013). El uso del modelo experimental en ciencias sociales. VII Jornadas de Jóvenes Investigadores. Instituto de Investigaciones Gino Germani, Facultad de Ciencias Sociales, Universidad de Buenos Aires, Buenos Aires.

Gutiérrez, Humberto y Dela Vara, R. (2008). Análisis y Diseño de Experimentos. Segunda Edición. McGraw-Hill/Interamericana Editores, S.A. México.

Miller Moya, Luis (2006). Experimentos de orientación teórica. Una discusión metodológica. EMPIRIA. Revista de Metodología de las Ciencias Sociales, núm. 12, julio-diciembre, 2006, pp. 89-110, Universidad Nacional de Educación a Distancia, Madrid, España.