El contenido del presente informe corresponde a una serie de análisis estadísticos dentro del Curso Diseño Experimental del Postgrado en Investigación de la Universidad Autónoma de Chiriquí, dirigida por el Departamento de Vicerrectoría de Investigación y Posgrado bajo la facilitación del profesor Pedro González.
En la primera parte se hace una aproximación a la temática del diseño experimental como una de las etapas de la investigación científica, diferenciando entre ciencias naturales y sociales.
Luego se cosideran los temas relacionados con los diseños experimentales desarrollados en el curso del postgrado tales como los diseños de bloques al azar, diseño de cuadrado latino y diseño grecolatino.
En una tercera parte se desarrollarán varios problemas asignados por el docente, con el fin de poner en práctica los conocimientos adquiridos. Se analizan seis problemas de los capítulos 4 y 5 del libro Análisis y Diseño de Experimentos, de H.Gutierrez y R. De la Vara (2008).
Los análisis que se realizan son aquellos correspondientes a diseños de bloques, análisis de varianzas, diseño en cuadrado latino y gregolatino.
El resultado de los análisis será presentado por medio del software RMarkdown y publicado en el sitio RPubs.
En la investigación científica, sobre todo en ciencias naturales, la experimentación es uno de los pasos fundamentales para lograr resultados efectivos y aportar al conocimiento. De ahí que el diseño experimental se desarrolle como una actividad necesaria en el proceso investigativo.
En ciencias sociales, donde se ubica el autor de este trabajo, no se realizan experimentos o en muy contadas ocasiones, debido a que el objeto de estudio es el mismo ser humano en sus interacciones sociales, lo que puede reñir éticamente con los postulados de las ciencias. Sin embargo, algunos autores siguieren que en vez de pensar ese paso del métoco científico como un laboratorio, se pueden tomar datos de la realidad pasada o presente, sin manipularla, pero tomando en cuenta los factores que pudieran intervenir en un caso específico (Fernández y López, 2013).
El diseño experimental se refiere a un esquema de cómo realizar un experimento. El objetivo fundamental de los diseños experimentales consiste en el determinar si existe una diferencia significativa entre los diferentes tratamientos del experimento y en caso que lo haya, cual sería la magnitud de esta diferencia. Otra meta de los diseños experimentales es verificar la existencia de una tendencia derivada del análisis de los datos del experimento.
La diferencia principal entre los diseños experimentales radica en la forma en que se agrupan o clasifican las unidades experimentales. En todos los diseños las unidades experimentales se clasifican por tratamientos; pero en algunos, estos se clasifican preferentemente en bloques, filas, parcelas principales y otras modalidades.
De acuerdo a su objetivo, los diseños experimentales se pueden clasificar como:
Diseños para comparar dos o más tratamientos.
Diseños para estudiar el efecto de varios factores sobre la(s) respuesta(s).
Diseños para determinar el punto óptimo de operación del proceso.
Diseños para la optimización de una mezcla.
Diseños para hacer el producto o proceso insensible a factores no controlables.
Entre los diseños experimentales que existen se pueden mencionar los siguientes:
Diseño de bloques: se refiere a la inclusión de más de una variable en un experimento para lograr resultados más objetivos. En un experimento comparativo se le llama factores de bloque a aquellas variables adicionales al factor de interés que se incorporan de manera explícita en un experimento para no sesgar la investigación.
Análisis de varianzas: se refiere a la prueba de hipótesis a partir de dos criterios de clasificación o de variación: el factor de tratamiento y el factor de bloque.
Diseño de cuadrado latino Se refiere al diseño en el que se controlan dos factores de bloque y uno de tratamientos; los tres factores tienen la misma cantidad de niveles. Los tratamientos se representan por letras latinas y se distribuyen en forma adecuada en un cuadro.
Diseño de cuadrado grecolatino: Es el diseño en el que se controlan tres factores de bloques y un factor de tratamiento; los cuatro factores utilizan la misma cantidad de niveles.
Cuadro grecolatino : Se le llama cuadro grecolatino porque los cuatro factores involucrados se prueban en la misma cantidad de niveles, de aquí que se pueda escribir como un cuadro; además, se utilizan letras latinas para denotar a los tratamientos y letras griegas para nombrar a los niveles del tercer factor de bloque.
Proceso de ensamblaje del brazo lector de un disco duro Una de las variables críticas en el proceso de ensamble del brazo lector de un discoduro es el ángulo que éste forma con el cuerpo principal de la cabeza lectora. Se corre un experimento con el objetivo de comparar dos equipos que miden dicho ángulo en unidades de radianes. Se decide utilizar como factor de bloque a los operadores de los equipos. Los resultados se muestran en la siguiente tabla:
(width’75%’)
Ensamble de un brazo
df=read.csv("https://raw.githubusercontent.com/yarizel2021/Proyecto-final/main/Equipos.csv")
df## Y Operador Equipo
## 1 1.328 1 1
## 2 1.113 1 1
## 3 0.985 1 1
## 4 1.057 1 1
## 5 1.316 1 1
## 6 1.144 1 1
## 7 1.553 1 1
## 8 1.485 1 1
## 9 1.310 1 1
## 10 1.386 1 1
## 11 1.273 1 2
## 12 0.789 1 2
## 13 0.985 1 2
## 14 0.671 1 2
## 15 1.134 1 2
## 16 0.554 1 2
## 17 1.412 1 2
## 18 1.386 1 2
## 19 0.917 1 2
## 20 1.289 1 2
## 21 1.269 2 1
## 22 1.093 2 1
## 23 1.268 2 1
## 24 0.984 2 1
## 25 1.091 2 1
## 26 1.087 2 1
## 27 1.195 2 1
## 28 1.482 2 1
## 29 1.380 2 1
## 30 1.442 2 1
## 31 1.036 2 2
## 32 0.201 2 2
## 33 0.783 2 2
## 34 0.900 2 2
## 35 1.108 2 2
## 36 0.916 2 2
## 37 1.129 2 2
## 38 1.434 2 2
## 39 1.132 2 2
## 40 1.223 2 2
## 41 1.440 3 1
## 42 1.150 3 1
## 43 1.079 3 1
## 44 1.190 3 1
## 45 1.389 3 1
## 46 1.247 3 1
## 47 1.611 3 1
## 48 1.617 3 1
## 49 1.445 3 1
## 50 1.574 3 1
## 51 1.454 3 2
## 52 1.018 3 2
## 53 1.063 3 2
## 54 1.050 3 2
## 55 1.219 3 2
## 56 0.997 3 2
## 57 1.602 3 2
## 58 1.538 3 2
## 59 1.583 3 2
## 60 1.478 3 2
df$Operador=factor(df$Operador)
df$Equipo=factor(df$Equipo)
str(df)## 'data.frame': 60 obs. of 3 variables:
## $ Y : num 1.328 1.113 0.985 1.057 1.316 ...
## $ Operador: Factor w/ 3 levels "1","2","3": 1 1 1 1 1 1 1 1 1 1 ...
## $ Equipo : Factor w/ 2 levels "1","2": 1 1 1 1 1 1 1 1 1 1 ...
modelo=aov(Y~Operador*Equipo,data=df)
summary(modelo)## Df Sum Sq Mean Sq F value Pr(>F)
## Operador 2 0.589 0.2944 4.784 0.01222 *
## Equipo 1 0.493 0.4925 8.005 0.00654 **
## Operador:Equipo 2 0.087 0.0434 0.706 0.49824
## Residuals 54 3.323 0.0615
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Resultado de la prueba de interación: Vemos que hay diferencias significativas entre los operadores,y diferencias signficativas entre los equipos. Pero podemos darnos cuenta que la interacción operador-equipo, no tiene diferencias significativas. Cuando esto ocurre lo mejor es eliminar la interacción en el modelo.Lo más importante son las diferencias significativas entre las interacciones. En este caso no hay diferencias significativas. Al eliminar la interacción en el cálculo, el error de la interacción queda dentro de los errores del operador y el equipo.
modelo=aov(Y~Operador+Equipo,data=df)
summary(modelo)## Df Sum Sq Mean Sq F value Pr(>F)
## Operador 2 0.589 0.2944 4.835 0.01156 *
## Equipo 1 0.493 0.4925 8.090 0.00621 **
## Residuals 56 3.409 0.0609
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Ahora podemos observar que el ajuste en el error debido a la interacción cambia un poco. Quiere decir que vamos a ver sólo el efecto de los factores principales (operador-equipo).En este caso hay diferencias significativas entre los operadores de (0.01156)* y diferencias significativas entre los equipos de (0.00621)**
boxplot(Y~Operador+Equipo,data=df)Al observar las gráficas casi todas se parecen,hay mucha diferencia significativa entre la figura 3 (que corresponde al operador 3-equipo 1)y la figura 5 (que corresponde al operador 2-equipo 2). Aquí posiblemente hay diferencia entre estas dos y esa situación hace que se rechace la hipótesis nula, que son iguales porque estos valores son bastane diferentes.
boxplot(Y~Equipo+Equipo,data=df)Ahora podemos observar que al hacer los boxplot por separados,se nos presentan más detalles entre equipos.
qqnorm(modelo$residual)
qqline(modelo$residual)Al observar la curva de los datos con respecto a la línea de normalidad vemos que la mayoría sigue una distribución normal. Pero al final se desvían un poco.
shapiro.test(modelo$residuals)##
## Shapiro-Wilk normality test
##
## data: modelo$residuals
## W = 0.96139, p-value = 0.05502
La prueba se Shapiro nos está indicando que NO SE PUEDE RECHAZAR la Hipótesis Nula. Por lo tanto se considera normal, pero está en borde de ser rechazada.
library(car)## Loading required package: carData
leveneTest(Y~Equipo+Equipo,data=df)## Levene's Test for Homogeneity of Variance (center = median)
## Df F value Pr(>F)
## group 1 4.1246 0.04686 *
## 58
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
leveneTest(Y~Operador+Operador,data=df)## Levene's Test for Homogeneity of Variance (center = median)
## Df F value Pr(>F)
## group 2 0.1849 0.8316
## 57
Para la prueba de homoscedasticidad en lo equipos: Entre los equiposde la prueba de homoscedasticidad de varianza es < de 0.05, por lo que aquí podemos observar que se rechaza la Hipótesis nula. Es decir que hay diferencias entre las varianzas y entre los diferentes tratamientos.
Para la prueba de homoscedasticidad en lo operadores: En esta prueba no se observan diferencias significativas entre las varianzas de los diferentes operadores.
plot(modelo$residuals)
abline(h=0)Al observar la gráfica podemos analizar que existe problema con la distribución de los datos, porque están fuera del rango y esto puede ocasionar problemas en el análisis.
Conclusión 1.Nuestras hipótesis son:
Ho = Existen diferencias significativas entre los factores Operadores y Equipos.
Ha= No existen diferencias significativas entre los factores Operadores y Equipos.
Conclusión 2.Podemos concluir que existen diferencias significativas entre los equipos, porque al aplicar el Modelo ANOVA los resultados de la comparación del valor p,con el nivel de significancia para evaluar la hipotesis nula, es de 0.00654**.
Conclusión 3.Si existen diferencias significativas entre los operadores,porque al aplicar el Modelo ANOVA los resultados de la comparación del valor p,con el nivel de significancia para evaluar la hipotesis nula, es de 0.01222*.
Conclusión 4.Al aplicar el Boxpot,podemos observar que las gráficas casi todas se parecen,hay mucha diferencia significativa entre la figura 3 (que corresponde al operador 3-equipo 1)y la figura 5 (que corresponde al operador 2-equipo 2). Aquí posiblemente hay diferencia entre estas dos y esa situación hace que se rechace la hipótesis nula, que son iguales porque estos valores son bastane diferentes.
Conclusión 5.Al observar la curva de los datos con respecto a la línea de normalidad vemos que la mayoría sigue una distribución normal. Pero al final se desvían un poco.
Temperatura de conservación de la leche
Un aspecto crítico para que se conserve la leche es la temperatura de almacenamiento.De manera tradicional se han usado termómetros de mercurio (Mer) para verificar que la temperatura sea la adecuada, pero ahora se han comprado termómetros electrónicos (Rtd) para facilitar el proceso de medición. Sin embargo, se duda de las mediciones de estos nuevos dispositivos. Para aclarar dudas y diagnosticar la situación, durante cinco días se toman mediciones con ambos tipos de termómetros en varios silos (a la misma hora).
(width’75%’)
Termómetros
df=read.csv("https://raw.githubusercontent.com/yarizel2021/Proyecto-final/main/Problema15Cap4.csv")
df## Dia Silo Mer Rtd Y
## 1 1 A 4.0 2.6 1.4
## 2 2 A 4.0 2.8 1.2
## 3 3 A 5.0 5.0 0.0
## 4 4 A 0.5 0.0 0.5
## 5 5 A 3.0 2.4 0.6
## 6 1 B 5.0 6.4 -1.4
## 7 2 B 6.0 6.4 -0.4
## 8 3 B 2.0 2.3 -0.3
## 9 4 B 4.0 4.2 -0.2
## 10 5 B 4.0 4.0 0.0
## 11 1 C 4.5 3.3 1.2
## 12 2 C 4.0 1.4 2.6
## 13 3 C 3.5 1.8 1.7
## 14 4 C 2.0 -1.9 3.9
## 15 5 C 3.0 -7.6 10.6
## 16 1 D 2.5 3.1 -0.6
## 17 2 D 4.0 5.0 -1.0
## 18 3 D 6.5 6.6 -0.1
## 19 4 D 4.5 2.7 1.8
## 20 5 D 4.0 6.3 -2.3
## 21 1 E 4.0 0.0 4.0
## 22 2 E 4.0 0.4 3.6
## 23 3 E 3.5 0.6 2.9
## 24 4 E 2.0 -4.0 6.0
## 25 5 E 4.0 -6.3 10.3
str(df)## 'data.frame': 25 obs. of 5 variables:
## $ Dia : int 1 2 3 4 5 1 2 3 4 5 ...
## $ Silo: chr "A" "A" "A" "A" ...
## $ Mer : num 4 4 5 0.5 3 5 6 2 4 4 ...
## $ Rtd : num 2.6 2.8 5 0 2.4 6.4 6.4 2.3 4.2 4 ...
## $ Y : num 1.4 1.2 0 0.5 0.6 -1.4 -0.4 -0.3 -0.2 0 ...
df$Dia=factor(df$Dia)
df$Silo=factor(df$Silo)
str(df)## 'data.frame': 25 obs. of 5 variables:
## $ Dia : Factor w/ 5 levels "1","2","3","4",..: 1 2 3 4 5 1 2 3 4 5 ...
## $ Silo: Factor w/ 5 levels "A","B","C","D",..: 1 1 1 1 1 2 2 2 2 2 ...
## $ Mer : num 4 4 5 0.5 3 5 6 2 4 4 ...
## $ Rtd : num 2.6 2.8 5 0 2.4 6.4 6.4 2.3 4.2 4 ...
## $ Y : num 1.4 1.2 0 0.5 0.6 -1.4 -0.4 -0.3 -0.2 0 ...
modelo1=aov(Mer~Silo+Dia,data=df)
summary(modelo1)## Df Sum Sq Mean Sq F value Pr(>F)
## Silo 4 4.46 1.115 0.690 0.609
## Dia 4 9.76 2.440 1.511 0.246
## Residuals 16 25.84 1.615
AL aplicar el modelo ANOVA se puede observar que no hay diferencias significativas entre los factores Dia y Silo,por lo tanto se rechaza la Ho.
modelo2=aov(Rtd~Silo+Dia,data=df)
summary(modelo2)## Df Sum Sq Mean Sq F value Pr(>F)
## Silo 4 182.53 45.63 8.091 0.000912 ***
## Dia 4 62.01 15.50 2.749 0.064865 .
## Residuals 16 90.24 5.64
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Los silos no son iguales ya que presentan un valor de P<0.05 Los días tienen temperaturas iguales ya que presentan un valor de P>0.05
boxplot(Rtd~Silo,data=df)Al aplicar el boxplot podemos observar que todas las medias son distintas. Además observamos que en el tratamiento A aparecen algunos datos que se alejan del rango, pero no afectan los resultados porque es normal que esto suceda.
tk=TukeyHSD(modelo2)
tk## Tukey multiple comparisons of means
## 95% family-wise confidence level
##
## Fit: aov(formula = Rtd ~ Silo + Dia, data = df)
##
## $Silo
## diff lwr upr p adj
## B-A 2.10 -2.5016327 6.7016327 0.6374197
## C-A -3.16 -7.7616327 1.4416327 0.2656259
## D-A 2.18 -2.4216327 6.7816327 0.6057729
## E-A -4.42 -9.0216327 0.1816327 0.0628520
## C-B -5.26 -9.8616327 -0.6583673 0.0212974
## D-B 0.08 -4.5216327 4.6816327 0.9999980
## E-B -6.52 -11.1216327 -1.9183673 0.0039696
## D-C 5.34 0.7383673 9.9416327 0.0191638
## E-C -1.26 -5.8616327 3.3416327 0.9144393
## E-D -6.60 -11.2016327 -1.9983673 0.0035673
##
## $Dia
## diff lwr upr p adj
## 2-1 0.12 -4.481633 4.721633 0.9999897
## 3-1 0.18 -4.421633 4.781633 0.9999479
## 4-1 -2.88 -7.481633 1.721633 0.3478187
## 5-1 -3.32 -7.921633 1.281633 0.2254054
## 3-2 0.06 -4.541633 4.661633 0.9999994
## 4-2 -3.00 -7.601633 1.601633 0.3107739
## 5-2 -3.44 -8.041633 1.161633 0.1984234
## 4-3 -3.06 -7.661633 1.541633 0.2932674
## 5-3 -3.50 -8.101633 1.101633 0.1859252
## 5-4 -0.44 -5.041633 4.161633 0.9982140
En el tratamiento de los Silos 6 de las medias no tienen mayor diferencia en donde los tratamientos D-B, son prácticamente iguales, existen diferencias entre 4 de las medias siendo los tratamientos E-D las que presentan diferencias significativas.
Las diferencias de las medias de las temperaturas de los Días son prácticamente iguales, es decir que no existe mayor diferencia.
qqnorm(modelo2$residuals)
qqline(modelo2$residuals)Al observar la curva de los datos con respecto a la línea de normalidad,ponemos observar que los datos siguen una distribución normal, pero al inicio se dispersan un poco.
df$Dif=df$Mer-df$Rtd
modelo3=aov(Dif~Silo+Dia,data=df)
summary(modelo3)## Df Sum Sq Mean Sq F value Pr(>F)
## Silo 4 143.77 35.94 7.876 0.00104 **
## Dia 4 32.85 8.21 1.799 0.17835
## Residuals 16 73.02 4.56
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
boxplot(Dif~Silo,data=df)Podemos observar que las temperaturas según el Silo tienen diferencia significativas en cuanto a las temperaturas tomadas con ambos termómetros. Mientras que atendiendo al bloque de los Días la diferencia disminuye en cuanto a las temperaturas tomadas.
En cuanto a las diferencias entre los tratamientos podemos observar que la media de los tratamientos en cuanto a la temperatura son diferentes entre sí.
tk=TukeyHSD(modelo3)
tk## Tukey multiple comparisons of means
## 95% family-wise confidence level
##
## Fit: aov(formula = Dif ~ Silo + Dia, data = df)
##
## $Silo
## diff lwr upr p adj
## B-A -1.20 -5.3393612 2.9393612 0.8971495
## C-A 3.26 -0.8793612 7.3993612 0.1621002
## D-A -1.18 -5.3193612 2.9593612 0.9025292
## E-A 4.62 0.4806388 8.7593612 0.0250694
## C-B 4.46 0.3206388 8.5993612 0.0316225
## D-B 0.02 -4.1193612 4.1593612 1.0000000
## E-B 5.82 1.6806388 9.9593612 0.0042441
## D-C -4.44 -8.5793612 -0.3006388 0.0325490
## E-C 1.36 -2.7793612 5.4993612 0.8486133
## E-D 5.80 1.6606388 9.9393612 0.0043721
##
## $Dia
## diff lwr upr p adj
## 2-1 0.28 -3.859361 4.419361 0.9995415
## 3-1 -0.08 -4.219361 4.059361 0.9999969
## 4-1 1.48 -2.659361 5.619361 0.8063730
## 5-1 2.92 -1.219361 7.059361 0.2433728
## 3-2 -0.36 -4.499361 3.779361 0.9987672
## 4-2 1.20 -2.939361 5.339361 0.8971495
## 5-2 2.64 -1.499361 6.779361 0.3305617
## 4-3 1.56 -2.579361 5.699361 0.7758647
## 5-3 3.00 -1.139361 7.139361 0.2218781
## 5-4 1.44 -2.699361 5.579361 0.8209553
Podemos observar que las diferencias de las medidas de temperatura tomadas con Mer y Rtd, respecto al Silo son significativas, es decir que 5 de las medias son < a 0.05, en consecuncia cuando haya por lo menos una diferente se rechaza por lo tanto se rechaza la Ho.
Ho: Los termómetros electrónicos (Rtd) son tan efectivos como los termómetros tradicionales (Mer) independientemente en el bloque o el tratamiento que se aplique.
Ha: Los termómetros electrónicos (Rtd) no son tan efectivos como los termómetros tradicionales(Mer), independientemente en el bloque o el tratamiento que se aplique.
1.Después del análisis y observación de los datos podemos concluir que las mediciones con Rtd no son confiables porque después de haber realizado las pruebas correspondientes se evidencia la poca efectividad del Rtd partiendo de la afirmación que el termómetro de mercurio es altamente eficaz.
2.Tomando los datos Rtd, considerando el Silo como un tratamiento y Día como bloque, se realiza la prueba ANOVA y podemos concluir que los tratamientos (Silos)no son iguales y tiene diferencias significativas puesto que que la mayoría tiene un valor < a 0.05. Por otra parte en cuanto a los bloques (Días), las medidas de temperatura no reflejan diferencias significativas, ya que la mayoría son > a 0.05.
3.AL aplicar el modelo ANOVA, atediendo a las mediciones de Mer se concluye que no hay diferencias significativas entre los factores Dia y Silo,por lo tanto se rechaza la Ho.
4.Las conclusiones obtenidas en los incisos anteriores no coinciden, porque en el modelo 1 los datos no evidencian diferencias significativas( > 0.05), lo que confirma la confiabilidad de las medidas de Mer. Mientras que el modelo 2 referentes a las medidas de Rtd si hay diferencias significativas, por los que las medidas de Rtd no son constante.< o.o5.
5.Las medidas de temperatura tomadas con Mer y Rtd, respecto al Silo son significativas, es decir que 5 de las medias son < a 0.05, en consecuncia cuando haya por lo menos una diferente se rechaza por lo tanto se rechaza la Ho.
Efecto de diferentes catalizadores
Se quiere estudiar el efecto de cinco diferentes catalizadores (A, B, C, D y E) sobre el tiempo de reacción de un proceso químico. Cada lote de material sólo permite cinco corridas y cada corrida requiere aproximadamente 1.5 horas, por lo que sólo se pueden realizar cinco corridas diarias. El experimentador decide correr los exp erimentos con un diseño en cuadro latino para controlar activamente a los lotes y días. Los datos obtenidos son:
(width’75%’)
Efecto de los catalizadores
df=read.csv("https://raw.githubusercontent.com/yarizel2021/Proyecto-final/main/Catalizador.csv")
df## Dia Lote Catalizador Y
## 1 1 1 A 8
## 2 1 2 C 11
## 3 1 3 B 4
## 4 1 4 D 6
## 5 1 5 E 4
## 6 2 1 B 7
## 7 2 2 E 2
## 8 2 3 A 9
## 9 2 4 C 8
## 10 2 5 D 2
## 11 3 1 D 1
## 12 3 2 A 7
## 13 3 3 C 10
## 14 3 4 E 6
## 15 3 5 B 3
## 16 4 1 C 7
## 17 4 2 D 3
## 18 4 3 E 1
## 19 4 4 B 6
## 20 4 5 A 8
## 21 5 1 E 3
## 22 5 2 B 8
## 23 5 3 D 5
## 24 5 4 A 10
## 25 5 5 C 8
str(df)## 'data.frame': 25 obs. of 4 variables:
## $ Dia : int 1 1 1 1 1 2 2 2 2 2 ...
## $ Lote : int 1 2 3 4 5 1 2 3 4 5 ...
## $ Catalizador: chr "A" "C" "B" "D" ...
## $ Y : int 8 11 4 6 4 7 2 9 8 2 ...
df$Dia=factor(df$Dia)
df$Lote=factor(df$Lote)
df$Catalizador=factor(df$Catalizador)
df$Y=as.double(df$Y)
str(df)## 'data.frame': 25 obs. of 4 variables:
## $ Dia : Factor w/ 5 levels "1","2","3","4",..: 1 1 1 1 1 2 2 2 2 2 ...
## $ Lote : Factor w/ 5 levels "1","2","3","4",..: 1 2 3 4 5 1 2 3 4 5 ...
## $ Catalizador: Factor w/ 5 levels "A","B","C","D",..: 1 3 2 4 5 2 5 1 3 4 ...
## $ Y : num 8 11 4 6 4 7 2 9 8 2 ...
modelo=aov(Y~Dia+Lote+Catalizador,data=df)
summary(modelo)## Df Sum Sq Mean Sq F value Pr(>F)
## Dia 4 12.24 3.06 0.979 0.455014
## Lote 4 15.44 3.86 1.235 0.347618
## Catalizador 4 141.44 35.36 11.309 0.000488 ***
## Residuals 12 37.52 3.13
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Según los datos observados con la prueba de ANOVA, interpretamos que el factor día no tiene diferencia significativa, lo mismo pasa con el factor Lote, sin embargo el factor catalizados si hay diferencias significativas.
boxplot(Y~Catalizador,data=df)tk=TukeyHSD(modelo)
tk$Catalizador## diff lwr upr p adj
## B-A -2.8 -6.3646078 0.7646078 0.153943335
## C-A 0.4 -3.1646078 3.9646078 0.996001220
## D-A -5.0 -8.5646078 -1.4353922 0.005586216
## E-A -5.2 -8.7646078 -1.6353922 0.004143094
## C-B 3.2 -0.3646078 6.7646078 0.086435305
## D-B -2.2 -5.7646078 1.3646078 0.336581142
## E-B -2.4 -5.9646078 1.1646078 0.263155088
## D-C -5.4 -8.9646078 -1.8353922 0.003082228
## E-C -5.6 -9.1646078 -2.0353922 0.002300665
## E-D -0.2 -3.7646078 3.3646078 0.999734935
Al aplicar la prueba de comparaciones múltiples podemos observar que en laS combinaciones de los tratamientos (B-A,C-A,C-B,D-B,E-B,E-D), no hay diferencias significativas.Sin embargo en las combinaciones de los tratamientos (D-A,E-A,D-C,E-C), si hay diferencias significativas. Por esta razón se rechaza la Ho.
qqnorm(modelo$residuals)
qqline(modelo$residuals)Al aplicar la prueba de distribución normal podemos observar en la curva de los datos con respecto a la línea de normalidad, que siguen una distribución normal; pero al inicio y al final de la línea se dispersan un poco.
shapiro.test(modelo$residuals)##
## Shapiro-Wilk normality test
##
## data: modelo$residuals
## W = 0.96606, p-value = 0.5476
Al aplicar la prueba Shapiro podemos interpretar que el valor de p es superior al alfa, por lo tanto se acepta la Ho, y tiene una distribución normal.
library(car)
leveneTest(Y~Catalizador,data=df)## Levene's Test for Homogeneity of Variance (center = median)
## Df F value Pr(>F)
## group 4 0.4444 0.7751
## 20
En prueba de Homoscedasticidad aplicado al factor catalizador podemos observar que el valor de p es de 0.7751, es decir < a 0.05, por lo que se acepta la Ho,por lo tanto no hay diferencias significativas.
El experimento se aleatorizó mediante un diseño de cuadro latino en los lotes, más no en los tiempos.
Hipotesis:
HO: El tipo de catalizador no influye en el tiempo de reacción de un proceso quimico.
Ha: El tipo de catalizador influye en el tiempo de reacción de un proceso quimico.
4.Los factores ruido, lote y día no afectan el tiempo de reacción del proceso, según la prueba ANOVA.
5.El catalizador influye en el tiempo de reacción, el catalizador E es el que reduce mayormente el tiempo de reacción.
** Torsión de las adhesiones de componentes electrónicos sobre placas**
Para mejorar la resistencia a la torsión de las adhesiones de componentes electrónicos sobre placas, se estudiaron dos tipos de pegamentos (A1 y A2) y tres temperaturas de curado (60, 80 y 100°C). En cada combinación se analizaron dos componentes y los resultados obtenidos son los siguientes:
(width’75%’)
Resistencia a la torsión de las adhesiones de componentes electrónicos
df=read.csv("https://raw.githubusercontent.com/yarizel2021/Proyecto-final/main/Cap5Prob20.csv")
df## Pegamento Temperatura Y
## 1 A1 60 2.50
## 2 A1 60 2.80
## 3 A1 80 3.80
## 4 A1 80 3.40
## 5 A1 100 4.00
## 6 A1 100 4.20
## 7 A2 60 1.60
## 8 A2 60 1.22
## 9 A2 80 3.20
## 10 A2 80 2.80
## 11 A2 100 4.30
## 12 A2 100 4.70
str(df)## 'data.frame': 12 obs. of 3 variables:
## $ Pegamento : chr "A1" "A1" "A1" "A1" ...
## $ Temperatura: int 60 60 80 80 100 100 60 60 80 80 ...
## $ Y : num 2.5 2.8 3.8 3.4 4 4.2 1.6 1.22 3.2 2.8 ...
df$Pegamento=factor(df$Pegamento)
df$Temperatura=factor(df$Temperatura)
df$Y=as.double(df$Y)
str(df)## 'data.frame': 12 obs. of 3 variables:
## $ Pegamento : Factor w/ 2 levels "A1","A2": 1 1 1 1 1 1 2 2 2 2 ...
## $ Temperatura: Factor w/ 3 levels "60","80","100": 1 1 2 2 3 3 1 1 2 2 ...
## $ Y : num 2.5 2.8 3.8 3.4 4 4.2 1.6 1.22 3.2 2.8 ...
modelo=aov(Y~Pegamento+Temperatura,data=df)
summary(modelo)## Df Sum Sq Mean Sq F value Pr(>F)
## Pegamento 1 0.691 0.691 3.171 0.112807
## Temperatura 2 10.354 5.177 23.754 0.000431 ***
## Residuals 8 1.744 0.218
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Con la prueba de ANOVA se puede observar que entre los pegamentos no se presentan diferencias significativas,mientras tanto entre la temperatura si se presenta diferencias significativas.
boxplot(Y~Pegamento,data=df,main="Graficos de los pegamento")boxplot(Y~Temperatura,data=df,main="Resistencia a la torsión de las adhesiones")boxplot(Y~Pegamento*Temperatura,data=df,main="Graficos de las variables")tk=TukeyHSD(modelo)
tk## Tukey multiple comparisons of means
## 95% family-wise confidence level
##
## Fit: aov(formula = Y ~ Pegamento + Temperatura, data = df)
##
## $Pegamento
## diff lwr upr p adj
## A2-A1 -0.48 -1.101553 0.1415526 0.1128068
##
## $Temperatura
## diff lwr upr p adj
## 80-60 1.27 0.32671873 2.213281 0.0120864
## 100-60 2.27 1.32671873 3.213281 0.0003298
## 100-80 1.00 0.05671873 1.943281 0.0388647
Las medias de las temperaturas son diferentes, según los resultados del bloxplot TUKEY . Las prueba de TukeyHSD aplicadas a las temperaturas nos indica que existe diferencia entre las temperatura de 100 a 60.
qqnorm(modelo$residuals)
qqline(modelo$residuals)Al aplicar la prueba de distribución normal podemos observar en la curva de los datos con respecto a la línea de normalidad, que la mayoría de los residuos se encuentran alejados de la línea de la normalidad.
shapiro.test(modelo$residuals)##
## Shapiro-Wilk normality test
##
## data: modelo$residuals
## W = 0.94809, p-value = 0.6092
Al aplicar la prueba Shapiro podemos interpretar que el valor de p es superior al alfa, por lo tanto se acepta la Ho.
library(car)
leveneTest(Y~Temperatura,data=df)## Levene's Test for Homogeneity of Variance (center = median)
## Df F value Pr(>F)
## group 2 4.4568 0.04516 *
## 9
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
leveneTest(Y~Pegamento,data=df)## Levene's Test for Homogeneity of Variance (center = median)
## Df F value Pr(>F)
## group 1 2.7953 0.1255
## 10
Según los valores arrojados en la prueba de igualdad de varianza la Ho se rechaza por que el valor de p es < a 0.05. Sin embargo como se rechaza la Ho, siendo verdadera se estima que existe un error tipo I.
plot(modelo$residuals)
abline(h=0)La gráfica de independencia , reflejan que los residuales del modelo se visualizan arriba y abajo de la línea de forma balanceada.
interaction.plot(df$Pegamento,df$Temperatura,df$Y,main="Interaccion entre las variables")La temperatura del curado influye en la resistencia a la torsión de las adhesiones de componentes electrónicos sobre placas, en este caso especifico se evidencia que a mayor temperatura mejor la resistencia, es decir que el curado de 100°C en el mas efectivo, en comparación en el curado A1-A-2.
1.Hipótesis de interés
Ho:
La temperatura de curado influye en la resistencia a la torsión de las adhesiones de componentes electrónicos sobre placas.
Ha:
La temperatura de curado NO influye en la resistencia a la torsión de las adhesiones de componentes electrónicos sobre placas.
2.Según el ANOVA, los efectos activos son los curados de temperatura.
3.El curado de 100°C en el mas efectivo en comparación con el curado de 60°C y 80°C.
4.A mayor temperatura mejor la resistencia, es decir que la resistencia a la torsión es mejor a mayor temperatura, 100°C=4.00, 100°=4.2, 100°=4.30, 100°=4.70.
** Resistencia del caucho vulcanizado al tiempo de curado**
Se desea investigar de qué manera afecta el tiempo de curado y el tipo del acelerante a la resistencia de caucho vulcanizado. Se realiza un experimento y se obtienen los siguientes datos:
(width’75%’)
Resistencia del curando ante el tiempo de curado
df=read.csv("https://raw.githubusercontent.com/yarizel2021/Proyecto-final/main/PROBLEMA21.csv")
df## TIEMPO ACELERANTE Y
## 1 -1 -1 3900
## 2 -1 -1 3600
## 3 0 -1 4100
## 4 0 -1 3500
## 5 1 -1 4000
## 6 1 -1 3800
## 7 -1 0 4300
## 8 -1 0 3700
## 9 0 0 4200
## 10 0 0 3900
## 11 1 0 4300
## 12 1 0 3600
## 13 -1 1 3700
## 14 -1 1 4100
## 15 0 1 3900
## 16 0 1 4000
## 17 1 1 3600
## 18 1 1 3800
df$TIEMPO=factor(df$TIEMPO)
df$ACELERANTE=factor(df$ACELERANTE)
str(df)## 'data.frame': 18 obs. of 3 variables:
## $ TIEMPO : Factor w/ 3 levels "-1","0","1": 1 1 2 2 3 3 1 1 2 2 ...
## $ ACELERANTE: Factor w/ 3 levels "-1","0","1": 1 1 1 1 1 1 2 2 2 2 ...
## $ Y : int 3900 3600 4100 3500 4000 3800 4300 3700 4200 3900 ...
modelo=aov(Y~TIEMPO+ACELERANTE,data=df)
summary(modelo)## Df Sum Sq Mean Sq F value Pr(>F)
## TIEMPO 2 21111 10556 0.152 0.86
## ACELERANTE 2 114444 57222 0.825 0.46
## Residuals 13 902222 69402
Al aplicar la prueba de ANOVA, podemos observar no existen diferencias significativas entre los factores tiempo y acelerante.
boxplot(Y~TIEMPO+ACELERANTE,data=df)interaction.plot(df$TIEMPO,df$ACELERANTE,df$Y)Según la prueba de interacion se evidencia que con el tratamiento B, hay mayor resistencia del caucho. Además podemos concluir que también existe interacción entre los resultados de los tratamientos de los acelerantes B y C.
tk=TukeyHSD(modelo)
tk## Tukey multiple comparisons of means
## 95% family-wise confidence level
##
## Fit: aov(formula = Y ~ TIEMPO + ACELERANTE, data = df)
##
## $TIEMPO
## diff lwr upr p adj
## 0--1 50.00000 -351.6061 451.6061 0.9424302
## 1--1 -33.33333 -434.9394 368.2728 0.9739228
## 1-0 -83.33333 -484.9394 318.2728 0.8493245
##
## $ACELERANTE
## diff lwr upr p adj
## 0--1 183.33333 -218.2728 584.9394 0.4708685
## 1--1 33.33333 -368.2728 434.9394 0.9739228
## 1-0 -150.00000 -551.6061 251.6061 0.5979909
Los datos del modelo reflejan que las medias no tienen diferencias significativas, porque el valor de p es > a 0.05.
qqnorm(modelo$residuals)
qqline(modelo$residuals)En la prueba de normalidad podemos observar en la curva de los datos con respecto a la línea de normalidad, que la mayoría de los residuos siguen una distribución normalidad, a diferencia de los últimos datos que se dispersan un poco.
shapiro.test(modelo$residuals)##
## Shapiro-Wilk normality test
##
## data: modelo$residuals
## W = 0.94083, p-value = 0.2994
La prueba de Shapiro indica que el valor de p de las medias es > a 0.05, por lo tanto se acepta la Ho que indica lo siguiente: El tiempo de cuarado no afecta a la resitancia del cucho. Podemos sustentarlo al aplicar la prueba de ANOVA, cuyos resultados nos permitieron hacer la prueba de comparaciones múltiples de las medias y la de intereacción de ñas variantes.
library("car")
leveneTest(Y~TIEMPO,data=df)## Levene's Test for Homogeneity of Variance (center = median)
## Df F value Pr(>F)
## group 2 0.1373 0.8728
## 15
leveneTest(Y~ACELERANTE,data=df)## Levene's Test for Homogeneity of Variance (center = median)
## Df F value Pr(>F)
## group 2 1.789 0.201
## 15
Según la prueba de homoscedasticidad,las hipótesis que pueden ser comprobadas tienen un valor p > a 0.05, esto nos permite concluir que ambas Ho se aceptan. Pero debemos considerar los datos del tratamiento B, ya que muestran que el el acelerador B influye en la resitencia al caucho. Podemos inferir que los datos obtenidos revelan un Error Tipo I porque se rechaza una Ho que es verdadera.
plot(modelo$residuals)
abline(h=0)plot(modelo$fitted.values,modelo$residuals)La primera gráfica de independencia de las muestras de los residuales del modelo evidencian una distribución balanceada sin muestra de sesgos. Mientras tanto la gráfica 2,nos muestra los datos con respecto al grupo, por lo tanto el grupo de acelerador que mostró mayor influencia en la resitencia al caucho fue el acelerante B.
#CONCLUSIONES
Señale el nombre del diseño de experimento utilizado y su modelo estadístico. R/ Diseño Factorial 3x3, con dos réplicas, con diseño estadístico ANOVA.
Formule claramente todas las hipótesis que se pueden probar. R/ Las hipótesis que se pueden probar. H0= El tiempo de curado no afecta la resistencia del caucho Ha= Ell tiempo de curado afecta la resistencia del caucho
H0=
El tipo de acelerante no afecta la resistencia del caucho
Ha=
El tipo de acelerante afecta la resistencia del caucho
4.¿Hay algún tiempo de cura que es mejor para aumentar la resistencia? Argumente su respuesta. R/ no existe tiempo de cura mejor ya que el análisis de ANOVA para las medias es mayor es de 0.86 siendo mayor a 0.05 donde no se rechaza la hipótesis nula .
5.¿Algún acelerante es mejor? Explique. R/ Entre los acelerantes no hay uno mejor ya que el análisis de ANOVA para las medias es mayor es de 0.46 siendo mayor a 0.05 donde no se rechaza la hipótesis nula
6.¿Hay alguna combinación de tiempo y acelerante que sea mejor? R/ Al realizar la grafica de interacción podemos observar que la combinación del acelerante B con un tiempo de 60 minutos es el mejor aumentando la resistencia del caucho vulcanizado.
7.Verifique que se cumplan los supuestos. En caso de que no se cumpliera el supuesto varianza constante para el tiempo de cura, ¿qué significaría eso y cómo pudiera corregirse r/ LOS SUPUESTOS SE CUMPLEN.
Efecto de factores para encontrar las condiciones adecuadas
Los siguientes datos corresponden a diseño 3 × 3 con tres réplicas. Interesa investigar el efecto de ambos factores sobre Y, para encontrar las condiciones adecuadas para maximizar.
(width’75%’)
Efectos de factores para encontrar las condiciones adecuadas
df=read.csv("https://raw.githubusercontent.com/yarizel2021/Proyecto-final/main/ProblemaC5_26.csv")
df## B A Y
## 1 B1 A1 10
## 2 B1 A1 6
## 3 B1 A1 14
## 4 B1 A2 60
## 5 B1 A2 73
## 6 B1 A2 79
## 7 B1 A3 44
## 8 B1 A3 35
## 9 B1 A3 28
## 10 B2 A1 3
## 11 B2 A1 5
## 12 B2 A1 1
## 13 B2 A2 88
## 14 B2 A2 70
## 15 B2 A2 76
## 16 B2 A3 38
## 17 B2 A3 22
## 18 B2 A3 26
## 19 B3 A1 1
## 20 B3 A1 2
## 21 B3 A1 1
## 22 B3 A2 71
## 23 B3 A2 71
## 24 B3 A2 69
## 25 B3 A3 29
## 26 B3 A3 20
## 27 B3 A3 22
str(df)## 'data.frame': 27 obs. of 3 variables:
## $ B: chr "B1" "B1" "B1" "B1" ...
## $ A: chr "A1" "A1" "A1" "A2" ...
## $ Y: int 10 6 14 60 73 79 44 35 28 3 ...
df$B=as.factor(df$B)
df$A=as.factor(df$A)
df$Y=as.double(df$Y)
str(df)## 'data.frame': 27 obs. of 3 variables:
## $ B: Factor w/ 3 levels "B1","B2","B3": 1 1 1 1 1 1 1 1 1 2 ...
## $ A: Factor w/ 3 levels "A1","A2","A3": 1 1 1 2 2 2 3 3 3 1 ...
## $ Y: num 10 6 14 60 73 79 44 35 28 3 ...
La lectura de los datos nos refleja que se presentan 27 observaciones y tres variables. Los datos fueron transformados a dos factores y la Y es numeral.
modelo=aov(Y~B+A,data=df)
summary(modelo)## Df Sum Sq Mean Sq F value Pr(>F)
## B 2 230 115 2.697 0.0896 .
## A 2 21492 10746 251.701 6.94e-16 ***
## Residuals 22 939 43
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
El modelo ANOVA refleja que el factor A no tiene diferencias significativas y el factor B si tiene diferencias significativas.
boxplot(Y~B+A,data=df)boxplot(Y~B,data=df)boxplot(Y~A,data=df) Al agrupar los tres efectos de ambos factores podemos observar que la cominación de los factor B2 y A2, maximixan las condiciones adecuadas y tuvieron mayor efecto sobre el valor de Y.
tk=TukeyHSD(modelo)
tk$A## diff lwr upr p adj
## A2-A1 68.22222 60.48463 75.95981 2.375877e-14
## A3-A1 24.55556 16.81797 32.29315 1.831701e-07
## A3-A2 -43.66667 -51.40426 -35.92908 4.499290e-12
tk=TukeyHSD(modelo)
tk$B## diff lwr upr p adj
## B2-B1 -2.222222 -9.959812 5.5153675 0.75354597
## B3-B1 -7.000000 -14.737590 0.7375897 0.08109552
## B3-B2 -4.777778 -12.515368 2.9598120 0.28743636
La prueba TuKey nos permite visualizar que los valores de p en el factor A y B son > a 0.05, por lo tanto la Ho se acepta. El factor A2-B2 influye sobre Y, maximizando las condiciones adecuadas.
qqnorm(modelo$residuals)
qqline(modelo$residuals)Al aplicar la prueba de distribución normal podemos observar en la curva de los datos con respecto a la línea de normalidad, que la mayoría de los residuos siguen una distribución normalidad, a diferencia de un residuo al inicio y al final que se dispersan un poco.
shapiro.test(modelo$residuals)##
## Shapiro-Wilk normality test
##
## data: modelo$residuals
## W = 0.95665, p-value = 0.3092
La prueba de Shapiro nos permite comprobar que la Ho se acepta porque los datos son > a 0.05.Es decir que Los factores A2-B2 influyen sobre Y, maximizando las condiciones adecuadas.
require(car)
leveneTest(Y~A,data=df)## Levene's Test for Homogeneity of Variance (center = median)
## Df F value Pr(>F)
## group 2 0.8097 0.4568
## 24
leveneTest(Y~B,data=df)## Levene's Test for Homogeneity of Variance (center = median)
## Df F value Pr(>F)
## group 2 0.1475 0.8636
## 24
Según la prueba de homoscedasticidad, el valor p es > a 0.05, en ambos efectos de los tratamientos, es decir que los factores A2-B2 inflyen sobre Y,maximizando las condiciones adecuadas.
interaction.plot(df$B,df$A,df$Y)La gráfica de interacciones de las variables se visualiza que la combinación de los efectos de los factores A2-B2 influyen sobre Y, maximizando las condiciones adecuadas.
1.Especifique el modelo estadístico para el problema y las hipótesis pertinentes.
R: El modelo estadístico para el problema corresponde a un diseño factorial con salidas 3 × 3 con tres réplicas.
2.Las hipótesis son las siguientes:
HO:
Los factores A y B inflyen sobre Y,maximizando las condiciones adecuadas.
Ha:
Los factores A y B no inflyen sobre Y,maximizando las condiciones adecuadas.
3.Haga un análisis de varianza y obtenga conclusiones.
Según la prueba de homoscedasticidad,las hipótesis que pueden ser comprobadas tienen un valor p > a 0.05, esto nos permite concluir que ambas Ho se aceptan. Pero debemos considerar los datos del tratamiento B, ya que muestran que el acelerador B influye en la resitencia al caucho. Podemos inferir que los datos obtenidos revelan un Error Tipo I porque se rechaza una Ho que es verdadera.
4.Interprete con detalle el efecto de interacción, si es significativo.
La gráfica de interacciones de las variables se visualiza que la combinación de los efectos de los factores A2-B2 influyen sobre Y, maximizando las condiciones adecuadas.
5.Verifique supuestos.
R: La prueba de Shapiro nos permite comprobar que la Ho se acepta porque los datos son > a 0.05.Es decir que los factores A2-B2 influyen sobre Y, maximizando las condiciones adecuadas.
6.¿Hay un tratamiento mejor? Argumente con pruebas estadísticas?
R: El mejor tratamiento que maximiza las condiciones adecuadases para Y es la combnación A2-B2.