Comparación de cuatro Metodos de ensamble. Un equipo de mejora investiga el efecto de cuatro Metodos de ensamble A, B, C y D, sobre el tiempo de ensamble en minutos. En primera instancia, la estrategia experimental es aplicar cuatro veces los cuatro Metodos de ensamble en orden completamente aleatorio (las 16 pruebas en orden aleatorio). Los tiempos de ensamble obtenidos se muestran en la tabla 3.1. Si se usa el diseño completamente al azar (DCA), se supone que, además del Metodo de ensamble, no existe ningún otro factor que influya de manera significativa sobre la variable de respuesta (tiempo de ensamble).
datos <- readxl::read_excel("C:/Users/nana_/OneDrive/Escritorio/Disenoexp/matrizANOVA.xlsx")
print(datos)
## # A tibble: 16 × 2
## Desgaste Metodo
## <dbl> <chr>
## 1 6 A
## 2 8 A
## 3 7 A
## 4 8 A
## 5 7 B
## 6 9 B
## 7 10 B
## 8 8 B
## 9 11 C
## 10 16 C
## 11 11 C
## 12 13 C
## 13 10 D
## 14 12 D
## 15 11 D
## 16 9 D
conteo_valoresmetodo <- table(datos$Metodo)
conteo_valoresmetodo
##
## A B C D
## 4 4 4 4
library(summarytools)
summarytools::descr(datos[,1])
## Descriptive Statistics
## datos$Desgaste
## N: 16
##
## Desgaste
## ----------------- ----------
## Mean 9.75
## Std.Dev 2.57
## Min 6.00
## Q1 8.00
## Median 9.50
## Q3 11.00
## Max 16.00
## MAD 2.22
## IQR 3.00
## CV 0.26
## Skewness 0.68
## SE.Skewness 0.56
## Kurtosis -0.11
## N.Valid 16.00
## Pct.Valid 100.00
# Calcular estadísticas descriptivas por categoría
resultados_descriptivos <- aggregate(Desgaste ~ Metodo, data = datos, summary)
# Imprimir los resultados descriptivos
print(resultados_descriptivos)
## Metodo Desgaste.Min. Desgaste.1st Qu. Desgaste.Median Desgaste.Mean
## 1 A 6.00 6.75 7.50 7.25
## 2 B 7.00 7.75 8.50 8.50
## 3 C 11.00 11.00 12.00 12.75
## 4 D 9.00 9.75 10.50 10.50
## Desgaste.3rd Qu. Desgaste.Max.
## 1 8.00 8.00
## 2 9.25 10.00
## 3 13.75 16.00
## 4 11.25 12.00
# Realizar el ANOVA
modelo_anova <- aov(Desgaste ~ Metodo, data = datos)
# Resumen del ANOVA
resumen_anova <- summary(modelo_anova)
# Imprimir el resumen del ANOVA
print(resumen_anova)
## Df Sum Sq Mean Sq F value Pr(>F)
## Metodo 3 69.5 23.167 9.424 0.00177 **
## Residuals 12 29.5 2.458
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
# Crear el diagrama de cajas por categorías
boxplot(datos$Desgaste ~ datos$Metodo, data = datos, col = c("coral1", "dodgerblue", "aquamarine","orchid1"), ylab = "Precio", xlab = "Zona")
Se sabe que el dióxido de carbono tiene un efecto crítico en el crecimiento microbiológico. Cantidades pequeñas de CO2 estimulan el crecimiento de muchos microorganismos, mientras que altas concentraciones inhiben el crecimiento de la mayor parte de ellos. Este último efecto se utiliza comercialmente cuando se almacenan productos alimenticios perecederos. Se realizó un estudio para investigar el efecto de CO2 sobre la tasa de crecimiento de Pseudomonas fragi, un corruptor de alimentos. Se administró dióxido de carbono a cinco presiones atmósfericas diferentes. La respuesta anotada es el cambio porcentual en la masa celular después de un tiempo de crecimiento de una hora. Se utilizaron diez cultivos en cada nivel. Se obtuvieron los siguientes datos:
Nivel del factor (presión en atmósferas de CO2)
datos2 <- readxl::read_excel("C:/Users/nana_/OneDrive/Escritorio/Disenoexp/Ejercicio1.xlsx")
print(datos2)
## # A tibble: 50 × 2
## Crecimiento Presion
## <dbl> <chr>
## 1 62.6 A
## 2 59.6 A
## 3 64.5 A
## 4 59.3 A
## 5 58.6 A
## 6 64.6 A
## 7 50.9 A
## 8 56.2 A
## 9 52.3 A
## 10 62.8 A
## # ℹ 40 more rows
A continuación el número de observaciones por tratamiento:
conteo_valoresmetodo2 <- table(datos2$Presion)
conteo_valoresmetodo2
##
## A B C D E
## 10 10 10 10 10
Como el número de observaciones por tratamiento es el mismo, se dice que el diseño es balanceado.
summarytools::descr(datos2[,1])
## Descriptive Statistics
## datos2$Crecimiento
## N: 50
##
## Crecimiento
## ----------------- -------------
## Mean 36.71
## Std.Dev 15.99
## Min 7.80
## Q1 22.80
## Median 36.75
## Q3 49.90
## Max 64.60
## MAD 19.87
## IQR 26.67
## CV 0.44
## Skewness 0.08
## SE.Skewness 0.34
## Kurtosis -1.13
## N.Valid 50.00
## Pct.Valid 100.00
Con estos resultados podemos concluir que: el promedio de crecimiento es de 36.71, con una desviación estándar de 15.99, el valor mínimo de crecimiento es de 7.80, el valor máximo por su parte es de 64.60. El 50% de las observaciones (25), presentaron un crecimiento entre 7.80 y 36.75. El 50% restante presentó un crecimiento entre 36.75 y 64.60. El coeficiente de asimetría fue de 0.08, lo que sugiere que la asimetría es positiva leve en la distribución de los datos. El coeficiente de curtosis fue de -1.13, lo que indica que la distribución es platicúltica.
# Calcular estadísticas descriptivas por categoría
resultados_descriptivos2 <- aggregate(Crecimiento ~ Presion, data = datos2, summary)
# Imprimir los resultados descriptivos
print(resultados_descriptivos2)
## Presion Crecimiento.Min. Crecimiento.1st Qu. Crecimiento.Median
## 1 A 50.900 56.800 59.450
## 2 B 35.200 43.025 48.000
## 3 C 27.000 31.125 38.400
## 4 D 19.200 22.650 24.250
## 5 E 7.800 11.850 17.000
## Crecimiento.Mean Crecimiento.3rd Qu. Crecimiento.Max.
## 1 59.140 62.750 64.600
## 2 46.040 49.800 50.900
## 3 36.450 40.150 45.500
## 4 25.470 29.425 32.700
## 5 16.440 21.025 24.900
Para el método A: el promedio de crecimiento es de 59.140, el valor mínimo de crecimiento es 50.900, el valor máximo de crecimiento es de 64.600, el 50% de las observaciones(5) presentaron un crecimiento entre 50.900 y 59.450, mientras que el restante 50% (5) presento un crecimiento entre 59.450 y 64.600.
Para el método B: el promedio de crecimiento es de 46.040, el valor mínimo de crecimiento es 35.200, el valor máximo de crecimiento es de 50.900, el 50% de las observaciones(5) presentaron un crecimiento entre 35.200 y 48.000, mientras que el restante 50% (5) presento un crecimiento entre 48.000 y 50.900.
Para el método C: el promedio de crecimiento es de 36.450, el valor mínimo de crecimiento es 27.000, el valor máximo de crecimiento es de 45.500, el 50% de las observaciones(5) presentaron un crecimiento entre 27.000 y 38.400, mientras que el restante 50% (5) presento un crecimiento entre 38.400 y 45.500.
Para el método D: el promedio de crecimiento es de 25.470, el valor mínimo de crecimiento es 19.200, el valor máximo de crecimiento es de 32.700, el 50% de las observaciones(5) presentaron un crecimiento entre 19.200 y 24.250, mientras que el restante 50% (5) presento un crecimiento entre 24.250 y 32.700.
Para el método E: el promedio de crecimiento es de 16.440, el valor mínimo de crecimiento es 7.800, el valor máximo de crecimiento es de 24.900, el 50% de las observaciones(5) presentaron un crecimiento entre 7.800 y 17.000, mientras que el restante 50% (5) presento un crecimiento entre 17.000 y 24.900.
H0: No hay diferencias significativas entre las medias de la tasa de crecimiento de Pseudomonas en todos los niveles de presión de CO2.
Ha: Existen por lo menos una diferencia significativa en las medias de la tasa de crecimiento de Pseudomonas en diferentes niveles de presión de CO2.
# Realizar el ANOVA
modelo_anova2 <- aov(Crecimiento ~ Presion, data = datos2)
# Resumen del ANOVA
resumen_anova2 <- summary(modelo_anova2)
# Imprimir el resumen del ANOVA
print(resumen_anova2)
## Df Sum Sq Mean Sq F value Pr(>F)
## Presion 4 11274 2818.6 101.6 <2e-16 ***
## Residuals 45 1248 27.7
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
El valor F del ANOVA es de 101.6 y el p-valor es de 2e-16. Como el P-valor es menor que alpha (0.05), se rechaza H0 de que no hay diferencias entre las medias, es decir, si existe una diferencia significativa.
# Crear el diagrama de cajas por categorías
boxplot(datos2$Crecimiento ~ datos2$Presion, data = datos2, col = c("darkorchid1", "lightsalmon", "chartreuse1","cornsilk","red"), ylab = "Crecimiento", xlab = "Presion")
En la gráfica se observa que existen diferencias en los promedios de
crecimiento entre el método A y los métodos C, D y E. También se observa
una diferencia entre el método B y los métodos D y E. El método C solo
es diferente con el método A.
Como se rechazó la hipótesis nula con el test ANOVA, se necesita averiguar cuál o cuales pares de medias son diferentes, para ello se aplica los métodos de comparaciones múltiples o pruebas de rango múltiple (Post Hoc).
TukeyHSD(modelo_anova2)
## Tukey multiple comparisons of means
## 95% family-wise confidence level
##
## Fit: aov(formula = Crecimiento ~ Presion, data = datos2)
##
## $Presion
## diff lwr upr p adj
## B-A -13.10 -19.7921 -6.407896 0.0000133
## C-A -22.69 -29.3821 -15.997896 0.0000000
## D-A -33.67 -40.3621 -26.977896 0.0000000
## E-A -42.70 -49.3921 -36.007896 0.0000000
## C-B -9.59 -16.2821 -2.897896 0.0016698
## D-B -20.57 -27.2621 -13.877896 0.0000000
## E-B -29.60 -36.2921 -22.907896 0.0000000
## D-C -10.98 -17.6721 -4.287896 0.0002615
## E-C -20.01 -26.7021 -13.317896 0.0000000
## E-D -9.03 -15.7221 -2.337896 0.0034105
Luego de realizar las comparaciones con el método Tukey, con un intérvalo de confianza del 95%, se puede observar que existen diferencias significativas en todos los tratamientos de presión de CO2.
La mayor diferencia se observa en los tratamientos A y E, donde existe una diferencia de -42,704, con un intérvalo de confianza de 95% para la diferencia de (-49.4, -36) y un p valor de 2e-16, mucho menor a 0.05. No existe evidencia suficiente para considerar que el crecimiento en los dos tratamientos es igual.
También existe una diferencia en el crecimiento microbiano de los tratamientos D-A con un valor de -33.674 y con un intérvalo de confianza del 95% para la diferencia es (-40.36,26.98) y un p- valor de 2e-16, mucho menor a 0.05. No existe evidencia suficiente para considerar que el crecimiento en los dos tratamientos es igual.
plot(TukeyHSD(modelo_anova2))
En la gráfica se puede observar una congruencia con la conclusión a la
que se llegó en la comparación con el método de Tukey, se observa una
diferencia en las vedias en distintos niveles de los tratamientos.
metodos.Duncan <-agricolae::duncan.test(modelo_anova2, trt = "Presion", group = TRUE, console = TRUE)
##
## Study: modelo_anova2 ~ "Presion"
##
## Duncan's new multiple range test
## for Crecimiento
##
## Mean Square Error: 27.73418
##
## Presion, means
##
## Crecimiento std r se Min Max Q25 Q50 Q75
## A 59.14 4.804674 10 1.665358 50.9 64.6 56.800 59.45 62.750
## B 46.04 5.052656 10 1.665358 35.2 50.9 43.025 48.00 49.800
## C 36.45 5.933942 10 1.665358 27.0 45.5 31.125 38.40 40.150
## D 25.47 4.483315 10 1.665358 19.2 32.7 22.650 24.25 29.425
## E 16.44 5.894480 10 1.665358 7.8 24.9 11.850 17.00 21.025
##
## Alpha: 0.05 ; DF Error: 45
##
## Critical Range
## 2 3 4 5
## 4.743560 4.988480 5.149154 5.265336
##
## Means with the same letter are not significantly different.
##
## Crecimiento groups
## A 59.14 a
## B 46.04 b
## C 36.45 c
## D 25.47 d
## E 16.44 e
metodos.Duncan
## $statistics
## MSerror Df Mean CV
## 27.73418 45 36.708 14.34653
##
## $parameters
## test name.t ntr alpha
## Duncan Presion 5 0.05
##
## $duncan
## Table CriticalRange
## 2 2.848372 4.743560
## 3 2.995440 4.988480
## 4 3.091920 5.149154
## 5 3.161684 5.265336
##
## $means
## Crecimiento std r se Min Max Q25 Q50 Q75
## A 59.14 4.804674 10 1.665358 50.9 64.6 56.800 59.45 62.750
## B 46.04 5.052656 10 1.665358 35.2 50.9 43.025 48.00 49.800
## C 36.45 5.933942 10 1.665358 27.0 45.5 31.125 38.40 40.150
## D 25.47 4.483315 10 1.665358 19.2 32.7 22.650 24.25 29.425
## E 16.44 5.894480 10 1.665358 7.8 24.9 11.850 17.00 21.025
##
## $comparison
## NULL
##
## $groups
## Crecimiento groups
## A 59.14 a
## B 46.04 b
## C 36.45 c
## D 25.47 d
## E 16.44 e
##
## attr(,"class")
## [1] "group"
Según los datos obtenidos, los tratamientos que comparten al menos una letra en la columna grupos no son significativamente diferentes entre sí.Es decir que son estadísticamente similares. Si un tratamiento tiene una letra diferente de otro significa que hay una diferencia estadísticamente significativa en sus medias, en este caso todos los tratamientos son significativamente diferentes.
Lo anterior se observa en la siguiente gráfica
plot(metodos.Duncan, variation="IQR" )
## Distribución normal de los datos
Este supuesto se basa en la idea de que los residuos siguen una distribución normal. Para comprobar esto,se realiza una curva de densidad que muestra cómo se distribuyen las frecuencias de los residuos. En la imagen se observa que la curva se asemeja a una campana de Gauss, lo que sugiere que los residuos podrían seguir una distribución normal.
En el gráfico de probabilidad normal se observan los los cuantiles de los residuos que en este caso están mostrados como puntos negros y éstos se acercan a la línea central, que representa los cuantiles de una distribución normal teórica. Este patrón de los datos indica que no hay evidencia de que los residuos incumplan el supuesto de normalidad.
library(car)
## Loading required package: carData
## Loading required package: carData
residuos<-residuals(modelo_anova2) #Creando un objeto llamado residuos que contiene los residuos el modelo
par(mfrow=c(1,3)) #Para dividir el área del gráfico en dos partes (una fila y dos columnas)
dplot<-density(residuos) #Creando un objeto llamado dplot que recibe un Density_Plot de los residuos
plot(dplot, #Graficando el objeto dplot
main="Curva de densidad observada", #Título principal de la gráfica
xlab = "Residuos", #Etiqueta del eje x
ylab = "Densidad") #Etiqueta del eje y
polygon(dplot, #Añadiendo el poligono
col = "green", #Definiendo el color del poligono
border = "black") #Color del borde del poligono
qqPlot(residuos, #Un gráfico Cuantil-Cuantil de los residuos
pch =20, #Forma de los puntos
main="QQ-Plot de los residuos", #Título principal
xlab = "Cuantiles teóricos", #Etiqueta eje x
ylab="Cuantiles observados de los residuos") #Etiqueta eje y
## [1] 17 28
boxplot(residuos, col = c("aquamarine1"), ylab = "residuos", main="Box-plot de los residuos")
A partir de los datos, para confirmar que los residuos siguen una
distribución normal se realiza la prueba de Shapiro-Wilk evaluando la
hipótesis:
H0= Los residuos de la variable (Presion) se distribuyen normalmente con media cero y varianza constante ei N(0,1)
Ha= los residuos de la variable (Presion) no siguen la distribución normal.
shapiro.test(residuals(modelo_anova2)) #Prueba Shapiro-Wilk para los residuos de la variable
##
## Shapiro-Wilk normality test
##
## data: residuals(modelo_anova2)
## W = 0.9627, p-value = 0.1153
El test dice que no hay evidencia significativa para rechazar H0, debido a que el valor de P: 0.1153 es mayor al nivel de significancia, alpha: 0.05. Se concluye que los residuos de la variable de tasa de crecimiento están distribuidos normalmente con media de cero y varianza constante.
boxplot(residuos ~ datos2$Presion, main = "Boxplot de tasa de crecimiento microbiano", xlab = "Presion",col="pink",ylab = "Crecimiento")
En la gráfica se presentan los calores predichos por el modelo de la tasa de crecimiento en función de la raíz cuadrada de los residuos estandarizados. En esta gráfica no se observa ninguna tendencia aparente en la distribución de valores. Es decir, no hay evidencia de incumplimiento del supuesto de homogeneidad de varianzas.
color_1 <-colorRampPalette(c("palevioletred1", "paleturquoise1", "darkgreen"))
plot(residuos, main = "Prueba de independencia", pch=20,cex = 2, col=color_1(120), ylab = "Residuos", xlab = " ")
En la anterior gráfica se observan puntos dispersos sin seguir un patrón
específico. Eso es un indicio de homogeneidad de varianzas.
Ho: Los residuos de la variable (Presion) son iguales para los ditintos niveles de concentración de CO2
Ha:Existen por lo menos dos varianzas distintas para los ditintos niveles de concentración de CO2
Es decir, #Ho: σ2A=σ2B=σ2C=σ2D=σ2
Ha: σ2i=σ2j para i,j∈{A,B,C,D} e i≠j
bartlett.test(residuos ~ datos2$Presion)
##
## Bartlett test of homogeneity of variances
##
## data: residuos by datos2$Presion
## Bartlett's K-squared = 1.0701, df = 4, p-value = 0.899
De acuerdo al valor arrojado por la prueba de bartlett, valor de p ( 0.8995) mayor a 0.05 se acepta la hipótesis nula, por lo que existe homogeneidad de varianzas, llegando a la misma conclusión de la grafica anterior.
leveneTest(residuos ~ datos2$Presion)
## Warning in leveneTest.default(y = y, group = group, ...): group coerced to
## factor.
## Levene's Test for Homogeneity of Variance (center = median)
## Df F value Pr(>F)
## group 4 0.1926 0.941
## 45
De acuerdo al valor arrojado por la prueba de levene, valor de p (0.941) mayor a 0.05 se acepta la hipótesis nula, por lo que existe homogeneidad de varianzas, confirmando las conclusiones obtenidas en los items anteriores.
durbinWatsonTest(modelo_anova2)
## lag Autocorrelation D-W Statistic p-value
## 1 -0.001714932 1.947068 0.432
## Alternative hypothesis: rho != 0
Como el valor de DW es aproximadamente igual a 2 (1-Rho) donde Rho es la autocorrelación de la muestra de los residuos. Se debe tener en cuenta que si el valor del estadístico Durbin Watson (DW) está próximo a 2 entonces los residuos no están autocorrelacionados. Si su valor es 0 hay autocorrelación perfecta positiva. Si tiene un valor de 4 existe autocorrelación perfecta negativa. Al realizar la prueba de independencia de residuos para la variable desgaste se determinó que los residuos no están correlacionados, debido a que el DW está próximo a 2 y el valor de p (p-value = 0.458) es superior al nivel de significancia de 5% (α=0.05), se concluye que existe independencia de los residuos.
Se hace un estudio sobre la efectividad de tres marcas de spray para matar moscas.Para ello, cada producto se aplica a un grupo de 100 moscas, y se cuenta el número de moscas muertas expresado en porcentajes. Se hacen seis réplicas y los resultados obtenidos se muestran a continuación.
H0: No hay diferencias significativas en la efectividad entre las tres marcas de spray para matar moscas. Ha: Existen diferencias significativas en la efectividad de al menos dos de las marcas de spray para matar moscas.
modelo estadístico Yij = µ + τi + εij
datos3 <- readxl::read_excel("C:/Users/nana_/OneDrive/Escritorio/Disenoexp/Ejercicio2.xlsx")
datos3
## # A tibble: 18 × 2
## Replicas Marca
## <dbl> <dbl>
## 1 72 1
## 2 65 1
## 3 67 1
## 4 75 1
## 5 62 1
## 6 73 1
## 7 55 2
## 8 59 2
## 9 68 2
## 10 70 2
## 11 53 2
## 12 50 2
## 13 64 3
## 14 74 3
## 15 61 3
## 16 58 3
## 17 51 3
## 18 69 3
conteo_valoresmetodo3 <- table(datos3$Marca)
conteo_valoresmetodo3
##
## 1 2 3
## 6 6 6
cada tratamiento en este caso cada marca tiene 6 replicas.
summarytools::descr(datos3[,1])
## Descriptive Statistics
## datos3$Replicas
## N: 18
##
## Replicas
## ----------------- ----------
## Mean 63.67
## Std.Dev 8.01
## Min 50.00
## Q1 58.00
## Median 64.50
## Q3 70.00
## Max 75.00
## MAD 8.90
## IQR 11.50
## CV 0.13
## Skewness -0.25
## SE.Skewness 0.54
## Kurtosis -1.33
## N.Valid 18.00
## Pct.Valid 100.00
Segun los resultados, se concluye que la media de la efectividad de las marcas de spray es de 63.67, la desviación estándar es de 8.01. El 50% de los datos se ubica entre 58.00 y 64.50. Respecto al comportamiento del 50% restante se ubico entre 64.50 y 75.00.La curtosis de -1.33 con lo que se puede infiere que presentan una distribución platicúrtica o achatada.
# Calcular estadísticas descriptivas por categoría
resultados_descriptivos3 <- aggregate(Replicas ~ Marca, data = datos3, summary)
# Imprimir los resultados descriptivos
print(resultados_descriptivos3)
## Marca Replicas.Min. Replicas.1st Qu. Replicas.Median Replicas.Mean
## 1 1 62.00000 65.50000 69.50000 69.00000
## 2 2 50.00000 53.50000 57.00000 59.16667
## 3 3 51.00000 58.75000 62.50000 62.83333
## Replicas.3rd Qu. Replicas.Max.
## 1 72.75000 75.00000
## 2 65.75000 70.00000
## 3 67.75000 74.00000
Marca 1 : el promedio de efectividad de los spray contra moscas 69.000 , el valor mínimo de efectividad es 62.000, el valor máximo de efectividad es 75.000, el 50% de las observaciones(3) presentaron una efectividad de entre 62.000 y 69.500 , mientras que el restante 50% (3) presento una efectividad de entre 69.500 y 75.000.
Marca 2 : el promedio de efectividad de los spray contra moscas 59.1667 , el valor mínimo de efectividad es 50.000, el valor máximo de efectividad es 70.000, el 50% de las observaciones(3) presentaron una efectividad de entre 50.000 y 57.000 , mientras que el restante 50% (3) presento una efectividad de entre 57.000 y 70.000.
Marca 3 : el promedio de efectividad de los spray contra moscas 62.833 , el valor mínimo de efectividad es 51.000, el valor máximo de efectividad es 74.000, el 50% de las observaciones(3) presentaron una efectividad de entre 51.000 y 62.500 , mientras que el restante 50% (3) presento una efectividad de entre 62.500 y 74.000.
# Realizar el ANOVA
modelo_anova3 <- aov(Replicas ~ Marca, data = datos3)
# Resumen del ANOVA
resumen_anova3 <- summary(modelo_anova3)
# Imprimir el resumen del ANOVA
print(resumen_anova3)
## Df Sum Sq Mean Sq F value Pr(>F)
## Marca 1 114.1 114.08 1.867 0.191
## Residuals 16 977.9 61.12
¿Existe diferencia entre la efectividad promedio de los productos en spray?
La prueba ANOVA arroja un valor de F de 1.867 y un p-value de 0.191, como el p valor es mayor que el nivel de significancia alpha (0.05), existe evidencia estadística suficiente para NO rechazar H0. No hay diferencias significativas en la efectividad de las tres marcas de spray. No considero que haya un spray mejor.
# Crear el diagrama de cajas por categorías
boxplot(datos3$Replicas ~ datos3$Marca, data = datos3, col = c("lightskyblue", "yellow","mediumpurple1"), ylab = "Efectividad", xlab = "Marca")
Según el diagrama de cajas y bigotes, en la marca A la caja alcanza
valores desde 65 hasta casi 75 y los bigotes de entre 75 y casi 62, la
caja correspondiente a la marca B presenta valores desde 55 hasta casi
70 y los bigotes van de 50 a 70 , finalmente la caja correspondiente a
la marca C presenta valores de entre 70 y 60 con datos con bigotes en 50
a 75. Hay solapamientos en las tres cajas por lo que se podría deducir
que no hay diferencias en las medias de los spray. Aunque el tamaño
mayor de la caja de marca 2 podría indicar que cuenta con una mayor
variabilidad en sus datos. Por su parte no se presentan valores
atípicos. Por lo tanto se vuelve a concluir que no hay un spray mejor
que otro.
En un centro de investigación se realiza un estudio para comparar varios tratamientos que, al aplicarse previamente a los frijoles crudos, reducen su tiempo de cocción. Estos tratamientos son a base de bicarbonato de sodio (NaHCO3) y cloruro de sodio o sal común (NaCl). El primer tratamiento es el de control, que consiste en no aplicar ningún tratamiento. El tratamiento T2 es el remojo en agua con bicarbonato de sodio, el T3 es remojar en agua con sal común y el T4 es remojar en agua con una combinación de ambos ingredientes en proporciones iguales. La variable de respuesta es el tiempo de cocción en minutos.
Para garantizar resultados precisos y minimizar posibles errores, se necesita que los experimentos se lleven a cabo siguiendo un diseño aleatorio. Es necesario que el objeto de estudio, los frijoles, posean características homogéneas y uniformes para obtener resustados consistentes.
Dé ejemplos de factores que deben estar fijos durante las pruebas experimentales, para que no afecten los resultados y las conclusiones. Considero que en este estudio debe tenerse en cuenta el tamaño de los fríjoles, ya que diferentes tamaños pueden necesitar mayores tiempos de cocción. Además se debe tener en cuenta la temperatura, que sea constante en todos los tratamientos, además de los tiempos con los que se dejen en remojo los fríjoles, para que sea el mismo tiempo en todos los tratamientos
Formule y pruebe la hipótesis de que las medias de los tratamientos son iguales.
H0:Las medias de los tiempos de cocción para los tratamientos son iguales. Ha:Al menos una de las medias de los tiempos de cocción es diferente.
datos4 <- readxl::read_excel("C:/Users/nana_/OneDrive/Escritorio/Disenoexp/Ejercicio3.xlsx")
datos4 # para visualizar los datos
## # A tibble: 28 × 2
## Tiempo Tratamiento
## <dbl> <chr>
## 1 213 C
## 2 214 C
## 3 204 C
## 4 208 C
## 5 212 C
## 6 200 C
## 7 207 C
## 8 76 T2
## 9 85 T2
## 10 74 T2
## # ℹ 18 more rows
La tabla anterior muestra los tratamientos y los tiempos de cocción que tomaron los fríjoles.
conteo_valoresmetodo4 <- table(datos4$Tratamiento)
conteo_valoresmetodo4
##
## C T2 T3 T4
## 7 7 7 7
Cada tratamiento en este caso tiene 7 replicas.
summarytools::descr(datos4[,1])
## Descriptive Statistics
## datos4$Tiempo
## N: 28
##
## Tiempo
## ----------------- --------
## Mean 108.54
## Std.Dev 59.48
## Min 55.00
## Q1 70.50
## Median 82.00
## Q3 146.00
## Max 214.00
## MAD 18.53
## IQR 46.75
## CV 0.55
## Skewness 1.01
## SE.Skewness 0.44
## Kurtosis -0.87
## N.Valid 28.00
## Pct.Valid 100.00
Con estos resultados podemos concluir que: el promedio de tiempo de cocción es de 108.54 minutos, con una desviación estándar de 59.48, el valor mínimo de tiempo de cocción es de 55 minutos, el valor máximo por su parte es de 214. El 50% de las observaciones (14), presentaron un tiempo de cocción entre 55 y 82 minutos. El 50% restante presentó un tiempo de cocción entre 82 y 214 minutos. El coeficiente de asimetría fue de 1.01, lo que sugiere que la asimetría es positiva, sesgada hacia la derecha en la distribución de los datos. El coeficiente de curtosis fue de -0.87, lo que indica que la distribución es platicúltica.
# Calcular estadísticas descriptivas por categoría
resultados_descriptivos4 <- aggregate(Tiempo ~ Tratamiento, data = datos4, summary)
# Imprimir los resultados descriptivos
print(resultados_descriptivos4)
## Tratamiento Tiempo.Min. Tiempo.1st Qu. Tiempo.Median Tiempo.Mean
## 1 C 200.00000 205.50000 208.00000 208.28571
## 2 T2 74.00000 75.50000 78.00000 78.85714
## 3 T3 55.00000 59.00000 63.00000 61.42857
## 4 T4 79.00000 83.00000 85.00000 85.57143
## Tiempo.3rd Qu. Tiempo.Max.
## 1 212.50000 214.00000
## 2 82.00000 85.00000
## 3 63.50000 67.00000
## 4 88.50000 92.00000
Control: El tiempo mínimo de cocción registrado en este tratamiento es de 200 minutos.El cuartil 1 indica el 25% de los tiempos de cocción que están por debajo de 205.5 minutos.El tiempo máximo de cocción registrado en este tratamiento es de 214 minutos.
Tratamiento 1: Los tiempos son considerablemente más bajos que en el control, con un tiempo mínimo de 74 minutos y un máximo de 85 minutos.
Tratamiento 2: Los tiempos de cocción son aún más bajos que en el control y en el tratamiento 1, con un mínimo de 55 minutos y un máximo de 67 minutos.
Tratamiento 3: Este tratamiento muestra tiempos de cocción más altos en comparación con los otros tratamientos, pero sus tiempos de cocción son menores que los del control. Tiene tiempo mínimo de 79 minutos y un máximo de 92 minutos.
# Realizar el ANOVA
modelo_anova4 <- aov(Tiempo ~ Tratamiento, data = datos4)
# Resumen del ANOVA
resumen_anova4 <- summary(modelo_anova4)
# Imprimir el resumen del ANOVA
print(resumen_anova4)
## Df Sum Sq Mean Sq F value Pr(>F)
## Tratamiento 3 95041 31680 1559 <2e-16 ***
## Residuals 24 488 20
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
A partir de la prueba ANOVA, obtenemos un p valor de 2e-16, mucho menor que el nivel de significancia (0.05), por lo que se concluye que hay evidencia estadística suficiente que permite rechazar la hipotesis nula que sugiere que Las medias de los tiempos de cocción para los cuatro tratamientos son iguales. Es decir que se acepta Ha que dice que al menos una de las medias de los tipos de cocción es diferente.
# Crear el diagrama de cajas por categorías
boxplot(datos4$Tiempo ~ datos4$Tratamiento, data = datos4, col = c("violetred1", "turquoise1", "springgreen","slateblue1"), ylab = "Tiempo", xlab = "Tratamientos")
El diagrama de cajas permite interpretar los mismos resultados obtenidos
en la prueba ANOVA. Existe diferencia en las medias del grupo control
con los demás tramientos de manera notable.
TukeyHSD(modelo_anova4)
## Tukey multiple comparisons of means
## 95% family-wise confidence level
##
## Fit: aov(formula = Tiempo ~ Tratamiento, data = datos4)
##
## $Tratamiento
## diff lwr upr p adj
## T2-C -129.428571 -136.07568671 -122.78146 0.0000000
## T3-C -146.857143 -153.50425813 -140.21003 0.0000000
## T4-C -122.714286 -129.36140099 -116.06717 0.0000000
## T3-T2 -17.428571 -24.07568671 -10.78146 0.0000010
## T4-T2 6.714286 0.06717044 13.36140 0.0471059
## T4-T3 24.142857 17.49574187 30.78997 0.0000000
Las diferencias de los tres tratamientos en comparación con el tratamiento C son estadísticamente significativas, ya que son muy bajos, cercanos a cero.
T3-T2: El tiempo de cocción promedio en el tratamiento T3 es diferente (-17.43) del tratamiento T2. Con un intérvalo de confianza del 95% va desde -24.07568671 hasta -10.78146. El valor de p es muy pequeño: 0.0000010, lo que sugiere una diferencia estadísticamente significativa.
T4-T2: El tiempo de cocción promedio en el tratamiento T4 es significativamente diferente del tratamiento T2, con una diferencia de 6.714. Con un nivel de significancia de 95% para esta diferencia va desde 0.06717044 hasta 13.36140. El p valor es menor a 0.05 (0.0471059), lo que sugiere que existe una diferencia entre estos dos grupos.
T4-T3: El tiempo de cocción promedio en el tratamiento T4 es significativamente diferente del tratamiento T3, la diferencia es de 24.142. Con un nivel de significancia de 95% para esta diferencia va desde 17.496 hasta 30.789. El p valor es menor a 0.05 (0.0000000), lo que sugiere que existe una diferencia entre estos dos grupos.
plot(TukeyHSD(modelo_anova4))
Lo mencionado anteriormente se confirma con la grafica de la diferencia
de medias(intervalos de confianza) en los distintos niveles de los
métodos. Se observa que hay diferencias en las el tiempo promedio de
cocción en los tratamientos, además respecto al control también se
observan diferencias mayormente significativas.
Una compañía farmacéutica desea evaluar el efecto que tiene la cantidad de almidón en la dureza de las tabletas. Se decidió producir lotes con una cantidad determinada de almidón, y que las cantidades de almidón a aprobar fueran 2%, 5% y 10%. La variable de respuesta sería el promedio de la dureza de 20 tabletas de cada lote. Se hicieron 4 réplicas por tratamiento y se obtuvieron los siguientes resultados:
H0: La cantidad de almidón no tiene un efecto significativo en la dureza de las tabletas.
Ha: La cantidad de almidón tiene un efecto significativo en la dureza de las tabletas.
datos5 <- readxl::read_excel("C:/Users/nana_/OneDrive/Escritorio/Disenoexp/Ejercicio4.xlsx")
datos5 # para visualizar los datos
## # A tibble: 12 × 2
## Dureza Almidon
## <dbl> <chr>
## 1 4.3 A
## 2 5.2 A
## 3 4.8 A
## 4 4.5 A
## 5 6.5 B
## 6 7.3 B
## 7 6.9 B
## 8 6.1 B
## 9 9 C
## 10 7.8 C
## 11 8.5 C
## 12 8.1 C
H0: La cantidad de almidón no tiene un efecto significativo en la dureza de las tabletas.
Ha: La cantidad de almidón tiene un efecto significativo en la dureza de las tabletas.
# Realizar el ANOVA
modelo_anova5 <- aov(Dureza ~ Almidon, data = datos5)
# Resumen del ANOVA
resumen_anova5 <- summary(modelo_anova5)
# Imprimir el resumen del ANOVA
print(resumen_anova5)
## Df Sum Sq Mean Sq F value Pr(>F)
## Almidon 2 26.73 13.36 58.1 7.16e-06 ***
## Residuals 9 2.07 0.23
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
¿Hay evidencia suficiente de que el almidón influye en la dureza en las tabletas?
Sí hay evidencia suficiente con los datos obtenidos en la prueba ANOVA. Ya que como P- Valor es de 7.16e-06, que es un valor muy pequeño, menor que el nivel de significancia (0.05). Así que existe evidencia estadística suficiente que permite rechazar H0: la cantidad de almidón no tiene un efecto significativo en la dureza de las tabletas,las medias de la dureza de las tabletas de almidón son iguales.
Los datos que se presentan enseguida son rendimientos en toneladas por hectárea de un pasto con tres niveles de fertilización nitrogenada. El diseño fue completamente aleatorizado, con cinco repeticiones por tratamiento.
H0: La fertilización nitrogenada no tiene un efecto significativo en el rendimiento de toneladas por hectárea de pasto, los promedios no varían.
Ha: La fertilización nitrogenada tiene un efecto significativo en los rendimientos de toneladas por hectárea del pasto. Al menos uno de los promedios varian.
datos6 <- readxl::read_excel("C:/Users/nana_/OneDrive/Escritorio/Disenoexp/Ejercicio5.xlsx")
datos6 # para visualizar los datos
## # A tibble: 15 × 2
## Valores NivelesN
## <dbl> <chr>
## 1 14.8 A
## 2 14.7 A
## 3 14.7 A
## 4 14.5 A
## 5 15.1 A
## 6 25.2 B
## 7 25.4 B
## 8 25.1 B
## 9 25.0 B
## 10 25.3 B
## 11 32.6 C
## 12 32.5 C
## 13 32.3 C
## 14 32.7 C
## 15 32.1 C
summarytools::descr(datos6[,1])
## Descriptive Statistics
## datos6$Valores
## N: 15
##
## Valores
## ----------------- ---------
## Mean 24.13
## Std.Dev 7.51
## Min 14.51
## Q1 14.82
## Median 25.15
## Q3 32.26
## Max 32.67
## MAD 10.84
## IQR 17.24
## CV 0.31
## Skewness -0.20
## SE.Skewness 0.58
## Kurtosis -1.69
## N.Valid 15.00
## Pct.Valid 100.00
Con estos resultados podemos concluir que: el promedio de rendimiento en toneladas por hectárea es de 24.13, con una desviación estándar de 7.51, el valor mínimo rendimiento en toneladas por hectárea es de 14.51, el valor máximo por su parte es de 32.67. El 50% de las observaciones (15), presentaron un rendimiento en toneladas por hectárea 14.51 y 25.15. El 50% restante presentó un tiempo de cocción entre 25.15 y 32.67. El coeficiente de asimetría fue de -0.20, lo que sugiere que la asimetría negativa. El coeficiente de curtosis fue de -1.69, lo que indica que la distribución es platicúrtica.
# Realizar el ANOVA
modelo_anova6 <- aov(Valores ~ NivelesN, data = datos6)
# Resumen del ANOVA
resumen_anova6 <- summary(modelo_anova6)
# Imprimir el resumen del ANOVA
print(resumen_anova6)
## Df Sum Sq Mean Sq F value Pr(>F)
## NivelesN 2 788.3 394.2 10132 <2e-16 ***
## Residuals 12 0.5 0.0
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
H0: La fertilización nitrogenada no tiene un efecto significativo en el rendimiento de toneladas por hectárea de pasto, los promedios no varían.
Ha: La fertilización nitrogenada tiene un efecto significativo en los rendimientos de toneladas por hectárea del pasto. Al menos uno de los promedios varian.
Los resultados del ANOVA indican que el valor F = 10132 y p-valor 2e-16, como el P- valor es menor que 0.05, lo anterior indica que se debe rechazar H0. No hay evidencia estadistica suficiente para considerar que los promedios son iguales, lo que se supone que existen por lo menos dos métodos de fertilizacion nitrogenada, con diferencias significativas en el promedio de rendimiento.
TukeyHSD(modelo_anova6)
## Tukey multiple comparisons of means
## 95% family-wise confidence level
##
## Fit: aov(formula = Valores ~ NivelesN, data = datos6)
##
## $NivelesN
## diff lwr upr p adj
## B-A 10.43658 10.10377 10.76939 0
## C-A 17.66058 17.32777 17.99339 0
## C-B 7.22400 6.89119 7.55681 0
El método de Tukey permite comparar las medias y evaluar si existen diferencias significativas en los niveles de fertilización nitrogenada.
B-A: La diferencia entre los rendimientos en el nivel B y el nivel A es de 10.43658. El intervalo de confianza del 95% para esta diferencia va desde 10.10377 hasta 10.76939 unidades. El valor p es igual a 0, lo que significa que hay una diferencia significativa entre estos dos niveles.
C-A: La diferencia entre los rendimientos en el nivel C y el nivel A es de 17.66058. El intervalo de confianza del 95% para esta diferencia va desde 17.32777 hasta 17.99339 unidades. El valor p es igual a 0, lo que indica que existe una diferencia significativa entre estos dos niveles.
C-B: La diferencia entre los rendimientos en el nivel C y el nivel B es de 7.22400. El intervalo de confianza del 95% para esta diferencia va desde 6.89119 hasta 7.55681 unidades. Al igual que en los casos anteriores, el valor p es igual a 0, lo que sugiere que existe una diferencia significativa entre estos dos niveles.
Según los análisis de Tukey, si existen diferencias estadísticas significativas que permiten determinar que hay diferencias poblacionales entre los tres niveles de fertilización nitrogenada.
# Crear el diagrama de cajas por categorías
boxplot(datos6$Valores ~ datos6$NivelesN, data = datos6, col = c("yellowgreen", "powderblue", "lightcoral","violet"), ylab = "Precio", xlab = "Zona")
En la gráfica se logran observar las cajas de los niveles, ninguna se solapa. El nivel A pr tiene valores de 15 s bigotes alcanzan valores de entre 15. El nivel B presenta valores de 25. El Nivel 3 por su parte, se distribuye en valores de 32. No hay solapamiento ni de las cajas ni de los bigotes, por lo que podemos respaldar los datos obtenidos en el ANOVA y en el método de Tukey que nos indicaban que si hay diferencias significativas entre los niveles de fertilización y el rendimiento por hectárea.