Se estan comparando tres soluciones de lavados diferentes a fin de estudiar su efectividad para retardar el crecimiento de bacterias en contenedores de leche de 5 galones. El analisis se hace en un laboratorio y solo pueden realizarse tres ensayos en un dia. Puesto que los dias podrian representar una fuente potencial de variabilidad, el experimentador decide usar un diseño de bloques aleatorios. Se hacen observaciones en cuatro dias, cuyos datos se muestran enseguida. Analizar los datosde este experimento (utilizar α=0.05) y sacar las conclusiones apropiadas.
En este problema, se están comparando las medias de tres soluciones diferentes de lavado para estudiar su efectividad en la reducción del crecimiento de bacterias en contenedores de leche de 5 galones. Por lo tanto, las hipótesis nula y alternativa con respecto a las medias son las siguientes:
Hipótesis nula (H0): Las medias de las soluciones son iguales, es decir, no hay diferencia significativa entre las soluciones.
Hipótesis alternativa (Ha): Al menos una de las medias de las soluciones es diferente de las demás, es decir, hay una diferencia significativa entre las soluciones.
Datos del estudio:
bacterias<-c(13,22,18,39,16,24,17,44,5,4,1,22)
sol<-c(rep(1:3,rep(4,3)))
bloque<-c(rep(1:4))
dias<-c(rep(bloque,3))
datos<-data.frame(sol=factor(sol,labels=c("I","II","III")),
dias=factor(dias),bacterias)
datos
## sol dias bacterias
## 1 I 1 13
## 2 I 2 22
## 3 I 3 18
## 4 I 4 39
## 5 II 1 16
## 6 II 2 24
## 7 II 3 17
## 8 II 4 44
## 9 III 1 5
## 10 III 2 4
## 11 III 3 1
## 12 III 4 22
Se comienza con un análisis exploratorio de los datos, en el que se construye un diagrama de cajas de dispersión (Box plot) para cada solución.
boxplot(split(bacterias,sol),xlab="solucion", ylab="bacteria")
Se realiza un análisis de varianza (ANOVA) utilizando la función aov(). Se encuentra que para las soluciones se rechaza la hipotesis nula (p-valor<0.05), lo que quiere decir que hay una diferencia significativa entre las soluciones. Pero, no hay una diferencia significativa entre los días (p-valor>0.05), es decir, que no hay evidencia suficiente para afirmar que hay diferencias significativas entre los días..
modelo <- lm(bacterias ~ sol + dias, data = datos)
anova(modelo)
## Analysis of Variance Table
##
## Response: bacterias
## Df Sum Sq Mean Sq F value Pr(>F)
## sol 2 703.50 351.75 40.717 0.0003232 ***
## dias 3 1106.92 368.97 42.711 0.0001925 ***
## Residuals 6 51.83 8.64
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
modelo <- lm(bacterias ~ sol + dias, data = datos)
anova(modelo , test="F")
## Analysis of Variance Table
##
## Response: bacterias
## Df Sum Sq Mean Sq F value Pr(>F)
## sol 2 703.50 351.75 40.717 0.0003232 ***
## dias 3 1106.92 368.97 42.711 0.0001925 ***
## Residuals 6 51.83 8.64
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Hipótesis
Ho: Los residuos siguen la distribución normal
Ha: Los residuos no siguen la distribución normal
Prueba de normalidad Shapiro-wilk para los residuos
shapiro.test(modelo$res)
##
## Shapiro-Wilk normality test
##
## data: modelo$res
## W = 0.93208, p-value = 0.4027
vemos que p-valor>0.05 por lo que escogemos la hipótesis alternativa, la cual nos dice que no hay normalidad en los residuos.
library(car)
## Loading required package: carData
qqPlot(modelo,sub="Figura_4", cex.sub=0.5)
## [1] 1 9
Para evaluar los supuestos de homogeneidad de varianzas e independencia de los residuos, obtenemos los valores predichos y los residuos de la siguiente manera:
fitb <- fitted(modelo)
Residuos estandarizados
res_stb <- rstandard(modelo)
Gráfico de predichos contra residuos estandarizados para verificar la homogeneidad de varianzas e independencia de los residuos:
plot(fitb,res_stb,xlab="Valores predichos",
ylab="Residuos estandarizados",abline(h=0))
Hipótesis
Ho: Los tratamientos tienen varianzas iguales
Ha: Los tratamientos tienen varianzas diferentes
bartlett.test(bacterias ~ sol)
##
## Bartlett test of homogeneity of variances
##
## data: bacterias by sol
## Bartlett's K-squared = 0.255, df = 2, p-value = 0.8803
como p>0.05 rechazamos la hipotesis nula, es decir, Los tratamientos tienen varianzas diferentes
install.packages("agricolae")
## Installing package into '/cloud/lib/x86_64-pc-linux-gnu-library/4.2'
## (as 'lib' is unspecified)
library(agricolae)
outLSD <-LSD.test(modelo, "sol",console=TRUE)
##
## Study: modelo ~ "sol"
##
## LSD t Test for bacterias
##
## Mean Square Error: 8.638889
##
## sol, means and individual ( 95 %) CI
##
## bacterias std r LCL UCL Min Max
## I 23.00 11.284207 4 19.40402 26.59598 13 39
## II 25.25 12.996794 4 21.65402 28.84598 16 44
## III 8.00 9.486833 4 4.40402 11.59598 1 22
##
## Alpha: 0.05 ; DF Error: 6
## Critical Value of t: 2.446912
##
## least Significant Difference: 5.085484
##
## Treatments with the same letter are not significantly different.
##
## bacterias groups
## II 25.25 a
## I 23.00 a
## III 8.00 b
install.packages("agricolae")
## Installing package into '/cloud/lib/x86_64-pc-linux-gnu-library/4.2'
## (as 'lib' is unspecified)
library(agricolae)
modelo <- aov(bacterias ~ sol + dias, data = datos)
prueba_DMS <- TukeyHSD(modelo)
prueba_DMS
## Tukey multiple comparisons of means
## 95% family-wise confidence level
##
## Fit: aov(formula = bacterias ~ sol + dias, data = datos)
##
## $sol
## diff lwr upr p adj
## II-I 2.25 -4.126879 8.626879 0.5577862
## III-I -15.00 -21.376879 -8.623121 0.0008758
## III-II -17.25 -23.626879 -10.873121 0.0004067
##
## $dias
## diff lwr upr p adj
## 2-1 5.3333333 -2.974240 13.640906 0.2193500
## 3-1 0.6666667 -7.640906 8.974240 0.9917442
## 4-1 23.6666667 15.359094 31.974240 0.0002622
## 3-2 -4.6666667 -12.974240 3.640906 0.3037891
## 4-2 18.3333333 10.025760 26.640906 0.0010843
## 4-3 23.0000000 14.692427 31.307573 0.0003081
intervals = TukeyHSD(modelo)
intervals
## Tukey multiple comparisons of means
## 95% family-wise confidence level
##
## Fit: aov(formula = bacterias ~ sol + dias, data = datos)
##
## $sol
## diff lwr upr p adj
## II-I 2.25 -4.126879 8.626879 0.5577862
## III-I -15.00 -21.376879 -8.623121 0.0008758
## III-II -17.25 -23.626879 -10.873121 0.0004067
##
## $dias
## diff lwr upr p adj
## 2-1 5.3333333 -2.974240 13.640906 0.2193500
## 3-1 0.6666667 -7.640906 8.974240 0.9917442
## 4-1 23.6666667 15.359094 31.974240 0.0002622
## 3-2 -4.6666667 -12.974240 3.640906 0.3037891
## 4-2 18.3333333 10.025760 26.640906 0.0010843
## 4-3 23.0000000 14.692427 31.307573 0.0003081
plot(intervals)
Se realizó la prueba de coeficiente de variación, y se encuentra que la variabilidad dentro de cada tratamiento es menor que la variabilidad entre los tratamientos, lo que sugiere que las soluciones tienen un efecto significativo.
Se evalúan los supuestos del modelo estadístico, incluyendo la normalidad de los residuos y la homogeneidad de las varianzas. Se encuentra que los residuos no siguen una distribución normal, y se realiza un gráfico QQ plot para verificarlo. Además, se realiza un gráfico de predichos contra residuos estandarizados para evaluar la homogeneidad de varianzas e independencia de los residuos. Se encuentra que los residuos no son homogéneos, lo que sugiere que las varianzas no son iguales entre los tratamientos.
Se realizan pruebas de comparación múltiple de medias utilizando el método de la diferencia mínima significativa (LSD) y se encuentra que hay una diferencia significativa entre las medias de las poblaciones. Además, se realiza la prueba de comparación múltiple de medias utilizando el método de Tukey, y se encuentra que la solución III es significativamente diferente de las soluciones I y II.
En conclusión, se puede afirmar que la solución III parece ser menos efectiva en retardar el crecimiento de bacterias en los contenedores de leche en comparación con las soluciones I y II. Sin embargo, se debe tener en cuenta que los residuos no siguen una distribución normal y las varianzas no son iguales entre los tratamientos, lo que podría afectar la precisión de los resultados.