Ejercicio

Se estan comparando tres soluciones de lavados diferentes a fin de estudiar su efectividad para retardar el crecimiento de bacterias en contenedores de leche de 5 galones. El analisis se hace en un laboratorio y solo pueden realizarse tres ensayos en un dia. Puesto que los dias podrian representar una fuente potencial de variabilidad, el experimentador decide usar un diseño de bloques aleatorios. Se hacen observaciones en cuatro dias, cuyos datos se muestran enseguida. Analizar los datosde este experimento (utilizar α=0.05) y sacar las conclusiones apropiadas.

bacterias<-c(13,22,18,39,16,24,17,44,5,4,1,22)

sol<-c(rep(1:3,rep(4,3)))
bloque<-c(rep(1:4))
dias<-c(rep(bloque,3))
datos<-data.frame(sol=factor(sol,labels=c("I","II","III")),
                  dias=factor(dias),bacterias)
bacterias<-as.numeric(bacterias)
sol<-as.factor(sol)
datos
##    sol dias bacterias
## 1    I    1        13
## 2    I    2        22
## 3    I    3        18
## 4    I    4        39
## 5   II    1        16
## 6   II    2        24
## 7   II    3        17
## 8   II    4        44
## 9  III    1         5
## 10 III    2         4
## 11 III    3         1
## 12 III    4        22

Diagrama de cajas de dispersión para que aparezca un solo grafico en la pantalla ejecute

par(mfrow=c(1,1))

A manera de ejemplo se presenta el siguiente conjunto de Box plots

boxplot(split(bacterias,sol),xlab="solucion", ylab="bacteria")

Analisis de varianza usando la función (aov) Analysis of Variance

modelo <- aov(bacterias ~ sol + dias, data = datos)

Modelo

Se invoca para su uso el paquete agricola sino se tiene se instala

install.packages("agricolae")
## Installing package into '/cloud/lib/x86_64-pc-linux-gnu-library/4.2'
## (as 'lib' is unspecified)
library(agricolae)

Coeficiente de variación

cv.model(modelo)
## [1] 15.67573

Analisis de varianza usando la funcion modelo lineal (lm) Linear model

Hay alguna diferencia en el crecimiento de las bacterias debida a las soluciones?

Si, existe diferencia en el crecimiento de bacterias debida a las soluciones.

modelo <- lm(bacterias ~ sol + dias, data = datos)
anova(modelo , test="F")
## Analysis of Variance Table
## 
## Response: bacterias
##           Df  Sum Sq Mean Sq F value    Pr(>F)    
## sol        2  703.50  351.75  40.717 0.0003232 ***
## dias       3 1106.92  368.97  42.711 0.0001925 ***
## Residuals  6   51.83    8.64                      
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Evaluacion de los supuestos del modelo estadistico matematico

Prueba de normalidad Shapiro-Wilk

Hipotesis Ho: Los residuos siguen la distribución normal

Ha: Los residuos no siguen la distribución normal

Prueba de normalidad Shapiro-wilk para los residuos

shapiro.test(modelo$res)
## 
##  Shapiro-Wilk normality test
## 
## data:  modelo$res
## W = 0.93208, p-value = 0.4027

Para construir el grafico QQ plot y verificar la normalidad, se invoca el paquete “car”

install.packages("carData")
## Installing package into '/cloud/lib/x86_64-pc-linux-gnu-library/4.2'
## (as 'lib' is unspecified)
library(car)
## Loading required package: carData

Grafico de QQ plot

qqPlot(modelo)

## [1] 1 9

Grafico de predichos contra residuos estandarizados, para evaluar los supuestos de homogeneidad de varianzas e independencia de los residuos, obtenemos los valores predichos y los residuos de la siguiente manera:

Valores predichos

fitb <- fitted(modelo) 

Residuos estandarizados

res_stb <- rstandard(modelo)

Grafico de predichos contra residuos estandarizados para verificar la homogeneidad de varianzas e independencia de los residuos

plot(fitb,res_stb,xlab="Valores predichos", 
     ylab="Residuos estandarizados",abline(h=0))

Prueba de homocedasticidad

Hipotesis

Ho: Los tratamientos tienen varianzas iguales

Ha: Los tratamientos tienen varianzas diferentes

Prueba de Bartlett

bartlett.test(bacterias ~ sol)
## 
##  Bartlett test of homogeneity of variances
## 
## data:  bacterias by sol
## Bartlett's K-squared = 0.255, df = 2, p-value = 0.8803

Pruebas de comparación multiple de medias. Metodo de la diferencia minima significativa, Least Significant Difference (LSD)

install.packages("agricolae")
## Installing package into '/cloud/lib/x86_64-pc-linux-gnu-library/4.2'
## (as 'lib' is unspecified)
library(agricolae)
outLSD <-LSD.test(modelo, "sol",console=TRUE)
## 
## Study: modelo ~ "sol"
## 
## LSD t Test for bacterias 
## 
## Mean Square Error:  8.638889 
## 
## sol,  means and individual ( 95 %) CI
## 
##     bacterias       std r      LCL      UCL Min Max
## I       23.00 11.284207 4 19.40402 26.59598  13  39
## II      25.25 12.996794 4 21.65402 28.84598  16  44
## III      8.00  9.486833 4  4.40402 11.59598   1  22
## 
## Alpha: 0.05 ; DF Error: 6
## Critical Value of t: 2.446912 
## 
## least Significant Difference: 5.085484 
## 
## Treatments with the same letter are not significantly different.
## 
##     bacterias groups
## II      25.25      a
## I       23.00      a
## III      8.00      b

Si hemos detectado diferencias significativas entre las medias de las poblaciones. Sera posible saber cuales son los grupos que generan estas diferencias?

install.packages("agricolae")
## Installing package into '/cloud/lib/x86_64-pc-linux-gnu-library/4.2'
## (as 'lib' is unspecified)
library(agricolae)

Realizar el ANOVA

modelo <- aov(bacterias ~ sol + dias, data = datos)

Realizar la prueba DMS

prueba_DMS <- TukeyHSD(modelo)

Ver los resultados

prueba_DMS
##   Tukey multiple comparisons of means
##     95% family-wise confidence level
## 
## Fit: aov(formula = bacterias ~ sol + dias, data = datos)
## 
## $sol
##          diff        lwr        upr     p adj
## II-I     2.25  -4.126879   8.626879 0.5577862
## III-I  -15.00 -21.376879  -8.623121 0.0008758
## III-II -17.25 -23.626879 -10.873121 0.0004067
## 
## $dias
##           diff        lwr       upr     p adj
## 2-1  5.3333333  -2.974240 13.640906 0.2193500
## 3-1  0.6666667  -7.640906  8.974240 0.9917442
## 4-1 23.6666667  15.359094 31.974240 0.0002622
## 3-2 -4.6666667 -12.974240  3.640906 0.3037891
## 4-2 18.3333333  10.025760 26.640906 0.0010843
## 4-3 23.0000000  14.692427 31.307573 0.0003081
intervals = TukeyHSD(modelo)
intervals
##   Tukey multiple comparisons of means
##     95% family-wise confidence level
## 
## Fit: aov(formula = bacterias ~ sol + dias, data = datos)
## 
## $sol
##          diff        lwr        upr     p adj
## II-I     2.25  -4.126879   8.626879 0.5577862
## III-I  -15.00 -21.376879  -8.623121 0.0008758
## III-II -17.25 -23.626879 -10.873121 0.0004067
## 
## $dias
##           diff        lwr       upr     p adj
## 2-1  5.3333333  -2.974240 13.640906 0.2193500
## 3-1  0.6666667  -7.640906  8.974240 0.9917442
## 4-1 23.6666667  15.359094 31.974240 0.0002622
## 3-2 -4.6666667 -12.974240  3.640906 0.3037891
## 4-2 18.3333333  10.025760 26.640906 0.0010843
## 4-3 23.0000000  14.692427 31.307573 0.0003081
plot(intervals)

En las dos graficas anteriores, podemos ver que en la grafica de las soluciones, la solucion 3 difiere con respecto a la solucion 1 y 2.

Y en la ultima grafica podemos observar que el dia 4 difiere con respectos a los dias 1, 2 y 3.

Conclusión

Se rechaza la hipotesis nula ya que existe una diferencia de medias en las tecnicas de soluciones.

Podemos ver que se producen medias y desviacion estandar diferentes de cada uno de los factores donde indica que la solucion 3 es la que reduce de mejor manera el crecimiento de las bacterias.