Trabajo diseño de experimentos

Ejercicio 3-1

Se estudia la resistencia a la tension del cemento portland. puede usarse economicamente 4 diferentes tecnicas de mezclado. Se han colectado los siguientes datos:

resistencia<-c(3129, 3000, 2865, 2890, 
        3200, 3300, 2975, 3150,
        2800, 2900, 2985, 3050, 
        2600, 2700, 2600, 2765)
tec<-as.factor(c(rep(c("1","2","3","4"),each =4)))
base<-data.frame(resistencia, tec)
base
##    resistencia tec
## 1         3129   1
## 2         3000   1
## 3         2865   1
## 4         2890   1
## 5         3200   2
## 6         3300   2
## 7         2975   2
## 8         3150   2
## 9         2800   3
## 10        2900   3
## 11        2985   3
## 12        3050   3
## 13        2600   4
## 14        2700   4
## 15        2600   4
## 16        2765   4

Exploramos los datos de la muestra

boxplot(resistencia ~ tec, col = c("red", "green", "yellow","white"),
        ylab = "Resistencia a la tensión")

tapply(resistencia, tec, mean)
##       1       2       3       4 
## 2971.00 3156.25 2933.75 2666.25

Esta es la forma de pedir un ANOVA en R

fm1 = aov(lm(resistencia ~ tec))
fm1
## Call:
##    aov(formula = lm(resistencia ~ tec))
## 
## Terms:
##                      tec Residuals
## Sum of Squares  489740.2  153908.3
## Deg. of Freedom        3        12
## 
## Residual standard error: 113.2506
## Estimated effects may be unbalanced

Pedimos un resumen de la tabla del ANOVA

summary(fm1)
##             Df Sum Sq Mean Sq F value   Pr(>F)    
## tec          3 489740  163247   12.73 0.000489 ***
## Residuals   12 153908   12826                     
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

¿Cuál es el valor crítico de F bajo la hipótesis nula con un nivel de significación alfa = 0.05? (Este valor nos delimitará la región de aceptación y rechazo)

¿Hay alguna diferencia en la resistencia de tension debida a las tecnicas? Utilizar a = 0.05.

Bajo la Ho el estadístico de contraste F se distribuye como una F de grados de libertad (a-1), (n-a) donde a es el número de grupos que disponemos y n el tamaño total de la muestral. Así obtenemos el cuantil buscado:

qf(0.05, 4-1, 16-4, lower.tail = F)
## [1] 3.490295

Valores del estadístico > 3.490295 estarán incluidos en la región de rechazo. En nuetro caso 12.73 es mucho mayor que el valor crítico obtenido

Si hemos detectado diferencias significativas entre las medias de las poblaciones. ¿Sería posible saber cuáles son los grupos que generan estas diferencias?

intervals = TukeyHSD(fm1)
intervals
##   Tukey multiple comparisons of means
##     95% family-wise confidence level
## 
## Fit: aov(formula = lm(resistencia ~ tec))
## 
## $tec
##        diff        lwr        upr     p adj
## 2-1  185.25  -52.50029  423.00029 0.1493561
## 3-1  -37.25 -275.00029  200.50029 0.9652776
## 4-1 -304.75 -542.50029  -66.99971 0.0115923
## 3-2 -222.50 -460.25029   15.25029 0.0693027
## 4-2 -490.00 -727.75029 -252.24971 0.0002622
## 4-3 -267.50 -505.25029  -29.74971 0.0261838
plot(intervals)

Explica las diferencias existentes por parejas de tratamientos. ¿Algunas de estas diferencias son significativas?

Validación del modelo ANOVA

A partir de los residuos del modelo comprobaremos si el modelo ANOVA es adecuado. Los supuestos que se deben cumplir son tres: independencia, homocedasticidad y normalidad.

Independencia

plot(fm1$residuals)

Normalidad

Los gráficos y descriptivos nos informan si se verifica la igualdad de varianzas en los grupos descritos:

summary(fm1$residuals)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
## -181.25  -69.94   11.38    0.00   63.12  158.00
boxplot(fm1$residuals)

hist(fm1$residuals)

qqnorm(fm1$residuals)  
qqline(fm1$residuals)

El test de Shapiro-Wilk indica que no tenemos evidencia suficiente para rechazar la hipótesis nula (normalidad de los residuos)

shapiro.test(fm1$residuals)
## 
##  Shapiro-Wilk normality test
## 
## data:  fm1$residuals
## W = 0.97046, p-value = 0.846

Homocedasticidad

Los gráficos y descriptivos nos informan si se verifica la igualdad de varianzas en los grupos descritos:

boxplot(fm1$residuals~tec, col = c("red", "green", "yellow","white"))

desviaciones <- tapply(fm1$residuals, tec, sd)

Comparando la desviación máxima con la mínima obtenemos una orientación sobre la falta de homocedasticidad (>2 aproximadamente)

max(desviaciones) / min(desviaciones)
## [1] 1.679329

El test de Bartlett indica que no tenemos evidencia suficiente para rechazar la hipótesis nula (las varianzas son iguales)

bartlett.test(fm1$residuals ~ tec)
## 
##  Bartlett test of homogeneity of variances
## 
## data:  fm1$residuals by tec
## Bartlett's K-squared = 0.71158, df = 3, p-value = 0.8705

Conclusión

Se rechaza la hipotesis nula ya que existe una diferencia de medias en las tecnicas de mezclado.

Podemos ver que se producen medias y desviacion estandar diferentes de cada uno de los factores donde indica que el mezclado 2 produce mejor resistencia a la tecnica de mexclado mas alta que el mezclado 1 y 3 que se encuentran casi igual. Mientras que el mezclado 4 producira una resistencia de tension mas baja.