Se estudia la resistencia a la tension del cemento portland. puede usarse economicamente 4 diferentes tecnicas de mezclado. Se han colectado los siguientes datos:
resistencia<-c(3129, 3000, 2865, 2890,
3200, 3300, 2975, 3150,
2800, 2900, 2985, 3050,
2600, 2700, 2600, 2765)
tec<-as.factor(c(rep(c("1","2","3","4"),each =4)))
base<-data.frame(resistencia, tec)
base
## resistencia tec
## 1 3129 1
## 2 3000 1
## 3 2865 1
## 4 2890 1
## 5 3200 2
## 6 3300 2
## 7 2975 2
## 8 3150 2
## 9 2800 3
## 10 2900 3
## 11 2985 3
## 12 3050 3
## 13 2600 4
## 14 2700 4
## 15 2600 4
## 16 2765 4
Exploramos los datos de la muestra
boxplot(resistencia ~ tec, col = c("red", "green", "yellow","white"),
ylab = "Resistencia a la tensión")
tapply(resistencia, tec, mean)
## 1 2 3 4
## 2971.00 3156.25 2933.75 2666.25
Esta es la forma de pedir un ANOVA en R
fm1 = aov(lm(resistencia ~ tec))
fm1
## Call:
## aov(formula = lm(resistencia ~ tec))
##
## Terms:
## tec Residuals
## Sum of Squares 489740.2 153908.3
## Deg. of Freedom 3 12
##
## Residual standard error: 113.2506
## Estimated effects may be unbalanced
Pedimos un resumen de la tabla del ANOVA
summary(fm1)
## Df Sum Sq Mean Sq F value Pr(>F)
## tec 3 489740 163247 12.73 0.000489 ***
## Residuals 12 153908 12826
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
¿Cuál es el valor crítico de F bajo la hipótesis nula con un nivel de significación alfa = 0.05? (Este valor nos delimitará la región de aceptación y rechazo)
¿Hay alguna diferencia en la resistencia de tension debida a las tecnicas? Utilizar a = 0.05.
Bajo la Ho el estadístico de contraste F se distribuye como una F de grados de libertad (a-1), (n-a) donde a es el número de grupos que disponemos y n el tamaño total de la muestral. Así obtenemos el cuantil buscado:
qf(0.05, 4-1, 16-4, lower.tail = F)
## [1] 3.490295
Valores del estadístico > 3.490295 estarán incluidos en la región de rechazo. En nuetro caso 12.73 es mucho mayor que el valor crítico obtenido
Si hemos detectado diferencias significativas entre las medias de las poblaciones. ¿Sería posible saber cuáles son los grupos que generan estas diferencias?
intervals = TukeyHSD(fm1)
intervals
## Tukey multiple comparisons of means
## 95% family-wise confidence level
##
## Fit: aov(formula = lm(resistencia ~ tec))
##
## $tec
## diff lwr upr p adj
## 2-1 185.25 -52.50029 423.00029 0.1493561
## 3-1 -37.25 -275.00029 200.50029 0.9652776
## 4-1 -304.75 -542.50029 -66.99971 0.0115923
## 3-2 -222.50 -460.25029 15.25029 0.0693027
## 4-2 -490.00 -727.75029 -252.24971 0.0002622
## 4-3 -267.50 -505.25029 -29.74971 0.0261838
plot(intervals)
Explica las diferencias existentes por parejas de tratamientos. ¿Algunas
de estas diferencias son significativas?
Validación del modelo ANOVA
A partir de los residuos del modelo comprobaremos si el modelo ANOVA es adecuado. Los supuestos que se deben cumplir son tres: independencia, homocedasticidad y normalidad.
plot(fm1$residuals)
Los gráficos y descriptivos nos informan si se verifica la igualdad de varianzas en los grupos descritos:
summary(fm1$residuals)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## -181.25 -69.94 11.38 0.00 63.12 158.00
boxplot(fm1$residuals)
hist(fm1$residuals)
qqnorm(fm1$residuals)
qqline(fm1$residuals)
El test de Shapiro-Wilk indica que no tenemos evidencia suficiente para
rechazar la hipótesis nula (normalidad de los residuos)
shapiro.test(fm1$residuals)
##
## Shapiro-Wilk normality test
##
## data: fm1$residuals
## W = 0.97046, p-value = 0.846
Los gráficos y descriptivos nos informan si se verifica la igualdad de varianzas en los grupos descritos:
boxplot(fm1$residuals~tec, col = c("red", "green", "yellow","white"))
desviaciones <- tapply(fm1$residuals, tec, sd)
Comparando la desviación máxima con la mínima obtenemos una orientación sobre la falta de homocedasticidad (>2 aproximadamente)
max(desviaciones) / min(desviaciones)
## [1] 1.679329
El test de Bartlett indica que no tenemos evidencia suficiente para rechazar la hipótesis nula (las varianzas son iguales)
bartlett.test(fm1$residuals ~ tec)
##
## Bartlett test of homogeneity of variances
##
## data: fm1$residuals by tec
## Bartlett's K-squared = 0.71158, df = 3, p-value = 0.8705
Se rechaza la hipotesis nula ya que existe una diferencia de medias en las tecnicas de mezclado.
Podemos ver que se producen medias y desviacion estandar diferentes de cada uno de los factores donde indica que el mezclado 2 produce mejor resistencia a la tecnica de mexclado mas alta que el mezclado 1 y 3 que se encuentran casi igual. Mientras que el mezclado 4 producira una resistencia de tension mas baja.