I <- c(15, 16, 14, 15, 17)
II <- c(14, 13, 15, 16, 14)
III <- c(13, 12, 11, 14, 11)
n1 = length(I)
n2 = length(II)
n3 = length(III)
N <- n1 + n2 + n3
N
## [1] 15
k= 3
T1 <- sum(I)
T2 <- sum(II)
T3 <- sum(III)
T <- T1 + T2 + T3
T
## [1] 210
y1 <- mean(I)
y2 <- mean(II)
y3 <- mean(III)
Y <- mean(c(y1, y2, y3))
Y
## [1] 14
summary(I)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 14.0 15.0 15.0 15.4 16.0 17.0
summary(II)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 13.0 14.0 14.0 14.4 15.0 16.0
summary(III)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 11.0 11.0 12.0 12.2 13.0 14.0
Como vemos la mediana esta cerca de la media, sin embargo, aunque esten cerca se notan ligeras asimetrías hacia la derecha.
boxplot(I,II, III, names = c("Métodos I", "Métodos II", "Métodos III"), main="Distribución del tiempo medio en un recorrido cronometrado por métodos", col = c("pink","purple","skyblue"), xlab = "Métodos", ylab = "Tiempos")
Se estudio la distribución del tiempo medio en un recorrido cronometrado de 9km, encontrando que el comportamiento de la mediana en todos los grupos es dispersa. Destaca el método 1 con la mayor mediana, y el método 3 con la menor de todas. La caja de métodos 1 y 2 presentan una anchura similar, mientras que el método 3 presenta una variabilidad de los altos mayor puesto que su caja es más grande. No hay presencia de datos atipícos. A simple vista, ninguna caja (métodos) se solapa entre ellos, es decir, hay sospechas de que entre estas pueden ser diferentes, sobretodo entre el método 1 y 3. Sin embargo, hagamos la prueba:
Ho: La media de los tres métodos es igual.
Ho: Hay alguna media de los tres métodos que es diferente.
#NORMALIDAD
shapiro.test(I)
##
## Shapiro-Wilk normality test
##
## data: I
## W = 0.96086, p-value = 0.814
shapiro.test(II)
##
## Shapiro-Wilk normality test
##
## data: II
## W = 0.96086, p-value = 0.814
shapiro.test(III)
##
## Shapiro-Wilk normality test
##
## data: III
## W = 0.90202, p-value = 0.4211
Todos los p-valores son mayores que alpha (0.05) por ende se acepta la hipótesis nula.
grupo <- factor(c(rep("I", n1), rep("II", n2), rep("III", n3)))
datos <- c(I, II, III)
leveneTest(datos, grupo)
## Levene's Test for Homogeneity of Variance (center = median)
## Df F value Pr(>F)
## group 2 0.1053 0.9009
## 12
El p-valor es mayor que alpha (0.05) por ende se acepta la hipótesis nula. Es decir, los tres métodos tienen igual varianza.
#A "mano"
SST <- sum((datos - Y)^2)
SST
## [1] 44
SSA <- (T1**2/n1 + T2**2/n2 + T3**2/n3) - T**2/N
SSA
## [1] 26.8
SSE <- SST - SSA
SSE
## [1] 17.2
MSA <- SSA / (k - 1)
MSA
## [1] 13.4
MSE <- SSE / (N - k)
MSE
## [1] 1.433333
Fcalculado <- MSA / MSE
Fcalculado
## [1] 9.348837
#F-crítico
Fcritico <- qf(0.05, 2, 12, lower.tail = FALSE)
Fcritico
## [1] 3.885294
Como el Fcalculado cae dentro de la región crítica que en este caso es 3.88, se rechaza la hipótesis nula. Por ende, existe una diferencia significativa entre los tres métodos.
#Función
anova <- aov(datos ~ grupo)
summary(anova)
## Df Sum Sq Mean Sq F value Pr(>F)
## grupo 2 26.8 13.400 9.349 0.00357 **
## Residuals 12 17.2 1.433
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Como el p-valor es menor que el nivel de significancia, se vuelve a concluir que se rechaza la hipótesis nula.
Hagamos la prueba de tukey para ver cuales son diferentes entre si:
TukeyHSD(anova)
## Tukey multiple comparisons of means
## 95% family-wise confidence level
##
## Fit: aov(formula = datos ~ grupo)
##
## $grupo
## diff lwr upr p adj
## II-I -1.0 -3.020074 1.0200738 0.4110998
## III-I -3.2 -5.220074 -1.1799262 0.0031153
## III-II -2.2 -4.220074 -0.1799262 0.0328202
Se concluye de la prueba tukey que no existen diferencias significativas entre el método 2 y 1 puesto que el intervalo de confianza incluye al 0.
Por otro lado, entre la comparación del método 3 y 1 sí existen diferencias significativas, como el intervalo es negativo entonces: III < I, es decir, el tiempo medio del método 3 es menor que el primero.
Por último, entre la comparación del método 3 y 2 sí existen diferencias significativas, como el intervalo es negativo entonces: III < II, es decir, el tiempo medio del método 3 es menor que el segundo.
Sí existe un método que fue superior y fue el método 3, puesto que este tuvo una diferencia signicativa entre todos, es decir, el tiempo medio en sus recorridos fue menor, por ende, fue superior ya que tardo menos en hacer esos recorridos.