#y: tiempos del recorrido
#x: metodos 1, 2 y 3
k<-3
a<-c(15,16,14,15,17)
b<-c(14,13,15,16,14)
c<-c(13,12,11,14,11)

1.Descriptivo

summary(a)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    14.0    15.0    15.0    15.4    16.0    17.0
summary(b)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    13.0    14.0    14.0    14.4    15.0    16.0
summary(c)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    11.0    11.0    12.0    12.2    13.0    14.0
sd(a)
## [1] 1.140175
sd(c)
## [1] 1.30384
boxplot(a, b, c, names = c("Método 1", "Método 2", "Método 3"),
        main = "Distribución del tiempo de recorrido según el  método", ylab = "minutos", col=c("pink", "skyblue", "purple"))

Se estudió la distribución del tiempo de recorrido para un test de rendimiento en 9 km, por tanto los tiempo menores indicarían mejor rendimiento. Encontramos que los tiempos del método uno tienen mayor mediana y los del método 3 tienen la menor mediana, los tiempos con el método tres tienen una mayor variabilidad. Los métodos 1 y 2 parecen ser más homogéneos, ya que tienen menor variabilidad. No hay presencia de datos atípicos. De acuerdo a lo osbervado en la muestra, los tiempos del método uno tienen una media de 15.4 (1.14) minutos, por otro lado, los del método 3 tienen la menor media de 12.2 (1.3) minutos.

2.Hipótesis

Nuestra pregunta problema es si existen diferencias significativas en las medias de los tiempos según el método, por lo cual planteamos la siguiente hipótesis:

Ho: mu_1=mu_2=mu_3
H1: Al menos una mu_j es diferente, j=1,2,3

3.Comprobación de supuestos

La independencia está dada, ya que son personas distintas en cada grupo.

shapiro.test(a)
## 
##  Shapiro-Wilk normality test
## 
## data:  a
## W = 0.96086, p-value = 0.814
shapiro.test(b)
## 
##  Shapiro-Wilk normality test
## 
## data:  b
## W = 0.96086, p-value = 0.814
shapiro.test(c)
## 
##  Shapiro-Wilk normality test
## 
## data:  c
## W = 0.90202, p-value = 0.4211

Para verificar el supuesto de normalidad se uso la prueba Shapiro-Wilk obteniendo un p-valor mayor que 0.05 en todos los casos, lo que indica que todas siguen una distribución aproximadamente normal.

grupo<-factor(c(rep("a",5), rep("b", 5), rep("c",5)))
datos<-c(a,b,c)
grupo
##  [1] a a a a a b b b b b c c c c c
## Levels: a b c
datos
##  [1] 15 16 14 15 17 14 13 15 16 14 13 12 11 14 11
library(car)     #factor, rotulo,categoria
## Cargando paquete requerido: carData
leveneTest(datos,grupo)
## Levene's Test for Homogeneity of Variance (center = median)
##       Df F value Pr(>F)
## group  2  0.1053 0.9009
##       12

Para verificar el supuesto de homocedasticidad se usó la prueba Levene obteniendo un p-valor de 0.9, por lo que podemos asumir igualdad de varianzas.

4.ANOVA

n1<-length(a)
n2<-length(b)
n3<-length(c)

N<-n1+n2+n3
T1<-sum(a)
T2<-sum(b)
T3<-sum(c)

T<-T1+T2+T3
x1<-mean(a)
x2<-mean(b)
x3<-mean(c)

xt<-c(x1,x2,x3)
X<-mean(xt)
X
## [1] 14
SST<-sum((datos-X)^2)
print("SST")
## [1] "SST"
SST
## [1] 44
SST1<-sum(datos^2)-T^2/N


SSA<-(T1^2/n1 + T2^2/n2 + T3^2/n3)-T^2/N
print("SSA")
## [1] "SSA"
SSA
## [1] 26.8
SSE<-SST-SSA
print("SSE")
## [1] "SSE"
SSE
## [1] 17.2
MSA<-SSA/(k-1)
print("MSA")
## [1] "MSA"
MSA
## [1] 13.4
MSE<-SSE/(N-k)
print("MSE")
## [1] "MSE"
MSE
## [1] 1.433333
F<-MSA/MSE
print("F")
## [1] "F"
F
## [1] 9.348837
modelo <- aov(datos ~ grupo)
summary(modelo)
##             Df Sum Sq Mean Sq F value  Pr(>F)   
## grupo        2   26.8  13.400   9.349 0.00357 **
## Residuals   12   17.2   1.433                   
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Con una confianza del 95% observamos un p-valor de 0.00357 que es menor al alpha de 0.05, por tanto hay suficiente evidencia para concluir que existen diferencias significativas, al menos una media es diferente. Realizaremos Tuckey para analizar cuál o cuáles son diferentes.

TukeyHSD(modelo, conf.level = 0.95)
##   Tukey multiple comparisons of means
##     95% family-wise confidence level
## 
## Fit: aov(formula = datos ~ grupo)
## 
## $grupo
##     diff       lwr        upr     p adj
## b-a -1.0 -3.020074  1.0200738 0.4110998
## c-a -3.2 -5.220074 -1.1799262 0.0031153
## c-b -2.2 -4.220074 -0.1799262 0.0328202
plot(TukeyHSD(modelo, conf.level = 0.95))

Analicemos cada comparación. El intervalo de confianza del método 2-1, el límite inferior es de -3.02 y el superior de 1.02, es decir el 0 se encuentra, esto se ve también con el p-valor de 0.4 mayor 0.05, no existen diferencias significativas en las medias entre estos dos métodos. El intervalo de confianza de 3-1, está entre -5.22 y -1.18, y el p-valor de 0.003 menor que 0.05, por tanto hay diferencia significativas y como los límites del intervalo son negativos, quiere decir que los tiempos medios del método 3 son menores que los del método 1. Finalmente, el intervalo de confianza de 3-2, está entre -4.22 y -0.18, y el p-valor es de 0.03 menor que 0.05, por tanto existen diferencias significativas, y comol los límites del intervalo son negativos, los tiempos medios del método son 3 son menores que el método 2.

En conclusión, en general los tiempos menores son los del método 3, y entre los del método 1 y 2 no hay diferencias significativas. Podemos conluir entonces, que el método 3 del gimnasio con pesas y pedaleo de alta frecuencia genera un mayor rendimiento.