met1<-c(15,16,14,15,17)
met2<-c(14,13,15,16,14)
met3<-c(13,12,11,14,11)
data1<-data.frame(met1,met2,met3)
metodo <- as.factor(rep(c("I", "II", "III"), each = 5))
rendimiento <- c(met1, met2, met3)
data2<-data.frame(metodo,rendimiento)Parcial 2 - Metodos
Datos
Descriptivo
# Gráfico de caja y bigotes
boxplot(data1, main = "Rendimiento Consistente",names = c("Metodo I", "Metodo II", "Metodo III"), xlab = "Metodos",ylab = "Rendimiento", col = c("darkslategray1","darkslategray3","darkslategray"), ylim=c(10,17))# Histograma para cada grupo
par(mfrow = c(1,3))
hist(data1$met1, main = "Metodo I", xlab = "Rendimiento",ylab="Frecuencia", col = "darkslategray1",xlim=c(11,17))
hist(data1$met2, main = "Metodo II", xlab = "Rendimiento", ylab="Frecuencia", col = "darkslategray3",xlim=c(11,17))
hist(data1$met3, main = "Metodo III", xlab = "Rendimiento",ylab="Frecuencia", col = "darkslategray",xlim=c(11,17))par(mfrow = c(1,1))Descriptivo Numerico
library(summarytools)Warning in fun(libname, pkgname): couldn't connect to display ":0"
system might not have X11 capabilities; in case of errors when using dfSummary(), set st_options(use.x11 = FALSE)
view(dfSummary(data1))Warning in png(png_loc <- tempfile(fileext = ".png"), width = 150 *
graph.magnif, : unable to open connection to X11 display ''
Warning in png(png_loc <- tempfile(fileext = ".png"), width = 150 *
graph.magnif, : unable to open connection to X11 display ''
Warning in png(png_loc <- tempfile(fileext = ".png"), width = 150 *
graph.magnif, : unable to open connection to X11 display ''
Switching method to 'browser'
Output file written: /tmp/RtmpRhyHyM/filef8763b599b2.html
summary(data1) met1 met2 met3
Min. :14.0 Min. :13.0 Min. :11.0
1st Qu.:15.0 1st Qu.:14.0 1st Qu.:11.0
Median :15.0 Median :14.0 Median :12.0
Mean :15.4 Mean :14.4 Mean :12.2
3rd Qu.:16.0 3rd Qu.:15.0 3rd Qu.:13.0
Max. :17.0 Max. :16.0 Max. :14.0
Hipótesis
Hipótesis Nula H0:
No hay diferencias en los rendimientos consistentes promedio entre los tres metodos.
Hipóteis Alternativa H1:
Al menos un metodo tiene una media diferente en los rendimientos consistentes.
Supuestos
Normalidad
#la muestra tiene tamaño menor que 30 entonces usaremos shapiro test para comprobar normalidad.
shapiro.test(data1$met1) # p>0.05
Shapiro-Wilk normality test
data: data1$met1
W = 0.96086, p-value = 0.814
shapiro.test(data1$met2)
Shapiro-Wilk normality test
data: data1$met2
W = 0.96086, p-value = 0.814
shapiro.test(data1$met3)
Shapiro-Wilk normality test
data: data1$met3
W = 0.90202, p-value = 0.4211
# con una significancia del 0.05 podemos afirmar que los datos de cada metodo son normales.Homogeneidad de varianzas
library(car)Loading required package: carData
leveneTest(rendimiento ~ metodo, data=data2)#p>0.05Levene's Test for Homogeneity of Variance (center = median)
Df F value Pr(>F)
group 2 0.1053 0.9009
12
# Hay homogeneidad de varianzas con una significancia de 0.05Independencia
Las muestras son independientes pues la medición se realizo en grupos distintos.
Calculos
SST
media_global <- mean(data2$rendimiento)
SST <- sum((rendimiento - media_global)^2)
SST<-round(SST,2)SSA
media_met1 <- mean(met1)
media_met2<- mean(met2)
media_met3<- mean(met3)
medias <- c(media_met1,media_met2,media_met3)
# Suma de Cuadrados entre Grupos (SSA)
SSA<-sum(5*(medias-media_global)^2) # 5 porque son igual el tamaño de muestra para los tres grupos
SSA<-round(SSA,2)SSE
SSE <- sum((data1$met1 - media_met1)^2) +
sum((data1$met2 - media_met2)^2)+sum((data1$met3 - media_met3)^2)
SSE<-round(SSE,2)verificación
SST[1] 44
SSA[1] 26.8
SSE[1] 17.2
SST == SSA + SSE #se debe cumplir esto[1] TRUE
MSA
k <- 3 # Número de grupos
N <- 15 # Tamaño total de la muestra 10 cada uno
# Cuadrado Medio entre Grupos (MSA)
MSA <- round(SSA / (k - 1),2)
MSA[1] 13.4
MSE
# Cuadrado Medio dentro de los Grupos (MSE)
MSE <- round(SSE / (N - k),2)
MSE[1] 1.43
Estadístico F
# Estadístico F
rF <- round(MSA / MSE,2)
rF[1] 9.37
Tabla ANOVA
Fuente_de_variación<-c("Tratamientos(entre grupos)","Error(dentro de grupos)","Total")
Suma_de_cuadrados<-c(SSA,SSE,SST)
Grados_de_libertad<-c(k-1,N-k,N-1)
Cuadrado_medio<-c(MSA,MSE,"")
RazónF<-c(rF,"","")
pvalor<-c(round(pf(rF,k-1,N-k,lower.tail = F),4),"","")
data.frame(Fuente_de_variación,Suma_de_cuadrados,Grados_de_libertad,Cuadrado_medio,RazónF,pvalor) Fuente_de_variación Suma_de_cuadrados Grados_de_libertad
1 Tratamientos(entre grupos) 26.8 2
2 Error(dentro de grupos) 17.2 12
3 Total 44.0 14
Cuadrado_medio RazónF pvalor
1 13.4 9.37 0.0035
2 1.43
3
Verificación ANOVA
anova<-aov(rendimiento~metodo,data=data2)
summary(anova) Df Sum Sq Mean Sq F value Pr(>F)
metodo 2 26.8 13.400 9.349 0.00357 **
Residuals 12 17.2 1.433
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
TukeyHSD(anova) Tukey multiple comparisons of means
95% family-wise confidence level
Fit: aov(formula = rendimiento ~ metodo, data = data2)
$metodo
diff lwr upr p adj
II-I -1.0 -3.020074 1.0200738 0.4110998
III-I -3.2 -5.220074 -1.1799262 0.0031153
III-II -2.2 -4.220074 -0.1799262 0.0328202
Conclusiòn
El p-valor del ANOVA es menor que 0.05 entonces se rechaza la H0 y se concluye que alguna de las medias de los metodos es diferente. Asì, hay diferencia significativa.
Segun la prueba Tukey concluimos que los metodos I y II son iguales, III-I son diferentes y III-II son diferentes, siendo I y II mayores que III.