Parcial 2 - Metodos

Author

Mariana Franco

Datos

met1<-c(15,16,14,15,17)
met2<-c(14,13,15,16,14)
met3<-c(13,12,11,14,11)

data1<-data.frame(met1,met2,met3)

metodo <- as.factor(rep(c("I", "II", "III"), each = 5))
rendimiento <- c(met1, met2, met3)

data2<-data.frame(metodo,rendimiento)

Descriptivo

# Gráfico de caja y bigotes
boxplot(data1, main = "Rendimiento Consistente",names = c("Metodo I", "Metodo II", "Metodo III"), xlab = "Metodos",ylab = "Rendimiento", col = c("darkslategray1","darkslategray3","darkslategray"), ylim=c(10,17))

# Histograma para cada grupo
par(mfrow = c(1,3))
hist(data1$met1, main = "Metodo I", xlab = "Rendimiento",ylab="Frecuencia", col = "darkslategray1",xlim=c(11,17))
hist(data1$met2, main = "Metodo II", xlab = "Rendimiento", ylab="Frecuencia", col = "darkslategray3",xlim=c(11,17))
hist(data1$met3, main = "Metodo III", xlab = "Rendimiento",ylab="Frecuencia", col = "darkslategray",xlim=c(11,17))

par(mfrow = c(1,1))

Descriptivo Numerico

library(summarytools)
Warning in fun(libname, pkgname): couldn't connect to display ":0"
system might not have X11 capabilities; in case of errors when using dfSummary(), set st_options(use.x11 = FALSE)
view(dfSummary(data1))
Warning in png(png_loc <- tempfile(fileext = ".png"), width = 150 *
graph.magnif, : unable to open connection to X11 display ''
Warning in png(png_loc <- tempfile(fileext = ".png"), width = 150 *
graph.magnif, : unable to open connection to X11 display ''
Warning in png(png_loc <- tempfile(fileext = ".png"), width = 150 *
graph.magnif, : unable to open connection to X11 display ''
Switching method to 'browser'
Output file written: /tmp/RtmpRhyHyM/filef8763b599b2.html
summary(data1)
      met1           met2           met3     
 Min.   :14.0   Min.   :13.0   Min.   :11.0  
 1st Qu.:15.0   1st Qu.:14.0   1st Qu.:11.0  
 Median :15.0   Median :14.0   Median :12.0  
 Mean   :15.4   Mean   :14.4   Mean   :12.2  
 3rd Qu.:16.0   3rd Qu.:15.0   3rd Qu.:13.0  
 Max.   :17.0   Max.   :16.0   Max.   :14.0  

Hipótesis

Hipótesis Nula H0:

No hay diferencias en los rendimientos consistentes promedio entre los tres metodos.

Hipóteis Alternativa H1:

Al menos un metodo tiene una media diferente en los rendimientos consistentes.

Supuestos

Normalidad

#la muestra tiene tamaño menor que 30 entonces usaremos shapiro test para comprobar normalidad.

shapiro.test(data1$met1) # p>0.05

    Shapiro-Wilk normality test

data:  data1$met1
W = 0.96086, p-value = 0.814
shapiro.test(data1$met2)

    Shapiro-Wilk normality test

data:  data1$met2
W = 0.96086, p-value = 0.814
shapiro.test(data1$met3)

    Shapiro-Wilk normality test

data:  data1$met3
W = 0.90202, p-value = 0.4211
# con una significancia del 0.05 podemos afirmar que los datos de cada metodo son normales.

Homogeneidad de varianzas

library(car)
Loading required package: carData
leveneTest(rendimiento ~ metodo, data=data2)#p>0.05
Levene's Test for Homogeneity of Variance (center = median)
      Df F value Pr(>F)
group  2  0.1053 0.9009
      12               
# Hay homogeneidad de varianzas con una significancia de 0.05

Independencia

Las muestras son independientes pues la medición se realizo en grupos distintos.

Calculos

SST

media_global <- mean(data2$rendimiento)

SST <- sum((rendimiento - media_global)^2)
SST<-round(SST,2)

SSA

media_met1 <- mean(met1)
media_met2<- mean(met2)
media_met3<- mean(met3)

medias <- c(media_met1,media_met2,media_met3)

# Suma de Cuadrados entre Grupos (SSA)

SSA<-sum(5*(medias-media_global)^2) # 5 porque son igual el tamaño de muestra para los tres grupos

SSA<-round(SSA,2)

SSE

SSE <- sum((data1$met1 - media_met1)^2) +
       sum((data1$met2 - media_met2)^2)+sum((data1$met3 - media_met3)^2)
SSE<-round(SSE,2)

verificación

SST
[1] 44
SSA
[1] 26.8
SSE
[1] 17.2
SST == SSA + SSE #se debe cumplir esto
[1] TRUE

MSA

k <- 3  # Número de grupos
N <- 15  # Tamaño total de la muestra 10 cada uno

# Cuadrado Medio entre Grupos (MSA)
MSA <- round(SSA / (k - 1),2)
MSA
[1] 13.4

MSE

# Cuadrado Medio dentro de los Grupos (MSE)
MSE <- round(SSE / (N - k),2)
MSE
[1] 1.43

Estadístico F

# Estadístico F
rF <- round(MSA / MSE,2)
rF
[1] 9.37

Tabla ANOVA

Fuente_de_variación<-c("Tratamientos(entre grupos)","Error(dentro de grupos)","Total")

Suma_de_cuadrados<-c(SSA,SSE,SST)

Grados_de_libertad<-c(k-1,N-k,N-1)
Cuadrado_medio<-c(MSA,MSE,"")
RazónF<-c(rF,"","")
pvalor<-c(round(pf(rF,k-1,N-k,lower.tail = F),4),"","")

data.frame(Fuente_de_variación,Suma_de_cuadrados,Grados_de_libertad,Cuadrado_medio,RazónF,pvalor)
         Fuente_de_variación Suma_de_cuadrados Grados_de_libertad
1 Tratamientos(entre grupos)              26.8                  2
2    Error(dentro de grupos)              17.2                 12
3                      Total              44.0                 14
  Cuadrado_medio RazónF pvalor
1           13.4   9.37 0.0035
2           1.43              
3                             

Verificación ANOVA

anova<-aov(rendimiento~metodo,data=data2)
summary(anova)
            Df Sum Sq Mean Sq F value  Pr(>F)   
metodo       2   26.8  13.400   9.349 0.00357 **
Residuals   12   17.2   1.433                   
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
TukeyHSD(anova)
  Tukey multiple comparisons of means
    95% family-wise confidence level

Fit: aov(formula = rendimiento ~ metodo, data = data2)

$metodo
       diff       lwr        upr     p adj
II-I   -1.0 -3.020074  1.0200738 0.4110998
III-I  -3.2 -5.220074 -1.1799262 0.0031153
III-II -2.2 -4.220074 -0.1799262 0.0328202

Conclusiòn

El p-valor del ANOVA es menor que 0.05 entonces se rechaza la H0 y se concluye que alguna de las medias de los metodos es diferente. Asì, hay diferencia significativa.

Segun la prueba Tukey concluimos que los metodos I y II son iguales, III-I son diferentes y III-II son diferentes, siendo I y II mayores que III.