(Ejemplo tomado de Wackerly 2008, ex. 15.7, p. 767)
Un ingeniero de control de calidad ha seleccionado muestras independientes de la salida de tres líneas de montaje en una fábrica de electrónica. Para cada línea, ha examinado los defectos que produce en diez horas seleccionadas al azar. ¿Hay evidencia de que el número de defectos por hora es distinto según la línea de producción?
La tarea se divide en los siguientes apartados:
feir50-tarea.csv.pairwise.wilcox.test(). ¿Qué resultados obtienes? ¿Por qué crees que no encuentras diferencias en ninguna pareja?p.adjust().kruskalmc() con el argumento cont.Nota: Para obtener la máxima nota posible se deberá entregar un fichero pdf o HTML creado a partir de un fichero Rmd (que también se enviará) con, al menos, los siguientes apartados:
Para importar datos:
-guardamos el archivo “feir50-tarea.csv” donde queramos que lea archivo.
-establecemos la carpeta working directory en la memomria USB “F:/”
-asignamos los datos al objeto qc
-observamos su encabezado y estructura
getwd()
## [1] "F:/"
setwd("F:/")
qc<-read.table("feir50-tarea.csv ",header = T, sep = ";" )
head(qc)
## linea1 linea2 linea3
## 1 6 34 13
## 2 38 28 35
## 3 3 42 19
## 4 17 13 4
## 5 11 40 29
## 6 30 31 0
str(qc)
## 'data.frame': 10 obs. of 3 variables:
## $ linea1: int 6 38 3 17 11 30 15 16 25 5
## $ linea2: int 34 28 42 13 40 31 9 32 39 27
## $ linea3: int 13 35 19 4 29 0 7 33 18 24
Realizamos un vector que asigna un factor “linea” a cada grupo
linea<-factor(
sort(rep(1:3,10))
)
Concatenamos los 3 vectores linea en uno solo
qc1<-c(qc$linea1,qc$linea2,qc$linea3)
qc1
## [1] 6 38 3 17 11 30 15 16 25 5 34 28 42 13 40 31 9 32 39 27 13 35 19
## [24] 4 29 0 7 33 18 24
los unimos en un data frame
df<-data.frame(linea,qc1)
df
## linea qc1
## 1 1 6
## 2 1 38
## 3 1 3
## 4 1 17
## 5 1 11
## 6 1 30
## 7 1 15
## 8 1 16
## 9 1 25
## 10 1 5
## 11 2 34
## 12 2 28
## 13 2 42
## 14 2 13
## 15 2 40
## 16 2 31
## 17 2 9
## 18 2 32
## 19 2 39
## 20 2 27
## 21 3 13
## 22 3 35
## 23 3 19
## 24 3 4
## 25 3 29
## 26 3 0
## 27 3 7
## 28 3 33
## 29 3 18
## 30 3 24
Ya tenemos listo un dataframe tal como requiere la funcion ‘fligner.test()’
fligner.test(df$qc1, df$linea)
##
## Fligner-Killeen test of homogeneity of variances
##
## data: df$qc1 and df$linea
## Fligner-Killeen:med chi-squared = 0.3962, df = 2, p-value = 0.8203
Como p-value = 0.8203> 0.05 aceptamos la hipótesis de homocedasticidad.
Tambien podemos comprobar HOV mediante el test de Levene
# install.packages("car")
library( car )
## Warning: package 'car' was built under R version 3.1.2
lvt <- leveneTest( qc1 , linea , center="median" )
lvt
## Levene's Test for Homogeneity of Variance (center = "median")
## Df F value Pr(>F)
## group 2 0.1878 0.8298
## 27
Como el p-valor=0.1878 es mayor que \(0.05\) aceptamos la hipótesis de homocedasticidad.
Realizamos la prueba de Kruskal-Wallis.
kruskal.test( qc1 ~ linea, data = df )
##
## Kruskal-Wallis rank sum test
##
## data: qc1 by linea
## Kruskal-Wallis chi-squared = 6.0988, df = 2, p-value = 0.04739
Como p-value = 0.04739<0.05 aceptamos que hay diferencias de numero de defectos entre las líneas de montaje
boxplot(qc)
pairwise.wilcox.test(qc1, linea, p.adjust = "bonferroni", exact = FALSE )
##
## Pairwise comparisons using Wilcoxon rank sum test
##
## data: qc1 and linea
##
## 1 2
## 2 0.077 -
## 3 1.000 0.176
##
## P value adjustment method: bonferroni
Los P-values son siempre >0.05 no encuentra diferencias entre ningun par de grupos. Podria deberse a que el ajuste de Bonferroni es demasiado estricto.
Nota: Exploramos los ajustes posibles
#?p.adjust
pairwise.wilcox.test(qc1, linea, p.adjust ="none", exact = FALSE )
##
## Pairwise comparisons using Wilcoxon rank sum test
##
## data: qc1 and linea
##
## 1 2
## 2 0.026 -
## 3 0.734 0.059
##
## P value adjustment method: none
Sin realizar el ajuste de Bonferroni si encuentra diferencias significativas entre las lineas 1 y 2
#install.packages( "pgirmess" )
library( "pgirmess" )
## Warning: package 'pgirmess' was built under R version 3.1.2
kruskalmc( qc1 ~ linea, data = df,cont="two-tailed")
## Multiple comparison test after Kruskal-Wallis, treatments vs control (two-tailed)
## p.value: 0.05
## Comparisons
## obs.dif critical.dif difference
## 1-2 9.05 8.824411 TRUE
## 1-3 1.45 8.824411 FALSE
Se han encontrado diferencias significativas entre las lineas 1 y 2
Se han encontrado diferencias significativas entre la linea 1 y 2. Sin embargo, al obviar el ajuste de Bonferroni en la comparacion U de Mann-Whitney, podemos cometer error Tipo 1 cuando hay mas de una comparacion significativa. Como solo es significativo en esta comparacion podriamos darla por cierta. Ademas el test de tukey ha encontrado diferencias significativas permitiendo acoplamientos parciales de la distribucion.