1 Enunciado

(Ejemplo tomado de Wackerly 2008, ex. 15.7, p. 767)

Un ingeniero de control de calidad ha seleccionado muestras independientes de la salida de tres líneas de montaje en una fábrica de electrónica. Para cada línea, ha examinado los defectos que produce en diez horas seleccionadas al azar. ¿Hay evidencia de que el número de defectos por hora es distinto según la línea de producción?

La tarea se divide en los siguientes apartados:

Leer los datos del archivo feir50-tarea.csv.
Comprobar homogeneidad de varianzas. Se puede usar la prueba de Levene o el test de Fligner-Killen.
Realizar prueba de Kruskal-Wallis (pista: sí se encuentran diferencias).
Realizar análisis post-hoc:
- Representar los datos según la línea de montaje mediante un boxplot.
- Realizar todas las comparaciones posibles con pairwise.wilcox.test(). ¿Qué resultados obtienes? ¿Por qué crees que no encuentras diferencias en ninguna pareja?
- Comparaciones planificadas: Realizar comparaciones entre las líneas en las que se intuya que están las diferencias (una pista puede encontrarse en el gráfico boxplot). Posibles opciones:
  - Mann-Whitney por parejas a mano y corregir significación con p.adjust().
  - Utilizar kruskalmc() con el argumento cont.

Nota: Para obtener la máxima nota posible se deberá entregar un fichero pdf o HTML creado a partir de un fichero Rmd (que también se enviará) con, al menos, los siguientes apartados:

2 Solución

2.1 Importación de datos.

Para importar datos:

-guardamos el archivo “feir50-tarea.csv” donde queramos que lea archivo.

-establecemos la carpeta working directory en la memomria USB “F:/”

-asignamos los datos al objeto qc

-observamos su encabezado y estructura

getwd()

## [1] "F:/"

setwd("F:/")
qc<-read.table("feir50-tarea.csv ",header = T, sep = ";" )
head(qc)

##   linea1 linea2 linea3
## 1      6     34     13
## 2     38     28     35
## 3      3     42     19
## 4     17     13      4
## 5     11     40     29
## 6     30     31      0

str(qc)

## 'data.frame':    10 obs. of  3 variables:
##  $ linea1: int  6 38 3 17 11 30 15 16 25 5
##  $ linea2: int  34 28 42 13 40 31 9 32 39 27
##  $ linea3: int  13 35 19 4 29 0 7 33 18 24

2.2 Análisis de homogeneidad de varianza.

Realizamos un vector que asigna un factor “linea” a cada grupo

linea<-factor(
              sort(rep(1:3,10))
              )

Concatenamos los 3 vectores linea en uno solo

qc1<-c(qc$linea1,qc$linea2,qc$linea3)
qc1

##  [1]  6 38  3 17 11 30 15 16 25  5 34 28 42 13 40 31  9 32 39 27 13 35 19
## [24]  4 29  0  7 33 18 24

los unimos en un data frame

df<-data.frame(linea,qc1)
df

##    linea qc1
## 1      1   6
## 2      1  38
## 3      1   3
## 4      1  17
## 5      1  11
## 6      1  30
## 7      1  15
## 8      1  16
## 9      1  25
## 10     1   5
## 11     2  34
## 12     2  28
## 13     2  42
## 14     2  13
## 15     2  40
## 16     2  31
## 17     2   9
## 18     2  32
## 19     2  39
## 20     2  27
## 21     3  13
## 22     3  35
## 23     3  19
## 24     3   4
## 25     3  29
## 26     3   0
## 27     3   7
## 28     3  33
## 29     3  18
## 30     3  24

2.2.1 Test de Fligner-Killeen

Ya tenemos listo un dataframe tal como requiere la funcion ‘fligner.test()’

fligner.test(df$qc1, df$linea)

## 
##  Fligner-Killeen test of homogeneity of variances
## 
## data:  df$qc1 and df$linea
## Fligner-Killeen:med chi-squared = 0.3962, df = 2, p-value = 0.8203

Como p-value = 0.8203> 0.05 aceptamos la hipótesis de homocedasticidad.

2.2.2 Test de Levene

Tambien podemos comprobar HOV mediante el test de Levene

# install.packages("car")
library( car )

## Warning: package 'car' was built under R version 3.1.2

lvt <- leveneTest( qc1 , linea ,  center="median" ) 
lvt

## Levene's Test for Homogeneity of Variance (center = "median")
##       Df F value Pr(>F)
## group  2  0.1878 0.8298
##       27

Como el p-valor=0.1878 es mayor que \(0.05\) aceptamos la hipótesis de homocedasticidad.

2.3 Prueba de Kruskal-Wallis.

Realizamos la prueba de Kruskal-Wallis.

kruskal.test( qc1 ~ linea, data = df )

## 
##  Kruskal-Wallis rank sum test
## 
## data:  qc1 by linea
## Kruskal-Wallis chi-squared = 6.0988, df = 2, p-value = 0.04739

Como p-value = 0.04739<0.05 aceptamos que hay diferencias de numero de defectos entre las líneas de montaje

2.4 Comparaciones a post-hoc.

2.4.1 representación gráfica

boxplot(qc)

2.4.2 Comparacion de U de Mann-Whitney para cada par de grupo

2.4.2.1 Ajuste de Bonferroni

pairwise.wilcox.test(qc1, linea, p.adjust = "bonferroni", exact = FALSE )

## 
##  Pairwise comparisons using Wilcoxon rank sum test 
## 
## data:  qc1 and linea 
## 
##   1     2    
## 2 0.077 -    
## 3 1.000 0.176
## 
## P value adjustment method: bonferroni

Los P-values son siempre >0.05 no encuentra diferencias entre ningun par de grupos. Podria deberse a que el ajuste de Bonferroni es demasiado estricto.

Nota: Exploramos los ajustes posibles

#?p.adjust

2.4.2.2 Sin ajuste

pairwise.wilcox.test(qc1, linea, p.adjust ="none", exact = FALSE )

## 
##  Pairwise comparisons using Wilcoxon rank sum test 
## 
## data:  qc1 and linea 
## 
##   1     2    
## 2 0.026 -    
## 3 0.734 0.059
## 
## P value adjustment method: none

Sin realizar el ajuste de Bonferroni si encuentra diferencias significativas entre las lineas 1 y 2

2.4.3 Test de Tukey

#install.packages( "pgirmess" )
library( "pgirmess" )

## Warning: package 'pgirmess' was built under R version 3.1.2

kruskalmc( qc1 ~ linea, data = df,cont="two-tailed")

## Multiple comparison test after Kruskal-Wallis, treatments vs control (two-tailed) 
## p.value: 0.05 
## Comparisons
##     obs.dif critical.dif difference
## 1-2    9.05     8.824411       TRUE
## 1-3    1.45     8.824411      FALSE

Se han encontrado diferencias significativas entre las lineas 1 y 2

3 Conclusiones.

Se han encontrado diferencias significativas entre la linea 1 y 2. Sin embargo, al obviar el ajuste de Bonferroni en la comparacion U de Mann-Whitney, podemos cometer error Tipo 1 cuando hay mas de una comparacion significativa. Como solo es significativo en esta comparacion podriamos darla por cierta. Ademas el test de tukey ha encontrado diferencias significativas permitiendo acoplamientos parciales de la distribucion.

50C. Tarea: Prueba de Kruskal-Wallis

Jose Enrique Criado Ruiz

16/12/2014