Análisis Gage R&R para datos continuos.

El análisis Gage R&R no es útil para evaluar un producto o proceso, sino para evaluar la habilidad de medir el producto o proceso de una forma precisa y consistente. Un análisis Gage R&R nos permite investigar:

Gage R&R calcula la variación total (VT) a partir de tres fuentes:

  1. Parts o elementos que son medidos.
  2. Appraisers u operarios
  3. Equipment (gage) o equipación de medida.
Descomposición de la variabilidad total: diferencias entre elementos y variabilidad asociada al sistema de medida (Gage R&R).

Descomposición de la variabilidad total: diferencias entre elementos y variabilidad asociada al sistema de medida (Gage R&R).

Gage R&R utiliza la variación total para determinar cuánta de esta variación es atribuible a los aparatos (repetitividad: habilidad de un operador de repetir consistentemente la misma medida del mismo elemento,, utilizando la misma equipación bajo las mismas condiciones) y a los operarios (capacidad de una equipación de medida, utilizada por varios operadores, de reproducir consistentemente la misma medición del mismo elemento bajo las mismas condiciones).

En un análisis Gage consideraremos siempre un factor operario (appraisal) con \(n_o\) niveles, que representa a quien hace la medición (o el aparato de registro), un factor elemento (part) con \(n_p\) niveles, que representa a cada uno de los elementos distintos que se miden, y asumiremos un diseño cross en el que cada operario mide todos los elementos, y cada uno de ellos un número \(n_{run}\) de veces.

La varianza total se puede descomponer por lo tanto según:

\[\sigma^2=\sigma^2_{error}+\sigma^2_{part}+\sigma^2_{operador}+\sigma^2_{operador:part}\] donde \(\sigma^2_{error}\) estará representando el error inherente a la medición, no explicable por variaciones entre los operarios/aparatos que miden, y por lo tanto identifica la consistencia en la medición de un mismo elemento por un mismo operario, esto es, el error de repetitividad, \[\sigma^2_{repetitividad}=\sigma^2_{error}=MSE\], siendo \(MSE\) el cuadrado medio de los residuos.

Cuando la interacción no es significativa, calculamos \(\sigma^2_{operador}\) a partir del cuadrado medio del operador, \(MSO\) y del cuadrado medio del error, \(MSE\), y considerando el número total de mediciones que ha realizado cada operador, que es el producto del número de elementos (parts), \(n_p\) y del número de veces que ha medido cada elemento, \(n_{run}\): \[\sigma^2_{operador}=\frac{MSO-MSE}{n_p \times n_{run}}\] La variabilidad atribuíble a las diferencias entre los elementos (Parts) proviene del cuadrado medio \(MSP\), y se calcula considerando en el denominador el número de mediciones que se han realizado de cada elemento, esto es, el número de operadores \(n_o\) por el número de repeticiones de cada elemento por el mismo operador, \(n_{run}\): \[\sigma^2_{part}=\frac{MSP-MSE}{n_o \times n_{run}}.\]

Cuando hay interacción, la variabilidad atribuíble a reproducibilidad se obtiene de la del operador y la de su interacción con los elementos (considerando posibles variaciones en el comportamiento del operador al medir distintos elementos): \[\sigma^2_{reproducibilidad}=\sigma^2_{operador}+\sigma^2_{operador:part}\]

La variabilidad Gage se calcula con las componentes de repetitividad y reproducibilidad: \[\sigma^2_{Gage}=\sigma^2_{repetitividad}+\sigma^2_{reproducibilidad}\]

Una vez calculada la descomposición de la varianza del proceso, el sistema de medida lo evaluaremos en términos de:

Típicamente, la variación del proceso (Study Variation) se define como \(6s\), siendo \(s\) la desviación estándar, estimación de \(\sigma\). Cuando los datos se distribuyen Normal, aproximadamente el \(99.73\%\) de los datos caen dentro de 6 desviaciones estándar (a \(\pm 3\) desviaciones estándar de la media), y aproximadamente el \(99\%\) de los datos caen entre \(5.15\) desviaciones estándar (a \(\pm 2.575\) desviaciones estándar de la media). Fte: Minitab https://goo.gl/WLNaMo


If the Total Gage R&R contribution in the %Study Var column (% Tolerance, %Process) is:

Less than 10% - the measurement system is acceptable. Between 10% and 30% - the measurement system is acceptable depending on the application, the cost of the measuring device, cost of repair, or other factors. Greater than 30% - the measurement system is unacceptable and should be improved.

If you are looking at the %Contribution column, the corresponding standards are:

Fte: Minitab tutorial https://goo.gl/RgfCJv



Which metric to use Use %Tolerance or %StudyVar to evaluate the measuring system, depending on the measuring system. • If the measurement system is used for process improvement (reducing part-to-part variation), %StudyVar is a better estimate of measurement precision. • If the measurement system evaluates parts relative to specifications, %Tolerance is a more appropriate metric. Fte: Minitab https://goo.gl/WLNaMo



Según el Automobile Industry Action Group (AIAG):


También los gráficos ayudan a visualizar problemas en el sistema de medida.

\[lim_{sup}=Rmedio \cdot ( 1+d_3/d_2); lim_{inf}=Rmedio \cdot( 1-d_3/d_2)\]

Si el gráfico R Chart por operador es tal que todos los puntos caen dentro del intervalo delimitado por los límites anteriores, significa que el operador mide consistentemente todos los elementos, esto es, que no hay problemas de repetitividad. Si hay puntos fuera, significa que para algunos elementos las mediciones de un mismo operador son muy dispares (hay mayor variabilidad) y por lo tanto manifiesta problemas de repetitividad.

Nos permitirá detectar problemas de reproducibilidad (promedios muy diferentes para diferentes operadores).

Ejemplo1: PILAS

Ejemplo 5.1 (voltaje en pilas, de Cano et al 2013) proporciona un ejemplo desarrollado para el cálculo del estudio Gage R&R completo. Un fabricante de baterías hace varios tipos de baterías/pilas para uso doméstico. El BB de la compañía quiere empezar un proyecto Seis Sigma para mejorar la línea de producción de las pilas de voltaje 1.5. Ha relacionado la CTQ identificada en la fase I (Definir) mediante la variable output “voltaje”. Ahora el sistema de medida ha de ser evaluado antes de comenzar otros análisis. Hay 2 voltímetros disponibles y 3 pilas diferentes son seleccionadas al azar al final de la línea de producción. Se mide el voltaje de cada pila con cada voltímetro 3 veces. Los datos son los siguientes:

voltmeter = factor(rep(1:2, each = 9))
battery = factor(rep(rep(1:3, each = 3), 2))
run = factor(rep(1:3, 6))
voltage = c(1.4727, 1.4206, 1.4754, 1.5083, 1.5739, 1.4341, 1.5517, 1.5483, 1.4614, 
            1.3337,1.6078, 1.4767, 1.4066, 1.5951, 1.8419,1.7087, 1.8259, 1.5444)
batteries = data.frame(voltmeter, battery,run, voltage)
ggplot(batteries,aes(voltmeter,voltage))+geom_boxplot(aes(colour=battery))

El objetivo en un proyecto de mejora es poder discriminar entre las pilas (parts). El voltímetro hace el papel de operador/aparato que realiza la medida (appraisal).

Utilizamos la función de la librería SixSigma que proporciona el análisis Gage R&R íntegro, incluida la tabla de ANOVA y la descomposición Gage de la varianza:

library(SixSigma)
#ss.rr(var, part, appr, data, main, sub)
my.rr <- ss.rr(var = voltage, part = battery,
               appr = voltmeter,
               data = batteries,
               main = "Six Sigma Gage R&R Measure",
               sub = "Batteries Project MSA")
## Complete model (with interaction):
## 
##                   Df  Sum Sq Mean Sq F value Pr(>F)
## battery            2 0.06308 0.03154   3.415  0.227
## voltmeter          1 0.04444 0.04444   4.812  0.160
## battery:voltmeter  2 0.01847 0.00924   0.584  0.573
## Repeatability     12 0.18982 0.01582               
## Total             17 0.31582                       
## 
## alpha for removing interaction: 0.05 
## 
## 
## Reduced model (without interaction):
## 
##               Df  Sum Sq Mean Sq F value Pr(>F)
## battery        2 0.06308 0.03154   2.120  0.157
## voltmeter      1 0.04444 0.04444   2.987  0.106
## Repeatability 14 0.20829 0.01488               
## Total         17 0.31582                       
## 
## Gage R&R
## 
##                       VarComp %Contrib
## Total Gage R&R    0.018162959    86.74
##   Repeatability   0.014878111    71.05
##   Reproducibility 0.003284848    15.69
##     voltmeter     0.003284848    15.69
## Part-To-Part      0.002777127    13.26
## Total Variation   0.020940086   100.00
## 
##                       StdDev  StudyVar %StudyVar
## Total Gage R&R    0.13477002 0.8086201     93.13
##   Repeatability   0.12197586 0.7318552     84.29
##   Reproducibility 0.05731359 0.3438816     39.61
##     voltmeter     0.05731359 0.3438816     39.61
## Part-To-Part      0.05269846 0.3161907     36.42
## Total Variation   0.14470690 0.8682414    100.00
## 
## Number of Distinct Categories = 1

Conclusiones del análisis Gage para el Ejemplo1

A la vista de los resultados del análisis Gage R&R, la componente de la varianza asociada al sistema de medida constituye un 84,15% de la variabilidad total. El sistema de medida adolece de un problema claro. La variabilidad asociada a las diferencias entre las pilas que se miden sólo representa un 15,85% de la variabilidad total. La interacción entre voltímetro y pilas es despreciable.

El número de categorías distintas es 1, de modo que el sistema de medida no es aceptable.

Observando el gráfico resultante, la interpretación es la siguiente:

  • Var By Part: muestra las mediciones obtenidas para los diferentes elementos considerados, y traza una línea entre los promedios para cada elemento, que muestra las tendencias en cuanto a mediciones. Permite apreciar diferencias entre elementos a través de las mediciones que se han realizado de cada uno de ellos. Las mediciones del voltímetro 2 son mucho más variables que las realizadas con el voltímetro 1. Hay diferencias claras entre los voltímetros.
  • Var By Appraiser: muestra las mediciones obtenidas para los diferentes elementos considerados, y traza una línea entre los promedios para cada elemento, que muestra las tendencias en cuanto a mediciones. Permite apreciar diferencias entre operarios/herramientas con las mediciones que ha realizado cada uno de ellos. Las mediciones del voltímetro 2 son mucho más variables que las del voltímetro 1, y en promedio algo superiores. Hay diferencias claras entre los voltímetros, y las deficiencias (variabilidad) se manifiestan en el voltímetro 2.
  • Part x Appraiser Interaction: muestra el promedio de las mediciones de cada uno de los elementos que ha realizado cada operario/herramienta, y traza líneas de tendencia para cada operario/herramienta. Permite apreciar diferencias entre operarios a la hora de medir los distintos elementos. El voltímetro 2 mide de forma diferente (en promedio) cada una de las tres pilas, mientras que el voltímetro 1 es más estable en sus mediciones de las tres pilas. Sin embargo, la tendencia en las mediciones es similar para los dos voltímetros (no se cruzan las líneas o cambian de dirección, lo que daría idea de interacción latente). La interacción es irrelevante.
  • Components of Variation: representa el %Contribution (contribución a la varianza total) y %StudyVar (contribución a la desviación típica) asociadas al sistema de medida. La variabilidad asociada al sistema de medida es claramente muy superior a la asociada a las diferencias entre los elementos, lo que manifiesta la debilidad del sistema de medida. Gráficamente se aprecia muy bien el problema más grave detectado: repetitividad.
  • R Chart by Appraiser: Claramente el voltímetro 2 ha generado mucha más variabilidad al medir cualquiera de las tres pilas que el voltímetro 2. El rango medio y el intervalo de control queda en la zona central de los gráficos generados por los dos voltímetros, cuyas mediciones quedan en extremos opuestos. Se aprecia el problema de repetitividad provocado por el voltímetro 2.
  • xbar Chart by appraiser: es similar al gráfico Part*appraiser Interaction. El voltímetro 1 es más estable en sus mediciones de las tres pilas que el voltímetro 2, que provoca una media global superior a la obtenida en todas las mediciones del primer voltímetro. Hay diferencias claras a la hora de medir entre los dos voltímetros, y muchas diferencias en las mediciones de las tres pilas por el voltímetro 2. Se aprecia el problema de reproducibilidad ocasionado por las diferencias entre las mediciones de las pilas por diferentes voltímetros.

Ejemplo 2. GLOBOS

Disponemos de 120 mediciones del perímetro de un total de 8 globos distintos (identificados por su color) por 5 medidores (persona). Cada uno de ellos ha realizado n=3 mediciones de cada globo.

load("globos.RData")
library(SixSigma)
my.rr <- ss.rr(var = perimetro, part = color, appr = persona,data = glob,
               main = "Six Sigma Gage R&R Measure", sub = "Globos")
## Complete model (with interaction):
## 
##                Df Sum Sq Mean Sq F value   Pr(>F)
## color           7  13191  1884.4 460.002  < 2e-16
## persona         4      2     0.4   0.109    0.978
## color:persona  28    115     4.1   4.868 1.34e-08
## Repeatability  80     67     0.8                 
## Total         119  13375                         
## 
## alpha for removing interaction: 0.05 
## 
## Gage R&R
## 
##                       VarComp %Contrib
## Total Gage R&R      1.9264787     1.51
##   Repeatability     0.8414687     0.66
##   Reproducibility   1.0850100     0.85
##     persona         0.0000000     0.00
## color:persona       1.0850100     0.85
## Part-To-Part      125.3533112    98.49
## Total Variation   127.2797899   100.00
## 
##                      StdDev  StudyVar %StudyVar
## Total Gage R&R     1.387976  8.327859     12.30
##   Repeatability    0.917316  5.503896      8.13
##   Reproducibility  1.041638  6.249829      9.23
##     persona        0.000000  0.000000      0.00
## color:persona      1.041638  6.249829      9.23
## Part-To-Part      11.196129 67.176776     99.24
## Total Variation   11.281835 67.691007    100.00
## 
## Number of Distinct Categories = 11

¿Qué conclusiones extraes del análisis Gage para el Ejemplo2?

Ejemplo 3. LIBRERÍA qualityTools

La librería qualityTools nos ofrece funciones tanto pora generar datos (diseños) con los que llevar a cabo un análisis Gage, como las propias para realizar el análisis Gage, con varianzas y gráficos.

library(qualityTools)
# Generamos un conjunto de datos en el que van a intervenir 3 operadores que medirán 10 elementos distintos, y 2 veces cada uno de ellos:
temp = gageRRDesign(Operators=3,Parts=10,Measurements=2, randomize = FALSE)

# Especificamos la variable respuesta (mediciones) y la asignamos dentro del diseño
y = c(23,22,22,22,22,25,23,22,23,22,20,22,22,22,24,25,27,28,23,24,23,24,24,22,
      22,22,24,23,22,24,20,20,25,24,22,24,21,20,21,22,21,22,21,21,24,27,25,27,
      23,22,25,23,23,22,22,23,25,21,24,23)
response(temp) = y

# Si queremos utilizar los datos generados como un data.frame cualquiera, habremos de convertirlo:
temp.f=as.data.frame(temp)
# Graficamos los datos para ver diferencias entre operadores y entre elementos:
ggplot(temp.f,aes(Part,Measurement))+geom_boxplot(aes(colour=Operator))

Realizamos el análisis Gage R&R con

gdo = gageRR(temp)
## 
## AnOVa Table -  crossed Design
##               Df Sum Sq Mean Sq F value   Pr(>F)
## Operator       2  20.63  10.317   8.597  0.00112
## Part           9 107.07  11.896   9.914 7.31e-07
## Operator:Part 18  22.03   1.224   1.020  0.46732
## Residuals     30  36.00   1.200                 
## 
## ----------
## AnOVa Table Without Interaction -  crossed Design
##             Df Sum Sq Mean Sq F value   Pr(>F)
## Operator     2  20.63  10.317   8.533 0.000675
## Part         9 107.07  11.896   9.840 2.39e-08
## Residuals   48  58.03   1.209                 
## 
## ----------
## 
## Gage R&R
##                  VarComp VarCompContrib Stdev StudyVar StudyVarContrib
## totalRR            1.664          0.483 1.290     7.74           0.695
##  repeatability     1.209          0.351 1.100     6.60           0.592
##  reproducibility   0.455          0.132 0.675     4.05           0.364
##    Operator        0.455          0.132 0.675     4.05           0.364
##    Operator:Part   0.000          0.000 0.000     0.00           0.000
## Part to Part       1.781          0.517 1.335     8.01           0.719
## totalVar           3.446          1.000 1.856    11.14           1.000
## 
## ---
##  * Contrib equals Contribution in %
##  **Number of Distinct Categories (truncated signal-to-noise-ratio) = 1
#que nos proporciona por un lado la descripción cuantitativa
summary(gdo)
## 
## Operators:    3  Parts:   10
## Measurements:     2  Total:   60
## ----------
## 
## AnOVa Table -  crossed Design
##               Df Sum Sq Mean Sq F value   Pr(>F)
## Operator       2  20.63  10.317   8.597  0.00112
## Part           9 107.07  11.896   9.914 7.31e-07
## Operator:Part 18  22.03   1.224   1.020  0.46732
## Residuals     30  36.00   1.200                 
## 
## ----------
## AnOVa Table Without Interaction -  crossed Design
##             Df Sum Sq Mean Sq F value   Pr(>F)
## Operator     2  20.63  10.317   8.533 0.000675
## Part         9 107.07  11.896   9.840 2.39e-08
## Residuals   48  58.03   1.209                 
## 
## ----------
## 
## Gage R&R
##                  VarComp VarCompContrib Stdev StudyVar StudyVarContrib
## totalRR            1.664          0.483 1.290     7.74           0.695
##  repeatability     1.209          0.351 1.100     6.60           0.592
##  reproducibility   0.455          0.132 0.675     4.05           0.364
##    Operator        0.455          0.132 0.675     4.05           0.364
##    Operator:Part   0.000          0.000 0.000     0.00           0.000
## Part to Part       1.781          0.517 1.335     8.01           0.719
## totalVar           3.446          1.000 1.856    11.14           1.000
## 
## ---
##  * Contrib equals Contribution in %
##  **Number of Distinct Categories (truncated signal-to-noise-ratio) = 1

Y por otro lado obtenemos los gráficos:

plot(gdo)

Análisis Gage R&R para datos cualitativos

Cuando las variables son de tipo cualitativo, con datos que no se miden sino que se cuentan , también se pueden cometer errores de recuento. Veamos a continuación cómo validar un sistema de medida para este tipo de datos. Un ejemplo sencillo de sistemas de medida con datos categóricos es la revisión de un conjunto de piezas y su clasificación como defectuosas o no defectuosas.

En este tipo de sistemas hemos de preocuparnos, además de por la repetitividad (suponer que el observador va a ver lo mismo en dos o más observaciones distintas) y la reproducibilidad (suponer que dos observadores van a ver lo mismo cuando realizan la misma observación), por la exactitud. La exactitud está ligada a la decisión que toma un observador cuando discrimina un defecto: puede ver un defecto que no existe, o no ver un defecto que existe.

Un mismo observador puede ser consistente en sus observaciones de un mismo elemento (repetitividad ok), pero dar una clasificación (defecto/no defecto) incorrecta. El sistema será repetible pero no exacto. Asimismo, varios observadores pueden ser consistentes en sus observaciones, pero éstas no ser correctas porque no han discriminado correctamente el defecto; el sistema sería reproducible pero no exacto.

El análisis del sistema de medida con datos categóricos tiene en cuenta ambos conceptos:

Exactitud en la medición de variables cualitativas. Identificación de defectos.

Exactitud en la medición de variables cualitativas. Identificación de defectos.

La exactitud de una inspección se mide a través de los defectos identificados correctamente, esto es, con el cociente entre: + los defectos reales que fueron identificados como tales tras una revisión de la primera inspección sobre los defectos declarados allí: los rechazados por el observador (a) menos los que han sido rechazados sin tener defectos (c), + los defectos totales, esto es, todos los detectados en una segunda inspección o revisión: los identificados entre los clasificados como defectos en la primera inspección, más los que no se identificaron como defectos en dicha primera inspección (a-c) y pasaron inadvertidos (b).

\[Exactitud = \frac{defectos \cdot reales \cdot identificados \cdot (a-c)}{defectos \cdot totales \cdot (a-c+b)}\]

Al pretender testar también la repetitividad y la reproducibilidad, será necesario también comparar las decisiones de un mismo inspector en diferentes observaciones, y las de diferentes observadores en varias mediciones. Con todo ello podremos evaluar de modo completo, E+ R&R, el método de recogida de información o sistema de medida.

El método para realizar estudios E+R&R con variables categóricas es sencillo. Básicamente se trata de realizar diferentes observaciones y revisiones de un conjunto de elementos y clasificarlos en la categoría que corresponda:

Para evaluar el sistema introducimos los datos: observador1 (defecto/no-defecto), observador2 (d/nd), inspección (d/nd), observación (1/2).

Ejemplo 4. LACASITOS

Se considera una muestra de 20 Lacasitos que son evaluados cuidadosamente por un inspector para reconocer los defectuosos de los no defectuosos. A continuación dos miembros de cada equipo, que desconocen la clasificación correcta, realizan su comprobación en dos momentos diferentes, para evaluar repetitividad y reproducibilidad.

load("lacasitos.RData")
 # part= identificador del lacasito (de 1 a 20)
  # patt=patrón o clasificación correcta (1=ok, 0=defectuoso)
  # appr=observador/inspector (1 y 2)
  # rev=revisión que realiza cada observador (1 y 2)
# result=clasificación del observador (1=ok, 0=defectuoso)

# Y cargamos una función propia para resolver el análisis de un sistema de medida binario
source("gagerr-binario.R")
gage.rr.binary(part,appr,patt,rev,result,lacasitos)
## $Repetitivity
##            inspected matched.rev Repetitivity Repet.IC95.1 Repet.IC95.2
## Inspector1        20          10         50 %      29.93 %      70.07 %
## Inspector2        20          19         95 %      73.06 %      99.74 %
## 
## $Repetitivity.Exact
##            inspected matched.patt Repetitivity.Exact Repet.Exact.IC95.1
## Inspector1        20            8               40 %            19.98 %
## Inspector2        20           11               55 %            32.05 %
##            Repet.Exact.IC95.2
## Inspector1            63.59 %
## Inspector2            76.17 %
## 
## $Reproducibility
##         inspected matched.rev Reproducibility Reprod.IC95.l Reprod.IC95.u
## Results        40          29          72.5 %       55.86 %       84.86 %
## 
## $Reproducibility.Exact
##         inspected matched.patt Reproducibility.Exact Reprod.Exact.IC95.l
## Results        40           22                  55 %             38.66 %
##         Reprod.Exact.IC95.u
## Results              70.4 %

Las conclusiones son las siguientes:

Repetitividad El inspector1 es menos consistente en sus dos inspecciones (sólo coinciden un 50% de las inspecciones en las dos revisiones que realiza), mientras que el inspector2 resulta bastante consistente con un 95% de coincidencias entre ambas revisiones. Los intervalos de confianza mantienen la misma conclusión.

Repetitividad y Exactitud El inspector1 además de inconsistente es poco fiable a la hora de identificar lacasitos defectuosos, sólo con un 40% de detecciones correctas. El inspector2 aunque consistente, es poco preciso y sólo identifica correctamente -siendo consistente en su juicio las dos ocasiones que revisa- un 55% de los lacasitos.

Reproducibilidad De las 40 inspecciones realizadas por cada uno de los 2 inspectores, ambos han coincidido en un 72,5% de los lacasitos, si bien el intervalo de confianza queda entre 56% y 85%, lo que da poca fiabilidad a la reproducibilidad de las inspecciones.

Reproducibilidad y Exactitud El porcentaje baja al 55% cuando exigimos a la par coincidencia en los juicios de los inspectores e identificación correcta de los defectuosos. Hay problemas de reproducibilidad, aunque no tan severos como los de repetitividad para el inspector2, y de exactitud.

Referencias

Cómo interpretar el resultado de un análisis Gage R&R. Tutorial de Minitab http://blog.minitab.com/blog/quality-data-analysis-and-statistics/how-to-interpret-gage-output-part-2

How are the variance components calculated. In Minitab https://goo.gl/wBPSts

Tutorial de la librería qualityTools https://cran.r-project.org/web/packages/qualityTools/vignettes/qualityTools.pdf