Kappa Cohen y CVR de Lawshe

Introducción

En el presente trabajo presentaremos casos de aplicación con los medidores de concordancia de Kappa de Cohen y el CVR y CVI de Lawshe. Una evidente fuente de error resulta producto de la variabilidad inter-observador, cuya variación es posible de estimar a través de los conocidos estudios de concordancia, los cuales tienen como objetivo determinar hasta qué punto dos observadores concuerdan con su medición. Cuando éstos son de tipo verosímiles, se emplea, frecuentemente, el test de Kappa de Cohen, cuyo coeficiente homónimo representa la fuerza de coincidencia entre los dos observadores. Emplearemos Lawshe para establecer una modificación al cálculo de los valores mínimos de aceptación para los ítems en general, pero sobre todo cuando se cuenta con muy pocos panelistas. Se revisa el modelo de Lawshe, se coteja el cálculo contra los valores propuestos por dicho autor y se hace una propuesta complementaria para uso general donde el efecto de tamaño se anula, a fin de contar con una exigencia similar para diversos tamaños de grupos de panelistas.

Objetivos

  • Explicar en términos simples el fundamento teórico del test empleado.

  • Emplear la metodología de cálculo del coeficiente kappa y su forma correcta de interpretación.

Prueba Kappa de Cohen

El kappa de Cohen se utiliza para medir el acuerdo de dos evaluadores (es decir, “jueces”, “observadores”) o métodos de calificación en escalas categóricas. Este proceso de medir hasta qué punto dos evaluadores asignan las mismas categorías o puntaje al mismo tema se llama confiabilidad entre evaluadores. El coeficiente kappa refleja la concordancia inter-observador y puede ser calculado en tablas de cualquier dimensión, siempre y cuando se contrasten dos observadores . El coeficiente kappa puede tomar valores entre -1 y +1. Mientras más cercano a +1, mayor es el grado de concordancia inter-observador, por el contrario, mientras más cercano a -1, mayor es el grado de discordancia inter-observador. Es una medida de concordancia, se centra en comparar la proporción de concordancia observada PO con la proporción de concordancia aleatoria Pe, el objetivo es notar hasta qué nivel dos observaciones coinciden en su medición.

Límites para el grado de acuerdo o grado de concordancia: Propuesto por Landis y Koch

Valor de Kappa de Cohen Fuerza de Concordancia
0,00 Pobre
0,01 - 0,2 Leve
0,21 - 0,4 Aceptable
0,41 - 0,6 Moderada
0,61 - 0,8 Considerable
0,81 - 1,00 Casi perfecta

Tabla de Convergencia

Persona 2
Persona 1 SI NO Total
SI A B FILA1
NO A B FILA2
Total COLUMNA1 COLUMNA2 N

La fórmula de kappa de cohen se define

\[K = \frac{P_{0}-P_{e}}{1-P_{e}}\] Donde:

  • A, B, C, D son los recuentos de los individuos.
  • N = A + B + C +D
  • COLUMNA1= A + C, COLUMNA 2 = B + D, FILA1 = A + B y FILA2 = C + D.

Proporción de concordancia observada o Proporción de acuerdo observado (\(P_{0}\)):

El recuento de valores que tienen de entrada acuerdo, si y si + no y no (diagonal) entre la cantidad total de recuentos. \[P_{0} = \frac{A+D}{N}\]

Proporción de concordancia aleatoria o Proporción de acuerdo de azar (\(P_{e}\)):

  • Hallar la probabilidad que ambos digan si. \[P_{persona1} = \frac{FILA1}{N},P_{persona2} = \frac{COLUMNA1}{N}\] \[P_{si} = P_{persona1}*P_{persona2}\]

  • Hallar la probabilidad que ambos digan np. \[P_{persona } = \frac{FILA2}{N},P_{persona2} = \frac{COLUMNA2}{N}\] \[P_{no} = P_{persona1}*P_{persona2}\]

CVR de Lawshe

Lawshe propone un modelo para determinar un índice cuantitativo para la validez de contenido de un instrumento objetivo. Seguramente es el único índice disponible en la literatura a este respecto porque, a diferencia de la validez referida a criterio que se determina por medio de una correlación, la validez de contenido de un instrumento se determina por medio del acuerdo entre jueces y no se emite un indicador objetivo de validez del instrumento.

Fórmula

\[CVR = \frac{(n_e-N/2)}{N/2}\]

Donde:

  • CVR = Razón de Validez de contenido.
  • N = Número total de expertos.
  • \(n_e\) = Número de expertos que tiene acuerdo en la categoría esencial.

Observación: Toma valores desde -1 hasta +1.

  • CVR negativa: Cuando menos de la mitad de los expertos indica “esencial”.
  • CVR cero: Cuando la mitad de los expertos indica “esencial”.
  • VR positiva: Cuando más de la mitad de los expertos indica “esencial”.

Casos de aplicación

Kappa de Cohen

Se presenta un trabajo por alumno matriculado a dos profesores del curso de Estrategias de Muestreo, ellos van a determinar, según revisión, si los trabajos de los alumnos ingresan en las categorías de aprobado o desaprobado. Son un total de 22 alumnos en el aula.

library(dplyr)
library(readxl)
library(vcd)
(prof <- read_xlsx("profesores.xlsx"))
## # A tibble: 22 x 2
##    Profesor1   Profesor2  
##    <chr>       <chr>      
##  1 Aprobado    Desaprobado
##  2 Aprobado    Desaprobado
##  3 Aprobado    Aprobado   
##  4 Desaprobado Aprobado   
##  5 Desaprobado Desaprobado
##  6 Aprobado    Aprobado   
##  7 Aprobado    Aprobado   
##  8 Desaprobado Aprobado   
##  9 Desaprobado Desaprobado
## 10 Aprobado    Desaprobado
## # ... with 12 more rows
prof1=factor(prof$Profesor1,levels = c("Aprobado","Desaprobado"))
prof2=factor(prof$Profesor2,levels = c("Aprobado","Desaprobado"))

Tabla 2x2

x=table(prof1,prof2)
x
##              prof2
## prof1         Aprobado Desaprobado
##   Aprobado           8           5
##   Desaprobado        4           5

Calculamos Kappa

valor.k <- Kappa(x)
valor.k
##             value    ASE      z Pr(>|z|)
## Unweighted 0.1681 0.2102 0.7996    0.424
## Weighted   0.1681 0.2102 0.7996    0.424

ASE e Intervalos de Confianza

confint(valor.k)
##             
## Kappa               lwr      upr
##   Unweighted -0.2439196 0.580054
##   Weighted   -0.2439196 0.580054

Interpretación

Se calculó la kappa de Cohen para evaluar el acuerdo entre los dos profesores para determinar si los 22 alumnos resultaron con nota aprobatoria o no. Nuestra estimación de la kappa fue de un k = 0.1681, perteneciente a una fuerza de concordancia leve. Asimismo, su intervalo de confianza tiene mucho margen de error (-0.2436 a 0.58). Determinamos que los valores y resultados entre ambas evaluaciones, no tienen relación unos con otros.

CVR de Lawshe

Supóngase que se dispone de un grupo de 6 panelistas que dictaminan una prueba de 7 ítems, obteniéndose este inventario:

tabla <- read_xlsx("tabla.xlsx")
tabla 
## # A tibble: 8 x 4
##   Reactivos  Esen Noesen Noimp
##   <chr>     <dbl>  <dbl> <dbl>
## 1 1             6      0     0
## 2 2             4      1     1
## 3 3             5      0     1
## 4 4             4      2     0
## 5 5             3      1     2
## 6 6             6      0     0
## 7 7             5      1     0
## 8 Suma         33      5     4
tabla %>% 
  mutate(CVR = (Esen-(Esen+Noesen+Noimp)/2)/((Esen+Noesen+Noimp)/2)) -> TABLA1

TABLA1
## # A tibble: 8 x 5
##   Reactivos  Esen Noesen Noimp   CVR
##   <chr>     <dbl>  <dbl> <dbl> <dbl>
## 1 1             6      0     0 1    
## 2 2             4      1     1 0.333
## 3 3             5      0     1 0.667
## 4 4             4      2     0 0.333
## 5 5             3      1     2 0    
## 6 6             6      0     0 1    
## 7 7             5      1     0 0.667
## 8 Suma         33      5     4 0.571

Interpretación

La columna de CVR indica la proporción de acuerdos siguiendo los dos modelos mostrados. Se observa que CVR con el modelo de Lawshe solo acepta los ítems 1 y 6, donde se tiene un CVR=1 (indicado en la tabla para 6 panelistas).