O método para calcular a confiabilidade entre avaliadores dependerá do tipo de dados (categórico, ordinal ou contínuo) e do número de codificadores.

Carregamos a Biblioteca necessária

library(irr)
## Loading required package: lpSolve

Carregamos o dataset com as avaliações local, por street view e realidade virtual

data(diagnoses)
dat <- diagnoses[,1:6]
dat$rater1 = as.integer(dat$rater1)
dat$rater2 = as.integer(dat$rater2)
dat$rater3 = as.integer(dat$rater3)
dat$rater4 = as.integer(dat$rater4)
dat$rater5 = as.integer(dat$rater5)
dat$rater6 = as.integer(dat$rater6)
names(dat) = c("Local_01", "Local_02", "Street_01", "Street_02", "RV_01", "RV_02")
avaliacoes = dat
avaliacoes

Mensuramos a confiabilidade entre avaliadores que realizaram ASV local (Cohen’s Kappa)

kappa2(avaliacoes[,c(1,2)], "squared")
##  Cohen's Kappa for 2 Raters (Weights: squared)
## 
##  Subjects = 30 
##    Raters = 2 
##     Kappa = 0.655 
## 
##         z = 3.91 
##   p-value = 9.37e-05

Mensuramos a confiabilidade entre avaliadores que realizaram ASV por street view (Cohen’s Kappa)

kappa2(avaliacoes[,c(3,4)], "squared")
##  Cohen's Kappa for 2 Raters (Weights: squared)
## 
##  Subjects = 30 
##    Raters = 2 
##     Kappa = 0.647 
## 
##         z = 3.79 
##   p-value = 0.000152

Mensuramos a confiabilidade entre avaliadores que realizaram ASV por Realidade Virtual (Cohen’s Kappa)

kappa2(avaliacoes[,c(5,6)], "squared")
##  Cohen's Kappa for 2 Raters (Weights: squared)
## 
##  Subjects = 30 
##    Raters = 2 
##     Kappa = 0.571 
## 
##         z = 4.12 
##   p-value = 3.86e-05

Mensuramos a confiabilidade entre avaliadores que realizaram ASV local e por street view (Fleiss’ Kappa)

kappam.fleiss(avaliacoes[,1:4])
##  Fleiss' Kappa for m Raters
## 
##  Subjects = 30 
##    Raters = 4 
##     Kappa = 0.489 
## 
##         z = 13 
##   p-value = 0

Mensuramos a confiabilidade entre todos avaliadores que realizaram ASV (Fleiss’ Kappa)

kappam.fleiss(avaliacoes)
##  Fleiss' Kappa for m Raters
## 
##  Subjects = 30 
##    Raters = 6 
##     Kappa = 0.282 
## 
##         z = 11.6 
##   p-value = 0

Coeficiente de Correlação interclasse

Quando a variável for contínua é possível calcular a correlação interclasse (Shrout & Fleiss, 1979).

Somente os sujeitos devem ser considerados como efeitos aleatórios (modelo “oneway”, padrão) ou são sujeitos e avaliadores escolhidos aleatoriamente de um grupo maior de pessoas (modelo “twoway”).

Se as diferenças nas classificações médias dos avaliadores forem de interesse, deve ser calculado o “agreement” entre avaliadores, em vez de “consistency” (padrão).

Se a unidade de análise é uma média de várias classificações, a unidade deve ser alterada para “average”. Na maioria dos casos, no entanto, valores únicos (unit = “single”, padrão) são considerados.

icc(avaliacoes, model="twoway", type="agreement")
##  Single Score Intraclass Correlation
## 
##    Model: twoway 
##    Type : agreement 
## 
##    Subjects = 30 
##      Raters = 6 
##    ICC(A,1) = 0.373
## 
##  F-Test, H0: r0 = 0 ; H1: r0 > 0 
##  F(29,33.7) = 7.03 , p = 1.21e-07 
## 
##  95%-Confidence Interval for ICC Population Values:
##   0.196 < ICC < 0.572
icc(avaliacoes, model="oneway", type="agreement")
##  Single Score Intraclass Correlation
## 
##    Model: oneway 
##    Type : agreement 
## 
##    Subjects = 30 
##      Raters = 6 
##      ICC(1) = 0.345
## 
##  F-Test, H0: r0 = 0 ; H1: r0 > 0 
##   F(29,150) = 4.16 , p = 4.16e-09 
## 
##  95%-Confidence Interval for ICC Population Values:
##   0.198 < ICC < 0.531

Shrout, P. E., & Fleiss, J. L. (1979). Intraclass correlations: Uses in assessing rater reliability. Psychological Bulletin, 86(2), 420–428. https://doi.org/10.1037/0033-2909.86.2.420