A imaginação é
mais importante do que o conhecimento. O conhecimento é limitado. A
imaginação circunda o mundo.(Einstein)
Assim, é possível aferir a dificuldade de uma questão como a exposta na Figura 01, a qual compõe o Enem 2009, estabelecendo possíveis discussões sobre sua construção, seus distratores e verificando se ela tem potencial para discriminar, ou seja, avaliar habilidades distintas entre os sujeitos avaliados. Essa dificuldade, o potencial de distinção de um indivíduo para o outro e a probabilidade de acerto ao acaso vão explicar, por exemplo, que indivíduos com o mesmo número de acertos possuam uma pontuação diferente no Enem. Algumas pessoas atribuem esse aspecto a pesos diferenciados entre as questões, mas na realidade trata-se da possibilidade de identificar questões mais fáceis e mais difíceis, após a chamada calibração do item. Esses métodos matemáticos serão abordados na seção 2.
Figura 01 -
Questão 18: Enade 2009
O livro está organizado de forma a apresentar a evolução histórica das técnicas relativas a TRI, seus conceitos subjacentes, o funcionamento estatístico e interpretação dos parâmetros obtidos nas calibrações, conforme literatura da área. Apresenta-se também linhas de programação explicadas para serem utilizadas para calibrar testes diversos com a utilização da linguagem R. Em um último capítulo consta uma aplicação para o Enade 2017 para a Licenciatura em Matemática. Na próxima seção será explorado o contexto histórico da TRI, cuja evolução dependeu do avanço das tecnologias computacionais.
Contudo, a aplicação dos métodos da TCT a testes comportamentais ou de cognição têm suas métricas impactadas pelo objeto a ser medido, ou seja, pelos respondentes. Em 1928, Thurstone já apontava que a validade dos instrumentos era prejudicada pela técnica.
Um instrumento de medida, na sua função de medir, não pode ser seriamente afetado pelo objeto de medida. Na extensão em que sua função de medir for assim afetada, a validade do instrumento é prejudicada ou limitada. Se um metro mede diferentemente pelo fato de estar medindo um tapete, uma pintura ou um pedaço de papel, então nesta mesma extensão a confiança neste metro como instrumento de medida é prejudicada. Dentro dos limites de objetos para os quais o instrumento de medida foi produzido, sua função deve ser independente da medida do objeto. (Thurstone, 1928 apud Pasquali; 2018, p.100).
Todo esse arcabouço de conceitos que fazem parte da TRI, foram criados para superar uma fragilidade da TCT, na qual o instrumento de medida é dependente das características dos respondentes que se submetem ao teste. (Araújo; Andrade; Bortoloti, 2009). Nesse contexto, ambos os métodos são utilizados de forma complementar, com a segunda sendo usada na exploração da construção técnica dos instrumentos, como no caso da verificação de possíveis erros de gabarito e a primeira para análise das questões (doravante chamados de itens) e para construção de uma escala pedagógica de habilidades/atitudes/comportamento. Seus pressupostos teóricos serão definidos na próxima seção.
Contudo, Andrade, Tavares e Valle (2000) argumentam que qualquer desempenho humano é sempre multideterminado ou multimotivado, dado que mais de um traço latente entra na execução de qualquer tarefa. Assim, para satisfazer a unidimensionalidade é suficiente admitir que haja uma aptidão dominante responsável pelo desempenho num conjunto de itens de um teste. Salienta-se que existem modelos para a TRI multidimensionais, na qual mais de uma dimensão do traço latente está envolvido (a chamada TRIM – Teoria da Resposta ao Item Multidimensional), que é detalhada nos estudos de Nojosa (2002), Barbetta, Trevisan e Tavares (2014) e Tezza (2012), entre outros. A próxima seção traz o contexto dos aspectos favoráveis e limitações de utilização dos modelos estatísticos da TRI.
Do ponto de vista prático, itens de resposta livre são difíceis de usar em um teste. Em particular, eles são difíceis de pontuar de maneira confiável. Como resultado, a maioria dos testes utilizados na teoria de resposta ao item consiste em itens de múltipla escolha. Estes são pontuados de forma dicotômica, com a resposta correta recebendo uma pontuação de um e cada um dos distratores gerando uma pontuação de zero. Itens pontuados de forma dicotômica são frequentemente referidos como itens binários.
A comparação entre provas é um dos maiores trunfos da TRI, haja vista que pela TCT isso não é possível, pois as estatísticas são centralizadas nos escores dos participantes de um teste. Esse processo de comparação é denominado equalização e será abordada na seção 6. Entretanto, Pasquali (2018) considera como limitação ou desvantagem da TRI, a necessidade de um banco de itens, porque isso requer uma equipe especializada nos diversos temas dos itens, sejam cognitivos ou psicológicos. Além disso, a entrada de itens no banco exige a calibração e equiparação, envolvendo técnicas computacionais sofisticadas, mas nem sempre consensuais entre os pesquisadores. Assim, um banco de itens não pode simplesmente ser comprado ou estar à disposição sem as devidas adaptações alicerçadas cientificamente. Na próxima seção será introduzido o funcionamento da TRI, do ponto de vista estatístico.
Nesse estudo serão explicados os modelos acumulativos dicotômicos e dicotomizáveis (ML1P, ML2P e ML3P), além do Modelo de Resposta Nominal, por apresentarem maior possibilidade de aplicação prática na esfera da Educação, conforme trata a próxima seção.
Os parâmetros, ou características dos itens, que permitem categorizar os modelos ML1P, ML2P e ML3P são os de discriminação (a), dificuldade (b) e de acerto ao acaso (c). Esses parâmetros, indentificados geometricamente na Figura 02, são conceituados considerando estudos de Andrade, Tavares e Valle (2000) e de Baker e Kim (2017), conforme segue:
Para interpretação do parâmetro de discriminação a, pela TRI, Baker (2001) apresenta intervalos de discriminação, conforme Tabela 01:
| Valor do parâmetro a | Nível de discriminação |
|---|---|
| 0,0 | Nenhuma discriminação |
| 0,01 até 0,34 | Muito baixa |
| 0,35 até 0,64 | Baixa |
| 0,65 até 1,34 | Moderada |
| 1,35 até 1,69 | Alta |
| >1,7 | Muito alta |
| +∞ | Perfeita |
Fonte: Adaptada de Baker (2001, p.43)
A Figura 02 mostra um gráfico conhecido como curva característica do item (CCI) para um modelo ML3P de um item genérico em um teste hipotético. Antecipando as possíveis interpretações (as quais serão retomadas em seção 4.3) pode-se dizer que se trata de um item de discriminação e dificuldade mediana, com um valor de c dentro do intervalo esperado.
Figura 02 -
Posicionamento dos parâmetros dos itens
Os modelos logísticos citados acima têm sua Função da Resposta ao Item nas alíneas, considerando as equações 1, 2 e 3.2
Equação 01:
\[P(U_{i} = 1 | \theta_{j}) = \frac{1}{1 + e^{-D(\theta_{j} - b_{i})}}\]
Equação 02:
\[P(U_{i} = 1 | \theta_{J}) = \frac{1}{1 + e^{-D_{ai}(\theta - b_{i})}}\]
Equação 03:
\[ P(U_{i,j} = 1 | \theta_{j} = c_{i} + (1 - c_{i}) \frac{1}{1 + e^{-D_{ai}(\theta_{j} - b_{i})}}\]
Na próxima seção serão abordadas a curva característica do item e a curva de informação do teste. A primeira permite uma análise individualizada de cada item e a segunda avalia toda informação que é possível ser analisada com o teste.
A relação entre a probabilidade de um indivíduo acertar uma resposta a um item e a medida de sua habilidade/aptidão/comportamento (θ) pode ser visualizada graficamente por uma curva em forma de S, conforme mostra a Figura 03.
Figura 03 -
Curva Característica do Item
Essa curva mostra os parâmetros relativos ao item, conforme o modelo estatístico em uso, considerando o pressuposto da independência local, ou seja, cada item possui uma dada curva característica – CCI. A Figura 02, mostra um exemplo da CCI de um item genérico, analisado sob o Modelo Logístico de 2 Parâmetros. Como podemos observar a probabilidade de um indivíduo acertar um item em função de θ aumenta quando aumenta o valor de θ. Itens com maior valor para o a possuem maior poder de discriminação e suas respectivas curvas apresentam inclinação mais acentuada. Sobre a CCI, Baker e Kim (2017, p.17-18), observam:
1)Quando a discriminação dos itens é menor que moderada, a curva característica do item é quase linear e parece bastante plana. 2)Quando a discriminação dos itens é maior que moderada, a curva característica do item é em forma de S e bastante íngreme em sua seção intermediária. 3) Quando a dificuldade do item é menor que média, a maior parte da curva característica do item tem uma probabilidade de acerto maior que 0,5. 4) Quando a dificuldade do item é maior que a média, a maior parte da curva característica do item tem probabilidade de acerto menor que 0,5. 5) Independentemente do nível de discriminação do item, a dificuldade do item localiza o item ao longo da escala de habilidade. Portanto, a dificuldade do item e a discriminação do item são independentes uma da outra. 6)Quando um item não tem discriminação de item, todas as opções de dificuldade do item produzem a mesma linha horizontal em um valor de P(θ)= 0,5. Isso ocorre porque o valor de dificuldade do item para um item sem discriminação é indefinido. 7) Se você foi muito observador, deve ter notado o ponto em que P(θ)= 0,5 corresponde à dificuldade do item. Quando um item é fácil, esse valor ocorre em um nível de habilidade baixo. Quando um item é difícil, esse valor corresponde a um alto nível de habilidade.
A Função de Informação do Teste representa um método que detalha os parâmetros fundamentais dos itens e do próprio teste considerando a precisão da medida e a ocorrência de erro. Por meio da função de informação do teste é possível verificar se este possui confiabilidade – ou seja, se o teste produz mais informação verdadeira sobre o θ do que informação errônea. Para efeitos de notação a Equação 4 traz a função de informação do teste:
Equação 04:
\[ I(\theta) = \sum_{i=1}^{I} I_{i}(\theta) \quad \text{} \]
A Figura 04 ilustra o conceito de curva de informação do teste, mostrando a precisão de informação possibilitada pelo instrumento na linha contínua (azul) e o erro de medida abaixo da linha pontilhada (vermelho). A ilustração mostra um teste com maior capacidade de medição de traços latentes entre 0 e 3,8. Para os extremos inferior e superior a curva produz uma quantidade de erros de medida que torna a informação imprecisa.
Figura
04 - Curva de Informação do Teste
Esses conceitos abordados teoricamente serão aplicados na próxima seção, por meio de linhas de programação em R, com o objetivo de calibrar um teste real. Cada linha contém sua explicação dentro da análise.
Será apresentada a seguir uma possível forma de calibração dos itens de um teste real – trata-se de 23 questões do Enade 2017, para a Licenciatura em Matemática, pelo Modelo Logístico de 3 Parâmetros com software R (R Core Team, 2022). Caso se queira acompanhar a calibração o conjunto de dados pode ser baixado no link: Dados do Enade 2017
setwd("C:/Users/pasta/nome de seu arquivo”)
rm(list=ls())
library(data.table)
library(mirtCAT)
library(irtoys)
library(dplyr)
library(car)
base <- fread(input = paste0("EnadeTRI23.csv"), header = T, na.strings = "NA", colClasses = "character", data.table = FALSE)
base1 <- base[,-1]
freq <- data.frame(matrix(data = 0, nrow = ncol(base1), ncol = 7))# 1 valor a mais que a quantidade de variáveis.
categorias<-c("*","A","B","C","D","E") #inserir as variáveis, conforme seu teste.
colnames(freq) <- append(categorias,NA)
rownames(freq) <- colnames(base1)
freq_list <- lapply(X = base1, FUN = table, useNA = "always")
for (i in 1:length(freq_list)){
freq[i,which(names(freq) %in% names(freq_list[[i]]))] <- freq_list[[i]]
}
gabarito <- fread(input = paste0("GabaritoTRI23.csv"), header = T, na.strings = "NA", colClasses = "character") #nome do arquivo
gabarito <- unlist(gabarito[,])#agora seu arquivo será chamado de “gabarito”.
base1c<- key2binary(base1,gabarito,score_missing=TRUE)
Observação: Se score_missing=FALSE, todos os dados “missing” serão considerados não respondidos.
Calibracao dos itens sem prioris:
modelo <- mirt(data=base1c, model=1, itemtype="3PL", SE=TRUE, quadpts = 20, technical = list(theta_lim = c(-4.0,4.0), NCYCLES = 500), TOL = 0.001, optimizer = 'BFGS')coef(modelo, IRTpars=TRUE, simplify=FALSE, printSE=TRUE)
coef.parB <- coef(modelo, IRTpars=TRUE, simplify=TRUE)
items.parB <- as.data.frame(coef.parB$items)
write.csv2(x = items.parB, file = paste0("parB_SP.csv"))
coef.parD <- coef(modelo, IRTpars=FALSE, simplify=TRUE)
items.parD <- as.data.frame(coef.parD$items)
write.table(items.parD, file = paste0("parD_SP.csv"), dec = ",", sep=";",row.names=FALSE)
Calibracao dos itens com prioris:
prioris <- mirt.model('F1 = 1-23
PRIOR = (1-23, a1, lnorm, 0, 0.5),(1-23, g, norm, -1.386294, 0.5)')
modelo <- mirt(data=base1c, model=prioris, itemtype="3PL",SE=TRUE, quadpts = 20,
technical = list(theta_lim = c(-4.0,4.0), NCYCLES = 500), TOL = 0.001, optimizer = 'BFGS') # observe que nessa linha traz a opção pelo modelo.
coef(modelo, IRTpars=TRUE, simplify=FALSE, printSE=TRUE)
coef.parB <- coef(modelo, IRTpars=TRUE, simplify=TRUE)
items.parB <- as.data.frame(coef.parB$items)
write.csv2(x = items.parB, file = paste0("parB_ENADE23.csv"))
coef.parD <- coef(modelo, IRTpars=FALSE, simplify=TRUE)
items.parD <- as.data.frame(coef.parD$items)
write.table(items.parD, file = paste0("parD_ENADE23.csv"), dec = ",", sep=";",row.names=FALSE)
lapply(seq(1,23), function(i) itemplot(modelo, i)) # lembre-se de atualizar com a quantidade de itens que possui. O 23 pode ser substituído pelo seu número de itens.
plot(modelo, type = 'trace', which.items = 1:23, facet_items = FALSE, auto.key = list(space = FALSE))
plot(modelo, type = 'infoSE', theta_lim = c(-4,5), lwd=2)
score_TRI <- fscores(modelo, method='EAP', quadpts = 20, theta_lim = c(-4,4))
colnames(score_TRI) <- c("score_TRI2")
base_score <- cbind(base,score_TRI)
write.csv2(x = base_score, file = paste0("Score_enade_NOVO23.csv"))
Após a manipulação dessas linhas de programação, o pesquisador possui um conjunto de dados calibrados a respeito do teste (no caso o Enade 2017 para a Licenciatura em Matemática). Na seção a seguir será discutida a construção de uma escala de habilidades no que tange a um traço latente unidimensional e como essa pode ser elaborada considerando os parâmetros dos itens obtidos na calibração.
Uma escala bastante utilizada na TRI é aquela que apresenta média 0 e desvio-padrão 1 – embora, segundo Andrade, Tavares e Valle (2000, p.15), não haja necessariamente alguma diferença se forem estabelecidos outros parâmetros, possuindo a escala de habilidades métricas arbitrárias.
Apesar da frequente utilização da escala (0,1), em termos práticos, não faz a menor diferença estabelecer-se estes valores ou outros quaisquer. O importante são as relações de ordem existentes entre seus pontos. Por exemplo, na escala (0,1) um indivíduo com habilidade 1,20 está 1,20 desvios-padrão acima da habilidade média. Este mesmo indivíduo teria a habilidade 248, e consequentemente estaria também 1,20 desvios-padrão acima da habilidade média, se a escala utilizada para esta população fosse a escala (200;40).
Figura
05 - Escala de habilidades: cálculo de probabilidades
Figura
06 - Escala de habilidades hipotética
Pode ser observado que os valores obtidos na calibração têm impacto na medição do θ. Esse, por sua vez, permite a definição de probabilidades associadas aos níveis de habilidades que são cumulativos no decorrer da escala. Contudo, é indispensável o olhar do especialista na temática do teste para ser possível o posicionamento de uma escala de habilidades com uma sólida interpretação pedagógica. A próxima seção trará uma das maiores benefícios da TRI – a comparação entre populações por meio da equalização.
O número mínimo de itens comuns em uma calibração depende do tipo de calibração a ser feita, se via população ou via itens, e se esses itens possuem qualidade, ou seja, uma boa discriminação. A calibração também pode ser realizada a posteriori, calibrando-se o conjunto de itens (com itens comuns entre os dois conjuntos). Após as estimativas, os itens comuns fornecem uma relação que permite colocar os dois grupos em uma mesma escala. Mais detalhes em Andrade, Tavares e Valle (2020). Na próxima seção será explorado o Modelo de Resposta Nominal da TRI, para itens politômicos.
Um teste de múltipla escolha possui, invariavelmente, uma alternativa correta chamada de gabarito e um conjunto de opções conhecidos como distratores, os quais conceituam-se como alternativas diversas do gabarito de uma questão – atuam como distrações ao raciocínio que é necessário para a resposta correta.
Quando bem formulados, os distratores presentes nos itens nominais costumam indicar diferentes linhas de raciocínio, o que indica vieses de pensamento, vícios de linguagem, limiares cognitivos e, mesmo, algum conhecimento específico de uma parcela da população. (Pinheiro; Costa; Cruz, 2010, p.439)
Conforme a conceituação de Bock (1972) o MRN expressa “a probabilidade de que um sujeito de habilidade θ responderá ao item j na categoria k”. Nesse sentido, considerando um teste com i itens ( i = 1…in) de múltipla escolha respondidos por jn (j = 1, …, jn) indivíduos. Sejam as alternativas de resposta do item in , as categorias k=1, 2… mi, as quais são mutuamente exclusivas e não possuem uma ordenação. A probabilidade de escolha de uma alternativa k é igual a:
Equação 5:
\[ P_{ijk=} Y_{ijk=1} |\theta_j,\zeta_i = \frac{e^{(a_{ik} (\theta_j - b_{ik}))}}{\sum_{h=1}^{mi} e^{(a_{ih} (\theta_j - b_{ih}))}} = \frac{e^{(c_{ij} + a_{ij} \theta_j)}}{\sum_{h=1}^{mi} e^{(c_{ih} + a_{ih} \theta_j)}} = \frac{e^{(z_{ik}(\theta_j))}}{\sum_{h=1}^{mi} e^{(z_{ih}(\theta_j))}} \]
Onde:
Nesse modelo espera-se valores negativos para o parâmetro as relativo aos distratores e valores positivos para a alternativa correta. Esse parâmetro se refere a discriminação do item, ou seja, a inclinação da alternativa k do item i. Para o cálculo da discriminação as em MRN, considera-se os quantis de dois grupos, os 27% indivíduos com menor traço latente e os 73% de maiores traço latente. Esses valores são usados para encontrar a probabilidade de escolha da alternativa correta. Para realizar esse cálculo de probabilidade substitui-se os valores dos quantis pelos traços latentes e o parâmetro resumo é dado por:
Equação 6:
\(a_{i=} P_{i(q73)} - P_{i(q27)}\)
O MRN pode ser utilizado para análise exploratória e de qualidade dos itens. Em um teste de múltipla escolha é possível identificar alternativas melhores que outras, com peso maior sobre outras. Também é possível dar retorno para os elaboradores de um teste sobre alternativas que se destacam na escolha dos indivíduos, identificando vieses e problemas relacionados a construção dos itens. Dessa forma, no Modelo de Resposta Nominal percebe-se, nitidamente, que existem várias probabilidades complementares à alternativa correta, o que aumenta a curva de informação do item, possibilita a análise dos diferentes distratores e, ainda, fornecem indícios de má formulação de uma questão. (Pinheiro; Costa; Cruz, 2010). A próxima seção traz um exemplo da aplicação desse modelo e dos demais apresentados nesse estudo.
Além disso, foi utilizado o Modelo de Resposta Nominal, com aplicações que sugerem a análise de distratores e erros dos educando, culminando em uma avaliação mais precisa do desempenho dos estudantes.
O exemplo a seguir ilustra a estimação dos parâmetros de 23 itens do teste Enade 2017 para a Licenciatura em Matemática, os quais foram considerados para mensuração do índice Enade pelo Inep (Instituto Nacional de Pesquisas Educacionais) – o mesmo que foi calibrado na seção 4.3. Os resultados constam na Tabela 04, indicando os parâmetros a (Discriminação), b (Dificuldade) e c (Acerto ao caso), acompanhados do respectivo erro-padrão (EP).
| Itens | a | b | c | Itens | a | b | c | Itens | a | b | c |
|---|---|---|---|---|---|---|---|---|---|---|---|
| I09 | 3,44 | 2,00 | 0,22 | I18 | 2,58 | 2,09 | 0,13 | I29 | 0,77 | 1,97 | 0,17 |
| EP | 0,38 | 0,05 | 0,01 | EP | 0,27 | 0,06 | 0,01 | EP | 0,12 | 0,11 | 0,03 |
| I10 | 1,98 | 0,82 | 0,38 | I20 | 3,70 | 1,84 | 0,20 | I30 | 1,05 | 0,62 | 0,11 |
| EP | 0,18 | 0,05 | 0,02 | EP | 0,38 | 0,04 | 0,01 | EP | 0,07 | 0,07 | 0,03 |
| I11 | 3,02 | 1,61 | 0,25 | I22 | 2,18 | 1,34 | 0,18 | I31 | 0,56 | 1,45 | 0,08 |
| EP | 0,29 | 0,04 | 0,01 | EP | 0,18 | 0,04 | 0,01 | EP | 0,04 | 0,12 | 0,02 |
| I12 | 2,66 | 1,34 | 0,22 | I24 | 3,59 | 1,83 | 0,19 | I32 | 0,78 | 0,77 | 0,07 |
| EP | 0,20 | 0,03 | 0,01 | EP | 0,36 | 0,04 | 0,01 | EP | 0,04 | 0,07 | 0,02 |
| I13 | 1,21 | 1,41 | 0,22 | I25 | 0,89 | 1,82 | 0,16 | I33 | 0,76 | 0,70 | 0,08 |
| EP | 0,11 | 0,06 | 0,02 | EP | 0,11 | 0,09 | 0,03 | EP | 0,04 | 0,09 | 0,02 |
| I14 | 3,27 | 2,19 | 0,15 | I26 | 1,21 | -0,22 | 0,11 | I34 | 0,62 | 1,77 | 0,11 |
| EP | 0,38 | 0,06 | 0,00 | EP | 0,06 | 0,08 | 0,03 | EP | 0,06 | 0,13 | 0,03 |
| I15 | 2,28 | 1,85 | 0,20 | I27 | 0,97 | 0,42 | 0,06 | I35 | 0,95 | -0,66 | 0,07 |
| EP | 0,22 | 0,05 | 0,01 | EP | 0,05 | 0,06 | 0,02 | EP | 0,04 | 0,06 | 0,02 |
| I17 | 1,67 | 2,29 | 0,22 | I28 | 0,60 | 1,12 | 0,10 | ||||
| EP | 0,21 | 0,10 | 0,01 | EP | 0,05 | 0,13 | 0,03 |
Fonte: elaborada pela autora (2024)
Os valores dos itens da Tabela 02 que representam os itens difíceis no conjunto em análise são: I09, I14, I17 e I18. Os itens considerados mais fáceis são I26 e I35 (b estimado em - 0,21 e - 0,66, respectivamente). O parâmetro c, que mede a probabilidade de acerto ao acaso, tem valor médio de 0,16 (σ = 0,07), estando dentro das expectativas para um teste com 5 alternativas, conforme Baker e Kim (2017). O valor médio de discriminação é 1,78 (σ =1,07) e de dificuldade 1,32 (σ=0,76). Nesse sentido, pode-se considerar que o Enade 2017, para Licenciatura em Matemática é um teste de discriminação alta pois a média supera 1,7, com classificação mediana no que tange ao parâmetro de dificuldade.
A título de exemplificação, a Tabela 03, mostra o resultado da calibração de itens do Enade 2017 para a Licenciatura em Matemática por meio do MRN, indicando os parâmetros para os distratores e gabarito. Essa pesquisa é apresentada em inteiro teor em Rostirola, Henning e Siple (2023).
| I | a1 | a2 | a3 | a4 | a5 | I | a1 | a2 | a3 | a4 | a5 |
|---|---|---|---|---|---|---|---|---|---|---|---|
| I1 | 0,208 | -0,324 | 0,523 | -0,223 | -0,183 | I19 | -0,133 | 0,171 | -0,2 | 0,129 | 0,033 |
| I2 | -0,09 | -0,259 | 0,201 | 0,069 | 0,079 | I20 | -0,088 | -0,044 | 0,27 | -0,2 | 0,062 |
| I3 | -0,012 | 0,3 | -0,269 | -0,163 | 0,144 | I21 | -0,055 | 0,094 | -0,159 | -0,005 | 0,126 |
| I4 | -0,28 | 0,844 | -0,546 | -0,047 | 0,028 | I22 | -0,098 | -0,138 | -0,222 | -0,147 | 0,6 |
| I5 | -0,454 | 0,01 | 0,594 | -0,087 | -0,063 | I23 | 0,202 | -0,182 | -0,067 | -0,35 | 0,396 |
| I6 | -0,178 | -0,229 | -0,422 | -0,105 | 0,93 | I24 | -0,042 | 0,316 | -0,177 | -0,207 | 0,111 |
| I7 | 0,305 | -0,04 | -0,289 | 0,273 | -0,25 | I25 | 0,41 | 0,235 | 0,199 | -0,244 | -0,203 |
| I8 | -0,458 | -0,131 | -0,049 | 0,51 | 0,127 | I26 | -0,18 | -0,418 | 0,793 | -0,269 | 0,073 |
| I9 | -0,013 | -0,2 | 0,261 | -0,407 | 0,359 | I27 | 0,008 | -0,316 | -0,282 | -0,068 | 0,658 |
| I10 | 0,654 | -0,015 | -0,327 | -0,263 | 0,04 | I28 | -0,466 | -0,632 | 0,66 | -0,078 | 0,516 |
| I11 | -0,305 | -0,36 | 0,422 | 0,008 | 0,235 | I29 | -0,662 | 0,075 | 0,46 | -0,118 | 0,244 |
| I12 | -0,141 | 0,572 | -0,269 | -0,257 | 0,095 | I30 | -0,212 | 0,72 | -0,596 | 0,001 | 0,087 |
| I13 | -0,524 | -0,583 | 0,23 | 0,595 | 0,282 | I31 | -0,466 | -0,306 | 0,1 | 0,146 | 0,52 |
| I14 | 0,038 | 0,158 | -0,113 | 0,014 | -0,097 | I32 | 0,607 | 0,101 | -0,527 | -0,333 | 0,152 |
| I15 | -0,08 | -0,331 | -0,115 | 0,393 | 0,133 | I33 | 0,286 | -0,563 | -0,434 | 0,207 | 0,504 |
| I16 | 0,125 | -0,023 | -0,11 | 0,052 | -0,045 | I34 | -0,139 | -0,066 | -0,21 | 0,358 | 0,057 |
| I17 | -0,014 | 0,107 | 0,287 | -0,068 | -0,313 | I35 | -0,25 | -0,454 | 0,031 | 0,698 | -0,025 |
| I18 | -0,017 | -0,157 | -0,07 | -0,121 | 0,365 |
Fonte: Rostirola, Henning e Siple (2023)
A seguir o item I21 (Figura 07), desse exame é destacado,interpretando-se a relação entre seu distratores e gabarito. A Tabela 03 mostra os distratores B e E com valores positivos (B = 0,09; E= 0,13) enquanto o gabarito valorou-se em -0,004 (alternativa D). Na resolução da questão observa-se alguns aspectos quanto a soma das probabilidades na afirmação I: os primeiros cálculos chegam a três frações iguais a 1/15 que precisam ser somadas, gerando 1/5. No entanto, como há alternativas que apresentam a fração 1/15 o participante pode ser atraído para a alternativa E, considerando todas as afirmativas corretas.
Figura
07 - Questão 21 do Enade 2017
Aplicando-se o MRN, pode ser obtida uma análise gráfica dos itens, ratificando as informações obtidas na calibração. Espera-se que o gabarito apresente crescimento de sua curva maior que a dos distratores. No entanto, esse item não reflete essa característica pois o gabarito (P4 – alternativa D), não aumenta a probabilidade de acerto, conforme aumenta o traço latente do indivíduo.(Figura 08).
Figura
08 - Curvas resultantes do MRN
O uso desse modelo facilita a análise da organização dos testes como um todo, uma vez que cada uma das alternativas é considerada na análise técnica do item, isto é, na avaliação do conteúdo de cada item. Assim, são ampliadas as fontes de informação para avaliar um teste, culminando em decisões quanto a revisões indispensáveis ao item, para que esse possa medir com fidedignidade e precisão um daterminado traço latente.
Entende-se que é apenas um retrato das potencialidades da TRI, sendo possível utilizar outras ferramentas computacionais e outros softwares, em complementação ao presente material.Assim, esse livro tem a pretensão de inspirar os educadores a aplicar os princípios da Teoria da Resposta ao Item, com o interesse de oferecer melhores condições de aprendizagem aos educandos.
ANDRADE, D. F.; TAVARES, H. R.; VALLE, R. C. Teoria da Resposta ao Item: conceitos e aplicações. ABE, São Paulo, 2000. Disponível em: https://docs.ufpr.br/~aanjos/CE095/LivroTRI_DALTON.pdf. Acesso em: 24 de mai. de 2024.
ARAUJO, E. A. C. de; ANDRADE, D. F. de; BORTOLOTTI, S. L. V. Teoria da resposta ao item. Revista da Escola de Enfermagem da USP, v. 43, p. 1000-1008, 2009. DOI: https://doi.org/10.1590/S0080-62342009000500003
BAKER, F.; KIM, S.H. The Basics of Item Response Theory Using R. Madison/ Wisconsin. Springer, 2017
BAKER, F. The basics of item response theory. 2ª edição. Eric, 2001.
BARBETTA, P.A; TREVISAN, L.M.V.; TAVARES, H. Aplicação da Teoria da Resposta ao Item uni e multidimensional. Estudos em Avaliação Educacional, v. 25, n. 57, p. 280-302, 2014. DOI: https://doi.org/10.18222/eae255720142832
BEATON, A. E.; ALLEN, N. L. Interpreting scales through scale anchoring. Journal of Educational Statistics, 17, 191-204 1992. DOI: https://doi.org/10.2307/1165169
BOCK, R. Estimating item parameters and latent ability when responses are scored in two or more nominal categories. Psychometrika, v. 37, n. 1, p. 29-51, 1972. DOI: 10.1007/BF02291411.
CAVANAUGH, J. E.; NEATH, A. A. The Akaike information criterion: Background, derivation, properties, application, interpretation, and refinements. Wiley Interdisciplinary Review: Computational Statistics, v. 11, n. 3, p. e1460, 2019. DOI: https://doi.org/10.1002/wics.1460
ERTHAL. Manual de psicometria. 8ª edição. Zahar, Rio de Janeiro/RJ, 2009.
NOJOSA, R. T. Teoria da Resposta ao Item (TRI): modelos multidimensionais. Estudos em Avaliação Educacional, n. 25, p. 123-166, 2002. DOI: https://doi.org/10.18222/eae02520022193
PASQUALI, L; PRIMI, R. Fundamentos da teoria da resposta ao item: TRI. Avaliação Psicológica: Interamerican Journal of Psychological Assessment, v. 2, n. 2, p. 99-110, 2003.Disponível em: http://pepsic.bvsalud.org/scielo.php?script=sci_arttext&pid=S1677-04712003000200002&lng=pt&nrm=iso&tlng=pt. Acesso em 24 de mai. de 2024.
PASQUALI, L. Psicometria: Teoria dos testes na Psicologia e na Educação. 4ª edição. Editora Vozes, Petrópolis/ RJ, 2011.
PASQUALI, L. TRI – Teoria de resposta ao item: Teoria, procedimentos e aplicações. Editora Appris, 2018.
PINHEIRO, I. R.; COSTA, F. R.; CRUZ, R. M. Modelo nominal da teoria de resposta ao item: uma alternativa. Avaliação Psicológica, v. 9, n. 3, p. 437-447, 2010. Disponível em: http://pepsic.bvsalud.org/scielo.php?script=sci_arttext&pid=S1677-04712010000300010&lng=pt&nrm=iso&tlng=pt. Acesso em: 24 de mai. 2024.
PRIMI, R. Psicometria: fundamentos matemáticos da Teoria Clássica dos Testes. Avaliação Psicológica, v. 11, n. 2, p. 297-307, 2012. Disponível em: http://pepsic.bvsalud.org/scielo.php?script=sci_arttext&pid=S1677-04712012000200015&lng=pt&nrm=iso&tlng=pt. Acesso em: 24 de mai. de 2024.
R CORE TEAM. R: a language and environment for statistical computing. R Foundation for Statistical Computing, 2022.
RABELO. M. Avaliação Educacional: fundamentos, metodologia e aplicações no contexto brasileiro. Rio de Janeiro, RJ: SBEM, 2013.
REVELLE, W. Classical test theory and the measurement of reliability. Psychometric Theory, p. 205-239, 2014.
ROSTIROLA, S. C. M.; HENNING, E.; SIPLE, I. Z. Análise de distratores: uma interpretação pelo modelo de resposta nominal dos itens do Enade 2017 aplicado à Licenciatura em Matemática. Avaliação. Revista da Avaliação da Educação Superior, v. 28, p. e023026, 2023. DOI: https://doi.org/10.1590/S1414-40772023000100042
SIJTSMA, K. Reliability beyond theory and into practice. Psychometrika, v. 74, p. 169-173, 2009. DOI: https://doi.org/10.1007%2Fs11336-008-9103-y
SMITH, T. I.; BENDJILALI, N. Motivations for using the item response theory nominal response model to rank responses to multiple-choice items. Physical Review Physics Education Research, v. 18, n. 1, p. 1-13, 2022. DOI: 10.1103/PhysRevPhysEducRes.18.010133.
TEZZA, R. Modelagem multidimensional para mensurar qualidade em website de e-commerce utilizando a teoria da resposta ao item. 2012. Tese. Doutorado em Engenharia de Produção, UFSC, Florianópolis/SC.
THISSEN, D.; STEINBERG, L.; FITZPATRICK, A. R. Multiple-Choice Models: the distractors are also part of the item.Journal of Educational Measurement, vol. 26, no. 2, pp. 161–76, 1989. DOI: https://doi.org/10.1111/j.1745-3984.1989.tb00326.x.
1 Existem estatísticas para avaliar se o modelo é o ideal para o conjunto de informações, como testes qui-drados e o critério Akaike. Mais informações em Cavanaugh e Neath (2019).
2 Para os ML1P, a fórmula pode ser lida como: a probabilidade de acertar um item, dado o traço latente do sujeito e a dificuldade do item. Para os ML2P lê-se como: a probabilidade de acertar um item dados o traço latente do sujeito, a dificuldade do item e a discriminação do item. Já para o ML3P pode-se ler como: a probabilidade de acertar um item dados o traço latente do sujeito, a dificuldade do item, a discriminação do item e o acerto aleatório do item. (PASQUALI, 2018)
3 Texto original referente ao artigo de Rostirola, Henning e Siple (2023)
4 Imagem de capa: Imagem de vector4stock no Freepik