Apresentando a Teoria da Resposta ao Item

A imaginação é mais importante do que o conhecimento. O conhecimento é limitado. A imaginação circunda o mundo.(Einstein) A imaginação é mais importante do que o conhecimento. O conhecimento é limitado. A imaginação circunda o mundo.(Einstein)

Partindo do senso comum medir é comparar a partir de um contexto físico – estabelecendo uma relação quantitativa entre objetos em que um é o ente a ser medido e o outro é o parâmetro a ser utilizado na medição. Assim, podemos medir a altura, o peso, a temperatura e uma infinidade de outras características de um indivíduo ou de uma população. Contudo, quando a medição necessária é de base psicológica seja cognitiva, de opinião ou de atitude, há algumas dificuldades em termos de ferramentas a serem utilizadas. Não é possível medir a cognição de uma pessoa ou sua opinião por meio de uma trena, por exemplo. Assim, surgiram técnicas chamadas psicométricas com a intencionalidade de constituir uma medida desses traços individuais que não podem ser medidos diretamente.
Com o desenvolvimento dessas técnicas é possível verificar o quão difícil uma questão é para um estudante e qual a probabilidade de acerto, dado que ele possua uma habilidade n, ou se este pode ter acertado a questão pelo acaso (os conhecidos chutes). Além disso, você pode elaborar um questionário e medir, por exemplo, a percepção das pessoas sobre a legalização de drogas ilícitas, a eutanásia ou sobre um novo cereal matinal no mercado, obtendo uma medida, com certo grau de confiabilidade, da opinião de um determinado grupo social.
Essas técnicas psicométricas tiveram um grande impulso das tecnologias computacionais e estão em constante evolução com o trabalho colaborativo de muitos metodologistas, estatísticos e matemáticos, sendo as mais conhecidas a Teoria Clássica dos Testes (TCT) e a Teoria da Resposta ao Item (TRI). As aplicações podem ser as mais diversas, na medição de marketing de empresas à avaliação da aprendizagem em sala da aula. No entanto, ganharam visibilidade nos últimos anos as avaliações em larga escala, com os gestores públicos buscando aplicar essas teorias em provas como o Exame Nacional de Desempenho de Estudantes - Enade (o qual usa a TCT) e o Exame Nacional do Ensino Médio - Enem (que usa a TRI).

Assim, é possível aferir a dificuldade de uma questão como a exposta na Figura 01, a qual compõe o Enem 2009, estabelecendo possíveis discussões sobre sua construção, seus distratores e verificando se ela tem potencial para discriminar, ou seja, avaliar habilidades distintas entre os sujeitos avaliados. Essa dificuldade, o potencial de distinção de um indivíduo para o outro e a probabilidade de acerto ao acaso vão explicar, por exemplo, que indivíduos com o mesmo número de acertos possuam uma pontuação diferente no Enem. Algumas pessoas atribuem esse aspecto a pesos diferenciados entre as questões, mas na realidade trata-se da possibilidade de identificar questões mais fáceis e mais difíceis, após a chamada calibração do item. Esses métodos matemáticos serão abordados na seção 2.

Figura 01 - Questão 18: Enade 2009 Figura 01 - Questão 18: Enade 2009

Dentro desse contexto, teremos mais que apenas escores dos participantes, mas um estudo de cada questão e do teste como um todo, o que favorece a precisão e fidedignidade da medida aferida. Esse texto possui o escopo de apresentar a Teoria da Resposta ao Item, definindo sua base conceitual e procedimentos técnicos a ela inerentes. O mesmo é indicado a indivíduos que buscam conhecimentos iniciais sobre o tema – especialmente educadores interessados em entender as metodologias empregadas em avaliações em larga escala, tão comuns no meio educacional.

O livro está organizado de forma a apresentar a evolução histórica das técnicas relativas a TRI, seus conceitos subjacentes, o funcionamento estatístico e interpretação dos parâmetros obtidos nas calibrações, conforme literatura da área. Apresenta-se também linhas de programação explicadas para serem utilizadas para calibrar testes diversos com a utilização da linguagem R. Em um último capítulo consta uma aplicação para o Enade 2017 para a Licenciatura em Matemática. Na próxima seção será explorado o contexto histórico da TRI, cuja evolução dependeu do avanço das tecnologias computacionais.

1. Contexto histórico da Teoria da Resposta ao Item

Já há algum tempo que a ciência se debruçou sobre métodos para mensurar características como atitudes, aptidões e aprendizagem. Os pesquisadores buscavam mecanismos quantitativos para representar o conhecimento dos processos ligados a mente humana com maior precisão do que a descrição das observações por meio da linguagem.
Os primeiros estudos de interesse em medidas psicológicas remontam ainda ao século XIX com trabalhos de psiquiatras franceses e alemães, que verificaram a influência da doença mental em habilidades motoras, sensoriais e cognitivo-comportamentais, e de pesquisadores ingleses na área da genética, que destacaram a importância de medidas de diferenças individuais ao utilizar uma metodologia bem definida. (Araújo; Andrade; Bortoloti, 2009).
Assim, nasceu a Psicometria, que com fortes raízes teóricas nas áreas da Psicologia e Educação, se conceitua como um conjunto de técnicas estatísticas para medição de processos cognitivos ou comportamentais, aplicadas em diversas áreas. Francis Galton é considerado criador da psicometria, sendo o primeiro a usar testes para medir processos mentais. (Pasquali, 2009).
Os métodos da Psicometria em sua fase inicial levavam em consideração a Teoria Clássica dos Testes (TCT) cujos métodos quantitativos trazem conceitos como os de Alpha de Cronbach (α) – uma medida utilizada para medir a confiabilidade de questionários; índice de facilidade e discriminação, os quais se referem a mensuração de um escore para cada participante e o estudo de proporções e correlações entre os escores dos itens e o escore total dos participantes de um teste. (Pasquali, 2018).

Contudo, a aplicação dos métodos da TCT a testes comportamentais ou de cognição têm suas métricas impactadas pelo objeto a ser medido, ou seja, pelos respondentes. Em 1928, Thurstone já apontava que a validade dos instrumentos era prejudicada pela técnica.

Um instrumento de medida, na sua função de medir, não pode ser seriamente afetado pelo objeto de medida. Na extensão em que sua função de medir for assim afetada, a validade do instrumento é prejudicada ou limitada. Se um metro mede diferentemente pelo fato de estar medindo um tapete, uma pintura ou um pedaço de papel, então nesta mesma extensão a confiança neste metro como instrumento de medida é prejudicada. Dentro dos limites de objetos para os quais o instrumento de medida foi produzido, sua função deve ser independente da medida do objeto. (Thurstone, 1928 apud Pasquali; 2018, p.100).
Esta obra não foca na TCT, mas se o(a) leitor(a) precisar de mais detalhes, pode obter nos estudos de Primi (2012); Erthal (2009), Pasquali (2011), Revelle (2014) e Sijtsma (2009).
Imagine a seguinte situação hipotética: a professora Gertrudes quer verificar a aprendizagem de seus alunos sobre o conteúdo de números inteiros. Assim, ela organiza a prova com dez questões de múltipla escolha com o mesmo peso cada uma, sendo cinco difíceis e cinco fáceis. Na correção, a qual considera somente a resposta certa ou errada, a professora percebe o seguinte fato: a estudante Rosa acerta todas as questões fáceis e erra as difíceis e tem uma nota (escore) igual a 5,0. Já Helena acerta todas as difíceis, errando as fáceis e tem uma nota igual a de Rosa. Se a professora Gertrudes se basear apenas no escore e nas estimativas da TCT, é possível que ela constate (de forma equivocada) que as duas estudantes estão no mesmo nível de desenvolvimento. Que impasse o da professora Gertrudes, não?
Essas fragilidades técnicas despertaram o interesse dos pesquisadores. Dessa forma, após o desenvolvimento dos algoritmos da TCT por Spearman no início do século XX, Thurstone desenvolveu um método estatístico conhecido como Lei dos Julgamentos Comparativos que tratava de dois mecanismos de respostas para construção de escalas psicológicas – acumulativo e desdobramento, que no decorrer da consolidação da Teoria da Resposta ao Item - TRI, possuem importância conceitual (Araújo; Andrade; Bortoloti, 2009), como será visto na seção 2.
A partir disso, uma série de trabalhos vão, aos poucos, delineando a TRI: Richardson (1936) compara os parâmetros das questões obtidos pela TCT pelos mesmos moldes que hoje se usa para a TRI. Lawley (1943; 1944) indica métodos para estimar os parâmetros dos itens, os quais se afastavam da TCT. Tucker (1946) usa a expressão curva característica do item (CCI) para representar graficamente o modelo matemático de uma questão, agora chamada de item. Lazersfeld (1959) – conceitua o que chamamos hoje de traço latente, isto é, variáveis (características, aptidões ou atitudes), as quais não podem ser medidas de forma direta. (Pasquali; Primi, 2003).
Araújo, Andrade e Bortoloti (2009) informam que a TRI foi esboçada como modelo matemático para aferição de características psicométricas por Lord em 1950, o qual desenvolveu um modelo unidimensional de dois parâmetros de natureza acumulativa para respostas dicotômicas (certo ou errado), baseado na distribuição normal (ogiva normal). Esse trabalho foi apresentado em paralelo ao de Rash que traz conceitos ligados ao que hoje se conhece como Modelo de Rasch ou de 1 parâmetro.
Os pesquisadores do campo da psicometria continuaram a desenvolver a TRI, por todo século XX com destaques para: Birbaum (1968) que sugere o uso da função logística substituindo a ogiva normal para a curva sigmoide, simplificando os cálculos envolvidos que até o momento dependiam de derivadas e integrais; Samejima (1969; 1972) que elaborou modelos politômicos e Lord (1980) que realizou a sistematização da teoria, incluindo também a incorporação de um parâmetro que tratasse do problema do acerto casual, desenvolvendo o modelo de 3 parâmetros. Além disso, muitos outros estudiosos trataram de fundamentos para outros modelos da TRI, a depender da natureza do item — se dicotômicos ou politômicos; se estamos nos referindo a uma ou mais populações e se o traço latente é único ou múltiplo. (Andrade; Tavares; Valle, 2000).
Como detalham Pasquali (2020); Rabelo (2013) Andrade, Tavares e Valle (2000), embora a TRI tenha seus fundamentos consolidados ainda em 1950, sua utilização prática só foi possível no início dos anos 80, haja vista a complexidade de seus algoritmos matemáticos e a falta de tecnologias computacionais. Com o avanço da informática e da disponibilidade de microcomputadores e softwares apropriados, este problema foi solucionado e a TRI se tornou uma tendência, especialmente nas aplicações relativas à avaliação educacional em larga escala.

Todo esse arcabouço de conceitos que fazem parte da TRI, foram criados para superar uma fragilidade da TCT, na qual o instrumento de medida é dependente das características dos respondentes que se submetem ao teste. (Araújo; Andrade; Bortoloti, 2009). Nesse contexto, ambos os métodos são utilizados de forma complementar, com a segunda sendo usada na exploração da construção técnica dos instrumentos, como no caso da verificação de possíveis erros de gabarito e a primeira para análise das questões (doravante chamados de itens) e para construção de uma escala pedagógica de habilidades/atitudes/comportamento. Seus pressupostos teóricos serão definidos na próxima seção.

2. Definição do conceito e postulados básicos

Diante das abordagens da seção anterior define-se a TRI como um conjunto de modelos estatísticos que apresentam a probabilidade de um indivíduo dar uma certa resposta a um item em função da medida de seu traço latente. (Araújo; Andrade; Bortoloti, 2009).
A TRI também pode ser conhecida pelo termo teoria do traço latente, já que se refere a uma família de modelos que relacionam as variáveis observáveis (respostas a itens de um teste) a traços hipotéticos não observáveis e que não podem ser medidos diretamente pois não possuem uma dimensão física, como aptidões e atitudes ‒ os chamados traços latentes, os quais são os responsáveis pelo aparecimento de variáveis observáveis, entendidas como as respostas ou comportamentos emitidos pelo sujeito. É representado pela letra grega theta (θ). A resposta que o sujeito dá ao item depende do nível do traço latente do sujeito. Desta forma, o traço latente é a causa e a resposta é o efeito. (Pasquali; Primi, 2003; Baker; Kim, 2017).
Conforme Araújo, Andrade e Bortoloti (2009) a TRI possui dois postulados básicos: a curva característica do item (CCI) e independência local ou dimensionalidade. A CCI determina como a mudança do traço latente se relaciona com a probabilidade de uma determinada resposta. Na seção 4.2 tal curva será detalhada.
A independência local determina que a probabilidade de um indivíduo responder a um item em um teste depende de seu traço latente e não da resposta a outros itens nesse mesmo teste. Essa é consequência da dimensionalidade, a qual consiste no número de fatores responsáveis para expressar o traço latente. Os modelos da TRI unidimensionais postulam que há apenas uma aptidão θ (theta) – um traço latente, que é responsável pela realização de um conjunto de tarefas específicas de um dado teste. (Pasquali, 2018).

Contudo, Andrade, Tavares e Valle (2000) argumentam que qualquer desempenho humano é sempre multideterminado ou multimotivado, dado que mais de um traço latente entra na execução de qualquer tarefa. Assim, para satisfazer a unidimensionalidade é suficiente admitir que haja uma aptidão dominante responsável pelo desempenho num conjunto de itens de um teste. Salienta-se que existem modelos para a TRI multidimensionais, na qual mais de uma dimensão do traço latente está envolvido (a chamada TRIM – Teoria da Resposta ao Item Multidimensional), que é detalhada nos estudos de Nojosa (2002), Barbetta, Trevisan e Tavares (2014) e Tezza (2012), entre outros. A próxima seção traz o contexto dos aspectos favoráveis e limitações de utilização dos modelos estatísticos da TRI.

3. Benefícios e limitações na utilização da TRI

Pasquali (2018) e Araújo, Andrade e Bortoloti (2009) informam alguns aspectos positivos do uso dos modelos estatísticos da TRI para a análise de testes e definição do traço latente, destacando-se:
  1. A TRI propõe formas de representar a relação entre a probabilidade de um indivíduo dar uma certa resposta a um item, seu traço latente e características (parâmetros) dos itens, em qualquer área de conhecimento em estudo. Até mesmo testes com respostas abertas, podem ser utilizados, embora Baker e Kim (2017, p.2), apontem que essa abordagem possa levar a imprecisão e avaliações subjetivas.
  2. Do ponto de vista prático, itens de resposta livre são difíceis de usar em um teste. Em particular, eles são difíceis de pontuar de maneira confiável. Como resultado, a maioria dos testes utilizados na teoria de resposta ao item consiste em itens de múltipla escolha. Estes são pontuados de forma dicotômica, com a resposta correta recebendo uma pontuação de um e cada um dos distratores gerando uma pontuação de zero. Itens pontuados de forma dicotômica são frequentemente referidos como itens binários.
  3. Essa teoria permite a comparação entre indivíduos da mesma população submetidos a testes diferentes. Isto é possível porque a TRI tem como elementos centrais os itens e não o teste ou questionário como um todo.
  4. Possibilita uma melhor análise de cada item que forma o instrumento de medida, pois leva em consideração suas características específicas de construção de escalas.
  5. Os itens e os indivíduos estão na mesma escala, assim, o nível de uma característica que um indivíduo possui pode ser comparado ao nível da característica exigida pelo item.
  6. Seus algoritmos permitem trabalhar com os dados faltantes

A comparação entre provas é um dos maiores trunfos da TRI, haja vista que pela TCT isso não é possível, pois as estatísticas são centralizadas nos escores dos participantes de um teste. Esse processo de comparação é denominado equalização e será abordada na seção 6. Entretanto, Pasquali (2018) considera como limitação ou desvantagem da TRI, a necessidade de um banco de itens, porque isso requer uma equipe especializada nos diversos temas dos itens, sejam cognitivos ou psicológicos. Além disso, a entrada de itens no banco exige a calibração e equiparação, envolvendo técnicas computacionais sofisticadas, mas nem sempre consensuais entre os pesquisadores. Assim, um banco de itens não pode simplesmente ser comprado ou estar à disposição sem as devidas adaptações alicerçadas cientificamente. Na próxima seção será introduzido o funcionamento da TRI, do ponto de vista estatístico.

4. Modelos estatísticos da Teoria da Resposta ao Item

Ao aplicar as técnicas da TRI, para um conjunto de respostas obtidas em uma prova, é necessário escolher um modelo estatístico que melhor se adeque às análises pretendidas1. O modelo escolhido deve considerar a abordagem de resposta que traz o item – se esse é do tipo dicotômico ou dicotomizável, ou seja, aqueles que possuem como alternativa certo ou errado, ou ainda itens de múltipla escolha compostos por uma alternativa correta chamada de gabarito e as demais incorretas chamadas distratores. O algoritmo utilizado vai considerar a opção correta como 1 e a incorreta como 0. Existem ainda modelos para itens politômicos com diferentes categorias de resposta, que podem incluir respostas na escala likert, graduais e até mesmo de múltiplas alternativas, quando não se requer a dicotomização.
Araújo, Andrade e Bortoloti (2009) informam que podemos exemplificar quanto aos modelos dicotômicos/dicotomizáveis (com apenas duas categorias de resposta), os Modelos Logístico de 1 Parâmetro (ML1P), de 2 Parâmetros (ML2P) e de 3 parâmetros (ML3P) – nesses a função matemática considera uma, duas e três características para os itens, respectivamente. Quanto aos modelos politômicos (com mais que duas categorias de resposta) podem ser considerados os modelos de Resposta Nominal, Escala Gradual, Crédito Parcial Generalizado e Gradual de Samejima. Cada um deles difere quanto a função matemática que é utilizada.
Além do tipo de resposta ao item, esses modelos podem ser classificados quanto ao traço latente como acumulativos ou de desdobramentos. Araújo, Andrade e Bortoloti (2009) explicam que os modelos acumulativos da TRI são modelos em que a probabilidade de um indivíduo escolher uma resposta correta ao item aumenta com o aumento do seu traço latente, isto é, níveis maiores de traço latente conduzem a valores mais altos de probabilidade de resposta correta, apresentando um comportamento monotônico da curva característica do item. Os mesmos autores, asseveram que os modelos de desdobramento se distinguem por serem modelos de proximidade, em que categorias de resposta mais altas são mais prováveis (indicativo de níveis mais fortes de concordância) quando a distância entre os parâmetros do indivíduo e o de posição do item na escala diminui. Ou seja, a probabilidade de um indivíduo dar uma resposta a um item está em função da distância entre os parâmetros do indivíduo e o de posição do item na escala. (Modelo Parella, GGUM - Generalizes Grated Unfolding Model e Modelo Cosseno Hiperbólico).

Nesse estudo serão explicados os modelos acumulativos dicotômicos e dicotomizáveis (ML1P, ML2P e ML3P), além do Modelo de Resposta Nominal, por apresentarem maior possibilidade de aplicação prática na esfera da Educação, conforme trata a próxima seção.

4.1 Funções matemáticas de ML1P, ML2P e ML3P

Os parâmetros, ou características dos itens, que permitem categorizar os modelos ML1P, ML2P e ML3P são os de discriminação (a), dificuldade (b) e de acerto ao acaso (c). Esses parâmetros, indentificados geometricamente na Figura 02, são conceituados considerando estudos de Andrade, Tavares e Valle (2000) e de Baker e Kim (2017), conforme segue:

  1. Parâmetro a: mede a discriminação de um dado item. Pode ser entendido como o potencial do item em diferenciar traços latentes dos respondentes. Esse parâmetro é expresso pela inclinação da curva no momento da inflexão, ou seja, quando a curva muda de direção – quando a CCI corta a linha que corresponde a probabilidade de 0,5 na resposta correta, o que acontece quando θ = b. A inclinação real em θ = b é a/4 no modelo de dois parâmetros, mas considerar a como sendo a inclinação em b é uma aproximação aceitável que facilita a interpretação do parâmetro de discriminação de itens na prática. Os valores de a precisam ser positivos, porque negativos não são lógicos, uma vez que diriam que sujeitos de maior aptidão tendem a errar o item enquanto os de menor tendem a acertar. Se ocorrer número negativo para o parâmetro algo está errado com o item: ou está mal escrito ou há alguma desinformação prevalente entre os alunos de alta habilidade. Esperam-se valores de 0 a 3 - os intervalos mais comuns estão na tabela 01 (Baker; Kim, 2017). Baixos valores de a indicam que respondentes com habilidades bastante diferentes têm a mesma probabilidade de responder um item. Já valores muito altos dividem alunos em os que possuem habilidades abaixo do valor da dificuldade do item (b) e os que as possuem acima desse valor.

Para interpretação do parâmetro de discriminação a, pela TRI, Baker (2001) apresenta intervalos de discriminação, conforme Tabela 01:


Tabela 01 – Intervalos de Discriminação

Valor do parâmetro a Nível de discriminação
0,0 Nenhuma discriminação
0,01 até 0,34 Muito baixa
0,35 até 0,64 Baixa
0,65 até 1,34 Moderada
1,35 até 1,69 Alta
>1,7 Muito alta
+∞ Perfeita

Fonte: Adaptada de Baker (2001, p.43)

  • Parâmetro b: chamado de parâmetro de dificuldade, é o ponto na escala de aptidão no qual a probabilidade de uma resposta correta é de 50%. A métrica teórica vai de - 3 a + 3. Quanto maior o valor de b maior a aptidão necessária para que o respondente tenha chance de 50% de acerto. No ML3P, o parâmetro b representa a habilidade necessária para uma probabilidade de acerto igual a (1+c)/2. Assim, quanto maior o valor de b, mais difícil é o item e vice-versa. (Baker; Kim, 2017).
  • Parâmetro c: é a probabilidade de acertar o item adivinhando. É importante notar que, por definição, o valor de c não varia em função do nível de habilidade. Assim, os examinandos de menor e maior habilidade podem ter a mesma probabilidade de acertar o item por adivinhação. O parâmetro c tem um intervalo teórico de 0 a 1, mas na prática valores acima de 0,35 não são considerados aceitáveis. (Baker; Kim, 2017).
  • A Figura 02 mostra um gráfico conhecido como curva característica do item (CCI) para um modelo ML3P de um item genérico em um teste hipotético. Antecipando as possíveis interpretações (as quais serão retomadas em seção 4.3) pode-se dizer que se trata de um item de discriminação e dificuldade mediana, com um valor de c dentro do intervalo esperado.

    Figura 02 - Posicionamento dos parâmetros dos itens Figura 02 - Posicionamento dos parâmetros dos itens

    Esses três parâmetros definem as estimativas de traço latente, considerando suas diversas atribuições e suas respectivas funções matemáticas. Conforme Andrade, Tavares e Valle (2009), os modelos logísticos de 1, 2 e 3 parâmetros são assim definidos.
    1. Modelo Logístico de 1 Parâmetro (ML1P): o a é considerado 1, o c zero e o b presente para estabelecer a medição do θ. Considera somente a habilidade do indivíduo – Modelo de Rasch. (Equação 1)
    2. Modelo logístico de 2 parâmetros (ML2P): determinado por a e b. Aqui o c é considerado 0, uma vez que o objetivo de instrumentos baseados nesse modelo logístico é avaliar a concordância com um item dicotômico. Considera habilidade e discriminação do item. (Equação 2)
    3. Modelo logístico de 3 parâmetros (ML3P): determinado por a, b e c . Ideal para avaliação de instrumentos com itens de múltipla escolha, com uma alternativa correta dentro de um conjunto de opções, sendo possível o acerto ao acaso. (Equação 3)

    Os modelos logísticos citados acima têm sua Função da Resposta ao Item nas alíneas, considerando as equações 1, 2 e 3.2

    Modelo logístico de um parâmetro:

    Equação 01:

    \[P(U_{i} = 1 | \theta_{j}) = \frac{1}{1 + e^{-D(\theta_{j} - b_{i})}}\]

    Modelo logístico de dois parâmetros:

    Equação 02:

    \[P(U_{i} = 1 | \theta_{J}) = \frac{1}{1 + e^{-D_{ai}(\theta - b_{i})}}\]

    Modelo logístico de três parâmetros:

    Equação 03:

    \[ P(U_{i,j} = 1 | \theta_{j} = c_{i} + (1 - c_{i}) \frac{1}{1 + e^{-D_{ai}(\theta_{j} - b_{i})}}\]

    As expressões utilizadas nos modelos logísticos representam os parâmetros dos itens e constantes utilizadas conforme o modelo matemático, onde:
    • Pi(θ): é a probabilidade de o indivíduo acertar o item;
    • θ: é o nível de habilidade do sujeito;
    • i: é o número do item no teste;
    • a: índice de discriminação;
    • b: índice de dificuldade do item;
    • c: índice de acerto casual;
    • e: uma base logarítmica de valor 2,72;
    • D: é uma constante de valor 1,7

    Na próxima seção serão abordadas a curva característica do item e a curva de informação do teste. A primeira permite uma análise individualizada de cada item e a segunda avalia toda informação que é possível ser analisada com o teste.

    4.2 Curva característica do Item (CCI) e Função de Informação do Teste

    A relação entre a probabilidade de um indivíduo acertar uma resposta a um item e a medida de sua habilidade/aptidão/comportamento (θ) pode ser visualizada graficamente por uma curva em forma de S, conforme mostra a Figura 03.

    Figura 03 - Curva Característica do Item Figura 03 - Curva Característica do Item

    Essa curva mostra os parâmetros relativos ao item, conforme o modelo estatístico em uso, considerando o pressuposto da independência local, ou seja, cada item possui uma dada curva característica – CCI. A Figura 02, mostra um exemplo da CCI de um item genérico, analisado sob o Modelo Logístico de 2 Parâmetros. Como podemos observar a probabilidade de um indivíduo acertar um item em função de θ aumenta quando aumenta o valor de θ. Itens com maior valor para o a possuem maior poder de discriminação e suas respectivas curvas apresentam inclinação mais acentuada. Sobre a CCI, Baker e Kim (2017, p.17-18), observam:

    1)Quando a discriminação dos itens é menor que moderada, a curva característica do item é quase linear e parece bastante plana. 2)Quando a discriminação dos itens é maior que moderada, a curva característica do item é em forma de S e bastante íngreme em sua seção intermediária. 3) Quando a dificuldade do item é menor que média, a maior parte da curva característica do item tem uma probabilidade de acerto maior que 0,5. 4) Quando a dificuldade do item é maior que a média, a maior parte da curva característica do item tem probabilidade de acerto menor que 0,5. 5) Independentemente do nível de discriminação do item, a dificuldade do item localiza o item ao longo da escala de habilidade. Portanto, a dificuldade do item e a discriminação do item são independentes uma da outra. 6)Quando um item não tem discriminação de item, todas as opções de dificuldade do item produzem a mesma linha horizontal em um valor de P(θ)= 0,5. Isso ocorre porque o valor de dificuldade do item para um item sem discriminação é indefinido. 7) Se você foi muito observador, deve ter notado o ponto em que P(θ)= 0,5 corresponde à dificuldade do item. Quando um item é fácil, esse valor ocorre em um nível de habilidade baixo. Quando um item é difícil, esse valor corresponde a um alto nível de habilidade.

    A Função de Informação do Teste representa um método que detalha os parâmetros fundamentais dos itens e do próprio teste considerando a precisão da medida e a ocorrência de erro. Por meio da função de informação do teste é possível verificar se este possui confiabilidade – ou seja, se o teste produz mais informação verdadeira sobre o θ do que informação errônea. Para efeitos de notação a Equação 4 traz a função de informação do teste:

    Equação 04:

    \[ I(\theta) = \sum_{i=1}^{I} I_{i}(\theta) \quad \text{} \]

    A Figura 04 ilustra o conceito de curva de informação do teste, mostrando a precisão de informação possibilitada pelo instrumento na linha contínua (azul) e o erro de medida abaixo da linha pontilhada (vermelho). A ilustração mostra um teste com maior capacidade de medição de traços latentes entre 0 e 3,8. Para os extremos inferior e superior a curva produz uma quantidade de erros de medida que torna a informação imprecisa.

    Figura 04 - Curva de Informação do Teste Figura 04 - Curva de Informação do Teste

    Esses conceitos abordados teoricamente serão aplicados na próxima seção, por meio de linhas de programação em R, com o objetivo de calibrar um teste real. Cada linha contém sua explicação dentro da análise.

    4.3 Estimação de parâmetros: calibração e interpretação

    Quando se inicia a análise de um teste apenas as respostas dos indivíduos são conhecidas. Desse modo é preciso estimar os parâmetros dos itens e as habilidades dos respondentes. Esse processo é conhecido como calibração, a qual é realizada por meio de métodos estatísticos complexos – atualmente informatizados.
    Em sentido prático, é necessário possuir um conjunto de dados, resultantes das respostas a um teste e seu gabarito. Esses dados serão trabalhados por meio de algoritmos estatísticos realizando-se a calibração e obtendo-se os parâmetros dos itens, o escore dos indivíduos e as curvas características dos itens e de informação do teste. Na seção 4.1 encontram-se definições e valores teóricos, que permitem interpretar as características desses itens, quanto a discriminação, dificuldade e acerto ao acaso, conforme o modelo a que se destina.

    Será apresentada a seguir uma possível forma de calibração dos itens de um teste real – trata-se de 23 questões do Enade 2017, para a Licenciatura em Matemática, pelo Modelo Logístico de 3 Parâmetros com software R (R Core Team, 2022). Caso se queira acompanhar a calibração o conjunto de dados pode ser baixado no link: Dados do Enade 2017

    Calibrando os parâmetros com R

    • Inserção do arquivo: ativa a pasta onde se encontra o arquivo. Atente-se para substituir o caminho conforme seus dados.
    setwd("C:/Users/pasta/nome de seu arquivo”)
    • Limpeza: essa linha remove objetos que possam estar no ambiente R, dando mais clareza aos resultados obtidos durante a calibração.
    rm(list=ls())
    • Carregamento de pacotes: estas linhas carregam os pacotes indispensáveis para realizar as operações do script (conjunto das linhas de programação), ou seja, para a utilização das funcionalidades da linguagem R. Os pacotes abaixo são necessários para essa análise em particular – outros podem ser associados para obtenção de outras informações ou gráficos. Caso não possua use - install. packages(“nome do pacote”).
    library(data.table)
    library(mirtCAT)
    library(irtoys)
    library(dplyr)
    library(car)
    • Leitura da base: “fread” é uma função para leitura de arquivos de dados em formato de tabela. Nesse caso o script prevê a leitura de um arquivo CSV (“EnadeTRI23.csv”), armazena-o na variável “base” e remove a primeira coluna, em que estão descritas as numerações de identificação dos respondentes.
    base <- fread(input = paste0("EnadeTRI23.csv"), header = T, na.strings = "NA", colClasses = "character", data.table = FALSE) 
    base1 <- base[,-1]
    • Tabela de frequências: transforma os dados em uma tabela que indica a quantidade de “As”,“Bs”,“Cs”,“Ds”,“Es” e NAs (“*”).
    freq <- data.frame(matrix(data = 0, nrow = ncol(base1), ncol = 7))# 1 valor a mais que a quantidade de variáveis.
    categorias<-c("*","A","B","C","D","E") #inserir as variáveis, conforme seu teste.
    colnames(freq) <- append(categorias,NA)
    rownames(freq) <- colnames(base1)
    freq_list <- lapply(X = base1, FUN = table, useNA = "always")
    for (i in 1:length(freq_list)){
     freq[i,which(names(freq) %in% names(freq_list[[i]]))] <- freq_list[[i]]
    }
    • Correção dos itens: a função “key2binary” efetua a correção dos itens. As linhas de programação leem um arquivo CSV (“GabaritoTRI23.csv”) que contém o gabarito das respostas corretas para os itens.
    gabarito <- fread(input = paste0("GabaritoTRI23.csv"), header = T, na.strings = "NA", colClasses = "character") #nome do arquivo
    gabarito <- unlist(gabarito[,])#agora seu arquivo será chamado de “gabarito”.
    base1c<- key2binary(base1,gabarito,score_missing=TRUE)

    Observação: Se score_missing=FALSE, todos os dados “missing” serão considerados não respondidos.

    • Calibração a prioris e sem prioris: é possível optar por estimar os dados utilizando apenas a informação obtida pelo conjunto de respostas apresentadas pelos respondentes (distribuição sem prioris) ou, utilizar linhas de programação que considerem distribuições de probabilidade prévias, relacionadas a outros estudos teóricos e que consideram prioris normais para o parâmetro de dificuldade, prioris log-normais para os parâmetros de discriminação e prioris beta para o parâmetro de acerto casual. (Andrade; Tavares; Valle, 2000).

    Calibracao dos itens sem prioris:

    modelo <- mirt(data=base1c, model=1, itemtype="3PL", SE=TRUE, quadpts = 20, technical = list(theta_lim = c(-4.0,4.0), NCYCLES = 500), TOL = 0.001, optimizer = 'BFGS')coef(modelo, IRTpars=TRUE, simplify=FALSE, printSE=TRUE)
    coef.parB <- coef(modelo, IRTpars=TRUE, simplify=TRUE)
    items.parB <- as.data.frame(coef.parB$items)
    write.csv2(x = items.parB, file = paste0("parB_SP.csv"))
    coef.parD <- coef(modelo, IRTpars=FALSE, simplify=TRUE)
    items.parD <- as.data.frame(coef.parD$items)
    write.table(items.parD, file = paste0("parD_SP.csv"), dec = ",", sep=";",row.names=FALSE)

    Calibracao dos itens com prioris:

    prioris <- mirt.model('F1 = 1-23
                        PRIOR = (1-23, a1, lnorm, 0, 0.5),(1-23, g, norm, -1.386294, 0.5)')
    modelo <- mirt(data=base1c, model=prioris, itemtype="3PL",SE=TRUE, quadpts = 20,
                   technical = list(theta_lim = c(-4.0,4.0), NCYCLES = 500), TOL = 0.001, optimizer = 'BFGS') # observe que nessa linha traz a opção pelo modelo.
    coef(modelo, IRTpars=TRUE, simplify=FALSE, printSE=TRUE)
    coef.parB <- coef(modelo, IRTpars=TRUE, simplify=TRUE)
    items.parB <- as.data.frame(coef.parB$items)
    write.csv2(x = items.parB, file = paste0("parB_ENADE23.csv"))
    coef.parD <- coef(modelo, IRTpars=FALSE, simplify=TRUE)
    items.parD <- as.data.frame(coef.parD$items)
    write.table(items.parD, file = paste0("parD_ENADE23.csv"), dec = ",", sep=";",row.names=FALSE)
    • Gráfico dos itens: esta linha cria um gráfico para cada item no modelo referente a curva característica do item.
    lapply(seq(1,23), function(i) itemplot(modelo, i)) # lembre-se de atualizar com a quantidade de itens que possui. O 23 pode ser substituído pelo seu número de itens.
    • Todos os itens no mesmo gráfico: aqui são plotadas todas as curvas características no mesmo gráfico, a título de comparação.
    plot(modelo, type = 'trace', which.items = 1:23, facet_items = FALSE, auto.key = list(space = FALSE))
    • Gráfico da curva total do teste: esta linha cria um gráfico da curva total do teste.
    plot(modelo, type = 'infoSE', theta_lim = c(-4,5), lwd=2)
    • Cálculo do score da TRI: nessas linhas são calculados os escores da TRI utilizando o método EAP (expected a posteriori - estimação a posteriori esperada) que é uma técnica de estimação utilizada para calcular as proficiências (ou habilidades latentes) dos respondentes com base em suas respostas aos itens. Ele considera tanto as informações fornecidas pelos itens respondidos quanto as informações a priori sobre as habilidades dos indivíduos. (Andrade; Tavares; Valle, 2000).
    score_TRI <- fscores(modelo, method='EAP', quadpts = 20, theta_lim = c(-4,4))
    colnames(score_TRI) <- c("score_TRI2") 
    base_score <- cbind(base,score_TRI)
    • Escrita do resultado: nesse trecho a programação em R salva os resultados do score da TRI em um arquivo CSV, no caso, chamado “Score_enade_NOVO23.csv”.
    write.csv2(x = base_score, file = paste0("Score_enade_NOVO23.csv"))

    Após a manipulação dessas linhas de programação, o pesquisador possui um conjunto de dados calibrados a respeito do teste (no caso o Enade 2017 para a Licenciatura em Matemática). Na seção a seguir será discutida a construção de uma escala de habilidades no que tange a um traço latente unidimensional e como essa pode ser elaborada considerando os parâmetros dos itens obtidos na calibração.

    5. Escala de habilidades

    O objetivo fundamental da TRI é a medição de um traço latente de dimensões não físicas – o qual é chamado de θ, conforme foi visto até o momento. Esse valor faz parte de uma escala contínua que diz respeito ao potencial de medição de teste. Andrade Tavares e Valle afirmam que na TRI a habilidade pode teoricamente assumir qualquer valor real entre −∞ e +∞. Assim, precisa-se estabelecer uma origem e uma unidade de medida para a definição da escala com valores que representam a média e o desvio-padrão dos indivíduos pertencentes a população em estudo.

    Uma escala bastante utilizada na TRI é aquela que apresenta média 0 e desvio-padrão 1 – embora, segundo Andrade, Tavares e Valle (2000, p.15), não haja necessariamente alguma diferença se forem estabelecidos outros parâmetros, possuindo a escala de habilidades métricas arbitrárias.

    Apesar da frequente utilização da escala (0,1), em termos práticos, não faz a menor diferença estabelecer-se estes valores ou outros quaisquer. O importante são as relações de ordem existentes entre seus pontos. Por exemplo, na escala (0,1) um indivíduo com habilidade 1,20 está 1,20 desvios-padrão acima da habilidade média. Este mesmo indivíduo teria a habilidade 248, e consequentemente estaria também 1,20 desvios-padrão acima da habilidade média, se a escala utilizada para esta população fosse a escala (200;40).
    A construção da escala de habilidades depende do cálculo das probabilidades para cada nível de θ definido para a escala. Assim, supondo a unidimensionalidade do teste e o princípio da independência local, pode ser aplicado o seguinte método para aferir as quantidades que permitirão a construção da escala pedagógica de habilidades.
    1. Calibração: esse método foi exposto na seção 4.3 e se modifica conforme o modelo ou o tipo de tecnologia computacional utilizada.
    2. Cálculo das probabilidades – sugestão em Excel - Observe a Figura 05 na próxima página. Após a calibração os dados foram inseridos em uma planilha e definido o intervalo para o θ de - 4 a 4. A seguir foi aplicado a fórmula =\(D4+((1-\)D4)/(1+EXP(-$B4(E\(3-\)C4))))* – notação em Excel para o ML3P, sendo transferidos os valores para as demais células utilizando referência relativa. Todas as linhas e colunas abaixo de – 4 a + 4 correspondem a probabilidade de um indivíduo j responder ao item i, conforme o valor de seu θ.
    3. Determinação de itens âncoras e quase-âncoras: a escala de habilidades é definida por níveis âncoras, os quais são pontos selecionados pelo analista para serem interpretados pedagogicamente. Esses são caracterizados pelos itens âncoras, que, por sua vez, são caracterizados pelos itens âncoras, definido por Beaton e Allen (1992) como aqueles que atingem probabilidade ≥0,65; com o nível anterior < 0,50 e a diferença entre eles ≥ 0,30. Um exemplo é item I20, na Figura 05. São itens teóricos que não aparecem com frequência em dados reais por isso usa-se a definição de Andrade, Tavares e Valle (2000), em que itens cujo valor da discriminação seja superior a 1,0, observando-se a posição do item onde a probabilidade seja > 0,60 para ML3P e 0,50 para ML2P. Não se pode ter certeza de quantos itens âncoras serão selecionados para cada nível âncora e nem se existirão no teste aplicado itens âncoras para todos os níveis âncora determinados. (Andrade; Tavares; Valle, 2000).

    Figura 05 - Escala de habilidades: cálculo de probabilidades Figura 05 - Escala de habilidades: cálculo de probabilidades

  • Análise das habilidades medidas em cada intervalo: a partir das definições, entra em cena o especialista na temática do teste, que entende os objetivos de cada item e o relaciona ao nível de θ. Considere a Figura 06, para a elaboração de uma escala pedagógica de habilidades hipotética sobre - conhecimentos em ensino de matemática. Observe que podem ser evidenciados como itens âncora ou quase-âncoras aqueles em roxo. Esses precisam ser avaliados conforme o valor de θ associado, assim tem-se a possibilidade de elaboração de uma métrica para as habilidades.
  • Figura 06 - Escala de habilidades hipotética Figura 06 - Escala de habilidades hipotética

    Pode ser observado que os valores obtidos na calibração têm impacto na medição do θ. Esse, por sua vez, permite a definição de probabilidades associadas aos níveis de habilidades que são cumulativos no decorrer da escala. Contudo, é indispensável o olhar do especialista na temática do teste para ser possível o posicionamento de uma escala de habilidades com uma sólida interpretação pedagógica. A próxima seção trará uma das maiores benefícios da TRI – a comparação entre populações por meio da equalização.

    6. Equalização

    Conforme Andrade, Tavares e Valle (2000), Araújo, Andrade e Bortoloti (2009) e Pasquali (2018) é possível comparar os testes por meio de procedimentos estatísticos de equalização, ou seja, os itens podem ser calibrados de modo a distinguir escores e parâmetros de itens para diferentes populações em uma mesma escala, via população ou via itens comuns, a posteriori ou simultaneamente. Desse modo, equalizar um conjunto de dados na TRI é colocar os parâmetros dos itens vindos de provas distintas na mesma métrica. Andrade, Tavares e Valle (2000), identificam os seguintes casos de equalização:
    1. Um único grupo fazendo provas distintas: para resolver basta que os itens sejam calibrados simultaneamente. Exemplo: um único grupo de alunos faz a prova A com 30 itens ou a prova B com 30 itens, para comparar os resultados realiza-se um processo de estimação de parâmetros com os resultados em conjunto (60 itens).
    2. Um único grupo fazendo provas parcialmente distintas: a calibração deverá ser feita em conjunto englobando os itens que foram respondidos somente na prova A, os somente da prova B e aqueles que representam a interseção entre eles. Se a prova A possui 30 itens e a prova B 30 itens e entre elas 10 itens forem comuns, temos = 30 + 30 – 10 (calibração de 50 itens).
    3. Dois grupos fazendo uma única prova: é uma equalização via itens em que basta que sejam calibrados todos os itens simultaneamente.
    4. Dois grupos fazendo provas parcialmente distintas: é necessário calibrar os itens distintos e aqueles comuns de forma simultânea.
    5. Quando há uma população e uma prova distinta é um caso de calibração comum. Já no caso de duas populações e duas provas distintas não é possível equalizar via TRI.

    O número mínimo de itens comuns em uma calibração depende do tipo de calibração a ser feita, se via população ou via itens, e se esses itens possuem qualidade, ou seja, uma boa discriminação. A calibração também pode ser realizada a posteriori, calibrando-se o conjunto de itens (com itens comuns entre os dois conjuntos). Após as estimativas, os itens comuns fornecem uma relação que permite colocar os dois grupos em uma mesma escala. Mais detalhes em Andrade, Tavares e Valle (2020). Na próxima seção será explorado o Modelo de Resposta Nominal da TRI, para itens politômicos.

    7. Modelo de Resposta Nominal

    Um teste de múltipla escolha possui, invariavelmente, uma alternativa correta chamada de gabarito e um conjunto de opções conhecidos como distratores, os quais conceituam-se como alternativas diversas do gabarito de uma questão – atuam como distrações ao raciocínio que é necessário para a resposta correta.

    Quando bem formulados, os distratores presentes nos itens nominais costumam indicar diferentes linhas de raciocínio, o que indica vieses de pensamento, vícios de linguagem, limiares cognitivos e, mesmo, algum conhecimento específico de uma parcela da população. (Pinheiro; Costa; Cruz, 2010, p.439)
    Esse tipo de teste permite a aplicação tanto de modelos logísticos como do Modelo de Resposta Nominal (MRN)3. No MRN considera-se a noção de que diferentes erros são cometidos por diferentes motivos, mesmo em escalas unidimensionais. Nesse caso, o conhecimento parcial dos sujeitos se revelaria com maior ou menor intensidade dentre as alternativas incorretas de um item, o que acarretaria uma maior precisão da medida. (Pinheiro; Costa; Cruz, 2010).

    Conforme a conceituação de Bock (1972) o MRN expressa “a probabilidade de que um sujeito de habilidade θ responderá ao item j na categoria k”. Nesse sentido, considerando um teste com i itens ( i = 1…in) de múltipla escolha respondidos por jn (j = 1, …, jn) indivíduos. Sejam as alternativas de resposta do item in , as categorias k=1, 2… mi, as quais são mutuamente exclusivas e não possuem uma ordenação. A probabilidade de escolha de uma alternativa k é igual a:

    Equação 5:

    \[ P_{ijk=} Y_{ijk=1} |\theta_j,\zeta_i = \frac{e^{(a_{ik} (\theta_j - b_{ik}))}}{\sum_{h=1}^{mi} e^{(a_{ih} (\theta_j - b_{ih}))}} = \frac{e^{(c_{ij} + a_{ij} \theta_j)}}{\sum_{h=1}^{mi} e^{(c_{ih} + a_{ih} \theta_j)}} = \frac{e^{(z_{ik}(\theta_j))}}{\sum_{h=1}^{mi} e^{(z_{ih}(\theta_j))}} \]

    Onde:

    • θj: Traço latente do indivíduo;
    • aik: Parâmetro referente a discriminação (inclinação) da alternativa k do item i.
    • bik: Parâmetros referentes à dificuldade da alternativa k do item i.
    • cik= - aik bik: Intercepto da alternativa k do item i.
    No modelo apresentado cada resposta é tratada separadamente, diferentemente de outros modelos da TRI, em que os itens são agrupados em corretos ou incorretos. As alternativas são compostas de opções regidas por duas regras: a ocorrência de uma exclui a ocorrência da outra e as diversas categorias não são ordenadas como ocorre por exemplo em respostas do tipo Likert. Além disso, a soma apontada no denominador é realizada sobre todas as opções de resposta para um determinado item. (Bock, 1972).

    Nesse modelo espera-se valores negativos para o parâmetro as relativo aos distratores e valores positivos para a alternativa correta. Esse parâmetro se refere a discriminação do item, ou seja, a inclinação da alternativa k do item i. Para o cálculo da discriminação as em MRN, considera-se os quantis de dois grupos, os 27% indivíduos com menor traço latente e os 73% de maiores traço latente. Esses valores são usados para encontrar a probabilidade de escolha da alternativa correta. Para realizar esse cálculo de probabilidade substitui-se os valores dos quantis pelos traços latentes e o parâmetro resumo é dado por:

    Equação 6:

    \(a_{i=} P_{i(q73)} - P_{i(q27)}\)

    Em síntese, os valores de as muito baixos indicam que a alternativa do item não discrimina os indivíduos adequadamente. Os negativos indicam que a probabilidade diminui com a perspectiva de aumento do traço latente e são associados em situações ideais às alternativas distratoras, ou seja, respostas com uma inclinação distintamente negativa indicam a probabilidade de escolha está inversamente relacionada à compreensão geral dos alunos. Valores positivos indicam alternativas com potencial para ser a correta, uma vez que são escolhidas por indivíduos com traços latentes mais altos. (Thissen; Steinberg; Fitzpatrick, 1989)
    Na análise computacional pelo MRN não é informada a resposta correta, sendo esta interpretada das alternativas com maior probabilidade de escolha em locais da reta onde o θ é maior. Nesse sentido, quando esses valores apontam para um distrator é possível que tenha ocorrido algum erro na organização do teste ou uma fragilidade em relação a sua construção. O cálculo de θ no MRN incorpora quais respostas incorretas os alunos selecionam, reconhecendo assim, que diferentes respostas incorretas podem indicar diferentes níveis de compreensão (Smith; Bendjilali, 2022).

    O MRN pode ser utilizado para análise exploratória e de qualidade dos itens. Em um teste de múltipla escolha é possível identificar alternativas melhores que outras, com peso maior sobre outras. Também é possível dar retorno para os elaboradores de um teste sobre alternativas que se destacam na escolha dos indivíduos, identificando vieses e problemas relacionados a construção dos itens. Dessa forma, no Modelo de Resposta Nominal percebe-se, nitidamente, que existem várias probabilidades complementares à alternativa correta, o que aumenta a curva de informação do item, possibilita a análise dos diferentes distratores e, ainda, fornecem indícios de má formulação de uma questão. (Pinheiro; Costa; Cruz, 2010). A próxima seção traz um exemplo da aplicação desse modelo e dos demais apresentados nesse estudo.

    8. Aplicações práticas da TRI

    Para exemplificar a interpretação dos resultados da calibração pela TRI, será utilizado o Enade 2017, com questões referentes aos conhecimentos profissionais específicos. Essa parte da prova é composta de 27 itens, no entanto, nessa edição quatro deles foram retirados, por apresentarem discriminação baixa. O Enade utiliza, originalmente a TCT para análise dos resultados, desse modo, a aplicação a seguir, pode ser entendida como uma proposta, que facilitaria a medição dos dados de forma longitudinal e a comparação entre as diversas edições.

    Além disso, foi utilizado o Modelo de Resposta Nominal, com aplicações que sugerem a análise de distratores e erros dos educando, culminando em uma avaliação mais precisa do desempenho dos estudantes.

    8.1 Aplicações do ML3P ao Enade

    O exemplo a seguir ilustra a estimação dos parâmetros de 23 itens do teste Enade 2017 para a Licenciatura em Matemática, os quais foram considerados para mensuração do índice Enade pelo Inep (Instituto Nacional de Pesquisas Educacionais) – o mesmo que foi calibrado na seção 4.3. Os resultados constam na Tabela 04, indicando os parâmetros a (Discriminação), b (Dificuldade) e c (Acerto ao caso), acompanhados do respectivo erro-padrão (EP).

    Tabela 02 – Estimação dos parâmetros dos itens

    Itens a b c Itens a b c Itens a b c
    I09 3,44 2,00 0,22 I18 2,58 2,09 0,13 I29 0,77 1,97 0,17
    EP 0,38 0,05 0,01 EP 0,27 0,06 0,01 EP 0,12 0,11 0,03
    I10 1,98 0,82 0,38 I20 3,70 1,84 0,20 I30 1,05 0,62 0,11
    EP 0,18 0,05 0,02 EP 0,38 0,04 0,01 EP 0,07 0,07 0,03
    I11 3,02 1,61 0,25 I22 2,18 1,34 0,18 I31 0,56 1,45 0,08
    EP 0,29 0,04 0,01 EP 0,18 0,04 0,01 EP 0,04 0,12 0,02
    I12 2,66 1,34 0,22 I24 3,59 1,83 0,19 I32 0,78 0,77 0,07
    EP 0,20 0,03 0,01 EP 0,36 0,04 0,01 EP 0,04 0,07 0,02
    I13 1,21 1,41 0,22 I25 0,89 1,82 0,16 I33 0,76 0,70 0,08
    EP 0,11 0,06 0,02 EP 0,11 0,09 0,03 EP 0,04 0,09 0,02
    I14 3,27 2,19 0,15 I26 1,21 -0,22 0,11 I34 0,62 1,77 0,11
    EP 0,38 0,06 0,00 EP 0,06 0,08 0,03 EP 0,06 0,13 0,03
    I15 2,28 1,85 0,20 I27 0,97 0,42 0,06 I35 0,95 -0,66 0,07
    EP 0,22 0,05 0,01 EP 0,05 0,06 0,02 EP 0,04 0,06 0,02
    I17 1,67 2,29 0,22 I28 0,60 1,12 0,10
    EP 0,21 0,10 0,01 EP 0,05 0,13 0,03

    Fonte: elaborada pela autora (2024)

    Na Tabela 02, destacam-se como itens com parâmetros a baixos: I28, I31 e I34. Significa dizer que esses itens não cumprem o papel de discriminação na medição do traço latente. Há que se destacar também que cerca de 43,47% dos itens (a saber: I9, I10, I11, I12, I14, I15, I16, I18, I20, I22, I24) possuem parâmetro a >1,7, evidenciando que se trata de itens com discriminação muito alta.

    Os valores dos itens da Tabela 02 que representam os itens difíceis no conjunto em análise são: I09, I14, I17 e I18. Os itens considerados mais fáceis são I26 e I35 (b estimado em - 0,21 e - 0,66, respectivamente). O parâmetro c, que mede a probabilidade de acerto ao acaso, tem valor médio de 0,16 (σ = 0,07), estando dentro das expectativas para um teste com 5 alternativas, conforme Baker e Kim (2017). O valor médio de discriminação é 1,78 (σ =1,07) e de dificuldade 1,32 (σ=0,76). Nesse sentido, pode-se considerar que o Enade 2017, para Licenciatura em Matemática é um teste de discriminação alta pois a média supera 1,7, com classificação mediana no que tange ao parâmetro de dificuldade.

    8.2 Análise pelo MRN

    A título de exemplificação, a Tabela 03, mostra o resultado da calibração de itens do Enade 2017 para a Licenciatura em Matemática por meio do MRN, indicando os parâmetros para os distratores e gabarito. Essa pesquisa é apresentada em inteiro teor em Rostirola, Henning e Siple (2023).

    Tabela 03 – Parâmetros dos itens do enade 2017 pelo MRN

    I a1 a2 a3 a4 a5 I a1 a2 a3 a4 a5
    I1 0,208 -0,324 0,523 -0,223 -0,183 I19 -0,133 0,171 -0,2 0,129 0,033
    I2 -0,09 -0,259 0,201 0,069 0,079 I20 -0,088 -0,044 0,27 -0,2 0,062
    I3 -0,012 0,3 -0,269 -0,163 0,144 I21 -0,055 0,094 -0,159 -0,005 0,126
    I4 -0,28 0,844 -0,546 -0,047 0,028 I22 -0,098 -0,138 -0,222 -0,147 0,6
    I5 -0,454 0,01 0,594 -0,087 -0,063 I23 0,202 -0,182 -0,067 -0,35 0,396
    I6 -0,178 -0,229 -0,422 -0,105 0,93 I24 -0,042 0,316 -0,177 -0,207 0,111
    I7 0,305 -0,04 -0,289 0,273 -0,25 I25 0,41 0,235 0,199 -0,244 -0,203
    I8 -0,458 -0,131 -0,049 0,51 0,127 I26 -0,18 -0,418 0,793 -0,269 0,073
    I9 -0,013 -0,2 0,261 -0,407 0,359 I27 0,008 -0,316 -0,282 -0,068 0,658
    I10 0,654 -0,015 -0,327 -0,263 0,04 I28 -0,466 -0,632 0,66 -0,078 0,516
    I11 -0,305 -0,36 0,422 0,008 0,235 I29 -0,662 0,075 0,46 -0,118 0,244
    I12 -0,141 0,572 -0,269 -0,257 0,095 I30 -0,212 0,72 -0,596 0,001 0,087
    I13 -0,524 -0,583 0,23 0,595 0,282 I31 -0,466 -0,306 0,1 0,146 0,52
    I14 0,038 0,158 -0,113 0,014 -0,097 I32 0,607 0,101 -0,527 -0,333 0,152
    I15 -0,08 -0,331 -0,115 0,393 0,133 I33 0,286 -0,563 -0,434 0,207 0,504
    I16 0,125 -0,023 -0,11 0,052 -0,045 I34 -0,139 -0,066 -0,21 0,358 0,057
    I17 -0,014 0,107 0,287 -0,068 -0,313 I35 -0,25 -0,454 0,031 0,698 -0,025
    I18 -0,017 -0,157 -0,07 -0,121 0,365

    Fonte: Rostirola, Henning e Siple (2023)

    A seguir o item I21 (Figura 07), desse exame é destacado,interpretando-se a relação entre seu distratores e gabarito. A Tabela 03 mostra os distratores B e E com valores positivos (B = 0,09; E= 0,13) enquanto o gabarito valorou-se em -0,004 (alternativa D). Na resolução da questão observa-se alguns aspectos quanto a soma das probabilidades na afirmação I: os primeiros cálculos chegam a três frações iguais a 1/15 que precisam ser somadas, gerando 1/5. No entanto, como há alternativas que apresentam a fração 1/15 o participante pode ser atraído para a alternativa E, considerando todas as afirmativas corretas.

    Figura 07 - Questão 21 do Enade 2017 Figura 07 - Questão 21 do Enade 2017

    Aplicando-se o MRN, pode ser obtida uma análise gráfica dos itens, ratificando as informações obtidas na calibração. Espera-se que o gabarito apresente crescimento de sua curva maior que a dos distratores. No entanto, esse item não reflete essa característica pois o gabarito (P4 – alternativa D), não aumenta a probabilidade de acerto, conforme aumenta o traço latente do indivíduo.(Figura 08).

    Figura 08 - Curvas resultantes do MRN Figura 08 - Curvas resultantes do MRN

    O uso desse modelo facilita a análise da organização dos testes como um todo, uma vez que cada uma das alternativas é considerada na análise técnica do item, isto é, na avaliação do conteúdo de cada item. Assim, são ampliadas as fontes de informação para avaliar um teste, culminando em decisões quanto a revisões indispensáveis ao item, para que esse possa medir com fidedignidade e precisão um daterminado traço latente.

    Algumas palavras finais

    Esse trabalho buscou sintetizar os principais aspectos sobre a Teoria da Resposta ao Item. Foram explorados seus fundamentos teóricos e apresentadas algumas diretrizes computacionais - além da sugestão de um script para ser manipulado em Linguagem R.
    As suas seções e exemplos permitem interpretar os relatórios educacionais que são veiculados na mídia, proporcionando aos educadores compreensão sobre esse importante instrumento de avaliação educacional. A partir desses conhecimentos é possível ao professor criar seus próprios testes para mensurar a qualidade da educação em sua escola e comunidade, com precisão e fidedignidade.

    Entende-se que é apenas um retrato das potencialidades da TRI, sendo possível utilizar outras ferramentas computacionais e outros softwares, em complementação ao presente material.Assim, esse livro tem a pretensão de inspirar os educadores a aplicar os princípios da Teoria da Resposta ao Item, com o interesse de oferecer melhores condições de aprendizagem aos educandos.

    Referências

    ANDRADE, D. F.; TAVARES, H. R.; VALLE, R. C. Teoria da Resposta ao Item: conceitos e aplicações. ABE, São Paulo, 2000. Disponível em: https://docs.ufpr.br/~aanjos/CE095/LivroTRI_DALTON.pdf. Acesso em: 24 de mai. de 2024.

    ARAUJO, E. A. C. de; ANDRADE, D. F. de; BORTOLOTTI, S. L. V. Teoria da resposta ao item. Revista da Escola de Enfermagem da USP, v. 43, p. 1000-1008, 2009. DOI: https://doi.org/10.1590/S0080-62342009000500003

    BAKER, F.; KIM, S.H. The Basics of Item Response Theory Using R. Madison/ Wisconsin. Springer, 2017

    BAKER, F. The basics of item response theory. 2ª edição. Eric, 2001.

    BARBETTA, P.A; TREVISAN, L.M.V.; TAVARES, H. Aplicação da Teoria da Resposta ao Item uni e multidimensional. Estudos em Avaliação Educacional, v. 25, n. 57, p. 280-302, 2014. DOI: https://doi.org/10.18222/eae255720142832

    BEATON, A. E.; ALLEN, N. L. Interpreting scales through scale anchoring. Journal of Educational Statistics, 17, 191-204 1992. DOI: https://doi.org/10.2307/1165169

    BOCK, R. Estimating item parameters and latent ability when responses are scored in two or more nominal categories. Psychometrika, v. 37, n. 1, p. 29-51, 1972. DOI: 10.1007/BF02291411.

    CAVANAUGH, J. E.; NEATH, A. A. The Akaike information criterion: Background, derivation, properties, application, interpretation, and refinements. Wiley Interdisciplinary Review: Computational Statistics, v. 11, n. 3, p. e1460, 2019. DOI: https://doi.org/10.1002/wics.1460

    ERTHAL. Manual de psicometria. 8ª edição. Zahar, Rio de Janeiro/RJ, 2009.

    NOJOSA, R. T. Teoria da Resposta ao Item (TRI): modelos multidimensionais. Estudos em Avaliação Educacional, n. 25, p. 123-166, 2002. DOI: https://doi.org/10.18222/eae02520022193

    PASQUALI, L; PRIMI, R. Fundamentos da teoria da resposta ao item: TRI. Avaliação Psicológica: Interamerican Journal of Psychological Assessment, v. 2, n. 2, p. 99-110, 2003.Disponível em: http://pepsic.bvsalud.org/scielo.php?script=sci_arttext&pid=S1677-04712003000200002&lng=pt&nrm=iso&tlng=pt. Acesso em 24 de mai. de 2024.

    PASQUALI, L. Psicometria: Teoria dos testes na Psicologia e na Educação. 4ª edição. Editora Vozes, Petrópolis/ RJ, 2011.

    PASQUALI, L. TRI – Teoria de resposta ao item: Teoria, procedimentos e aplicações. Editora Appris, 2018.

    PINHEIRO, I. R.; COSTA, F. R.; CRUZ, R. M. Modelo nominal da teoria de resposta ao item: uma alternativa. Avaliação Psicológica, v. 9, n. 3, p. 437-447, 2010. Disponível em: http://pepsic.bvsalud.org/scielo.php?script=sci_arttext&pid=S1677-04712010000300010&lng=pt&nrm=iso&tlng=pt. Acesso em: 24 de mai. 2024.

    PRIMI, R. Psicometria: fundamentos matemáticos da Teoria Clássica dos Testes. Avaliação Psicológica, v. 11, n. 2, p. 297-307, 2012. Disponível em: http://pepsic.bvsalud.org/scielo.php?script=sci_arttext&pid=S1677-04712012000200015&lng=pt&nrm=iso&tlng=pt. Acesso em: 24 de mai. de 2024.

    R CORE TEAM. R: a language and environment for statistical computing. R Foundation for Statistical Computing, 2022.

    RABELO. M. Avaliação Educacional: fundamentos, metodologia e aplicações no contexto brasileiro. Rio de Janeiro, RJ: SBEM, 2013.

    REVELLE, W. Classical test theory and the measurement of reliability. Psychometric Theory, p. 205-239, 2014.

    ROSTIROLA, S. C. M.; HENNING, E.; SIPLE, I. Z. Análise de distratores: uma interpretação pelo modelo de resposta nominal dos itens do Enade 2017 aplicado à Licenciatura em Matemática. Avaliação. Revista da Avaliação da Educação Superior, v. 28, p. e023026, 2023. DOI: https://doi.org/10.1590/S1414-40772023000100042

    SIJTSMA, K. Reliability beyond theory and into practice. Psychometrika, v. 74, p. 169-173, 2009. DOI: https://doi.org/10.1007%2Fs11336-008-9103-y

    SMITH, T. I.; BENDJILALI, N. Motivations for using the item response theory nominal response model to rank responses to multiple-choice items. Physical Review Physics Education Research, v. 18, n. 1, p. 1-13, 2022. DOI: 10.1103/PhysRevPhysEducRes.18.010133.

    TEZZA, R. Modelagem multidimensional para mensurar qualidade em website de e-commerce utilizando a teoria da resposta ao item. 2012. Tese. Doutorado em Engenharia de Produção, UFSC, Florianópolis/SC.

    THISSEN, D.; STEINBERG, L.; FITZPATRICK, A. R. Multiple-Choice Models: the distractors are also part of the item.Journal of Educational Measurement, vol. 26, no. 2, pp. 161–76, 1989. DOI: https://doi.org/10.1111/j.1745-3984.1989.tb00326.x.

    Notas

    1 Existem estatísticas para avaliar se o modelo é o ideal para o conjunto de informações, como testes qui-drados e o critério Akaike. Mais informações em Cavanaugh e Neath (2019).

    2 Para os ML1P, a fórmula pode ser lida como: a probabilidade de acertar um item, dado o traço latente do sujeito e a dificuldade do item. Para os ML2P lê-se como: a probabilidade de acertar um item dados o traço latente do sujeito, a dificuldade do item e a discriminação do item. Já para o ML3P pode-se ler como: a probabilidade de acertar um item dados o traço latente do sujeito, a dificuldade do item, a discriminação do item e o acerto aleatório do item. (PASQUALI, 2018)

    3 Texto original referente ao artigo de Rostirola, Henning e Siple (2023)