Selles peatükis tutvustame üksikvastuste teooriat samm-sammult, tuginedes lihtsale adnmestikule, mille esimest kuut rida näete siin.
Kood
# küsimuste genereerimineset.seed(42)t1 <-rnorm(1000) # true score# Kolm erineva eristusvõimega küsimusti1 <-rbinom(1000, 1, pnorm(t1-1*rnorm(1000))) # Kõige parem i2 <-rbinom(1000, 1, pnorm(t1+2*rnorm(1000))) # keskminei3 <-rbinom(1000, 1, pnorm(t1+3*rnorm(1000))) # kõige mürasem i4 <-rbinom(1000, 1, pnorm(t1-1+rnorm(1000))) # kõige raskem (eeldatav raskusaste: 1)i5 <-rbinom(1000, 1, pnorm(t1 +rnorm(1000))) # keskmine (eeldatavalt raskusaste: 0)i6 <-rbinom(1000, 1, pnorm(t1+1+rnorm(1000))) # kõige kergem (eeldatav raskusaste -1)df <-data.frame(i1,i2,i3,i4, i5, i6)qflextable(head(df, 6))
i1
i2
i3
i4
i5
i6
0
1
1
0
1
1
1
1
0
0
0
1
0
1
1
0
0
1
0
1
1
0
0
1
1
1
0
1
0
1
1
1
0
0
0
0
Tabel 1. Esimesed 6 rida juhuslikult genereeritud andmestikust 6 dihhotoomse tunnusega
Tegu on juhuslikult genereeritud andmetega, kus kõigi 6 tunnuse aluseks on üks (samuti juhuslikult genereeritud) latentne tunnus. Tunnused i1-i3 on genereeritud ligikaudu võrdse raskusastmega (õige vastuse tõenäosus ca 50%), kuid küsimuste eristusvõime on kahanevas järjekorras (st i1 kõige parem, i2 keskmine ning i3 kõige kehvem). Tunnused i4-i6 on genereeritud võrdse eristusvõimega (samasugune kui küsimusel i1), kuid erineva raskusastmega: i4 kõige raskem, i5 keskmine ning i6 kõige kergem.
Järgnevas tabelis on mõned tavapärased statistikud selle andmestiku kohta: tunnuste keskmised (st õige vastuse tõenäosused), korrelatsioonid koguskooriga (millest on vastav küsimus välja jäetud) ning 1. faktori faktorlaadung (kasutades maksimaalse tõepära meetodit).
Näeme, et klassikalise testiteooria iseloomustus andmestiku kohta on kooskõlas eelnevalt räägituga. Esimesed kolm küsimust (i1-i3) on enam-vähem võrdse raskusastmega (õige vastuse tõenäosus 48-50%), kuid nende korrelatsioon koguskoorgia (st eristusvõime) on kahanevas järjekorras, vastavalt 0.31, 0.24 ja 0.15. Järgmise kolme küsimuse puhul (i4-i6) on korrelatsioon koguskooriga enam-vähem sama (vahemikus 0.28-0.32), kuid raskusaste on erinev (õige vastuse tõenäosus vastavalt 28, 46 ja 72%). Üksikvastuste teooria väljendab neid samu seoseid pisut teisti. Kõigepealt: õige vastuse tõenäosus sõltub isiku võimekusest, madala võimekusega vastajal on väiksem tõenäosus vastata küsimusele õigesti kui kõrgema võimekusega vastajal. Ükskivastuste teooria abil saame seda seost kompaktselt väljendada ning ennustada õige vastuse tõenäosust konkreetse vastaja korral, teades tema eelmisi vastuseid. Teiseks, paljudel juhtudel (nagu ka käesolevas näidisandmestikus) ei ole kõik küsimused võrdselt head ega võrdse raskusastmega. Üksikvastuste teooria võimaldab küsimuste “headust” (eristusvõimet) ning raskusastet arvestada skooride arvutamisel.
Miks on vaja üksikvastuste teooriat?
ÜVT mudel eespool kirjeldatud andmestikust näeb välja väga sarnane faktoranalüüsi mudeliga. Mõlemal juhul eeldame, et vaadeldud tunnuste omavaheliste seoste kirjeldamiseks piisab ühest latentsest tunnusest ning igale tunnusele on iseloomulik ka juhusliku vea komponent. See mudel on kujutatud joonisel 1, kus latentset tunnust (joonisel “g”) tähistab ring ning vaadeldud tunnuseid (joonisel “i1”…“i6”) ristkülikud. Mudel väljendab ideed, et kõigi küsimuste õige vastuse tõenäosus sõltub ühest varjatud (“latentsest”) tunnusest, mille nimeks võiksime panna näiteks “võimekus”. Abstraktsel kujul sobib sama mudel ka kirjeldamaks näiteks 6 sõbralikkuse-küsimuse ning latentse sõbralikkuse seosepiid.
Tavalises faktoranalüüsi mudelis on latentse tunnuse hinnanguks lineaarne kombinatsioon vaadeldud tunnuste väärtustest: seega eeldatakse, et faktori ja vaadeldud tunnuse seos on lineaarne. Selline eeldus moonutab olukorda ning mõnel juhul on moonutus piisavalt suur, et sellest teha praktilisi järeldusi. Näiteks eeldatakse, et latentne tunnus on pidev st tal on palju võimalikke väärtusi. Küsimuse vastus on aga kas õige või vale, st tegu on dihhotoomse tunnusega (dihhotoomseks nimetatakse tunnust, millel on kaks võimalikku väärtust, polütoomseks tunnust, millel on rohkem kui kaks, kuid mitte lõpmatult palju võimalikke väärtusi). Pideva ja dihhotoomse tunnuse vahel ei saa olla lineaarset seost: seda küsimust vaatleme järgmises punktis.
Joonis 1. Latentse tunnuse mudel kuue vaadeldud tunnusega. Vaadeldud tunnuse väärtus sõltub selle mudeli järgi kahest komponendist: üldfaktorist (joonisel ‘g’) ning juhuslikust veast (joonisel alt üles suunatud nooled). See joonis sobib nii klassikalise testiteooria, faktoranalüüsi kui ka ÜVT mudelite kirjeldamiseks.
Klassikalises testiteoorias on tõelise skoori hinnanguks punktisumma (näiteks õigete vastuste arv) – see tähendab, et kõiki küsimusi käsitletakse võrdsena. Siin on ÜVT sarnasem faktoranalüüsiga, kus igal küsimusel (või üldisemalt - vaadeldud tunnusel) võib olla erineva tugevusega seos latentse tunnusega. Faktoranalüüsis iseloomustab üksiktunnuse seose tugevust latentse tunnusega faktorlaadung (factor loading); tõelise skoori hinnanguks on faktorskoor (factor score), mis on üksiktunnuste kaalutud summa. Klassikalises testiteoorias on kõik küsimused võrdse kaaluga, faktoranalüüsi ja ÜVT puhul võivad need kaalud olla erinevad.
ÜVT üks eripära on veel idee isikute ja küsimuste võrreldavusest. Küsimuse raskusastet võiks mõõta sellega, kui võimekat inimest on vaja, et sellele küsimusele õigesti vastata. Teiselt poolt, inimese võimekust võiks mõõta sellega, kui raskele küsimusele ta suudab õigesti vastata. Sellest mõttest lähtudes on ÜVT leidnud elegantse viisi väljendada isikute võimekust ning küsimuste raskusastet samal skaalal.
Joonis 2. Latentse tunnuse mudel klassikalises testiteoorias, faktoranalüüsis ja ÜVT-s. Vasakpoolsel joonisel on kõigi vaadeldud tunnuste seos latentse tunnusega fikseeritud; parempoolsel joonisel hinnatakse seda seost mudeli alusel ning see võib olla erinevatel tunnustel erinev. Seose tugevust vaadeldud tunnuse ja latentse tunnuse vahel iseloomustavad faktorlaadungid L1…L6.
ÜVT-l ja faktoranalüüsil on palju ühist (vt ka Joonis 1); suurt osa ÜVT mudelitest võiks käsitleda kui dihhotoomsetele või järjestustunnustele kohandatud kinnitavat faktoranalüüsi. Sarnasusi on ka terminoloogias: näiteks ka ÜVT puhul räägitakse faktorskooridest (ja palju harvemini “latentse tunnuse skooridest”) ja faktorlaadungitest (eriti mitmemõõtmelise või “mitmefaktorilise” ÜVT puhul). Paljud kinnitava faktoranalüüsi programmid (nt lavaan ja MPlus) võimaldavda hinnata ka ÜVT mudeleid. Seega, käesoleva lõigu esimest lauset täpsustades võiks öelda, et faktoranalüüs ja ÜVT on osaliselt kattuvad mudelite perekonnad, millel on sarnane eesmärk, kuid terminoloogia, rõhuasetused ja parameetrite valik on kohati erinevad.
Probleemid lineaarsete seostega
Vaatleme testi kogusumma seost ühe lihtsa küsimusega (küsimus nr 6) genereeritud andmestikus. Joonisel 3 on üksikuid vastuseid kujutavad punktid natuke hajutatud (st tegelikust väärtusest üles-alla-vasakule-paremale nihutatud): nii on võimalik näha, milliseid vastuseid millise punktisumma korral on rohkem ja milliseid vähem. Jooniselt näeme muuhulgas, et kui valesti on vastatud täpselt üks küsimus (st punktisumma on 5), siis väga harva on selleks küsimuseks 6. küsimus. Vastupidist juhtub palju sagedamini, st kui õigesti on vastatud täpselt üks küsimus, siis küllalt sageli on selleks 6. küsimus.
Joonis 3. Õige vastuse tõenäosuse seos punktisummaga
Joonisel 3 on punase joonega kujutatud lineaarne seos punktisumma ja 6. küsimuse õige vastuse tõenäosuse vahel. Kolmnurkadega on kujutatud lineaarse regressioonimudeli põhjal ennustatud õige vastuse tõenäosused. Näeme, et see seos on teatud määral loogiline: mida suurem punktisumma, seda suurem on ka tõenäosus vastata õigesti 6. küsimusele. Kuid pöörame tähelepanu punktisummadele 0, 5 ja 6. Kui punktisumma on 0, siis annab lineaarne mudel õige vastuse tõenäosuseks 28%. See on märkimisväärne tõenäosus arvestades, et tegu on vastajatega, kes ei vastanud õigesti ühelegi küsimusele, seega ka mitte kuuendale. Heas mudelis peaks see tõenäosus olema palju väiksem, lähedane nullile. Punktisummade 5 ja 6 korral annab lineaarne mudel 6. küsimuse õige vastuse tõenäosuseks vastavalt 88 ja 104%. See tulemus on lausa võimatu, sest tõenäosus on definitsiooni järgi vahemikus 0…1 või (protsendiks teisendatuna) 0…100%.
Joonis 4. Tegelik ning lineaarse mudeli põhjal prognoositud õige vastuse tõenäosus
Joonisel 4 on kujutatud tegeliku õige vastuse tõenäosuse ning lineaarse prognoosi seos küsimuse nr 6 korral. Näeme, et kui punktisumma (õigete vastuste arv) on vahemikus 1-5, siis saab lineaarne mudel prognoosimisega üsna hästi hakkama, tõelised väärtused on ennustatud väärtustele küllalt lähedal. Tõenäosuse võimalike väärtuste ala (0..1) on joonisel kujutatud rohelise ristkülikuna. Näeme, et lineaarse mudeli ennustused on kahel juhul (punktisummade 5 ja 6 korral) võimatud, st mudel ei tohiks selliseid väärtusi ennustada.
Mittelineaarne seos latentse tunnuse ja õige vastuse tõenäosuse vahel
Selleks, et paremini kujutada seost punktisumma ja õige vastuse tõenäosuse vahel, peame arvestama, et uuritav seos on mittelineaarne. Selleks sobib näiteks binaarne logistiline regressioon, mille puhul sõltuva tunnuse ennustatud väärtus jääb garanteeritult vahemikku 0…1. Joonisel 3 on küsimuse nr 6 seos punktisummaga: punane joon näitab logistilise regressioonimudeli abil prognoositud õige vastuse tõenäosust, mustad punktid kujutavad empiirilist õige vastuse tõenäosust erinevate punktisummade korral ning punktiiriga on tähistatud lineaarne regressioonijoon.
Joonis 5. Kuuenda küsimuse õige vastuse tõenäosus erinevate punktisummade korral; lisatud regressioonisirge ja logistiline regressioonikõver
Näeme, et logistiline regressioon ennustab õige vastuse tõenäosust palju paremini kui lineaarne mudel, kuigi ka siin ei ole prognoos ideaalse täpsusega (näiteks punktisumma 0 korral). Kuid mis peamine: logistiline regressioon ei anna võimatuid ennustusi: prognoositud tõenäosus jääb alati vahemikku 0…1.
Üksikvastuste teooria kirjeldab logistilise funktsiooni abil latentse võimekuse seost iga küsimuse õige vastuse tõenäosusega. See seos on samm edasi joonisel 3 kujutatust, sest horisontaalteljel ei ole enam summaarskoor (õigete vastuste arv), vaid latentne tunnus, mis on konstrueeritud arvestades kõigi küsimuste vastamismustreid.
Warning in plot.xy(xy.coords(x, y), type = type, ...): "axes" is not a
graphical parameter
Warning in plot.xy(xy.coords(x, y), type = type, ...): "axes" is not a
graphical parameter
Warning in plot.xy(xy.coords(x, y), type = type, ...): "axes" is not a
graphical parameter
Joonis 6. Üksikküsimuste õige vastuse tõenäosuse seos latentse tunnusega (ÜVT-s: küsimuse iseloomulik kõver)
Joonis 6 kujutab meile juba tuttavast andmestikust kolme küsimuse seost latentse tunnusega. Punasega on tähistatud 6., sinisega 3. ning mustaga 1. küsimus. Selle joonise aluseks on üks sagedamin kasutatavaid ÜVT mudeleid, kaheparameetriline logistiline mudel, millega saame selles peatükis edaspidi lähemalt tuttavaks.
Eesmärk: leida kasulik skaala isikute võimekuse ja küsimuste raskuse väljendamiseks
ÜVT keskne idee on hinnata isikute võimekust ja küsimuste raskusastet samal skaalal. Seda ideed kujutab joonis 7. Eeldame, et meil on võimalik mõõta isikute võimekust ning väljendada seda standardskaalal, kus 0 on keskmise vastaja võimekus ning võimekuse standardhälve on 1. Teoreetiliselt on sellise skaala ulatus \(-\infty...\infty\), kuid tegelikkuses kohtab väärtusi alla -5 või üle +5 üliharva. ÜVT loogika järgi võiksime küsimuste raskusastme mõõtmiseks leida, millist võimekust on vaja, et sellele küsimusele vastata õigesti täpselt 50% tõenäosusega. Näiteks kui küsimuse raskusaste on 0, siis see tähendab, et täpselt keskmise võimekusega inimestest vastaks umbes pool sellele õigesti ning pool valesti. Kui küsimuse raskusaste on -1, siis inimestest, kelle võimekus on 1 standardhälve alla keskmise, vastaks sellele õigesti 50%. Jne.
Kood
par(mar=c(0,0,0,0))plot(NA, xlim =c(-4,4), ylim =c(-1,1), axes=FALSE, xlab="", ylab="")arrows(-4,0,4,0, code=3, lwd=2, length=0.05)text(seq(-3,3,1), rep(-0.1,7), gsub("-", "\U2012", -3:3), bg="white")arrows(-3:3, -0.025, -3:3, 0.025, length=0)symbols(x =-1:1, y =rep(0.5,3), circles =rep(0.4,3) , inches=FALSE, add=TRUE, fg=rainbow(3))arrows(-1:1, rep(0.36,3), -1:1, rep(0.15,3), col=rainbow(3))text(-1:1, rep(0.5,3), c("A", "B", "C"), col=rainbow(3))symbols(x =c(-3, -1.5, 0, 1.5, 3), y =rep(-0.5,5), squares=rep(0.6,5), inches=FALSE, add=TRUE, fg=rainbow(5))arrows(c(-3, -1.5, 0, 1.5, 3), rep(-0.40,5), c(-3, -1.5, 0, 1.5, 3), rep(-0.2,5), col=rainbow(5))text(x =c(-3, -1.5, 0, 1.5, 3), y =rep(-0.5,5), letters[1:5], col=rainbow(5))text(0, 0.85, " V a s t a j a d ", cex=1.5)text(0, -0.85, " K ü s i m u s e d ", cex=1.5)
Joonis 7. Isiku- ja raskusastme parameetri kujutamine samal skaalal üksikvastuste teoorias
ÜVT mudelid dihhotoomse tunnuse korral
Järgnevalt uurime tavalisemaid ÜVT mudeleid kasvavas keerukuse järjekorras. Alustame mudelitest, kus küsimused erinevad üksteisest ainult raskusastme poolest; järgnevates mudelites lisanduvad ühekaupa eristusvõime, mõistatamise ja hooletuse parameetrid. Iga lihtsamat mudelit võiks vaadelda kui ühe parameetri võrra komplekssema mudeli erijuhtu, kus vastav parameeter on fikseeritud mingiks väärtuseks.
Tasub tähele panna, et sama ÜVT mudeli kirjeldamiseks mingi arvu parameetrite abil on mitu võimalust ning sageli on tarkvaras võimalik ka erinevate parametriseerimisviiside vahel valida. Siin tutvustame tavalist ÜVT parametriseerimist, kus nt raskusastme parameetril on eespool kirjeldatud tõlgendus (mõne teise parametriseerimisviisi puhul võib parameetri suurem väärtus viidata hoopis kergemale ülesandele).
Raskusastme parameeter: Raschi mudel ja üheparameetriline logistiline mudel
Raschi mudelis erinevad küsimused ainult ühe - raskusastme - parameetri poolest. Eeldatakse, et kõik küsimused on võrdse eristusvõimega ning eristusvõime parameetri väärtuseks on 1. Üheparameetrilises logistilises mudelis võib eristusvõime parameeter olla 1-st erinev, kuid on kõigil küsimustel üks ja sama.
Raschi mudeli puhul kirjeldab õige vastuse tõenäosuse ja latentse võimekuse seost järgmine valem:
… kus \(P(X=1|\theta,b)\) tähendab õige vastuse tõenäosust (st tunnuse X väärtus on võrdne 1-ga), kui on teada kahe parameetri väärtused: isikuparameeter \(\theta\) (teeta) ning raskusastme parameeter b (kasutatakse ka tähiseid \(\delta\) ja \(\beta\)). Üheparameetrilise logistilise mudeli (1PL mudeli) puhul lisandub 1-st erinev eristusvõime parameeter a (kasutatakse ka tähistust \(\alpha\)) ning sellega muutub seose kuju identseks järgmises alajaotuses tutvustatava kaheparameetrilise logistilise (2PL) mudeliga.
Eespool toodud valemi puhul tasub tähelepanu pöörata järgmisele. Kõigepealt, \(e^x\) väärtus on mistahes x korral positiivne, seega ei saa valem ennustada kunagi nullist väiksemat tõenäosust. Teiseks, kui positiivne arv jagada temast ühe võrra suurema arvuga (\(e^x /(1+e^x)\)), siis tulemus on alati 1-st väiksem. Kokkuvõttes, valem täidab talle usaldatud eesmärki: kindlustada, et ennustatud väärtus oleks alati vahemikus [0;1].
Teiseks, valemi paremas pooles esineb astendajana \(\theta-b\). See viitab nõudele, et isikuparameeter (\(\theta\)) ja küsimuse raskusaste oleksid hinnatud samal skaalal. Kui vastajale esitada küsimus, mille raskusaste on võrdne tema võimekusega, siis \(\theta=b\) ning järelikult \(\theta-b = 0\); sel juhul õige vastuse tõenäosus avaldub kui
See tähendab, et alati, kui kui mingi teadaoleva võimekusega vastajale antakse küsimus, mille raskusaste on võrdne vastaja võimekusega, siis ennustab mudel õige vastuse tõenäosuseks 0,5 ehk 50%.
Joonisel 8 näeme 4 küsimuse õige vastuse tõenäosuse seost latentse võimekusega Raschi mudeli järgi. Sellist joonist kutsutakse ÜVT-s tavaliselt küsimuse iseloomulikuks kõveraks (Item Characteristic Curve, ICC). Samade küsimuste ÜVT raskusastme ja eristusvõime parameetrid on toodud tabelis 3. Jooniselt on näha, et kõverad on üksteise suhtes nihutatud, näiteks keskmise võimekuse (\(\theta=0\)) korral on 4. küsimuse õige vastuse tõenäosus umbes 20%, kuid 6. küsimusel umbes 80%. Püüdke jooniselt leida 4. ja 6. küsimuse raskusaste, st millise võimekuse korral on nende küsimuste õige vastuse tõenäosus 50% (0,5) ning võrrelge jooniselt leitud raskusastet tabelis 3 toodud tulemustega.
Tähistused on samad, mis Raschi mudeli puhul, kuid lisandunud on raskusastme parameeter (a, alternatiivse tähistusega \(\alpha\)). See valem sobib kirjeldamaks ka eelmises lõigus käsitletud mudeleid, arvestades, et Raschi mudeli puhul \(a=1\) ning 1PL mudeli puhul a väärtus on kõigil küsimustel ühesugune konstant.
Kood
mud2pl <-ltm(df~z1, IRT.param=TRUE)doslope <-function(mud, i, where =1, ...){ params <-coef(mud)[i,] a <- params[2] b <- params[1] fun <-function(x) exp(a*(x-b)) / (1+exp(a*x-b))arrows(-where, fun(-where), where, fun(where), code=0, ...)}plot(mud2pl, items=1:3, main="", xlab="Võimekus", ylab="Õige vastuse tõenäosus")
Joonis 11. Kolme erineva eristusvõimega küsimuse iseloomulikud kõverad (2PL mudel).
Tabel 4. ÜVT 2PL mudeli parameetrid. b = raskusaste, a = eristusvõime
Joonisel 11 on kujutatud kolme erineva eristusvõimega küsimuse iseloomulikud kõverad (st õige vastuse tõenäosuse seos latentse võimekusega). Näeme, et hea eristusvõimega küsimuse puhul suureneb õige vastuse tõenäosus võimekuse suurenedes järsemalt kui kehva eristusvõimega küsimustel. Samade küsimuste ÜVT parameetrite hinnangud 2PL mudeli põhjal on toodud tabelis 4.
Eristusvõime parameetril ei ole sama lihtsalt intuitiivset tõlgendust nagu raskusastmel. Eristusvõime võimalikud väärtused ei ole piiratud (st teoreetiline vahemik on \(-\infty...\infty\)), kuid mõned orientiirid mõistagi on:
Positiivne (nullist suurem) eristusvõime näitab, et õige vastuse tõenäosus on suurema võimekuse korral suurem.
Negatiivne (nullist väiksem) eristusvõime näitab, et õige vastuse tõenäosus on suurema võimekuse korral väiksem. See võib tähendada, et vastav küsimus on valepidi kodeeritud (st vale vastus on tegelikult õige ja vastupidi) või siis mõõdab see küsimus haruldast eadmist, mis on tavalisem just väiksema võimekusega vastajatel. Lõpuks, mõne küsimuse või väite negatiivne eristusvõime võib olla ootuspärane, kui skaala ei mõõda võimekust, vaid näiteks mõnda hoiakut või isiksuseomadust.
Eristusvõime parameeter on teisendatav standardiseeritud faktorlaadungiga (seega ka korrelatsiooniga) võrreldatatesse ühikutesse, mis jääb vahemikku -1 … +1. Eristusvõimele 0.5 vastab ligikaudu faktorlaadung 0.28, eristusvõimele 0.7 vastab faktorlaadung 0.38, eristusvõimele 1 vastab faktorlaadung 0.5 ning eristusvõimele 2 vastab faktorlaadung 0.76. Need väärtused on ainult orientiirid - küsimuse headuse üle ei peaks otsustama ainult eristusvõime parameetri alusel (v.a juhul, kui eristusvõime on ilmselgelt väga halb).
Eristusvõime parameeter ei ütle küsimuse infoväärtuse kohta kõike: skaala koostamisel on oluline teada ka, millises latentse omaduse piirkonnas on küsimus kõige informatiivsem. See sõltub lisaks eristusvõimele ka raskusastmest ning need kaks parameetrit on kokkuvõetavad küsimuse informatsioonifunktsioonina, milles tuleb juttu järgmises peatükis.
Kood
# convert a to standardized loading# a / sqrt(1+a^2) where a is a/1.702atof <-function(a) { a <- a/1.7; a /sqrt(1+a^2)}#https://stats.stackexchange.com/questions/172381/acceptable-values-for-discrimination-parameter-2pl-irt-model#https://stats.stackexchange.com/questions/630211/how-do-i-transform-irt-discrimination-parameters-of-a-2pl-model-into-factor-load?noredirect=1&lq=1
Joonistel 12-14 on kujutatud samade küsimuste (1-3) iseloomulikud kõverad, kus eristusvõime parameetri leidmist jooniselt hõlbustab punane punktiirjoon. Hea eristusvõimega küsimusel (joonis 12) on kõvera tõus joonise keskosas suurem kui kehvema eristusvõimega küsimustel (joonised 13 ja 14).
Joonis 14. Kehva eristusvõimega küsimuse iseloomulik kõver (2PL mudel).
Mõistatamise parameeter ja 3PL mudel
Kolmeparameetrilises logistlises mudelis lisandub raskusastme ja eristusvõime parameetritele veel nn mõistatamise parameeter, mille tavaliseks tähiseks on c, kuid kasutatkase ka tähiseid g (nt R-i lisamoodulite ltm ja mirtväljundis) ja \(\chi\). Mõistatamise parameeter tähistab piiri, millest väiksemaks ei saa õige vastuse tõenäosus minna (vt ka joonis 15):
Joonis 15. Nullist erineva mõistatamise parameetriga (alumise asümptoodiga) küsimuse iseloomulik kõver (3PL mudel). Sinise punktiirjoonega on tähistatud raskusastme parameetri muutunud tõlgendus.
Tabel 5. ÜVT 3PL mudeli parameetrid. c = mõistatamine, b = raskusaste, a = eristusvõime
Mõistatamise parameeter muudab ka raskusastme parameetri tõlgendust: raskusaste ei tähenda enam võimekuse (\(\theta\)) väärtust, mille korral õige vastuse tõenäosus on 0.5, vaid \(c+(1-c)/2\), st pool sellest piirkonnast, mis jääb c ja 1 vahele.
Kas mõistatamise parameetrit on mudelisse vaja? Üheks otsustuskriteeriumiks on siin küsimuste iseloom: kas mõistatamine on tegelikult võimalik ja tõenäoline? Näiteks valikvastustega küsimuste puhul võiks a priori eeldada, et osa vastuseid on juhuslikult õiged. Juhusliku õige vastuse tõenäosus ei ole täpselt 1/k, kus k on vastusevariantide arv, sest tuleks arvestada ka valede vastuste atraktiivsust: näiteks kui neljast vastusevariandist üks on ilmselgelt vale, siis ei ole efektiivne vastusevariantide arv mitte 4, vaid 3 (või õige pisut rohkem), seega puhtalt mõistatamisel põhinev õige vastuse tõenäosus võiks olla pisut üle 1/3.
Teine kaalutlus, mida tuleks arvestada, on mudeli keerukus. Mõistatamise parameeter muudab mudeli keerukamaks ja vähem stabiilseks. See kaalutlus võib rääkida lihtsama mudeli kasuks isegi juhul, kui on teada, et mõistatamine on tegelikult võimalik.
Mõistatamise parameetri vajalikkuse üle ei saa üldjuhul otsustada puhtalt statistiliste kriteeriumide põhjal. Näiteks eeltoodud analüüsist näib, et 1. küsimuse puhul võiks mõistatamise parameeter olla vajalik. Samas on andmed genereeritud nii, et mõistatamise parameetri vajalikkus on välistatud. See tähendab, et 3PL mudel võib “lihtsamate” küsimuste puhul leida nullist erineva mõistatamise parameetri ka juhul, kui mõistatmaine tegelikult ei ole võimalik.
Hooletuse parameeter ja 4PL
Neljaparameetrilise logistilise mudeli (4PL) võimalikkust on hea teada, kuigi seda mudelit kasutatakse tegelikkuses harva. Neljandaks parameetriks lisaks raskusastmele, eristusvõimele ja mõistatamisele, on nn hooletuse parameeter ehk ülemine asümptoot, st väärtus, millest õige vastuse tõenäosus ei saa kunagi suuremaks minna. 4PL mudeli küsimuse iseloomulik kõver (st seos õige vastuse tõenäosuse ja latentse tunnuse vahel) avaldub valemina
Hooletuse parameetri tähiseks on kas d või (nt R-i lisamooduli mirt väljundis) u. Hooletuse parameetrit kasutatakse harva ning sellel on mitu võimalikku (üksteist mitte välistavat) tõlgendust. Õige vastuse tõenäosus võib olla oluliselt väiksem kui 1 (100%) juhul, kui küsimus on olemuslikult ebamäärane, st õige tõlgendus (mis võimaldab anda õige vastuse) on juhuse asi või sõltub millestki, mida me ei tea. Teine võimalik põhjus on vastajate hooletus: näiteks võib küsimus olla niivõrd kompleksne, et mõnes etapis vea tegemine on küllaltki tõenäoline isegi suure võimekuse korral.
Meie näidisandmestik on genereeritud nii, et ei ülemise ega alumise asümptoodi parameetreid ei ole vaja. Seega nullist erinevad parameetrid tabelis 6 on tegelikult juhuslikud kõrvalekalded. Sellest hoolimata on mõeldav, et mõnes teises andmestikus on mõistatamise ja hooletuse parameetrid vajalikud ja hästi tõlgendatavad (vt ka joonis 16). Analoogselt 3PL mudeliga, tuleks 4PL mudeli puhul arvestada, et ka mudeli raskusastme parameetri tähendus muutub, st see ei viita enam võimekusele, mille korral õige vastuse tõenäosus on 0.5, vaid \(c+0.5(d-c)\).
Kood
mud4pl <-mirt(df, itemtype="4PL", verbose=FALSE)
Warning in EM.group(pars = pars, constrain = constrain, Ls = Ls, PrepList =
PrepList, : EM cycles terminated after 500 iterations.
Tabel 6. ÜVT 4PL mudeli parameetrid. d = hooletus (ülemine asümptoot), c = mõistatamine (alumine asümptoot), b = raskusaste, a = eristusvõime
Wrighti joonis: vastaja võimekus ja küsimuste raskusaste samal pildil
Wrighti joonis võimaldab kompaktselt esitada skaala küsimuste omadusi võrreldes vastajate võimekusega. Tavaliselt esitatakse joonise vasakpoolsel paneelil vastajate võimekuse (\(\theta\)) histogramm (joonis 16), parempoolsel paneelil näidatakse kõigi küsimuste raskusastmeid (ÜVT b-parameeter). Vastajate võimekuse jaotuse illustreerimseks võib histogrammi asemel valida ka tiheduskõvera (joonis 17). Kuna küsimus on kõige informatiivsem nendel vastajatel, kelle võimekus on lähedane küsimuse raskusastmele (ning seega õige vastuse tõenäosus on lähedal 50%-le), siis saab Wrighti jooniselt välja lugeda, milliseid võimekuse piirkondi skaala katab hästi ning milliseid kehvemini. Näiteks meile 6 küsimusest koosnevas skaalas on 4 küsimust, mille raskusaste on lähedal nullile - need küsimused on kõige informatiivsemad keskmise võimekusega vastajate puhul. Nullist erineva raskusastmega küsimusi on skaalas ainult kaks: 6. ja 4. Joonise põhjal saab oletada, et skaala sobib keskmise võimekusega vastajate hindamiseks, kuid on ebatäpne väga madala ning väga kõrge võimekusega vastajate puhul.
Joonis 17. Alternatiivne Wrighti joonis: vasakul vastajate võimekuse tiheduskõver, paremal küsimuste raskusastmed
Mudeli valimine ning sobitusaste
Nagu nägime, ÜVT mudeleid on palju erinevaid ning tekib õigustatud küsimus: millist mudelit peaks kasutama. Üldisest reeglist “nii keerulist (st nii paljude parameetritega) kui vajalik ja nii lihtsat kui võimalik” on kasu õige pisut, aga õnneks on olemas ka konkreetsemaid reegleid.
Kõigepealt, mudeleid saab omavahel võrrelda sobitusastme statistikute järgi: sellesse teemasse pikemalt süvenemata võib öelda, et mida väiksem on sobitusastme statistikute (AIC, BIC või log tõepära) väärtus, seda paremini mudel sobib. Seega võiksime teha erinevatest mudelitest koondtabeli ning kasutada mudelit, mille puhul sobitusastme statistikud on kõige väiksemad. Aga mida teha juhul, kui keerulisema (suurema parameetrite arvuga) mudeli sobitusaste on ainult õige natuke parem? Või kui erinevad sobitusastme statistikud annavad erineva vastuse? Sel juhul aitab selgusele jõuda tõepärasuhte test (likelihood ratio test), mille abil saame võrrelda “pesastatud” (nested) mudeleid, st kui ühest mudelist saab teha teise lisades või kaotades parameetreid, kuid mitte midagi muud muutes. Tõepärasuhte test aitab otsustada, kas keerulisem mudel on oluliselt parem, kui lihtsam mudel, st kas keerukam mudel nö “tasub vaeva”.
Tabelis 7 on toodud tõepärasuhte testi tulemus Raschi mudeli ja 1PL mudeli võrdlemisel. Tuletame meelde, et neid mudeleid eristab ainult üks asjaolu: Raschi mudelis on ersitusvõime parameetrid fikseeritud väärtusega 1, 1PL mudelis võib eristusvõime olla 1-st erinev, kuid on kõigil küsimustel sama.
Kood
# If the p-value for the chi-square statistics is less than .05, then we can conclude that the more complex model fits better than the simpler model (Desjardin & Bulut, 2018, Handbook of Educational Measurement and Psychometrics Using R).# Several different model fit indices, the AIC, BIC, log-likelihood are presented in the output. The smaller these fit indices, the better the model fits the data. a1 <-anova(mrasch, mud1pl)capture.output(a1a <- ((strip(ltm:::print.aov.rasch)(a1)))$dat)->devnull # prevent ltm from stupid printinga1a <-data.frame(mudel =c("Rasch", "1PL"), a1a)names(a1a)[7] <-"p"qflextable(a1a)
mudel
AIC
BIC
log.Lik
LRT
df
p
Rasch
7 673,07
7 702,51
-3 830,53
1PL
7 673,57
7 707,92
-3 829,79
1.5
1
0.221
Tabel 7. Raschi mudeli ja 1PL mudeli sobivuse võrdlus tõepärasuhte testi abil
Tabelist 7 saame järeldada, et kui oleme otsustanud üheparameetrilise mudeli kasuks, siis ei ole vahet, kas eristusvõime parameetri väärtuseks võtta 1 või mingi teine arv. Kuid sellel tulemusel on mõte ainult juhul, kui eristusvõime parameeter on tõepoolest kõigil küsimustel võrdne. Seda eeldust saame kontrollida võrreldes ühe- ja kaheparameetrilist mudelit (tabel 8).
Tabel 8. 1PL ja 2PL mudeli sobivuse võrdlus tõepärasuhte testi abil
Tabelist 8 näeme, et kaheparameetriline mudel on üheparameetrilisets oluliselt parem (p <0.001). See tähendab, et ei saa öelda, et meie testi kõik küsimused oleksid sama eristusvõimega; üheparameetrilise mudeli kasutamine oleks vale. Aga uurime nüüd, kas on vaja ka kolmandat (mõistatamise) parameetrit - selleks võrdleme tõepärasuhte testi abil kahe- ja kolmeparameetrilist mudelit.
Tabel 9. 2PL ja 3PL mudeli sobivuse võrdlus tõepärasuhte testi abil
Kood
# aic ja bic kohta vt ka https://stats.stackexchange.com/questions/577/is-there-any-reason-to-prefer-the-aic-or-bic-over-the-other
Tabelist 9 näeme, et 3PL mudel (hoolimata suuremast parameetrite arvust) ei kirjelda andmeid paremini kui 2PL mudel (p = 0.303) - seega mõistatamise parameetrit ei ole mudelis vaja. Sama kehtib hooletuse parameetri kohta (tabel 10): ka seda ei ole mudelis vaja. Kokkuvõttes sobib meie näidisandmestikuga kõige paremini kaheparameetriline logistiline (2PL) mudel, mida silmas pidades näidisandmestik ongi genereeritud.
Kood
# ltm-is ei ole 4PL mudelit, seega lülitume käigu pealt mirt-ile. # eelnev kood ltm-i veidrustega toime tulekuks on seega ebavajalik, aga las ta siis olla, ei hakka praegu muutma.# Teine asi, mirt-i joonised kasutavad lattice'it, millele on raske oma täpppe ja triipe lisada.# Seega kasutasin eespool ltm-i jooniseid (base graphics), kuid 4PL-i puhul tuli ICC kõver joonistada ise.# ... ja see oli oodatust lihtsam, kasutades isetehtud funktsiooni# icc <- function(x,a,b,c,d) c+(d-c)*exp(a*(x-b)) / (1+exp(a*(x-b)))mudRasch <-mirt(df, itemtype="Rasch", verbose=FALSE)# mirt-is ei ole väga lihtne teha eespool kirjeldatud 1PL mudelit, allpool on üks võimalus:# mud1pl <- mirt(df, model=mirt.model('Theta = 1-6# CONSTRAIN = (1-6, a1)'),# verbose=FALSE)mud2pl <-mirt(df, itemtype="2PL", verbose=FALSE)mud3pl <-mirt(df, itemtype="3PL", verbose=FALSE)# mud4pl <- mirt(df, itemtype="4PL", verbose=FALSE)a4a <-data.frame(mudel=c("3PL", "4PL"), anova(mud3pl, mud4pl)[, c("AIC", "BIC", "logLik", "X2", "df", "p")])names(a4a) <-names(a3a)a4a[,2:5] <-lapply(a4a[,2:5], round, 2)a4a$p <-round(a4a$p,3)qflextable(a4a)
mudel
AIC
BIC
log.Lik
LRT
df
p
3PL
7 651,49
7 739,83
-3 807,74
4PL
7 660,87
7 778,66
-3 806,44
2,61
6
0,856
Tabel 10. 3PL ja 4PL mudelite võrdlus tõepärasuhte testiga
Uurime kõige lõpuks küsimuste sobitusastme (item fit) statistikuid. Nende statistikute eesmärgiks on tuvastada, kui hästi (või halvasti) iga küsimus sobib mudeliga ning kindlaks teha, millised küsimused mudeliga üldse ei sobi. Enamasti on puuduliku sobitusastme põhjuseks, et küsimus eeldaks keerulisemat (suurema parameetrite arvuga) mudelit: näiteks enamiku küsimuste jaoks sobib kahe parameetriga logistiline mudel, kuid mõned küsimused on valikvastustega ning nende puhul sobib paremini 3PL mudel, milles on ka mõistatamise parameeter. Mida teha, kui leiame, et vaid mõni üksik küsimus ei sobi lihtsama mudeliga ning eeldaks suurema parameetrite arvuga mudelit? Valikuid on mitu: võime loobuda nende paari küsimuse kasutamisest (kuid seda tasub teha alles siis, kui oleme leidnud kehva sobitusastme põhjuse); võime muuta mudelit nii, et osa küsimuste jaoks kasutatakse keerulisemat (nt 3PL) ning teiste jaoks lihtsamat (nt 2PL) mudelit (seda võib teha, kui selleks on hea sisuline põhjendus); lõpuks võime kasutada kõigi küsimuste jaoks keerulisemat mudelit ning leppida sellega, et mõne küsimuse jaoks on mudelis tarbetult palju parameetreid.
Tabelis 11 on toodud näidisandmestiku sobitusastme statistikud Raschi mudeli korral. \(\chi^2\)-statistik (koos vabadusastmete arvu ning p-väärtusega) on mõeldud hindamaks, kas mudel sobib selle küsimuse kirjeldamiseks. Kui \(\chi^2\)-le vastav p-väärtus on väiksem meie poolt valitud olulisuse nivoost (nt 0.05 või 0.01), siis võime öelda, et küsimus selle mudeliga ei sobi. Tabelis on toodud ka RMSEA (Root mean square error of approximation) statistik: mida väiksem see on, seda paremini sobib mudel selle küsimuse kirjeldamiseks. RMSEA kriitiline piir (millest suurem väärtus näitab puudulikku sobitusastet) on kokkuleppeline: kirjandusest võib leida väärtusi 0.05 ja 0.08.
Tabel 11. Küsimuste sobitusastme statistikud näidisandmestikus Raschi mudeli korral
Tabelit 11 vaadates näeme, et Raschi mudeli jaoks probleemsed küsimused on 3. ja 4.: ülejäänud juhtudel võib siis järelikult küsimuste eristusvõimet käsitleda võrdsena. RMSEA väärtuste järgi on samuti 3. ja 4. küsimus kõige probleemsemad. Kui eesmärgiks oleks leida ette antud küsimuste hulgast need, mis sobivad Raschi mudeliga ning moodustada nendest skaala, siis on eelnev vastus pisut eksitav, sest andmestiku genereerimise skeemi järgi peaksid probleemsed olema hoopis 3. ja 2. (mitte 3. ja 4.) küsimus. Tõepärasema vastuseni jõuame, kui heidame kõigepealt üle parda 3. (kui kõige probleemsema) küsimuse ning hindame siis mudeli uuesti. Uues mudelis osutub kõige probleemsemaks 2. (mitte 4.) küsimus. Seega tuleks arvestada, et probleemsete küsimuste välja jätmisel muutub ka mudeli (sh latentse omaduse) sisu ning et küsimuste valikul ei ole mõistlik lähtuda ainult sobitusastme statistikutest, vaid tuleks arvestada ka teisi ÜVT parameetreid (raskusaste, eristusvõime jne), vaadata küsimuste iseloomulikke kõveraid ning muidugi ka küsimuste endi sisu.
Tabel 12. Küsimuste sobitusastme statistikud näidisandmestikus [arvestamata 3. küsimust] Raschi mudeli korral
Tabelis 13 on toodud samad sobitusastme statistikud 2PL mudeli korral. Sellest tabelist näeme, et \(\chi^2\)-le vastav p-väärtus ei ole ühelgi juhul väiksem kui 0.05 ning RMSEA väärtused on kõigil juhtudel alla 0.05. Seega võime järeldada, et ühegi küsimuse jaoks meie näidisandmestikus ei ole vaja keerulisemat (suurema parameetrite arvuga) mudelit kui 2PL.
Kood
qflextable(itemfit2)
Küsimus
X2
df
RMSEA
p
i1
6,22
3
0,03
0,10131
i2
0,38
3
0,00
0,94479
i3
5,82
3
0,03
0,12052
i4
7,08
3
0,04
0,06951
i5
1,50
3
0,00
0,68246
i6
3,16
3
0,01
0,36724
Tabel 13. Küsimuste sobitusastme statistikud näidisandmestikus 2PL mudeli korral
ÜVT eeldused ja nende kontroll
ÜVT eeldustena loetletakse tavaliselt järgmisi:
Ühemõõtmelisus: eeldus, et vaadeldud tunnuste aluseks on üksainus latentne muutuja. Järgmises peatükis vaatleme mitmemõõtmelise (multidimensional) ÜVT mudeleid, mille puhul mõistagi ühemõõtmelisuse eeldus ei ole enam mõistlik. Seega võiks analoogselt faktoranalüüsiga kõnelda õige dimensionaalsuse eeldusest (ühemõõtmelise mudeli puhul eeldame 1 dimensiooni piisavust, kahemõõtmelise mudeli puhul 2 dimensiooni piisavust jne).
Lokaalne sõltumatus: eeldus, et vaadeldud tunnuste omavahelised seosed on täielikult seletatavad latentse tunnuse mõjuga ning (seega) pärast latentse tunnuse (või mitmemõõtmelise mudeli puhul: latentsete tunnuste) kontrollimist on vaadeldud tunnused üksteisest sõltumatud. Kinnitava faktoranalüüsi keeles tähendab see eeldus, et ei esine jääkkorrelatsioone (residual correlations) tunnustepaaride vahel - st mudel kirjeldab kõiki süstemaatilisi seoseid tunnuste vahel ning kõik, mida mudel ei kirjelda, on juhuslik viga. Kui selliseid jääkkorrelatsioone siiski esineb, siis see tähendab tegelikult ka ühemõõtmelisuse eelduse rikkumist.
Monotoonsus: eeldus, et vaadeldud tunnuse (näiteks õige vastuse tõenäosuse või mingi vastusevariandi valiku tõenäosuse) seos latentse tunnusega on monotoonne, st kas kasvav või kahanev, kuid mitte läbisegi kasvav ja kahanev.
Invariantsus: eeldus, et vaadeldud tunnuste seosed latentse tunnusega (st mudeli parameetrid) on samasugused erinevates vastajate gruppides, nt meestel võrreldes naistega või eesti keeles vastajatel võrreldes vene keeles vastajatega.
Vaatleme järgnevalt neid eeldusi ja nende kontrollimise võimalusi täpsemalt.
Ühemõõtmelisus
Ühemõõtmelisuse (või üldisemalt: dimensionaalsuse) kontrolliks võime kasutada faktoranalüüsist tuntud paralleelanalüüsi või selle modifikatsioone. Paralleelanalüüsi mõte on leida mittejuhuslike faktorite või peakomponentide arv, mis on piisav selle andmestiku kirjeldamiseks. Selleks võrreldakse andmestiku põhjal leitud korrelatsioonimaatriksi omaväärtusi (eigenvalues) juhuslikult genereeritud sama suure andmestiku põhjal leitud omaväärtustega ning leitakse, kui mitu empiirilist omaväärtust ületab selle nö juhusliku taseme. Kõige lihtsam on seda teha joonisel, kus nii tegelikud kui ka juhuslikud omaväärtused on kujutatud eri värvi joonte ja punktidena: piisav faktorite arv on kõige suurema järjekorranumbriga faktor, mille korral tegelik omaväärtus on suurem juhuslikust.
Näidisandmestiku paralleelanalüüsi omaväärtuste graafik on kujutatud joonisel 19. Näeme et ainult esimese faktori puhul on tegelik omaväärtus suurem kui juhuslik: seega võime järeldada, et selle andmestiku puhul piisab ühest faktorist.
Paralleelanalüüsi idee on lihtne, kuid selle protseduuri juures on palju nüansse: näiteks tuleb otsustada, kas lähtuda peakomponentide analüüsi või faktoranalüüsi mudelist, kas lähtuda “tavalisest” korrelatsioonimaatriksist või nn nelikkorrelatsioonidest (tetrachoric correlations), mis on arvutuslikult keerulisemad, kuid dihhotoomsete tunnuste puhul õigem lähenemine; lõpuks, kas juhusliku andmestikuna kasutada juhsulikult genereeritud (näiteks normaaljaotusega) tunnuseid või algandmestiku juhuslikke permutatsioone, ning kui palju erinevaid juhuslikke andmestikke genereerida (mõistlik on kasutada mitte ühtainsat juhuslikku andmestikku, vaid teha analüüs nt 100 juhusliku andmestikuga ning joonisel kujutada nende keskmist tulemust). Kuna otsustuskohti on mitu, siis ei pruugi paralleelanalüüs anda alati selget vastust.
# Drasgow, F. and Lissak, R. (1983) Modified parallel analysis: a procedure for examining the latent dimensionality of dichotomously scored item responses. Journal of Applied Psychology, 68, 363–373.# from ltm:::unidimTest# vt ka sirt::unidim.test.csn#from "IRT1_precalculated_stuff.R"# ltm_mud <- ltm(df~z1)# unidim_ltm_mud <- unidimTest(ltm_mud)load("IRT1.qmd.rda")# unidim_ltm_mud
Spetsiaalselt ÜVT mudelite ühedimensioonilisuse testimiseks on leiuatud modifitseeritud paralleelanalüüs, mis testib, kas vaadeldud andmestiku teine omaväärtus on juhuslikust suurem. See protseduur on implementeeritud näiteks R-i lisamooduli ltm funktsioonis unidimTest ning käesoleva andmestiku puhul saaame tulemuseks, et andmestiku teine omaväärtus ei ole juhuslikust suurem (p = 0.7).
Lokaalne sõltumatus
Lokaalne sõltumatus tähendab eeldust, et küsimused on üksteisest sõltumatud pärast latentse tunnuse kontrollimist, st sisuliselt, et küsimuste vahelised seosed on täielikult kirjeldatavad latentse tunnuse abil. Selle eelduse kontrollimiseks kasutatakse kõige sagedamini nn Q3-statistikut – see on sisuliselt korrelatsioon kahe küsimuse vahel pärast latentse omaduse kontrollimist. Sellel statistikul ei ole teadaolevalt kindlat kriitilist väärtust, kuid 0.2-st suuremad väärtused on (lokaalse sõltumatuse eelduse kehtides) ebatavalised ning 0.3-st suuremad väga haruldased. Tavaliselt tehaksegi lihtsustatud eeldus, et 0.2-st suuremad väärtused osutavad lokaalsele sõltuvusele (kinnitava faktoranalüüsi keeles võiksime seda nimetada jääkkorrelatsiooniks tunnuste vahel).
Uurime seega Q3-statistiku abil, kas meie mudelis esineb lokaalset sõltuvust.
Kood
# Q3- statistik: Yen 1984, - korrelatsioon kahe küs vahel pärast latentse tunnuse kontrollimist, st sisuliselt sama, mis jääkkorrelatsioon CFA mõistes# Christensen, Makransky ja Horton (2016) on uurinud selle statistiku jaotust ning leidnud, et ei saa välja pakkuda ühte kõigis olukordades sobivat kriitilist väärtust, kuid keskmisest jääkkorrelatsioonist 0.2 võrra suuremad väärtused on ebatavalised ning 0.3 võrra suuremad väärtused hoopis haruldased. # G^2-statistik (Chen & Thissen 1997) - idee sarnane hii-ruuduga, sama jaotusega## Viited# Chen, W. H. & Thissen, D. (1997). Local dependence indices for item pairs using item response theory.# Journal of Educational and Behavioral Statistics, 22, 265-289. https://doi.org/10.3102/10769986022003265# (https://doi.org/10.3102/10769986022003265)# Christensen, K. B.; Makransky, G.; Horton, M. (2016). Critical Values for Yens Q3: Identification of Local# Dependence in the Rasch Model Using Residual Correlations. Applied Psychological Measurement, (),# 0146621616677520–. doi:10.1177/0146621616677520 (doi:10.1177/0146621616677520)# Edwards, M. C., Houts, C. R. & Cai, L. (2018). A Diagnostic Procedure to Detect Departures From Local# Independence in Item Response Theory Models. Psychological Methods, 23, 138-149.# Yen, W. M. (1984). Effects of Local Item Dependence on the Fit and Equating Performance of the Three-# Parameter Logistic Model. Applied Psychological Measurement, 8(2), 125–145.# doi:10.1177/014662168400800201 (doi:10.1177/014662168400800201)res1 <-residuals(mudRasch, type="Q3", verbose=FALSE) |>round(2) |>as.data.frame()res1 <-data.frame(" "=names(res1), res1, check.names =FALSE)res2 <-residuals(mud2pl, type="Q3", verbose=FALSE) |>round(2) |>as.data.frame()res2 <-data.frame(" "=names(res2), res2, check.names =FALSE)
Tabelis 14 on toodud Q3 2PL mudeli korral (ka Raschi mudeli korral ei olnud tulemused väga erinevad). Tabelist näeme, et kõik statistiku väärtused on negatiivsed, st üsna kaugel kriitilisest väärtusest, olgu see siis 0.2 või 0.3.
Kood
qflextable(res2)
i1
i2
i3
i4
i5
i6
i1
1,00
-0,08
-0,11
-0,19
-0,18
-0,16
i2
-0,08
1,00
-0,03
-0,13
-0,10
-0,11
i3
-0,11
-0,03
1,00
-0,06
-0,04
-0,03
i4
-0,19
-0,13
-0,06
1,00
-0,16
-0,13
i5
-0,18
-0,10
-0,04
-0,16
1,00
-0,10
i6
-0,16
-0,11
-0,03
-0,13
-0,10
1,00
Tabel 14. Q3-statistiku väärtused näidisandmestikus 2PL mudeli korral
Lokaalse sõltumatuse hindamiseks kasutatakse ka \(G^2\)-statistikut, mis nullhüpoteesi korral käitub nagu \(\chi^2\)-jaotus 1 vabadusastmega, seega on teada ka kriitilised väärtused: 5% olulisuse nivoo korral 3.841 ning 1% olulisuse nivoo korral 6.635. \(G^2\)-statistiku väärtused näidisamdnestikus on toodud tabelis 14 (peadiagonaalist ülal on standardiseeritud jäägid, mida me praegu ei pruugi vaadata). Ka sellest tabelist näeme, et ükski väärtus ei ole isegi lähedal kriitilisele väärtusele, st saame kinnitada, et lokaalse sõltumatuse eeldus on täidetud.
Tabel 14. G^2-statistiku väärtused näidisandmestikus 2PL mudeli korral
Monotoonsus
Monotoonsuse eeldus viitab seosele latentse tunnuse ja vaadeldud tunnuse vahel, seega ei ole siin abi vaadeldud tunnuste omavaheliste seoste kuju uurimisest. Et monotoonsuse eeldus oleks üldse testitav, on vaja, et valitud ÜVT mudel (sealhulgas monotoonsuse eeldus) kehtiks vähemalt mõne vaadeldud tunnuse puhul: muidu ei ole latentne tunnus (faktor) defineeritud ning siis on mõistagi võimatu testida selle seost mistahes vaadeldud tunnusega. Seega me ei saa testida monotoonsuse eeldust kõigil küsimustel korraga: peab olema võimalik eeldada, et mudel üldiselt kehtib ning siis saame monotoonsuse eeldust testida üksikutel kahtlastel tunnustel. Kahtlus võib tekkida näiteks mudeli sobitusastme statistikuid vaadates: oletame, et sobitusaste on enamiku küsimuste puhul piisavalt hea, kuid mõne küsimuse puhul ei ole rahuldav. Sel juhul saab näiteks kirjeldada valitud küsimuste seoset latentse tunnusega splainide abil, vaadelda saavutatud lähendust joonisel ning selle põhjal otsustada, kas seos on ikkagi monotoonne.
Proovime seda meetodit näidisandmestiku 4. küsimusega, mille puhul sobitusastme näitajad olid tabel 13 põhjal kõige kehvemad. Joonis 20 sobib mittemonotoonse seose illustreerimiseks, kuigi praegusel juhul näeme asja täpsemalt uurides, et kõrvalekalle monotoonsusest on tegelikult väike ja juhuslik.
Kood
# https://stats.stackexchange.com/questions/266684/irt-monotonicitymudCHKM <-mirt(df, itemtype =c("2PL", "2PL", "2PL", "spline", "2PL", "2PL"), verbose=FALSE)# mudCHKM2 <- mirt(df, itemtype = c("Rasch", "Rasch", "spline", "Rasch", "Rasch", "Rasch"), verbose=FALSE)# sellel joonisel on libatulemus, mis nö näitab mittemonotoonset seost, aga ei ole kokkuvõttes õpetlik# ... sest ülejäänud 5 tunnuse mudel on vale (Rasch)
Miks ei saa joonist 20 lõpuni usaldada? Joonise parempoolne osa (alates \(\theta\) väärtusest umbes -1.5) näeb välja nagu üsna tavaline küsimuse iseloomuli kõver, kuid joonise vasakpoolses osas (alates \(\theta\) väärtusest umbes -2) näeme väga kõrget õige vastuse tõenäosust väga madala võimekuse korral. Meie näidisandmestikus ei ole aga küsimusi, mis võimaldaks madalat või väga madalat võimekust täpselt hinnata: küsimuste raskusastmed 2PL mudeli põhjal (vt tabel 4) jäävad vahemikku -1.06 (6. küsimus) …. +0.88 (4. küsimus). Seega saame oma andmestiku põhjal midagi väita ainult keskmise võimekuse piirkonnas (nt võimekus vahemikus -1.5 … +1.5 või äärmisel juhul -2 … +2); kõik, mis jääb sellest vahemikust välja (nt õige vastuse tõenäosuse järsk tõus kui võimekus väheneb -2-st -4-ni) on interpolatsioon väljapoole tunnuste muutumispiirkonda.
Seega võiksime enne suurte järelduste tegemist uurida andmeid mõne lihtsama meetodiga. Joonisel 21 on kujutatud 4. küsimuse õige vastuse tõenäosus kõigi ülejäänud 5 küsimuse võimalike punktisummade (0-5) korral. Jooniselt näeme, et vastajatel, kes ülejäänud 5 küsimusest ei vastanud ühtegi õigesti (st punktisumma on 0) on 4. küsimuse õige vastuse tõenäosus pisut suurem, kui neil, kes vastasid õigesti ainult ühele küsimusele (st punktisumma on 1). Seega 4. küsimuse seos ülejäänutega ei ole tõepoolest täiesti monotoonne, kuid kõrvalekalle on väike ning praegusel juhul teame, et see on juhuslik.
Kood
plot(0:5, tapply(df[,4], rowSums(df[,-4]), mean), type="b", ylim=c(0, 0.7), xlab="Ülejäänud küsimuste õigete vastuste summa", ylab="4. küsimuse õige vastuse tõenäosus")
Joonis 21. Kõrvalekalle monotoonsusest 4. küsimuse puhul
Kokkuvõttes, monotoonsuse eelduse rikkumist ei ole lihtne tõestada. Kui tekib põhjendatud kahtlus (nt mõne küsimuse puhul madalad sobitusastme näitajad), siis tuleks arvestada keeruliste meetodite puudusi (nt võimalik interpoleerimine väljapoole andmete muutumispiirkonda) ning vaadata ka lihtsaid kirjeldavaid statistikuid või jooniseid.
Invariantsus
Invariantsuse nõue tähendab eeldust, et küsimuste parameetrid oleksid erinevates rahvastikurühmades ühesugused: näiteks, et küsimus oleks sama võimekusega meestele ja naistele sam raske ning et küsimuse eristusvõime oleks sama hea eesti ja vene keeles vastajatel. ÜVT kontekstis kasutatakse invariantsuse puudumisele viitamiseks sageli mõistet “küsimuse erinev funktsioneerimine” (differential item functioning ehk DIF; eesti keeles võiks kasutada lühendit KEF, kuid suurema segaduse vältimiseks on parem jääda ingliskeelse lühendi DIF juurde). Invariantsuse eeldus on seega täidetud, kui puudub DIF.
DIF-i tuvastamise meetodite käsitlus ei mahu käesoleva peatüki raamessee – siin tutvustame ainult DIF-i peamisi liike ning olulisust. Kõige üldisemas mõttes tähendab DIF gruppidevahelist erinevust mistahes ÜVT parameetris, seega ka nt mõistatamise või hooletuse parameetrites. Kuid enamasti piirdutakse kaht liiki DIF-i eristamisega: ühtlane (uniform DIF: grupid erinevad raskusastme parameetri poolest, kuid küsimuse eristusvõime on gruppides sama) ja mitteühtlane (non-uniform DIF: grupid erinevad eristusvõime parameetri poolest, kusjuures raskusaste võib, aga ei pruugi olla erinev). Oluline on ka erinevuse määr: küllalt sageli esineb olukordi, kus gruppidevaheline erinevus on küll statistiliselt oluline, kuid sel ei ole praktilist tähtsust.
Mõõtmise invariantsuse küsimusest on täpsemalt juttu 7. peatükis. Tasub tähele panna, et IRT ja kinnitava faktoranalüüsi terminoloogia on mõnevõrra erinev. Mitteühtlase DIF-i puudumine tähendab eristusvõime parameetri samasust eri gruppides; teisisõnu on jutt meetrilisest invariantsusest (st iga indikaatori panus latentse muutuja mõõtmisesse on rühmade lõikes samaväärne). Ühtlase DIF-i puudumine tähendab raskusastme parameetri samaväärsust eri gruppides; teisisõnu on jutt skalaarsest invariantsusest (vabaliikmed e indikaatorite väärtused latentse tunnuse nullväärtuse korral on gruppides samad).
Joonisel 22 on kujutatud ühtlase DIF-i näide. Küsimus on 2. grupis (punane kõver) oluliselt raskem, kuid küsimuse eristusvõime on sama (tõus kõvera keskosas on mõlemas grupis sama järsk). Joonisel 23 on samuti kujutatud ühtlast DIF-i, kuid gruppidevaheline erinevus on palju väiksem. Raskusastme vahet näitavad mõlemal joonisel sinised punktiirjooned; esimesel joonisel on raskusastmete vahe umbes 10 korda suurem kui teisel.
Joonis 22. Ühtlane ja mõjukas DIF: gruppide vahel on erinevus ainult raskusastme parameetris
Seega lisaks DIF-i olemasolule (statistilisele olulisusele) tuleks arvestada ka DIF-i suurusega. Kas parameetrite erinevus on nii suur, et sellest teha olulisi järeldusi? DIF-i suuruse mõõtmisekson erinevaid viise, kuid üks lihtne lahendus on seda (ühtlase DIF-i puhul) väljendada raskusastmete vahena.
Joonis 23. Ühtlane ja vähetähtis DIF: gruppide vahel on väga väike erinevus raskusastme parameetris
Mitteühtlane DIF tähendab, et gruppides on erinevad eristusvõime parameetrid (joonis 24). See erinevus on ühtlasest DIF-ist keerukam, sest õige vastuse tõenäosus on keskmisest madalama võimekuse korral suurem 1. grupis, kuid üle keskmise võimekuse korral hoopis 2. grupis. Kui hästi otsida, siis leiame, et keskmiselt on küsimus 2. grupis pisut raskem - raskusastmete erinevus on umbes 0,1 ühikut. Seega esinevad joonisel korraga nii ühtlane kui ka mitteühtlane DIF.
Joonis 24. Mitteühtlane DIF: gruppide vahel on erinevus nii raskusastme kui ka eristusvõime parameetris
Invariantsuse eeldus on montotoonsuse eeldusega sarnane selle poolest, et mõlema testimiseks peab skaalas olema piisav hulk küsimusi, mille puhul saame olla veendunud eelduse kehtivuses. Seega DIF-i testimiseks on vaja, et invariantsuse eeldus skaalas üldiselt kehtiks.