vaited <-key(L, NAME %in%paste0("L1EAT",1:5))[, c("NAME", "LAB", "LEVELS")]vaited$LAB <-gsub("23. Järgnevalt soovime teada saada, kui suurt rolli on mänginud toit ja söömine Teie elus viimase kolme (3) kuu jooksul.","", vaited$LAB, fixed=TRUE)qflextable(vaited)
NAME
LAB
LEVELS
L1EAT1
[Kas Te olete veetnud märkimisväärselt palju aega kehakaalust ja toidust mõeldes]
1:ei|2:jah
L1EAT2
[Kas Te olete viimase kolme kuu jooksul oma toitumist märkimisväärselt piiranud]
1:ei|2:jah
L1EAT3
[Kas Teil on viimase kolme kuu jooksul esinenud söömishoogusid, mil sõite tavalisest suurema toidukoguse]
1:ei|2:jah
L1EAT4
Kas nende söömishoogude ajal olete tundnud, et Te ei suuda oma söömist kontrollida?
1:ei|2:jah
L1EAT5
Kas olete viimase kolme kuu jooksul oma kehakaalu kontrollimiseks tahtlikult oksendanud, kasutanud lahtisteid või söögiisu vähendavaid preparaate?
Enne analüüse tuleb kuidagi toime tulla 3. ja 4. väite sõltuvusega: 4. väide esitati ainult neile, kes vastasid 3. väitele jaatavalt. Lähtume eeldusest, et kõik, kes vastasid 3. küsimusele eitavalt, oleksid vastanud eitavalt ka 4. küsimusele - st vastajatel, kellel ei ole esinenud söömishooge, ei ole esinenud ka kontrollikaotusega söömishooge. Seega asendame kõigil, kes 3. küsimusele vastasid eitavalt, 4. küsimuse väärtuse NA väärtusega 1 (= ei).
Kuigi kahefaktoriline mudel on “oluliselt” parem, siis on ka ühefaktorilise mudeli sobitusastme näitajad täiesti aktsepteeritavad. Lisaks: eesmärk on eelkõige leida 5 söömispatoloogia küsimuse ühisosa, mitte kõigi nüansside modelleerimine.
Sisuliselt samasuguse mudeli saab teha andmestikuga, kus on säilitatud kõik 5 küsimust eraldi dihhotoomisete tunnustega ja 4. küsimuse puuduvad andmed on asendatud vastavalt eespool kirjeldatud skeemile. Sel juhul tuleb arvestada, et 3. ja 4. küsimuse vahel on meetodist (sh küsimuse esitamise viisist) tulenev sõltuvus, mida mudel ei tohiks ignoreerida. Kinnitavas faktoranalüüsis võiks seda kujutada 3. ja 4. tunnuse korreleeritud jääkidena. IRT mudelis (kasutades mirt paketti) on võimalus kujutada sisuliselt sama seost “nuditud” bifaktori mudeli abil, kus lisaks üldfaktorile (mis on seotud kõgi 5 küsimusega) on ainult üks spetsiifiline faktor, millel on laadungid ainult 3. ja 4. tunnusel. Selline bifaktori mudel on sisuliselt samaväärne mudeliga, kus on lubatud korrelatsioon 3. ja 4. tunnuse jääkide vahel (nt saranselt jääkkorrelatsiooniga on spetsiifiline faktor sõltumatu üldfaktorist).
Kood
ldgs(mbf,3) |>qflextable()
G
F1
h2
e1
0.992
0.000
0.983
e2
0.675
0.000
0.456
e3
0.584
0.808
0.993
e4
0.673
0.737
0.997
e5
0.700
0.000
0.490
Võrdleme bifaktori mudeli puhul erinevaid IRT parametriseeringuid: ühe- ja kaheparameetrilist logistilist mudelit, alumise või ülemise asümptoodiga kolmeparameetrilist mudelit ning neljaparameetrilist mudelit.
Üheparameetriline mudel on selgelt ebapiisav - st ei saa eeldada, et küsimused erinevad ainult raskusastme poolest. 3- ja 4-parameetrilised mudelid on log tõepära alusel 2PL mudelist paremad, kuid BIC ja SABIC (mis “karistavad” mudelit lisaparameetrite eest rohkem kui nt AIC) on kõige väiksemad 2PL mudelil.
Chen ja Thissen (1997) G2-statistik, mis nullhüpoteesi korral (st kui lokaalset sõltuvust ei esine = lokaalse sõltumatuse eeldus on täidetud) käitub nagu χ2-jaotus 1 vabadusastmega. Seega peaksime muretsema, kui mõne väitepaari vahel on G2 suurem kui 3.8414588 (5% olulisuse nivoo korral) või 6.6348966 (kasutades 1% olulisuse nivood).
See tähendab, et lokaalse sõltumatuse eeldus ei ole päriselt täidetud. Bifaktori mudeli puhul on kõige suuremad jääkkorrelatsioonid 2. ning 3. ja 4. küsimuse vahel. Seda olukorda saaks parandada nii, et lisada bifaktori mudelis ka 2. küsimus spetsiifilise faktori indikaatoriks. Sellise mudeli faktorstruktuur:
St kui lubada 2. väite laadung spetsiifilisel faktoril, siis mudeli sobitusaste paraneb ning lokaalse sõltumatuse eeldust ei saa enam ümber lükata.
Kood
anova(mbf, mbf2) |>flexit()
X.
AIC
SABIC
HQ
BIC
logLik
X2
df
p
mbf
19 246.98
19 288.02
19 274.61
19 326.15
-9 611.488
mbf2
19 208.56
19 253.03
19 238.50
19 294.34
-9 591.281
40.415
1
0
(See muudab natuke spetsiifilise faktori sisu: nüüd on liigsöömine vastandatud söömise piiramisele. Üldfaktori sisu muutub ka natuke: kõigi väidete kaalud muutuvad võrdsemaks.)
DIF
Esialgu jätaks selle teema välja - või siis käsitleks ühefaktorilise mudeli põhjal.
Korrelatsioonid ühefaktorilise mudeli ja BF mudeli üldfaktori skoori vahel (EAP = expected a posteriori).
Kood
# * Vahemärkus. Miks on BF mudeli üldfaktori skoorid korreleeritud spetsiifiliste faktorite skooridega, on omaette küsimus. See on ilmselt expected a posteriori meetodi omapära. Mudelis on need faktorid üksteisest sõltumatud. Sõltumatud skoorid saame siis, kui kasutada meetodina "plausible" (sarnane nt PISA-testi plausible values teemaga), aga sel juhul tekivad mõned probleemid. Aga EAP meetod on skoorimise jaoks lihtsam (seda on ka sarnases valdkonnas kasutatud nt https://jpro.springeropen.com/articles/10.1186/s41687-022-00464-9), tõenäoliste väärtuste meetod annab iga kord erineva tulemuse (!) ja seetõttu tuleks iga analüüs läbi teha mitu korda (PISA soovituse järgi 10 korda, kuid vt ka https://pmc.ncbi.nlm.nih.gov/articles/PMC6425093/, mis ütleb, et miinimum on 20) ja raporteerida tulemuste keskmine. Tüütu. Teine huvitav asi on, et "plausible" skoorid on päriselt ka normaaljaotusega. # hist(fscores(mm2cbf, method="plausible")[,1]) # Plausible values kohta vt veel:# # * https://link.springer.com/chapter/10.1007/978-3-030-47515-4_3# # * https://ierinstitute.org/fileadmin/Documents/IERI_Monograph/Volume_2/IERI_Monograph_Volume_02_Chapter_01.pdf# # * https://www.edmeasurementsurveys.com/IRT/Ch14.html
Võrdleme lihtsa ühefaktorilise mudeli (mudel1) ja esimese bifaktori mudeli (mudel 2 - spetsiifilisele faktorile laaduvad küsimused 3 ja 4) skoore.
Nüüd võrdleme esimese ja teise bifaktori mudeli skoore (mudel 2 vs. mudel 3 - esimeses on spetsiifilise faktoriga seotud küsimused 3 ja 4, teises 2,3 ja 4. )
Kood
cor.test(es1a[,1], es1b[,1])
Pearson's product-moment correlation
data: es1a[, 1] and es1b[, 1]
t = 223.3, df = 5500, p-value < 2.2e-16
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
0.9463370 0.9515905
sample estimates:
cor
0.9490296
Paired t-test
data: L$L1es and L$L3es
t = 2.7599, df = 3265, p-value = 0.005814
alternative hypothesis: true mean difference is not equal to 0
95 percent confidence interval:
0.009781179 0.057772976
sample estimates:
mean difference
0.03377708
Kood
t.test(L$L2es, L$L3es, paired=TRUE)
Paired t-test
data: L$L2es and L$L3es
t = 2.7493, df = 2681, p-value = 0.006013
alternative hypothesis: true mean difference is not equal to 0
95 percent confidence interval:
0.01006461 0.06012667
sample estimates:
mean difference
0.03509564
St 3. laines on skoor oluliselt väiksem kui esimeses või teises.
Kood
t.test(L$L1es, L$L2es, paired=TRUE)
Paired t-test
data: L$L1es and L$L2es
t = 1.4454, df = 2855, p-value = 0.1485
alternative hypothesis: true mean difference is not equal to 0
95 percent confidence interval:
-0.006408743 0.042355594
sample estimates:
mean difference
0.01797343
Samas esimese ja 2. laine vahel ei ole erinevust.
Seosed KMI, vanuse ja sooga
KMI on arvutatud 1. ja 3. laine eneseraporteeritud kaalu ja pikkuse põhjal. Kaalu ja pikkuse eeltöötlus:
kaal alla 40 ja üle 200 kg asendatud NA-ga
pikkus alla 140 cm asendatud NA-ga
meetrites raporteeritud pikkus (3 juhul: 1.5 või 1.6) korrutatud 100-ga
KMI väärtused üle 50 ja alla 15 asendatud NA-ga
Korrelatsioonitabelis on (näidisena) ka KMI, soo ja vanuse keskmised korrelatsioonid 10 tõenäolise väärtusega (plausible value) nii ühefaktorilise (PV1F) kui ka bifaktori mudeli (PVBF) põhjal. Esimese hooga tundub mõstili eelistada EAP meetodit, mille puhul nn konvergentsed korrelatsioonid on suuremad.
Isiksuse skaala: 20 väitega lühiversioon 100NP põhjal
Impulsiivsus: negative & positive urgency, Short version of the UPPS-P Impulsive Behavior Scale (SUPPS-P; Cyders, Littlefield, Coffey, & Karyadi, 2014); SUPPS-P (Cyders et al., 2014)
NB! Isiksuse andmed 3. lainest, impulsiivsus 2. lainest. Kõik korrelatsioonid on olulised (p< 0.001)
Järgnevad analüüsid on raporteeritud funktsiooniga jtools::summ: log.regressiooni kordajad on tabelis nn “exp(x)” kujul, st OR. Prediktorid (v.a sugu) on standardiseeritud, sh vanus ja vanuse ^2.