Sissejuhatus

Käesoleva kirjatüki eesmärk on tõsta katet statiliselt testimiselt. Üritan joonistega (vähemalt minul on visuaalselt asjadest lihtsam aru saada, kui ainult valemeid vaadates) endale selgitada, mida testimine ja sellega seotud mõisted endast kujutavad. Kui suudan statistilist testimist ka kellegi teise jaoks pisut selgemaks teha, on tegemist lisaboonusega. Kirjatüki lugemine tuleb kasuks, kui arst on teinud sulle kunagi mõne analüüsi või oled lugenud mõne kollasema väljaande nn teadusartikleid (näiteks “Teaduslikult tõestatud: täiskuu mõjutab inimesi - ajab pisut pööraseks!”, “Kanep ravib vähki”).

Algus

Oletame, et meid huvitab, kuidas eristada terveid inimesi neist, kellel on haigus (kuna ise arst pole, siis ei hakka tõe huvides ka ühtegi konkreetset haigust aluseks võtma, seda enam, et andmed selles kirjatükis on simuleeritud). Selleks, et haigust määrata, mõõdetakse veres oleva aine (markeri) Y kogust.

Algselt paneme paika 0-hüpoteesi: haigete ja tervete Y-i kogustes ei ole erinevusi. Paneme paika ka alternatiivse hüpoteesi (hüpotees, mis meile tegelikult huvi pakub): haigete Y-i kogused on suuremad kui tervetel (lihtsuse huvides määran efekti ka suuna, mitte lihtsalt ei ütle, et kogus on erinev).

Tervete inimeste puhul (10 000 proovi) on aine Y koguste jaotuse histogramm selline (lihtsuse huvides oletan, et see jaguneb vastavalt normaaljaotusele):

Tihedus näitab seda, milliseid Y-i koguseid on kõige rohkem (4 ühiku ümber on neid kõige rohkem, seal on ka mediaan ja keskmine).

Paneme nüüd joonisele ka haigete Y-i kogused.

Nagu jooniselt näha, on terved ja haiged Y-i koguste abil päris hästi eraldatavad (silmaga vaadates tundub, et nullhüpotees on ümber lükatud ja alternatiivne hüpotees tõestatud). Et haiged tervetest eraldada tõmbasin sinise joone. Vasakule jäävad (Y-i kogus on alla 7 ühiku) on terved ning paremale jäävad on haiged Nii suudame peaaegu 100%-lise täpsusega eraldada terved ja haiged. Milline ilus elu.

Reaalsus kipub aga olema selline:

Kuhu nüüd joon tõmmata? Kas nüüd on ka nullhüptees ümberlükatud? Õige vastus on, et oleneb olukorrast. Et sellele küsimusele vastata, peame seadme paika veapiiri, mida talume (veapiir tuleb tegelikult enne andmete kogumist paika panna, mitte üritada seda andmetele peale vaadates kohendada). Ma võtan aluseks tavaliselt näidetes kasutatava piiri, kus 95% tervetest jääb vasakule poole (nad klassifitseeritakse terveks). Sel juhul ainult 5% tervetest klassifitseeritakse haigeteks (nende puhul tehakse I tüüpi viga). I tüüpi viga näitab, kui suur on tõenäosus, et leitakse erinevus näitajate vahel, kuigi erinevust tegelikkuses ei eksisteeri (tervete osakaal, kelle puhul test näitab, et nad on haiged). Joonisel kujutatud piiri järgi on ainult 5% terveid, keda test näitab haigetena. Need 5% on joonisel sinised ning neid kutsutakse valepositiivseteks (test on nende puhul positiivne ehk näitab et nad on haiged, kuigi tegelikult on terved). Üldjuhul seataksegi I tüüpi vea piiriks 5% või 1% (ja kui küsida miks, siis ega erilist põhjendust olegi, võiks öelda, et traditsioon lihtsalt).

Asja teine külg ja point

Kuid sellest ei piisa. Me teame, kui suur on tõenäosus, et terve Y-i kogus on üle sinise joone (maksimaalselt on see 5%, mis on meie talutava vea piires). Kuid, kui suur on tõenäosus, et konkreetne üle sinise joone olev Y-i kogus on pärit haigete grupist? Mõnest muust grupist? Selle põhjal, et vaatlus ei kuulu tõenäoliselt tervete gruppi, ei saa järeldada, et see kuulub haigete gruppi (see oleks sama, kui hommikul peavaluga üles ärgates teha järeldus, et sul on ajuvähk. Aga äkki lihtsalt pohmell?). Kahjuks tehakse seda päris elus tihti.

Siin tuleb mängu asja teine külg, ehk II tüüpi viga. Enne seda on meil vaja koguda paras hulk (meie näites 10 000) Y-i proove haigetelt. II tüüpi viga ehk tõenäosus, et test ei näita erinevust, kuigi see tegelikult eksisteerib (haigete osakaal, kelle puhul test näitab, et nad on terved). Joonisel tähistab seda punane ala (valenegatiivsed: need, kelle puhul test näitab, et nad on terved, kuid tegelikult on nad haiged). Silmaga vaadates on näha, et selle vea tõenäosus tunduvalt suurem, kui oli I tüüpi veal (5%). Kui suur täpselt, näitab järgmine tabel, koos muude huvipakkuvate näitajatega:

Näitaja Väärtus
sensitiivsus (statistiline jõud) 0.638
spetsiifilisus 0.950
valepositiivsete määr (I tüüpi vea määr) 0.050
valenegatiivsete määr (II tüüpi vea määr) 0.362
positiivne ennustatav väärtus 0.927
negatiivne ennustatav väärtus 0.724

Harutame asja lahti tabelina

Kui eelnev jäi segaseks, siis ehk aitab tabel koos järgnevate selgitustega asja selgitada:

tulem haige terve
test positiivne 6380 500
test negatiivne 3620 9500

Tegemist on eelmise joonisega tabeli kujul. Kokku oli 10 000 tervet ja 10 000 haiget. Tervetest inimestest on test negatiivne (näitab, et on terved) 9500 puhul ning 500 puhul test valetab, näidates, et inimene on haige (joonisel sinine ala). Haigete puhul on test aga ainult 6380 puhul positiivne, ülejäänud 3620 juhul test valetab, näidates, et inimene on terve (joonisel punane ala). Siit ka arvutusloogika eelnevate näitajate puhul (samad näitajad ja arvud, mis eelmises tabelis, kuid seekord koos valemitega):

\[ \begin{array}{ll} - \mathbf {sensitiivsus\;(testi \; statistiline \;jõud): } \frac{õiged \; positiivsed}{(õiged\; positiivsed + valenegatiivsed)} = \frac{6380}{ (6380 + 3620)} = 0.638 \\ - \mathbf {spetsiifilisus:} \frac{õiged \; negatiivsed}{(õiged\; negatiivsed + valepositiivsed)} = \frac{9500}{ (9500 + 500)} = 0.95 \\ - \mathbf {valepositiivsete \; määr: } 1 - spetsiifilisus =\frac{valepositiivsed}{(valepositiivsed + õiged \;negatiivsed)} = \frac{500}{ (500 + 9500)} = 0.05 \\ - \mathbf {valenegatiivsete \; määr: } 1 - sensitiivsus =\frac{valenegatiivsed}{(valenegatiivsed + õiged \;negatiivsed)} = \frac{3620}{ (3620 + 6380)} = 0.362 \\ - \mathbf {positiivne \; ennustatav \; väärtus: } \frac{õiged \; positiivsed}{(õiged \; positiivsed + valepositiivsed)} = \frac{6380}{ (6380 + 500)} = 0.927 \\ - \mathbf {negatiivne \; ennustatav \; väärtus: } \frac{õiged \; negatiivsed}{(õiged \; negatiivsed + valenegatiivsed)} = \frac{9500}{ (9500 + 3620)} = 0.724 \end{array} \]

Kui me nüüd teeme sulle testi ning saame Y-i koguseks 7 ühikut, siis meie p-väärtus (tõenäosus, et oled pärit tervete grupist) on alla seatud 0.05 (5%) piiri. Kokkuvõttes klassifitseeritakse sind haigeks (mis ei tähenda, et sa ei või tänu ebaõnnele ülla üks neist tervetest, kelle Y-i kogus on üle sinise joonega seatud piiri).

Eelneva mõte oli näidata, et ükski test pole 100% täpne. Kui test oli positiivne, siis oled 92.7% tõenäosusega haige, kui test negatiivne, siis 72.4% tõenäosusega terve Tihtilugu räägitakse ajakirjanduses, et p-väärtusest (kui see on madal, siis on ükskõik kui jabur hüpotees justkui tõestatud). P-väärtus näitab ainult seda, kui tõenäoline on, et konkreetne vaatlus on pärit algsest jaotusest (meie puhul tervete grupist). Kui see on madal (alla 5% või 1%), siis võime suhtelise kindlusega väita, et konkreetne Y-i kogus pole suure tõenäosusega algsest jaotusest pärit. Ja ainult seda! P-väärtus ei näita mitte midagi selle kohta, kas konkreetne Y-i kogus on pärit haigete grupist. Seda näitab testi statistiline jõud, mis meie puhul pole ülemäära suur (kui inimene on haige, siis ainult ligi 2/3 juhtudest suudab seda test näidata).

Kui lähed järgmine kord arsti juurde ning ta teeb sulle mõne testi, siis küsi, mis on testi positiivne ennustatav väärtus (kui testi tulemus on positiivne) ja mis on testi negatiivne ennustatav väärtus (kui testi tulemus on negatiivne).

Juhe kokku

Kui eelnev oli segane, on mul positiivseid uudiseid, läheb aina hullemaks. Vaatleme, kuidas haiguse leviku määr mõjutab testi positiivset ja negatiivset ennustatavat väärtust.

Joonisel olevad ennustatavad väärtused on arvutatud spetsiifilisusega 0.95 ja tundlikkusega 0.8. Nagu näha, muutub positiivne ennustatav väärtus väikeseks, kui haigus on väga haruldane (mis on ka loogiline, mida haruldasem haiges, seda suurem ka tõenäosus, et mina olen terve). Negatiivne ennustatav väärtus muutub aga madalaks, kui haigus on väga levinud (jällegi on see loogiline, kuna mida rohkem haigus on levinud, seda suurem ka tõenäosus, et mina olen haige).

Ehk kui haigus on väga haruldane (näiteks 1% inimestest põeb seda), siis isegi kui testi tulemus on positiivne, on tõenäosus, et oled haige ainult 14%. Sama on juhul, kui haigus on väga levinud (näiteks 99% inimestest põeb seda), siis on negatiivse testi tulemuse korral ainult 5% tõenäosus, et oled terve. See on ka loogiline, kuna baasmäär on nii kõrge, et oleks üpris ebatõenäoline, et oled terve. Kui meil on aga rohkem infot sinu kohta, võib ka baasmäär muutuda (näiteks suitsetajate tõenäosus kopsuvähki haigestuda on oluliselt kõrgem kui mittesuitsetajatel). Seega tuleb lisaks testi tulemusele teada ka mingi nähtuse levikut (näiteks kui suudan testiga tõestada, et homöopaatia töötab, siis kuna eelnev baasmäär on väga madal, on testi tulemus tõenäoliselt lihtsalt juhuslik eksimus).

Statistiline jõud

Uurime, millest sõltub statistiline jõud (ehk sensitiivsus - tõenäosus, kui tervete ja haigete vahel on erinevus, siis meie test seda ka näitab). Algne statistiline jõud on 0.638. Vaatame, mis juhtub statistilise jõuga, kui muuta ühte näitajat korraga.

Kui me muudame haigete keskmise Y-i koguse 6-lt ühikult 8 ühikuni, siis saame sellise joonise:

Kui aga muuta ühe haigete Y-i koguste standardhälve ühelt ühikult 2-le, saame sellise joonise:

Joonisel kujutatud olukorra puhul on testi statistiline jõud 0.58, mis on väiksem algsest. Uskuge mind, kui ka tervete Y-i koguste standarhälve muuta suuremaks, siis muutub statistiline jõud veelgi väiksemaks. Seega mida suurem on näitajate standardhälve, seda väiksem on statistiline jõud.

Kui suurendame tervete Y-i koguste hulka 10 000 proovilt 30 000 proovini, siis saame sellise joonise:

Joonisel kujutatud olukorra puhul on testi statistiline jõud 0.645, mis on suurem algsest. Uskuge mind, kui suurendada ka haigete Y-i proovide hulk, kasvab statistiline jõud veeldi. Seega mida suurem on valimi suurus, seda suurem on statistiline jõud. Tasub tähele panna, et ajalehes avaldatud uuringutes on päris tihti uuringusse kaasatud valimi suurus 50 või isegi ainult 20 inimest/proovi. Seda on liiga vähe, et saaks järeldada midagi revolutsioonilist (nagu ajalehes olevad pealkirjad seda teevad).

Kui me tõstame I tüüpi vea (valepositiivsete) taluvuse piiri 5%-lt 1%-le, siis saame sellise joonise:

Joonisel kujutatud olukorra puhul on testi statistiline jõud 0.374, mis on algsest tunduvalt väiksem. Seega mida väiksem on I tüüpi vea piirmäär, seda väiksem on statistiline jõud.

Kokkuvõte

Loodan, et suutsin pisut selgemaks statistilise testimise tagamaid ja köögipoolt. Tegemist on väga lihtsustatud ja pinnapealse kirjatükiga, kuid enne kui hakata raketti ehitama, tuleb arusaada, mis põhiõttel asi töötab. Kui tahad näha graafikute ja tabelite loomiseks kasutatud koodi, siis selle leiad siit:https://github.com/RRisto/testimine.

Kasutatud kirjandus

P-value. Wikipedia.

Scientific method: Statistical errors. Nature.

Statistical power and underpowered statistics. Statistics done wrong.