Käesoleva artikli eesmärk on veidi avada korrelatsioon statistika vaates. Käsitlus ei ole kindlasti ammendav ning koostanud on selle asjaarmastaja.
Korrelatsioon näitab võimalikku seost kahe või enama näitaja vahel. Seos ei tähenda põhjuslikku seost (sündmus B toimumine põhjustas sündmuse A toimumine). Seega ettevaatust uljaste järelduste tegemisel. Alustame valemist, kuidas ühte enim levinud korrelatsioonikordajat (Pearsoni korrelatsioonikordajat) arvutada:
\[ \begin{array}{ll} \mathbf {korrelatsioonikordaja= } \frac { cov_{xy} }{ (N-1)s_xs_y} =\frac{\sum \; (x_i-\bar x)(y_i-\bar y)}{(N-1)s_xs_y} \end{array} \]
Esialgu võib valem tunduda keeruline, kui tegelikult on see suhteliselt lihtne. Sisuliselt on tegemist kovariatsiooniga (koosvarieerumisega - kui palju muutujad koos muutuvad: kui üks näitaja kasvab/kahaneb, kui palju teine näitaja samal ajal kasvab/kahaneb). Kuna kovaratsioon ei ole standardiseeritud (tulemi numbriline suurus sõltub sellest, mis ühikuid kasutatakse), pole võimalik erinevate andmete kovaratsioonikordajaid sisukalt võrrelda. Selle vea parandab standardiseerimine: korrelatsioonikordaja jagatakse läbi näitajate standardhälvetega. Standardhälve kohta võib lugeda siit.
Teeme ühe näite. Meil on mõõdetud toote x reklaamide hulk televisioonis töönädala igal päeval. Teisalt on meil igale päevale vastav toote x ostude hulk.
reklaamid=c(5, 4, 4, 6, 8)
ostud=c(8, 9, 10, 13, 15)
Me tahame teada, kas suurem reklaamide hulk suurendas toote ostmist (ja vastupidi). Mainin kohe ära, et meie andmerida on väga väike millegi põhjapaneva järeldamiseks. Samuti tuleb meeles pidada, et avastatud seosed võivad olla näilikud: tegelikult on mingi muu muutuja (mille kohta meil infot pole), mis põhjustas mõlema näitaja muutumise. Nii väikese andmerea puhul võib tegemist olla juhuslikkusega, mis loob illusiooni seosest. Kuid aitab piirangutest, püüame korrelatsiooni sisust aru saada.
Esmalt arvutame välja mõlema näitaja keskmised ja standardhälbed:
Reklaamide keskmine on 5.4 ühikut ja standardhälve 1.67 ühikut. Ostude keskmine on 11 ühikut ja standardhälve 2.92 ühikut. Ja nüüd paneme andmed valemisse:
\[ \begin{array}{ll} \frac{ (5-5.4)(8-11)+(4-5.4)(9-11)+(4-5.4)(10-11)+(6-5.4)(13-11)+(8-5.4)(15-11)}{(5-1)*1.67*2.92}= \\ =\frac { 1.2+2.8+1.4+1.2+10.4} {4*1.67*2.92} = \frac {17} {19.51}=0.87 \end{array} \]
Arvutamine pole raske. Kuid, mida näitab tulemus?
Korrelatsioonikordaja arvulise väärtuse umbkaudsed tõlgendamisvahemikud on järgmised:
| Korrelatsioonikordaja | Tõlgendus |
|---|---|
| 0.7 kuni 1 (-0.7 kuni -1) | tugev seos |
| 0.5 kuni 0.7 (-0.5 kuni -0.7) | keskmise tugevusega seos |
| 0.3 kuni 0.5 (-0.3 kuni -0.5) | nõrk seos |
| 0 kuni 0.3 (0 kuni -0.3) | seos puudub |
Tegemist ei ole absoluutset tõde näitavate vahemikega (võib olla olukordi, kus korrelatsioonikordaja 0.3 võib olla piisav seose näitamiseks ning olukordi, kus korrelatsioonikordaja 0.9 võib olla liiga väike).
Visuaalselt on erinevate korrelatsioonikordajate puhul andmepunktide hajumine toodud järgnevatel joonistel.
Korrelatsioonikordaja 0.9 puhul võib graafik olla selline (andmed ei ole enam sama, mis reklaamide näite puhul, paremaks visualiseerimiseks on võetud rohkem andmepunkte):
Jooniselt on näha, et näitaja 1 kasvades kasvab ka näitaja 2 (negatiivse korrelatsioonikordaja puhul mõlemad väheneksid). Kui korrelatsioonikordaja väärtus oleks 1, siis moodustuks neist sirge joon (tegemist oleks juba funktsiooniga, kus igale x-ile vastaks konkreetne y).
Korrelatsioonikordaja 0.1 puhul aga selline:
Jooniselt on näha, et selget seost näitaja 1 ja näitaja 2 vahel ei ole. Andmed moodustavad juhusliku “pudru”. Samuti ei näita korrelatsioonikordaja, kui palju konkreetselt näitaja 1 kasvamisel näitaja 2 kasvab. Pigem näitab kordaja, kui selget seos andmete vahel on (kui “peenike” joon joonistub). Järgnev on wikipeediast võetud pilt, mis näitab korrelatsioonikordaja väärtuse muutumist sõltuvalt andmete hajuvusest joonisel.
Korrelatsioonikordaja väärtus sõltub sellest, kui palju andmed y-telje suhtes hajuvad. Teine graafik, mis näitab, kui oluline on andmeid graafiliselt vaadata, enne korrelatsioonikordaja tõlgendamist. Joonis on võetud wikipeediast.
Kõigi nelja graafiku korrelatsioonikordaja on ühesugune, kuid ainult esimese (üleval vasakul) puhul on korrelatsioonikordaja kasutamine põhjendatud. Ülemisel vasakul joonisel on näitajate vahel seos, kuid see pole lineaarne. All vasakul asuval joonisel oleks tegemist funktsionaalse seosega, kui poleks ühte erandlikku vaatlust (seda tuleks analüüsida). All paremal oleval joonisel põhjustab korreldatsioonikordaja kõrge väärtuse üks erandlik vaatlus (tuleks eraldi analüüsida).