Laadige alla praktikumi andmed.

Regressioonanalüüs on üks kõige sagedamini kasutatavaid statistilisi meetodeid. Selle eesmärgiks on tuletada valem, mis seostab omavahel sõltuva muutuja ja ühe või mitu sõltumatut muutujat ehk prediktorit. Tuletatud valemit võib kasutada sõltuva muutuja väärtuste ennustamiseks prediktorite väärtuste põhjal. Aga enamasti kasutatakse seda määramaks kindlaks, kas ja millised sõltumatud muutujad omavad olulist seost sõltumatu muutujaga. Oletame, et oleme inimeste kohta mõõtnud kahte näitajat, nimetagem neid X ja Y. Me tahame ennustada Y väärtusi (sõltuv muutuja) X-i väärtuste kaudu (sõltumatu muutuja). Sellisel juhul saame nendevahelise regressioonseose valemi kirjutada nii: \[Y = b_{0} + b_{1}X + e\]
Y ja X tähistavad selles vastavalt inimeste sõltuva ja sõltumatu tunnuse väärtusi. \(b_0\) on vabaliige, mis ütleb, milline on sõltuva muutuja Y väärtus, kui sõltumatu muutuja X väärtus on 0. \(b_1\) on regressioonikordaja, mis ütleb, kui palju muutub sõltuv muutuja Y juhul kui sõltumatu muutuja X väärtus muutub ühe ühiku võrra. \(b_0\) ja \(b_1\) nimetame mudeli parameetriteks, need on inimeste jaoks ühised. \(e\) on mudeli viga (nimetatakse ka jääkideks või hälveteks). Mudel ei suuda reeglina andmeid seletada täielikult ja \(e\) ongi mudeli ja tegelike andmete vaheline erinevus mingi konkreetse inimese puhul. Regressioonianalüüsi puhul anname statistikaprogrammile ette inimeste X ja Y väärtuse ning saame tagasi b-de väärtuse ja iga inimese kohta ka \(e\) väärtuse. Kui oleme mõõtnud kolme muutujat (nimetagem neid Y , X1 ja X2) ja tahame teada kas X1 ja X2 mõlemad mõjutavad Y -it, omandaks valem sellise kuju: \[Y = b_{0} + b_{1}X_{1} + b_{2}X_{2} + e\]

Ehk siis üks bX korrutis on valemisse juurde tulnud ja sellest tulenevalt on vaja kindlaks määrata väärtus ühe täiendava \(b\) jaoks. üldistatult võibki öelda, et iga täiendav sõltumatu muutuja lisab valemisse veel ühe \(bX\) korrutise ja kindlaks määramist vajab üks täiendav parameeter.

Paarisregressioon

Kasutame andmestikku pisa.
Teeme alustuseks lihtsa regressioonanalüüsi mudeli, milles on sõltuv tunnus ja ainult üks sõltumatu tunnus ehk prediktor. Võtame sõltuvaks tunnuseks PISA uuringu loodusteaduste alatesti skoori (tunnus nimega PVSCIE) ja ennustame seda matemaatika alatesti skoori kaudu (tunnus nimega PVMATH).

Eeldus - lineaarne seose kuju sõltuva ja sõltumatute tunnuste vahel

Teeme kõigepealt tavalise hajuvusdiagrammi, et hinnata muutujate vahelise seose olemust. Siin tahame näha lineaarset seost sõltuva ja sõltumatute tunnuste vahel. Antud juhul on meil muutujad tugevalt seotud ja näeme joonise selget lineaarset seost.

plot(x = pisa$PVMATH, y = pisa$PVSCIE)

Mudeli koostamine

Mudeli koostamiseks kasutame R-i funktsiooni lm (linear model), millele anname mudelisse minevad muutujad valemi kujul ja argumendi data abil andmetabeli nime, millest muutujad võetakse. Funktsiooni lm() kasutamine:
lm(sõltuv tunnus \(\sim\) sõltumatu tunnus, data=andmestiku nimi)

pisa.mudel1 <- lm(PVSCIE ~ PVMATH, data=pisa)

Salvestasime mudeli nimega pisa.mudel1. Selle nime abil saame hiljem kätte meid huvitavad mudeli parameetrid ja ka mudeli jäägid. Kui mudelisse kaasatud muutujates esineb puuduvaid andmeid, tuleb nende välja jätmiseks lisada funktsioonile lm veel täiendav argument na.action=na.omit. Nüüd kui oleme mudeli defineerinud, vaatame mudeli väljundit, mille saame kätte funktsiooni summary abil:

summary(pisa.mudel1)
## 
## Call:
## lm(formula = PVSCIE ~ PVMATH, data = pisa)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -130.546  -21.008   -0.288   20.401  133.671 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 29.203022   3.194110   9.143   <2e-16 ***
## PVMATH       0.976174   0.006101 160.013   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 31.56 on 4766 degrees of freedom
## Multiple R-squared:  0.8431, Adjusted R-squared:  0.843 
## F-statistic: 2.56e+04 on 1 and 4766 DF,  p-value: < 2.2e-16

Mida mudeli väljundi osad tähendavad? Kuna seda tüüpi väljund on antud praktikumis üks kõige olulisemaid, siis vaatame selle üksikasjalikumalt läbi. Hakkame väljundi ülaosast pihta ja liigume järjest allapoole. Tuleb rõhutada, et tegemist pole väljundi osade tähtsuse järjekorraga.

Esimene osa Call lihtsalt kordab üle, millised muutujad on mudelisse kaasatud.

Residuals toob ära mõned näitajad mudeli jääkide kohta. Mudeli jäägid kujutavad endast erinevust andmete ja mudeli vahel. Tegemist on selle osaga andmetest, mida mudel ära seletada ei suuda. Teatavasti peaksid regressioonimudeli jäägid olema normaaljaotusega ja mediaan peaks olema 0-i ligiduses. See tähendab, et 1. kvartiil (1Q) ja 3. kvartiil (3Q) peaksid olema vastasmärgilised aga absoluutväärtuselt sarnased. Samamoodi ka Min ja Max, kuigi nende puhul on suuremad erinevused üsna tavalised. Kui erinevused on väga suured, võib tekkida probleeme mudeli üldistamisel teistele valimitele. Jääke vaatame hiljem lähemalt, see rida siin võimaldab ainult kiirpilku.

Tabelis Coefficients on kirjas mudeli parameetrid koos nende statistilise usaldusväärsuse näitajatega. Esimesel real (Intercept) tulbas Estimate on toodud mudeli vabaliikme väärtus (antud juhul 29.203). Seda võib tõlgendada nii, et kui sõltumatu muutuja väärtuseks on 0, siis mudel ennustab loodusteaduste alatesti skooriks just selle numbri. Teisel real tulbas Estimate on toodud sõltumatu tunnuse PVMATH (matemaatika alatesti tulemus) regressioonikordaja, mille väärtuseks on 0.976. See tähendab, et kui sõltumatu tunnus muutub ühe ühiku võrra, muutub sõltuv tunnus 0.976 ühiku võrra. Antud juhul on kordaja positiivne, mis tähendab, et kui sõltumatu muutuja suureneb, kasvab ka sõltuv muutuja. Negatiivne kordaja tähendab, et sõltumatu muutuja suurenedes sõltuv muutuja hoopis väheneb. Kui prediktor omab olulist seost sõltuva muutujaga, peaks kordaja olema nullist erinev. Tulbas Std. Error on toodud regressioonikordaja standardviga. Standardviga näitab, kui erinevad oleksid antud regressioonikordaja väärtused erinevates valimites. Väike standardviga tähendab, et ka teistes valimites võib oodata antud valimi omale sarnast kordajat. Tulbas t-value on toodud t-väärtus mis kujutab, endast regresioonikordaja ja standardvea suhet. Olulist seost omavate prediktorite puhul peaks regressioonikordaja olema standardveaga võrreldes võimalikult suur. Laias laastus võib öelda, et vähemalt 2 korda suurem ehk siis t > 2. (Sellest järeldub ka, et väikese standardvea korral võib ka väike reg.kordaja olla oluline). Tulbas Pr(>|t|) on toodud p-väärtus, mis kontrollib hüpoteesi, et t väärtus pole 0-st oluliselt erinev. Antud juhul tähistab *** lõpus, et p < 0.001, mis viitab, et tõenäosus, et t pole 0-st erinev on alla 0.1% ehk väga väike ja sellest tulenevalt võib õelda, et sõltumatu tunnus PVMATH (ehk matemaatika alatesti tulemus) omab statistiliselt usaldusväärset seost loodusteaduste alatesti skooriga.

Tabeli järel on selgitus selle kohta, milline tärnide arv tabeliridade lõpus, tähistab millist statistilise olulisuse nivood. Seejärel on toodud näitaja Residual standard error, mis kujutab endast põhimõtteliselt mudeli jääkide standardhälvet, aga üldiselt see meid väga ei huvita.

Multiple R-squared on mudeli determinatsioonikordaja (\(R^2\)), mis näitab, kui suure osa sõltuva tunnuse hajuvusest mudel (mis antud juhul koosneb ainult tunnusest GENSCIE) ära seletab. Praegusel juhul on selle väärtuseks 0.843, korrutades selle 100-ga saame näitaja protsentides ehk siis 84.3% alatesti skooride hajuvusest saab seletada tunnuse PVMATH abil (ja 15.7% hajuvusest tingitud mingitest muudest asjaoludest). Adjusted R-squared näitab, kui suurt \(R^2\)-e võime oodata kui hinnata seost antud valimi asemel terves populatsioonis. See näitaja on alati väiksem, kui Multiple R-squared, aga praegusel juhul (0.843) on erinevus väga väike, mis on suures osas tingitud ka sellest, et meie valim on väga suur.

Viimasel real on ära toodud F-suhe koos oma vabadusastmete ja p-väärtusega. Näitaja kujutab, endast mudeli poolt seletatava hajuvuse ja jääkhajuvuse suhet. Mida suurem on F-suhe seda parem, rea lõpus toodud p-väärtus aitab hinnata F-suhte suurust ja seeläbi mudeli kvaliteeti. Antud juhul on F-suhte p-väärtus < 2.2e-16, see tähendab väiksem kui \(2.2 * 10^-16\) ehk siis tõenäosus, et nii suur F-suhe on saadud ainult tänu juhusele on väga väike.

\(R^2\) ja F-suhe on saadud võrreldes mudelit sellise mudeliga, milles muutujate-vaheline seos puudub (ainult vabaliikmega mudel, vabaliikme väärtuseks võetakse sõltuva muutuja keskmine). Võime järeldada, et meie mudel on parem kui mudel, milles muutujate vaheline seos puudub.

Mudeli väljundist teada saadud parameetrite abil võime loodusteaduste alatesti ja teaduse oluliseks pidamise seost väljendada järgevalt:

\[loodusteaduste alatesti skoor = 29.203 + 0.976 * matemaatika alatesti skoor\]

Eeldus - jäägid peaksid jaotuma normaaljaotuse kohaselt

Regressioonimudeli jäägid olema normaaljaotusega. Selle testimiseks saame kasutada juba eelmisest praktikumist tuttavaid meetodeid.

# Teeme Shapiro-Wilki testi. Kui p-väärtus on alla 0.05, siis ei ole normaaljaotusel vastav.
shapiro.test(pisa.mudel1$residuals)
## 
##  Shapiro-Wilk normality test
## 
## data:  pisa.mudel1$residuals
## W = 0.99858, p-value = 0.0003098
# Illustreerimiseks saame kasutada histogrammi:
hist(pisa.mudel1$residuals)

Ülesanded - paarisregressioon

  1. Kasutage andmestikku nimega “pisa”.
    Tehke paarisregressiooni mudel, mis ennustab loodusteaduse alatesti skoori (tunnus PVSCIE) teaduse nautimise kaudu (JOYSCIE). Kas seos on oluline? Kui suure osa matemaatika testi skooride hajuvusest mudel ära seletab? Mitme punkti võrra muutub matemaatika skoor kui sõltumatu muutuja muutub ühe punkti võrra?

  2. Kasutage andmestikku nimega “album1” (Tegemist on A.Fieldi õpiku näidisandmetega - https://studysites.uk.sagepub.com/dsur/study/articles.htm). Andmetes on kaks veergu, mis annavad ülevaate erinevate muusikute müügiedust. Esimene veerg näitab muusikaalbumi reklaamidele kulutatud raha hulka ja teine näitab albumite müügiedu.
    Püstitage hüpotees, mida saate testide paarisregressiooniga, müügiedu ennustamiseks. Viige läbi analüüs.

Mitmene regressioon

Teeme uue regressioonimudeli, milles jääb sõltuva muutujana alles loodusteaduste alatesti skoor (PVSCIE) ja prediktorina teaduse nautimine (GENSCIE). Lisame veel kaks uut prediktorit: huvi teaduse vastu (INTSCIE) ja motivatsioon loodusteaduste õppimiseks (INSTSCIE).

Eeldus - multikollineaarsus

Lisaks paarisregresiooni eeldustele peame vaatama mitmese regressiooni puhul ka prediktorite vahelisi korrelatsioone. Regressioonanalüüsi puhul tahame, et sõltumatud tunnused oleksid võimalikult tugevalt seotud sõltuva tunnusega, kuid samas võimalikult vähe seotud omavahel. Üheks probleemiks, mis esineda võib, on multikollineaarsus ehk olukord, kui mudeli prediktorid on omavahel liiga tugevalt korreleeritud. Probleemse multikollineaarsuse avastamiseks võime vaadata prediktorite-vahelisi korrelatsioone.

library("psych") #soovitan kasutada funktsiooni corr.test, mis asub antud paketis
## Warning: package 'psych' was built under R version 3.5.1
corr.test(subset(pisa, select = c("PVSCIE", "JOYSCIE","INTSCIE","INSTSCIE")))
## Call:corr.test(x = subset(pisa, select = c("PVSCIE", "JOYSCIE", "INTSCIE", 
##     "INSTSCIE")))
## Correlation matrix 
##          PVSCIE JOYSCIE INTSCIE INSTSCIE
## PVSCIE     1.00    0.23    0.17     0.03
## JOYSCIE    0.23    1.00    0.55     0.48
## INTSCIE    0.17    0.55    1.00     0.41
## INSTSCIE   0.03    0.48    0.41     1.00
## Sample Size 
## [1] 4768
## Probability values (Entries above the diagonal are adjusted for multiple tests.) 
##          PVSCIE JOYSCIE INTSCIE INSTSCIE
## PVSCIE     0.00       0       0     0.02
## JOYSCIE    0.00       0       0     0.00
## INTSCIE    0.00       0       0     0.00
## INSTSCIE   0.02       0       0     0.00
## 
##  To see confidence intervals of the correlations, print with the short=FALSE option

Saame tagasi korrelatsioonimaatriksi. Problemaatilised on muutujatevahelised korrelatsioonid absoluutväärtusega > 0.8. Kui selliseid esineb, tasuks üks tugevalt korreleeritud muutujatest mudelist välja jätta.

Mudeli koostamine

Mudeli koostamiseks kasutama sama funktsiooni:

pisa.mudel2 <- lm(PVSCIE ~ JOYSCIE + INTSCIE + INSTSCIE, data=pisa)

Nagu näha on mudeli valemi paremal poolel olevad sõltumatud muutujad omavahel eraldatud + märgiga. Vaatame mudeli väljundit, mille saime funktsiooni summary abil.

summary(pisa.mudel2)
## 
## Call:
## lm(formula = PVSCIE ~ JOYSCIE + INTSCIE + INSTSCIE, data = pisa)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -284.848  -51.022    1.409   55.191  234.832 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  533.688      1.167 457.175  < 2e-16 ***
## JOYSCIE       22.028      1.662  13.252  < 2e-16 ***
## INTSCIE        8.895      1.833   4.851 1.26e-06 ***
## INSTSCIE     -11.315      1.657  -6.828 9.70e-12 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 77.1 on 4764 degrees of freedom
## Multiple R-squared:  0.06357,    Adjusted R-squared:  0.06298 
## F-statistic: 107.8 on 3 and 4764 DF,  p-value: < 2.2e-16

Vaatame mudeli üldist sobitusastet näitavat determinatsioonikordajat \(R^2\) (Multiple R-squared) väljundi alaosas. Selle väärtuseks on 0.06357. Korrutades selle 100-ga saame, et mudel seletab ära umbes 6.4% sõltuva muutja hajuvusest.

Järgmisena uurime tabelis Coefficients tulbas Estimates olevaid mudeli parameetrite väärtusi. Vabaliikme väärtus on 533.688. See tähendab, et kui kõigi kolme prediktori väärtus juhtub olema 0, võime oodata sellist loodusteaduste testi skoori. Kõik kolm prediktorit omavad olulist seost sõltuva muutujaga. Tunnuse JOYSCIE (teaduse nautimine) regresioonikordaja on 22.028. Mitmese regressiooni korral näitavad regressioonikordajad, millisel määral iga prediktor mõjutab sõltuvat muutujat eeldusel, et teised prediktorid samal ajal ei muutu. See tähendab, et kui JOYSCIE suureneb ühe ühiku võrra, võime oodata, et testiskoor suureneb 22.028 ühiku võrra. Seda eeldusel, et kahe ülejäänud prediktori väärtused jäävad samaks. Tunnuse INTSCIE (huvi teaduse vastu) regressioonikordaja on 8.895. Kui see muutuja suureneb ühe punkti võrra, võib eeldada testiskoori 8.9-punktist kasvu (jällegi eeldusel, et ülejäänud sõltumatud muutujad on konstantsed). Tunnuse INSTSCIE (motivatsioon teaduse õppimiseks) regressioonikordaja on mingil põhjusel negatiivne (-11.315). Kui see muutuja suureneb ühe punkti võrra, langeb testiskoor umbes 11.3 punkti võrra.

Kõigi prediktorite kohta on ära toodud standardvead (tulbas Std. Error), t-statistikud (regressioonikordaja jagatud standardveaga) ning p-väärtused, mille abil saame otsustada, kas tegemist on statistiliselt usaldusväärse prediktoriga. P-väärtused on jällegi tootud teaduslikku tähistust kasutades, aga nad kõik on väga väikesed ja seega on kõik prediktorid statistiliselt olulised. Kui selline tähistus tundub silmale natuke keeruline, siis olulisusele viitavad ka ridade lõpus olevad tärnid. Tärnide arvule vastavad olulisusenivood on toodud Coefficients tabeli all.

Teades mudeli parameetrite väärtusi saaksime vajadusel kirja panna muutujate-vahelisi seoseid väljendava regressioonivõrrandi (ümmardades parameetrid ühe komakohani):

\[loodusteaduste testi skoor = 533.688 + 22.028 * teaduse nautimine + 8.895 * huvi teaduse vastu -11.315 * motivatsioon õppida teadust\]

Prediktorite võrdlemine

Standradiseeritud regressioonikordaja ehk beeta-kordaja

Prediktorite olulisuse võrdlemiseks kasutatakse sageli standardiseeritud regressioonikordajad ehk niinimetatud beeta-kordajad. Need ütlevad, mitme standardhälbe võrra muutub sõltuv muutuja, kui prediktor muutub ühe standardhälbe võrra (ja ülejäänud prediktorid jäävad samaks).

Standardhälbe ühikute kasutamine muudab eri muutujate kordajad otseselt võrreldavaks, kuna neid ei mõjuta see, kui prediktoreid on mõõdetud erinevates ühikutes. R-is saame need kätte lisamooduli QuantPsyc funktsiooni lm.beta abil, millele anname mudeli nime. Kasutamiseks tuleks kõigepealt see lisamoodul installida…

install.packages("QuantPsyc")

…ja laadida.

library(QuantPsyc)
lm.beta(pisa.mudel2)
##    JOYSCIE    INTSCIE   INSTSCIE 
##  0.2352053  0.0830043 -0.1110762

Näeme, et JOYSCIE beeta-kordaja on umbes 0.24 ja teiste muutujate omad 0.10-kanti. (Mõju suuruse võrdlemisel on oluline kordaja absoluutväärtus, miinusmärk INSTSCIE kordaja ees näitab mõju suunda.) Seega võime öelda, et JOYSCIE mõju loodusteaduste alatesti skoorile on laias laastus 3 korda suurem kui kahel ülejäänud muutujal.

Usalduspiirid

Veel üks näitaja, mida regressioonikordajate kvaliteedi uurimiseks suhteliselt sageli kasutatakse on 95%-usalduspiirid. R-is saame need funktsiooni confint abil, millele anname mudeli nime

confint(pisa.mudel2)
##                  2.5 %     97.5 %
## (Intercept) 531.399676 535.976808
## JOYSCIE      18.769257  25.286657
## INTSCIE       5.300366  12.488963
## INSTSCIE    -14.564175  -8.066339

95%-usalduspiirid tähendavad, et kui meil oleks ühe valimi asemel 100 valimit, siis 95-l juhul langevad mudeli parameetrite väärtused piiride vahemikku. Mida kitsam parameetri usaldusvahemik, seda parem. Samuti tahame, et prediktori usalduspiirid jääksid ühele poole nullpunkti. Kui nullpunkt jääb usaldusvahemiku sisse tähendab see, et mõnedes valimites oleks prediktori mõju positiivse ja teistes negatiivse suunaga. Kõigi prediktorite vahemikud üsna kitsad ja samasuguse suurusega. Võime eeldada, et mõnes teises samalaadses valimis on oodata üsna samasuguseid regressioonikordajajaid. Ka ei ületa ühegi muutuja usalduspiirid nullpunkti ja seega võib neid pidada usaldusväärseteks.

Ülesanded - mitmene regressioon

  1. Koostage uus mudel, milles sõltuvaks tunnuseks on matemaatika testi skoor (PVMATH) ja prediktoriteks samad tunnused, millega ülal ennustasime loodusteaduste testi skoori: teaduse oluliseks pidamine (JOYSCIE), huvi teaduse vastu (INTSCIE) ja motivatsioon loodusteadusi õppida (INSTSCIE). Missugused prediktorid on statistiliselt olulised? Arvutage ka standardiseeritud regressioonikordajad ja mudeli parameetrite usalduspiirid.

  2. Kasutage andmestikku nimega “album2” (Tegemist on A.Fieldi õpiku näidisandmetega - https://studysites.uk.sagepub.com/dsur/study/articles.htm). Seekord on andmetes neli veergu. Esimene veerg näitab muusikaalbumi reklaamidele kulutatud raha hulka, teine näitab albumite müügiedu, kolmas näitab eetriaega ja neljandas veerus on muusikutele antud atraktiivsushinnangud.
    Püstitage hüpotees, mida saate testide mitmese regressiooniga, müügiedu ennustamiseks. Kasutage analüüsisi kõiki muutujaid. Viige läbi analüüs. Võrrelege saadud tulemust paarisregressiooni analüüsiga, kus kasutasite ainult ühte prediktorit.