Konspektis kasutatavad andmed.
T-testi tegemiseks peavad olema täidetud järgmised eeldused:
1.Andmed on vähemalt intervallskaalal.
2.1 Sõltuvate rühmade t-testi puhul peab olema normaaljaotusega jaotus, mis on moodustatud järgmiselt: ühel korral mõõdetud tulemustest on lahutatud teisel korral mõõdetud tulemused.
2.2 Sõltumatu t-testi puhul peab tunnus rühmade lõikes olema normaaljaotusega.
3. Lisaks sellele peavad olema rühmade dispersioonide homogeensed.
Vaatame järgnevalt t-testi eelduste kontrolli, mida tuleks teha sõltumatute gruppide korral.
Kasutame andmestikku nimega “test11”.
Uurime hüpoteesi: poiste matemaatika tulemused on paremad kui tüdrukute omad. Enne t-testi tegemist peaksime kontrollima parameetrilise testi eeldusi. Kui neist üks on rikutud, siis peaksime kasutama mitteparameetrilist testi.
Shapiro Wilki test üks levinumaid statistilisi meetodeid normaaljaotuse kontrollimiseks. Väljundist tuleb vaadata p-value-t ehk p-väärtust. Kui p-value on väiksem kui 0.05, siis ei ole andmed selle testi kohaselt normaaljaotuslikud.
# Kontrollime meest(1) puhul tunnuse "matemaatika" normaaljaotust:
shapiro.test(subset(test11$matemaatika, test11$Sugu == 1))
##
## Shapiro-Wilk normality test
##
## data: subset(test11$matemaatika, test11$Sugu == 1)
## W = 0.97511, p-value = 1.196e-08
# Kontrollime naiste(2) puhul tunnuse "matemaatika" normaaljaotust:
shapiro.test(subset(test11$matemaatika, test11$Sugu == 2))
##
## Shapiro-Wilk normality test
##
## data: subset(test11$matemaatika, test11$Sugu == 2)
## W = 0.9619, p-value = 5.713e-13
Praktikas on omajagu harv normaaljaotustestide põhjal leida normaaljaotuslikkust. Levinud on asümmeetriakordaja (skewness) ning ekstsessi (kurtosis) põhjal normaaljaotuse hindamine. Andmeid peetakse normaaljaotuslikuks siis, kui asümmeetriakordaja ja järsakusaste/ekstsess on vahemikus -1 kuni 1.
Vaatame, kuidas asümmeetrijakordajat (skew) ja ekstsessi (kurtosis) arvutada.
Selleks kasutame funktsiooni describe(), mis on paketi psych funktsioonide komplektis. Esmalt peame selle paketi enda arvutisse installeerima. See käib läbi RStudio konsooli:
install.packages("psych")#kirjutage see rida RStudio konsoolile. Paketi installeerimise peale võib minna natuke aega.
Nüüd saame kasutada funktsiooni describe. Sellele funktsioonile anname argumendiks ühe grupi andmed.
library(psych)#selle käsuga teeme antud paketi funktsioonide aktiivseks
describe(subset(test11$matemaatika, test11$Sugu == 1))#meeste andmed
## vars n mean sd median trimmed mad min max range skew kurtosis se
## X1 1 608 9.46 4.52 9 9.45 5.93 0 19 19 0.01 -0.93 0.18
describe(subset(test11$matemaatika, test11$Sugu == 2))#naiste andmed
## vars n mean sd median trimmed mad min max range skew kurtosis se
## X1 1 742 7.35 3.86 7 7.09 4.45 0 19 19 0.58 -0.24 0.14
Teeme ka histogrammi, et saada jaotusest parem mulje.
hist(subset(test11$matemaatika, test11$Sugu == 1))
hist(subset(test11$matemaatika, test11$Sugu == 2))
Selle eelduse testimiseks kasutame funktsiooni leveneTest(), mis on paketi car funktsioonide komplektis. Esmalt peame selle paketi enda arvutisse installeerima. See käib läbi RStudio konsooli:
install.packages("car")
Nüüd saame kasutada funktsiooni leveneTest. Esimeseks argumendiks paneme sõltuva muutuja ja teiseks kategoriseeriva tunnuse.
library(car)
leveneTest(test11$matemaatika, test11$Sugu)
## Levene's Test for Homogeneity of Variance (center = median)
## Df F value Pr(>F)
## group 1 32.455 1.496e-08 ***
## 1348
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Kui Levene’i testi p-väärtus (Pr) on suurem kui 0.05, võime järeldada, et jaotuste “kujud” ei erine statistiliselt oluliselt. kui Levene’i test p-väärtus on väiksem kui 0.05, võime järeldada, et jaotuste „kujud“ erinevad statistiliselt oluliselt.
Antud juhul näitab Leveni test, et jaotuste kuju erinevad, p-väärtus on väiksem kui 0,05.