Rühmatöös on paar teemat, mida me ei jõudnud kursuse jooksul käsitleda (usalduspiiridega graafik, moodi arvutamine, efekti suuruse arvutamine). Need ülesanded ei ole kohustuslikud. Kui kellelgi on huvi, siis saate kasutada seda konspekti nende ülesannete lahendamiseks.
Kasutan siin konspektis andmeid nimega test11 (akadeemilise testi tulemused).
Dispersiooni arvutamiseks saab kasutada funktsiooni var().
R’i summary funktsioon ei anna meile kahjuks andmete moodi. Paketis pracma on olemas eraldi funktsioon moodi arvutamiseks.
#Dispersioon (variance):
var(test11$tekst)
## [1] 2.741668
#Mood (tavalistes summary funktsioonides ei ole moodi sees; funktsiooni saab kätte paketist pracma):
library(pracma) # see pakett tuleks enne installeerida: install.packages("pracma")
Mode(test11$tekst)#NB! funktsioon algab siin suure algustähega
## [1] 3
Efekti suurus on statistiline näitaja, mis võimaldab lisaks statistilisele olulisusele kirjeldada gruppidevahelisi erinevusi. Efekti suurust saab väljendada mitmete statistikutega; ilmselt levinuim on Cohen’i d. Kokkuleppeliselt tähistavad Cohen’i d väärtused väikest efekti väärtusel d = 0.2; keskmise suurusega efekti väärtus on d = 0.5; suure efekti väärtuse algus on d = 0.8. Efekti suuruseid saab arvutada erinevate R’i funktsioonidega. Samuti on olemas internetis mitmeid kalkulaatoried:
Vaatame nüüd lähemalt sõltumatu t-testi efekti suuruse arvutamist. Vaatame, kuidas erinevad meeste ja naiste tulemused matemaatika testis. Grupp 1 on mehed ja grupp 2 on naised.
t.test(test11$matemaatika ~ test11$Sugu) # siin on tekst sõltuv muutuja ja Sugu sõltumatu muutuja
##
## Welch Two Sample t-test
##
## data: test11$matemaatika by test11$Sugu
## t = 9.1097, df = 1198.4, p-value < 2.2e-16
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## 1.654612 2.562937
## sample estimates:
## mean in group 1 mean in group 2
## 9.460526 7.351752
Näeme, et meeste (keskmine = 9,46) tulemus matemaatika testis on statistiliselt olulisel määral kõrgem naiste (keskmine = 7,35) tulemusest, t(1198) = 9,11, p < 0,001.
Arvutame ka efekti suuruse. Näitan siin kahte funktsiooni, millega saab Cohen’i d arvutada.
1) Funktsioon cohensD(x,y), kus x on esimese grupi andmed ja y on teise grupi andmed.
# esmalt peame installeerima ja aktiveerima paketi lsr
library(lsr) #sisaldab cohensD funktsiooni
x <- test11$matemaatika[test11$Sugu == 1 ] # Tekst muutuja väärtused esimese grupi kohta
y <- test11$matemaatika[test11$Sugu == 2 ] # Tekst muutuja väärtused teise grupi kohta
cohensD(x,y)
## [1] 0.5061548
library(psych)
cohen.d(test11, "Sugu")
## Call: cohen.d(x = test11, group = "Sugu")
## Cohen d statistic of difference between two means
## lower effect upper
## Kool -0.925 -0.809 -0.69
## Synniaaasta 0.329 0.439 0.55
## Keel 0.533 0.647 0.76
## SƵnavara -0.022 0.085 0.19
## Diagrammid -0.612 -0.501 -0.39
## Andmed -0.391 -0.283 -0.17
## Informeeritus -0.559 -0.449 -0.34
## tekst -0.005 0.102 0.21
## matemaatika -0.617 -0.507 -0.40
## ruumiline -0.436 -0.327 -0.22
##
## Multivariate (Mahalanobis) distance between groups
## [1] 1.2
## r equivalent of difference between two means
## Kool Synniaaasta Keel SƵnavara Diagrammid
## -0.373 0.213 0.306 0.042 -0.242
## Andmed Informeeritus tekst matemaatika ruumiline
## -0.139 -0.218 0.051 -0.244 -0.161
Antud andmestiku puhul huvitab meid ainult muutuja matemaatika efekti suurus. Selle saame veerust effect. Coheni d puhul huvitab meid ainult absoluutväärtus.
Vaatame ka usalduspiiridega graafiku tegemist. T-testi tulemust on hea illustreerida joonisega, kus on keskmised koos usalduspiiridega. R’is on selle jaoks eraldi funktsioon.
library(gplots)
# Plot the mean of teeth length by dose groups
plotmeans(matemaatika ~ Sugu, data = test11, frame = FALSE)
Ja arvutame ka vastavad usalduspiirid:
library(Rmisc) # sisaldab funktsiooni CI usalduspiiride arvutamiseks.
by(test11$matemaatika, test11$Sugu, FUN = CI)
## test11$Sugu: 1
## upper mean lower
## 9.820232 9.460526 9.100820
## --------------------------------------------------------
## test11$Sugu: 2
## upper mean lower
## 7.629648 7.351752 7.073856