Kasutage andmestikku nimega “test11”.

Efekti suurus

Efekti suurus on statistiline näitaja, mis võimaldab lisaks statistilisele olulisusele kirjeldada gruppidevahelisi erinevusi. Efekti suurust saab väljendada mitmete statistikutega. Ilmselt levinuim on Cohen’i d. Kokkuleppeliselt tähistavad Cohen’i d väärtused väikest efekti väärtusel d = 0.2; keskmise suurusega efekti väärtus on d = 0.5; suure efekti väärtuse algus on d = 0.8. Efekti suuruseid saab arvutada erinevate R’i funktsioonidega. Samuti on olemas internetis mitmeid kalkulaatoried:

Vaatame nüüd lähemalt sõltumatu t-testi efekti suuruse arvutamist. Vaatame, kuidas erinevad meeste ja naiste tulemused matemaatika testis. Grupp 1 on mehed ja grupp 2 on naised.

t.test(test11$matemaatika ~ test11$Sugu) # siin on tekst sõltuv muutuja ja Sugu sõltumatu muutuja
## 
##  Welch Two Sample t-test
## 
## data:  test11$matemaatika by test11$Sugu
## t = 9.1097, df = 1198.4, p-value < 2.2e-16
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  1.654612 2.562937
## sample estimates:
## mean in group 1 mean in group 2 
##        9.460526        7.351752

Näeme, et meeste (keskmine = 9,46) tulemus matemaatika testis on statistiliselt olulisel määral kõrgem naiste (keskmine = 7,35) tulemusest, t(1198) = 9,11, p < 0,001.

Arvutame ka efekti suuruse. Näitan siin kahte funktsiooni, millega saab Cohen’i d arvutada.
1) Funktsioon cohensD(x,y), kus x on esimese grupi andmed ja y on teise grupi andmed.

# esmalt peame installeerima ja aktiveerima paketi lsr
library(lsr) #sisaldab cohensD funktsiooni
x <- test11$matemaatika[test11$Sugu == 1 ] # Tekst muutuja väärtused esimese grupi kohta
y <- test11$matemaatika[test11$Sugu == 2 ] # Tekst muutuja väärtused teise grupi kohta
cohensD(x,y)
## [1] 0.5061548
  1. Funktsioon cohen.d(andmestik, kategoriseeriv tunnus) - see funktsioon arvutab kategoriseeriva tunnuse alusel kõikidele teistele muutujatele efekti suuruse.
library(psych)
cohen.d(test11, "Sugu")
## Call: cohen.d(x = test11, group = "Sugu")
## Cohen d statistic of difference between two means
##                lower effect upper
## Kool          -0.925 -0.809 -0.69
## Synniaaasta    0.329  0.439  0.55
## Keel           0.533  0.647  0.76
## Sõnavara      -0.022  0.085  0.19
## Diagrammid    -0.612 -0.501 -0.39
## Andmed        -0.391 -0.283 -0.17
## Informeeritus -0.559 -0.449 -0.34
## tekst         -0.005  0.102  0.21
## matemaatika   -0.617 -0.507 -0.40
## ruumiline     -0.436 -0.327 -0.22
## 
## Multivariate (Mahalanobis) distance between groups
## [1] 1.2
## r equivalent of difference between two means
##          Kool   Synniaaasta          Keel      Sõnavara    Diagrammid 
##        -0.373         0.213         0.306         0.042        -0.242 
##        Andmed Informeeritus         tekst   matemaatika     ruumiline 
##        -0.139        -0.218         0.051        -0.244        -0.161

Antud andmestiku puhul huvitab meid ainult muutuja matemaatika efekti suurus. Selle saame veerust effect. Coheni d puhul huvitab meid ainult absoluutväärtus.

LISAD

Mood, dispersioon

Dispersiooni arvutamiseks saab kasutada funktsiooni var().
R’i summary funktsioon ei anna meile kahjuks andmete moodi. Paketis pracma on olemas eraldi funktsioon moodi arvutamiseks.

#Dispersioon (variance):
var(test11$tekst) 
## [1] 2.741668
#Mood (tavalistes summary funktsioonides ei ole moodi sees; funktsiooni saab kätte paketist pracma):
library(pracma) # see pakett tuleks enne installeerida: install.packages("pracma")
Mode(test11$tekst)#NB! funktsioon algab siin suure algustähega
## [1] 3

Usalduspiiridega graafik

Vaatame ka usalduspiiridega graafiku tegemist. T-testi tulemust on hea illustreerida joonisega, kus on keskmised koos usalduspiiridega. R’is on selle jaoks eraldi funktsioon.

library(gplots) 
# Plot the mean of teeth length by dose groups
plotmeans(matemaatika ~ Sugu, data = test11, frame = FALSE)

Ja arvutame ka vastavad usalduspiirid:

library(Rmisc) # sisaldab funktsiooni CI usalduspiiride arvutamiseks.
by(test11$matemaatika, test11$Sugu, FUN = CI)
## test11$Sugu: 1
##    upper     mean    lower 
## 9.820232 9.460526 9.100820 
## -------------------------------------------------------- 
## test11$Sugu: 2
##    upper     mean    lower 
## 7.629648 7.351752 7.073856