Ülesanded: kirjeldav statistika

  1. Kui mitu tunnust (muutujate veergu) on andmefailis? Kui mitu vaatlust (rida) on andmefailis?

  2. Missugune on poiste ja tüdrukute osakaal andmestikus?

  3. Tooge välja vastajate keskmine vanus, vanuse standardhälve, miinumum ja maksimum.

  4. Leidke alatesti tulemustele kirjeldavad statistukud: keskmine, mediaan, miinimum, maksimum, standardhälve. Andmetes on 7 alatesti: Sõnavara, Diagrammid, Andmed, Informeeritus, tekst, matemaatika, ruumiline.

  5. Tehke histogramm alatesti “Andmed” tulemuste kohta. Hinnake histogrammi alusel tunnuse normaaljaotust.

  6. Tehke histogramm alatesti “ruumiline” tulemsute kohta. Hinnake histogrammi alusel tunnuse normaaljaotust.

Ettevalmistus praktikumiks

Tutvustan siin paari uute teemat. Järgmises praktikumis räägin neist lähemalt.

Uute pakettide installeerimine RStudiosse

R’i jaoks on kirjutatud tuhendeid lisapakette, mis suurendavad R’i funktsionaalsust. Pakettide eesmärk on pakkuda juurde funktsioone, mis võimaldavad kiiremini teatud analüüse teha. Näiteks on paketis nimega “psych” mitmeid kasulikke funktsioone just sotsiaalteadlastele.

Paketi “psych” installeerimiseks kirjutage RStudio konsoolile:

install.packages("psych")

Paketi allalaadimise peale võib minna natuke aega. Kui pakett on arvutisse installeeritud, siis seda RStudio järgmisel kasutamisel enam uuesti tegema ei pea.

Kui installeerimine on lõpetatud, siis saate paketis olevad funktsioonid teha aktiivseks funktsiooniga library:

library(psych)#selle käsuga teeme antud paketi funktsioonide aktiivseks
## Warning: package 'psych' was built under R version 3.5.1

Veateade “Warning: package ‘psych’ was built under R version 3.5.1” annab meile lihtsalt teada, et see pakett on loodud varasema R’i versiooni ajal. See asjaolu aga nende funktsioonide tööd ei häiri.

Normaaljaotuse testmine

Teeme siinkohal väikse sissejuhatuse nomraaljaotuse testimisse. Histogrammide abil saime üldise ettekujutuse andmete jaotusest, aga me peaksime hindama seda ka statistiliselt. Üks levinumaid statistilisi meetodeid normaaljaotuse kontrollimiseks on Shapiro Wilki test. Selle testi väljundist tuleb vaadata p-value-t ehk p-väärtust. Kui p-value on väiksem kui 0.05, siis ei ole andmed selle testi kohaselt normaaljaotuslikud. Vaatame alatestesti “ruumiline” noormaaljaotust.

Selle testi tegemiseks kasutame funktsiooni shapiro.test(): shapiro.test(x), kus x on numbriline tunnus

shapiro.test(test11$ruumiline) 
## 
##  Shapiro-Wilk normality test
## 
## data:  test11$ruumiline
## W = 0.98226, p-value = 8.027e-12

Antud juhul on p-väärtus < 8.027e-12 ehk p-väärtus on \(8.027∗10^{-12}\). Sellist kirjapilti kasutatakse väga väikeste väärtuste esitamiseks.

Praktikas leiab harva selle testi põhjal normaalajotusele vastavust, seetõttu on levinud asümmeetriakordaja (skewness) ning ekstsessi (kurtosis) põhjal normaaljaotuse hindamine. Andmeid peetakse normaaljaotusele ligilähedaseks siis, kui asümmeetriakordaja ja järsakusaste/ekstsess on vahemikus -1 kuni 1.

Vaatame, kuidas asümmeetriakordajat (skew) ja ekstsessi (kurtosis) arvutada. Selleks kasutame funktsiooni describe(), mis on paketi “psych”" funktsioonide komplektis.

library(psych)#selle käsuga teeme antud paketi funktsioonide aktiivseks; NB! pakett peab oleme enne arvutisse installeeritud
describe(test11$Andmed)
##    vars    n mean   sd median trimmed  mad min max range skew kurtosis
## X1    1 1350 5.53 2.94      5    5.31 2.97   0  15    15 0.72      0.5
##      se
## X1 0.08

Väljundi põhjal näeme, et ekstsess (kurtosis) on 0.5 ja asümmeetriakordaja (skew) on 0.72. Seega võime öelda, et asümmeetriakordaja ja ekstsessi põhjal on selle alatesti tulemused ligilähedased normaaljaotusele.