podatki <- read.table("~/MTRD 2022/podatki.csv", header = TRUE, dec = ".")
head(podatki)
## Spol Izob Starost Uspeh Verbal Kvant
## 1 2 3 19 24 500 500
## 2 2 3 23 35 600 500
## 3 2 3 20 21 480 470
## 4 1 4 27 26 550 520
## 5 1 2 33 31 600 550
## 6 1 5 26 28 640 640
Opis spremenljivk:
Vir podatkov: RStudio, knjižnica Psych, podatki: sat.act.
Cilj analize: Podatke sem izbral, ker bi rad analiziral razlike v verbalnih in kvantitativnih znanjih med spoloma.
podatki$SpolFaktor <- factor(podatki$Spol,
levels = c(1, 2),
labels = c("M", "Z"))
library(tidyr)
podatki <- drop_na(podatki)
summary(podatki[ , -1])
## Izob Starost Uspeh Verbal
## Min. :0.000 Min. :13.00 Min. : 3.00 Min. :200.0
## 1st Qu.:3.000 1st Qu.:19.00 1st Qu.:25.00 1st Qu.:550.0
## Median :3.000 Median :22.00 Median :29.00 Median :620.0
## Mean :3.172 Mean :25.64 Mean :28.55 Mean :612.3
## 3rd Qu.:4.000 3rd Qu.:29.00 3rd Qu.:32.00 3rd Qu.:700.0
## Max. :5.000 Max. :65.00 Max. :36.00 Max. :800.0
## Kvant SpolFaktor
## Min. :200.0 M:245
## 1st Qu.:530.0 Z:442
## Median :620.0
## Mean :610.2
## 3rd Qu.:700.0
## Max. :800.0
Primeri: Ocena povprečne starosti za osebe, zbrane v vzorec, znaša 25,64 let. V vzorcu imamo 442 žensk.
hist(podatki$Verbal,
main = "Porazdelitev rezultatov iz verbalnih sposobnosti",
xlab = "Rezutat",
ylab = "Frekvenca")
Ugotavljam, da je porazdelitev asimetrična v levo.
library(ggplot2)
Moski <- ggplot(podatki[podatki$SpolFaktor == "M", ], aes(x = Kvant)) +
theme_linedraw() +
geom_histogram() +
ylab("Frekvenca") +
ggtitle("Moski")
Zenske <- ggplot(podatki[podatki$SpolFaktor == "Z", ], aes(x = Kvant)) +
theme_linedraw() +
geom_histogram() +
ylab("Frekvenca") +
ggtitle("Zenske")
library(ggpubr)
ggarrange(Moski, Zenske,
ncol = 2, nrow = 1)
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
Ker se porazdelitvi razlikujeta od pričakovane normalne porazdelitve, izberem neparametrični preizkus.
library(psych)
##
## Attaching package: 'psych'
## The following objects are masked from 'package:ggplot2':
##
## %+%, alpha
describeBy(podatki$Kvant, podatki$SpolF)
##
## Descriptive statistics by group
## group: M
## vars n mean sd median trimmed mad min max range skew kurtosis
## X1 1 245 635.87 116.02 660 645.53 94.89 300 800 500 -0.72 -0.12
## se
## X1 7.41
## ------------------------------------------------------------
## group: Z
## vars n mean sd median trimmed mad min max range skew kurtosis se
## X1 1 442 596 113.07 600 602.21 133.43 200 800 600 -0.58 0.13 5.38
wilcox.test(podatki$Kvant ~ podatki$SpolF,
paired = FALSE,
correct = FALSE,
exact = FALSE,
alternative = "two.sided")
##
## Wilcoxon rank sum test
##
## data: podatki$Kvant by podatki$SpolF
## W = 65921, p-value = 2.223e-06
## alternative hypothesis: true location shift is not equal to 0
H0: Lokaciji porazdelitev sta enaki H1: Lokaciji porazdelitev se razlikujeta
Na podlagi vzorčnih podatkov zavrnemo ničelno domnevo pri p<0,001. Ugotavljamo, da se lokaciji porazdelitev razlikujeta. Glede na vrednosti median ugotavljamo, da so moški dosegli boljše rezultate kot ženske.
library(effectsize)
##
## Attaching package: 'effectsize'
## The following object is masked from 'package:psych':
##
## phi
effectsize(wilcox.test(podatki$Kvant ~ podatki$SpolF,
paired = FALSE,
correct = FALSE,
exact = FALSE,
alternative = "two.sided"))
## r (rank biserial) | 95% CI
## --------------------------------
## 0.22 | [0.13, 0.30]
interpret_rank_biserial(0.22)
## [1] "medium"
## (Rules: funder2019)
Našli smo srednje velike razlike v doseženem rezultatu.