Ime in priimek: Denis Marinšek

podatki <- read.table("~/MTRD 2022/podatki.csv", header = TRUE, dec = ".")
head(podatki)
##   Spol Izob Starost Uspeh Verbal Kvant
## 1    2    3      19    24    500   500
## 2    2    3      23    35    600   500
## 3    2    3      20    21    480   470
## 4    1    4      27    26    550   520
## 5    1    2      33    31    600   550
## 6    1    5      26    28    640   640

Opis spremenljivk:

Vir podatkov: RStudio, knjižnica Psych, podatki: sat.act.

Cilj analize: Podatke sem izbral, ker bi rad analiziral razlike v verbalnih in kvantitativnih znanjih med spoloma.

podatki$SpolFaktor <- factor(podatki$Spol, 
                             levels = c(1, 2), 
                             labels = c("M", "Z"))

library(tidyr)
podatki <- drop_na(podatki)

summary(podatki[ , -1])
##       Izob          Starost          Uspeh           Verbal     
##  Min.   :0.000   Min.   :13.00   Min.   : 3.00   Min.   :200.0  
##  1st Qu.:3.000   1st Qu.:19.00   1st Qu.:25.00   1st Qu.:550.0  
##  Median :3.000   Median :22.00   Median :29.00   Median :620.0  
##  Mean   :3.172   Mean   :25.64   Mean   :28.55   Mean   :612.3  
##  3rd Qu.:4.000   3rd Qu.:29.00   3rd Qu.:32.00   3rd Qu.:700.0  
##  Max.   :5.000   Max.   :65.00   Max.   :36.00   Max.   :800.0  
##      Kvant       SpolFaktor
##  Min.   :200.0   M:245     
##  1st Qu.:530.0   Z:442     
##  Median :620.0             
##  Mean   :610.2             
##  3rd Qu.:700.0             
##  Max.   :800.0

Primeri: Ocena povprečne starosti za osebe, zbrane v vzorec, znaša 25,64 let. V vzorcu imamo 442 žensk.

hist(podatki$Verbal, 
     main = "Porazdelitev rezultatov iz verbalnih sposobnosti",
     xlab = "Rezutat",
     ylab = "Frekvenca")

Ugotavljam, da je porazdelitev asimetrična v levo.

Raziskovalno vprašanje: Ali se dosežena rezultata pri Kvantiativnih znanjih med spoloma razlikujeta?

library(ggplot2)

Moski <- ggplot(podatki[podatki$SpolFaktor == "M",  ], aes(x = Kvant)) +
  theme_linedraw() + 
  geom_histogram() +
  ylab("Frekvenca") +
  ggtitle("Moski")

Zenske <- ggplot(podatki[podatki$SpolFaktor == "Z",  ], aes(x = Kvant)) +
  theme_linedraw() + 
  geom_histogram() +
  ylab("Frekvenca") +
  ggtitle("Zenske")

library(ggpubr)
ggarrange(Moski, Zenske,
          ncol = 2, nrow = 1)
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

Ker se porazdelitvi razlikujeta od pričakovane normalne porazdelitve, izberem neparametrični preizkus.

library(psych)
## 
## Attaching package: 'psych'
## The following objects are masked from 'package:ggplot2':
## 
##     %+%, alpha
describeBy(podatki$Kvant, podatki$SpolF)
## 
##  Descriptive statistics by group 
## group: M
##    vars   n   mean     sd median trimmed   mad min max range  skew kurtosis
## X1    1 245 635.87 116.02    660  645.53 94.89 300 800   500 -0.72    -0.12
##      se
## X1 7.41
## ------------------------------------------------------------ 
## group: Z
##    vars   n mean     sd median trimmed    mad min max range  skew kurtosis   se
## X1    1 442  596 113.07    600  602.21 133.43 200 800   600 -0.58     0.13 5.38
wilcox.test(podatki$Kvant ~ podatki$SpolF,
            paired = FALSE,
            correct = FALSE,
            exact = FALSE,
            alternative = "two.sided")
## 
##  Wilcoxon rank sum test
## 
## data:  podatki$Kvant by podatki$SpolF
## W = 65921, p-value = 2.223e-06
## alternative hypothesis: true location shift is not equal to 0

H0: Lokaciji porazdelitev sta enaki H1: Lokaciji porazdelitev se razlikujeta

Na podlagi vzorčnih podatkov zavrnemo ničelno domnevo pri p<0,001. Ugotavljamo, da se lokaciji porazdelitev razlikujeta. Glede na vrednosti median ugotavljamo, da so moški dosegli boljše rezultate kot ženske.

library(effectsize)
## 
## Attaching package: 'effectsize'
## The following object is masked from 'package:psych':
## 
##     phi
effectsize(wilcox.test(podatki$Kvant ~ podatki$SpolF,
            paired = FALSE,
            correct = FALSE,
            exact = FALSE,
            alternative = "two.sided"))
## r (rank biserial) |       95% CI
## --------------------------------
## 0.22              | [0.13, 0.30]
interpret_rank_biserial(0.22)
## [1] "medium"
## (Rules: funder2019)

Našli smo srednje velike razlike v doseženem rezultatu.