Podatki vsebujejo status preživetja 1309 potnikov ladje RMS Titanic leta 1912, skupaj z razredom potnikov (ki služi kot približek ekonomskega statusa), državljanstvom in spolom. Ali obstaja povezava med preživetjem in vsako od treh spremenljivk?
podatki <- read.table("./Titanic.csv", header=TRUE, sep=";")
head(podatki)
## Prezivel Razred Drzavljanstvo Spol
## 1 0 3 0 0
## 2 0 3 0 0
## 3 0 3 0 0
## 4 1 3 0 1
## 5 1 3 2 1
## 6 1 3 0 0
Opis:
podatki$PrezivelF <- factor(podatki$Prezivel,
levels = c(0, 1),
labels = c("Ne", "Da"))
podatki$RazredF <- factor(podatki$Razred,
levels = c(1, 2, 3),
labels = c("1.", "2.", "3."))
podatki$DrzavljanstvoF <- factor(podatki$Drzavljanstvo,
levels = c(0, 1, 2),
labels = c("Amerisko", "Anglesko", "Drugo"))
podatki$SpolF <- factor(podatki$Spol,
levels = c(0, 1),
labels = c("M", "Z"))
head(podatki)
## Prezivel Razred Drzavljanstvo Spol PrezivelF RazredF DrzavljanstvoF
## 1 0 3 0 0 Ne 3. Amerisko
## 2 0 3 0 0 Ne 3. Amerisko
## 3 0 3 0 0 Ne 3. Amerisko
## 4 1 3 0 1 Da 3. Amerisko
## 5 1 3 2 1 Da 3. Drugo
## 6 1 3 0 0 Da 3. Amerisko
## SpolF
## 1 M
## 2 M
## 3 M
## 4 Z
## 5 Z
## 6 M
chi_squared <- chisq.test(podatki$PrezivelF, podatki$RazredF,
correct = FALSE)
chi_squared
##
## Pearson's Chi-squared test
##
## data: podatki$PrezivelF and podatki$RazredF
## X-squared = 127.86, df = 2, p-value < 2.2e-16
addmargins(chi_squared$observed)
## podatki$RazredF
## podatki$PrezivelF 1. 2. 3. Sum
## Ne 123 158 528 809
## Da 200 119 181 500
## Sum 323 277 709 1309
round(chi_squared$expected, 2)
## podatki$RazredF
## podatki$PrezivelF 1. 2. 3.
## Ne 199.62 171.19 438.18
## Da 123.38 105.81 270.82
round(chi_squared$res, 2)
## podatki$RazredF
## podatki$PrezivelF 1. 2. 3.
## Ne -5.42 -1.01 4.29
## Da 6.90 1.28 -5.46
addmargins(round(prop.table(chi_squared$observed), 3))
## podatki$RazredF
## podatki$PrezivelF 1. 2. 3. Sum
## Ne 0.094 0.121 0.403 0.618
## Da 0.153 0.091 0.138 0.382
## Sum 0.247 0.212 0.541 1.000
addmargins(round(prop.table(chi_squared$observed, 1), 3), 2)
## podatki$RazredF
## podatki$PrezivelF 1. 2. 3. Sum
## Ne 0.152 0.195 0.653 1.000
## Da 0.400 0.238 0.362 1.000
addmargins(round(prop.table(chi_squared$observed, 2), 3), 1)
## podatki$RazredF
## podatki$PrezivelF 1. 2. 3.
## Ne 0.381 0.570 0.745
## Da 0.619 0.430 0.255
## Sum 1.000 1.000 1.000
library(effectsize)
effectsize::cramers_v(podatki$PrezivelF, podatki$RazredF)
## Cramer's V (adj.) | 95% CI
## --------------------------------
## 0.31 | [0.26, 1.00]
##
## - One-sided CIs: upper bound fixed at [1.00].
interpret_cramers_v(0.31)
## [1] "large"
## (Rules: funder2019)
fisher.test(podatki$PrezivelF, podatki$RazredF)
##
## Fisher's Exact Test for Count Data
##
## data: podatki$PrezivelF and podatki$RazredF
## p-value < 2.2e-16
## alternative hypothesis: two.sided
chi_squared <- chisq.test(podatki$PrezivelF, podatki$DrzavljanstvoF,
correct = FALSE)
chi_squared
##
## Pearson's Chi-squared test
##
## data: podatki$PrezivelF and podatki$DrzavljanstvoF
## X-squared = 44.835, df = 2, p-value = 1.838e-10
addmargins(chi_squared$observed)
## podatki$DrzavljanstvoF
## podatki$PrezivelF Amerisko Anglesko Drugo Sum
## Ne 113 206 490 809
## Da 145 96 259 500
## Sum 258 302 749 1309
round(chi_squared$expected, 2)
## podatki$DrzavljanstvoF
## podatki$PrezivelF Amerisko Anglesko Drugo
## Ne 159.45 186.64 462.9
## Da 98.55 115.36 286.1
round(chi_squared$res, 2)
## podatki$DrzavljanstvoF
## podatki$PrezivelF Amerisko Anglesko Drugo
## Ne -3.68 1.42 1.26
## Da 4.68 -1.80 -1.60
chi_squared <- chisq.test(podatki$PrezivelF, podatki$SpolF,
correct = TRUE)
chi_squared
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: podatki$PrezivelF and podatki$SpolF
## X-squared = 363.62, df = 1, p-value < 2.2e-16
addmargins(chi_squared$observed)
## podatki$SpolF
## podatki$PrezivelF M Z Sum
## Ne 682 127 809
## Da 161 339 500
## Sum 843 466 1309
round(chi_squared$expected, 2)
## podatki$SpolF
## podatki$PrezivelF M Z
## Ne 521 288
## Da 322 178
round(chi_squared$res, 2)
## podatki$SpolF
## podatki$PrezivelF M Z
## Ne 7.05 -9.49
## Da -8.97 12.07