Podatki vsebujejo status preživetja 1309 potnikov ladje RMS Titanic leta 1912, skupaj z razredom potnikov (ki služi kot približek ekonomskega statusa), državljanstvom in spolom. Ali obstaja povezava med preživetjem in vsako od treh spremenljivk?

ENOTA: potnik VELIKOST VZORCA: 1309 SPR.:državljsnstvo, spol, razred, preživelost

PEARSONOV HI-KVADRAT (vse spremenljivkeso nominalne)

podatki <- read.table("./Titanic.csv", header=TRUE, sep=";")
head(podatki)
##   Prezivel Razred Drzavljanstvo Spol
## 1        0      3             0    0
## 2        0      3             0    0
## 3        0      3             0    0
## 4        1      3             0    1
## 5        1      3             2    1
## 6        1      3             0    0

Opis spremenljivk:

podatki$PrezivelF <- factor(podatki$Prezivel, 
                            levels = c(0, 1), 
                            labels = c("Ne", "Da"))

podatki$RazredF <- factor(podatki$Razred, 
                          levels = c(1, 2, 3), 
                          labels = c("1.", "2.", "3."))

podatki$DrzavljanstvoF <- factor(podatki$Drzavljanstvo, 
                                 levels = c(0, 1, 2), 
                                 labels = c("Amerisko", "Anglesko", "Drugo"))
  
podatki$SpolF <- factor(podatki$Spol, 
                        levels = c(0, 1), 
                        labels = c("M", "Z"))

head(podatki)
##   Prezivel Razred Drzavljanstvo Spol PrezivelF RazredF DrzavljanstvoF
## 1        0      3             0    0        Ne      3.       Amerisko
## 2        0      3             0    0        Ne      3.       Amerisko
## 3        0      3             0    0        Ne      3.       Amerisko
## 4        1      3             0    1        Da      3.       Amerisko
## 5        1      3             2    1        Da      3.          Drugo
## 6        1      3             0    0        Da      3.       Amerisko
##   SpolF
## 1     M
## 2     M
## 3     M
## 4     Z
## 5     Z
## 6     M
chi_squared <- chisq.test(podatki$PrezivelF, podatki$RazredF, #Preživelost glede na razred
                          correct = FALSE) #ker nimamo 2x2 tabele, pač pa 2x3 =večja tabela

chi_squared
## 
##  Pearson's Chi-squared test
## 
## data:  podatki$PrezivelF and podatki$RazredF
## X-squared = 127.86, df = 2, p-value < 2.2e-16
addmargins(chi_squared$observed) #dejanske/empirične frekvence
##                  podatki$RazredF
## podatki$PrezivelF   1.   2.   3.  Sum
##               Ne   123  158  528  809
##               Da   200  119  181  500
##               Sum  323  277  709 1309
round(chi_squared$expected, 2) #teoretične/pričakovane frekvence (vedno morajo biti večje od 5)
##                  podatki$RazredF
## podatki$PrezivelF     1.     2.     3.
##                Ne 199.62 171.19 438.18
##                Da 123.38 105.81 270.82
round(chi_squared$res, 2) #standardizirani ostanki
##                  podatki$RazredF
## podatki$PrezivelF    1.    2.    3.
##                Ne -5.42 -1.01  4.29
##                Da  6.90  1.28 -5.46

H0: Spremenljivki razred in preživel nista povezani H1: Spremenljivki razred in preživel sta povezani

Razred in preživelost nista povezani, ker je p<0,001.

6,90 je statistično značnilna ker pade izven 3,29 (glej Anino tabelo) in pade v alfa je 0,001

znotraj razreda 2 ne moremo delati sklepov, ker je premajhna pade izvedn 1,96.

addmargins(round(prop.table(chi_squared$observed), 3))
##                  podatki$RazredF
## podatki$PrezivelF    1.    2.    3.   Sum
##               Ne  0.094 0.121 0.403 0.618
##               Da  0.153 0.091 0.138 0.382
##               Sum 0.247 0.212 0.541 1.000
addmargins(round(prop.table(chi_squared$observed, 1), 3), 2) 
##                  podatki$RazredF
## podatki$PrezivelF    1.    2.    3.   Sum
##                Ne 0.152 0.195 0.653 1.000
##                Da 0.400 0.238 0.362 1.000
addmargins(round(prop.table(chi_squared$observed, 2), 3), 1) 
##                  podatki$RazredF
## podatki$PrezivelF    1.    2.    3.
##               Ne  0.381 0.570 0.745
##               Da  0.619 0.430 0.255
##               Sum 1.000 1.000 1.000
library(effectsize)
effectsize::cramers_v(podatki$PrezivelF, podatki$RazredF)
## Cramer's V (adj.) |       95% CI
## --------------------------------
## 0.31              | [0.26, 1.00]
## 
## - One-sided CIs: upper bound fixed at [1.00].
interpret_cramers_v(0.31)
## [1] "large"
## (Rules: funder2019)
fisher.test(podatki$PrezivelF, podatki$RazredF) #če bi bilo 20 % pričakovanih frekvenc manjših od 5 in če bila katera koli izmed pričkovanih frekvenc manjša kot 1 
## 
##  Fisher's Exact Test for Count Data
## 
## data:  podatki$PrezivelF and podatki$RazredF
## p-value < 2.2e-16
## alternative hypothesis: two.sided

NI razemrjeobetov, ker ni 2x2 tabela

H0: Kategorialni spr. NISTA POVEZANI. H1: Kategorialni spr. STA POVEZANI.

Zavrnemo H0 pri p<0,001.

chi_squared <- chisq.test(podatki$PrezivelF, podatki$DrzavljanstvoF, 
                          correct = FALSE)

chi_squared
## 
##  Pearson's Chi-squared test
## 
## data:  podatki$PrezivelF and podatki$DrzavljanstvoF
## X-squared = 44.835, df = 2, p-value = 1.838e-10
addmargins(chi_squared$observed)
##                  podatki$DrzavljanstvoF
## podatki$PrezivelF Amerisko Anglesko Drugo  Sum
##               Ne       113      206   490  809
##               Da       145       96   259  500
##               Sum      258      302   749 1309
round(chi_squared$expected, 2)
##                  podatki$DrzavljanstvoF
## podatki$PrezivelF Amerisko Anglesko Drugo
##                Ne   159.45   186.64 462.9
##                Da    98.55   115.36 286.1
round(chi_squared$res, 2)
##                  podatki$DrzavljanstvoF
## podatki$PrezivelF Amerisko Anglesko Drugo
##                Ne    -3.68     1.42  1.26
##                Da     4.68    -1.80 -1.60

Med državljanstvom in preživetjemje povazeva zaradi p.vrednosti.

Več kot pričakovano število američanov je preživelo in manj kot pričakovano število umrlo. Pri ostalih pa ne moremo sklepati.

chi_squared <- chisq.test(podatki$PrezivelF, podatki$SpolF, 
                          correct = TRUE)

chi_squared
## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  podatki$PrezivelF and podatki$SpolF
## X-squared = 363.62, df = 1, p-value < 2.2e-16
addmargins(chi_squared$observed)
##                  podatki$SpolF
## podatki$PrezivelF    M    Z  Sum
##               Ne   682  127  809
##               Da   161  339  500
##               Sum  843  466 1309
round(chi_squared$expected, 2)
##                  podatki$SpolF
## podatki$PrezivelF   M   Z
##                Ne 521 288
##                Da 322 178
round(chi_squared$res, 2)
##                  podatki$SpolF
## podatki$PrezivelF     M     Z
##                Ne  7.05 -9.49
##                Da -8.97 12.07

Več Žensk je preživelo in je povezava med preživelostojo in spolom, ker je p. vr. < 0,001.