Aufgabe 3: Zusammenhangshypothese

Datensatz:

Datensatz = “titanic.csv”
Var 1 = Survived
Var 2 = Pclass

Aufgabenstellung

Hypothese

H0: Es gibt keinen Unterschied zwischen Pclass und Survived.
H1: Es gibt einen Unterschied zwischen Pclass und Survived.

Für alle unsere Hypothesen wird ein Alpha von 0.05 angenommen.

Voraussetzungen

3.1) Die Variablen sind nominalskaliert (survived) und ordinal skaliert (Pclass).
3.2) Die Stichprobe ist mit 891 Einträgen grösser als 50 daher ist keine Korrektur nach Yates notwendig, sowie kein exakter Test nach Fisher.

Grundlegende Konzepte: Was ist Pearson Chi-Quadrat-Test?

Der Pearson Chi-Quadrat-Test testet, ob zwischen zwei kategorialen Variablen (Pclass, Survived) ein Zusammenhang besteht. Dabei werden die beobachteten Häufigkeiten mit theoretisch erwarteten Häufigkeiten verglichen. Danach werden die Stärke des Zusammenhangs ermittelt.

Laden des Datensatzes

library(readr)
titanic <- read_csv("titanic.csv")
titanic$Pclass[titanic$Pclass == "1"] <- "1st Class" 
titanic$Pclass[titanic$Pclass == "2"] <- "2nd Class" 
titanic$Pclass[titanic$Pclass == "3"] <- "3rd Class" 

titanic$Survived[titanic$Survived == "1"] <- "Survived"
titanic$Survived[titanic$Survived == "0"] <- "Not Survived" 

Grafische Veranschaulichung

counts<- table( Survived  = titanic$Survived , Class = titanic$Pclass)

barplot(counts, main="Balkendiagramm",
col=c("tomato","deepskyblue"),
ylab="Anzahl Personen",xlab = "Survived und Class",legend=TRUE,
beside=T)

Betrachten wir das Balkendiagramm nach den Passagierklassen unterteilt mit der jeweiligen Anzahl an Überlebenden und Verstorbenen, sieht man auf absoluter Höhe ist die Anzahl der Überlebenden vergleichbar. Relativ betrachtet ergeben sich jedoch hier deutliche Unterschiede (nicht in Grafik enthalten). Die dritte Klasse hat bei einer Anzahl von 119 Überlebenden, im Vergleich zu 136 Überlebenden der ersten Klasse, nur einen relativen Anteil von ~ 24.7% während die erste Klasse einen Anteil von ~ 62.4% hat. Bei einer Überlebenswahrscheinlichkeit von ~38% im Schnitt auf dem Schiff kann man bereits bei der grafischen Analyse davon ausgehen dass es zu einem verwerfen der H0 Hypothese kommen kann.

#install.packages("networkD3")
library(networkD3)
library(dplyr)
#library(shinydashboard)

links <- data.frame(
source=c("1. Class","1. Class","2. Class","2. Class", "3. Class", "3. Class"), 
target=c("Survived_0","Survived_1","Survived_0","Survived_1","Survived_0","Survived_1"),
value=c(counts[1],counts[2], counts[3], counts[4],counts[5], counts[6])
)
links

Die 1. Klasse (1.Class) hat insgesamt 216 Passagiere gehabt, wobei 136 Personen überlebt haben, das ist eine Wahrscheinlichkeit von 62.3%, in der zweiteren Klasse (2.Class) haben wir ingesamt 184 Passagiere wobei wir 87 Überlebende haben, dass sind ~ 47.0%. In der dritten Klasse (3.Class) haben wir die deutlich grösste Klasse mit 491 Passagieren, d.h. die dritte Klasse hat einen Anteil von 55% aller Passagiere an Bord ausgemacht. Die Wahrscheinlichkeit zu überleben betrug für diese Klasse 24.2%.

# From these flows we need to create a node data frame: it lists every entities involved in the flow
nodes <- data.frame(
name=c(as.character(links$source), 
as.character(links$target)) %>% unique()
)

# With networkD3, connection must be provided using id, not using real name like in the links dataframe.. So we need to reformat it.
links$IDsource <- match(links$source, nodes$name)-1 
links$IDtarget <- match(links$target, nodes$name)-1

# Make the Network
p <- sankeyNetwork(Links = links, Nodes = nodes,
Source = "IDsource", 
Target = "IDtarget",
Value = "value", 
NodeID = "name", 
iterations = 0,
nodeWidth=40, fontSize=13, 
sinksRight=TRUE)
p

Betrachten wir das “Sankey” Diagramm, dann sehen wir wie im Balkendiagramm zuvor dass bei der ersten und zweiteren Klasse wir in der ersten Klasse eine etwas höhere Wahrscheinlichkeit haben zu überleben. Bei der zweiteren Klassen kann man ca. von einer Wahrscheinlichkeit von 50% sprechen. In der dritten Klasse sehen bereits ein deutliches unverhältnis. Hier ist der Anteil der Personen welche überleben deutlich unter 50%. Das Sankey Diagramm verdeutlicht somit noch einmal den Effekt welchen wir bei dem Balkendiagramm bereits gesehen haben.

Ergebnisse der Kreuztabellenanalyse


Tabelle der realisierten Häufigkeiten

counts<- table( Survived  = titanic$Survived , Class = titanic$Pclass)
head(counts)
              Class
Survived       1st Class 2nd Class 3rd Class
  Not Survived        80        97       372
  Survived           136        87       119


Tabelle der erwarteten Häufigkeiten

ch1 <- chisq.test(counts, correct = F)
round(ch1$expected,2)
              Class
Survived       1st Class 2nd Class 3rd Class
  Not Survived    133.09    113.37    302.54
  Survived         82.91     70.63    188.46

Stellen wir im folgenden die Tabelle mit den realisierten Werten und die Tabelle der erwarteten Werten gegenüber, so erwarten wir z.B. in der ersten Klasse 133 Verstorbene, die realisierten Werte zeigen jedoch nur 80. Das ist somit eine Differenz von 53 Personen zwischen der Realisation nur für die erste Klasse. Dies ist ein relativer Unterschied von ~ 24.3% welche wir nur innerhalb der Klasse erwarten. Etwas vergleichbares lässt sich für die dritte Klasse erkennen, hier hätten wir nur ~ 302 Verstorbene erwartet, hatten aber 372 Personen in der echten Realisiation, dass ist eine Abweichung von ~ 23.18%. Wir erkennen somit auch bereits bei der Differenz dieser Matrizen einen Unterschied, was auf eine unterschiedliche Überlebenswahrscheinlichkeit zwischen den Klassen schliessen lässt.

Somit ist es lohnenswertzur Bestätigung der Hypothesen einen Chi²-Test durchzuführen. Bei dem Chi²-Test können wir auf die Korrektur von Yates verzichten, Insgesamt haben wir einen Datensatz mit 891 Personen. Aufgrund der Anzahl an möglichen Kategorien haben wir einen Freiheitsgrad von (#Passagierklassen -1)(#Überlebensgruppe -1 ) = (3-1)(2-1) = 2, für alle Zellen haben wir eine erwartete Häufigkeit von >50, sodass wir den Test durchführen können ohne eine Anpassung vornehmen zu müssen.

Chi² - Test

ch1

    Pearson's Chi-squared test

data:  counts
X-squared = 102.89, df = 2, p-value < 2.2e-16

Führen wir nun den Chi² Test durch erhalten wir für folgende Rahmenbedingungen (df =2, X² = 102.89) einen P-Value von 4.549251e-23. Bei einem Alphaniveau von 0.05 ist der P-Value somit kleiner als unsere Irrtumswahrscheinlichkeit. Wir können somit unsere H0 Hypothese, dass es keinen Unterscheid in der Überlebenswahrscheinlichkeit der Klassen gibt verwerfen, es gibt somit einen signifikanten Unterschied zwischen der Überlebenswahrscheinlichkeit zweichen mindestens zwei dieser Klassen.

library("sjPlot")
library("sjmisc")

sjt.xtab(titanic$Survived, titanic$Pclass)
ch1

    Pearson's Chi-squared test

data:  counts
X-squared = 102.89, df = 2, p-value < 2.2e-16
sprintf("kritischer Prüfwert: %.2f",qchisq(0.95, df=2))
[1] "kritischer Prüfwert: 5.99"

\[kritische \thinspace Prüfwert < empirsche \thinspace Prüfwert \rightarrow sig. \\ 5.99 < 102.89 \rightarrow sig\] Es zeigt sich, dass ein sig. Ergebnis vorliegt (X-squared = 102.89, df = 2, n = 891). Damit gibt es einen Zusammenhang zwischen dem Survived und dem Class.

Berechnung der Effektstärke

cramersV <- sqrt(( ch1$statistic)/(nrow(titanic)*(2-1)))
sprintf("Die Effektstärke liegt bei %.2f.",cramersV)
[1] "Die Effektstärke liegt bei 0.34."

\[\begin{align} \text{Schwacher Effekt: } 0.1 &< ||Cramers V|| \leq 0.3 \\ \text{Schwacher bis mittlerer Effekt: }0.3 &< ||Cramers V|| \leq 0.4 \\ \text{Mittlerer Effekt: } 0.4 &< ||Cramers V|| < 0.5 \\ \text{Mittlerer bis starker Effekt: }0.5 &= ||Cramers V|| \\ \text{Starker Effekt: } 0.5 &< ||Cramers V|| \end{align}\]

Wenn wir jetzt mit cramersV die Effektstärke berechnen erhalten wir eine Effektstärke von 0.3398, dies ist gemäss der Tabelle von CramersV ein schwacher bis mittlerer Effekt. Es zeigt sich für unsere Auswertung, dass ein mittlerer Zusammenhang besteht.

Fazit

Abschliessend können wir somit sagen das wir unsere H0 Hypothese verwerfen können, sodass wir von einem Unterschied bei der Überlebenswahrscheinlichkeit zwischen den Klassen ausgehen können.

