Aufgabe 5-6: Zusammenhangshypothese
Datensatz: titanic.csv UV = Pclass, Embarked AV = Age
Hypothesen
H0_Pclass: Die Passagierklasse hat keinen Einfluss auf das Alter der Personen. H1_Pclass: Die Passagierklasse hat einen Einfluss auf das Alter der Personen.
H0_harbor: Der Einschiffungshafen hat keinen Einfluss auf das Alter der Personen. H1_harbor: Der Einschiffungshafender hat einen Einfluss auf das Alter der Personen.
H0_interaction: Die Passagierklasse und der Einschiffungshafen, oder die Kombination hat keinen Einfluss auf das Alter der Personen. H1_interaction: Die Passagierklasse und der Einschiffungshafen, oder die Kombination hat einen Einfluss auf das Alter der Personen.
Voraussetzungen für die mehrfaktorielle Varianzanalyse (ohne Messwiederholung)
Die abhängige Variable ist intervallskaliert -> Dies ist gegeben, für das Alter liegt eine Ratioskala vor.
Die unabhängigen Variablen (Passagierklasse und Einschiffungshafen) sind kategoriel -> Erfüllt.
Die unabhängigen Variablen (Passagierklasse und Einschiffungshafen) sind kategorial (nominal- oder ordinalskaliert) -> Dies ist gegeben.
Die abhängigen Variablen ist normalverteilt innerhalb jeder Gruppe. -> Dies ist gerpüft und es wurden Gruppen wie z.B. Queenstown wegen der Verletzung n < 25 entfernt.
Homogenität der Varianzen -> Siehe Levene-Test
Grundlegende Konzepte
Die mehrfaktorielle Varianzanalyse untersucht, ob sich die Mittelwerte mehrerer unabhängiger Gruppenunterscheiden, die durch mehrere kategoriale unabhängige Variable definiert werden. Diese UV werden bei der ANOVA als “Faktoren” bezeichnet. Die Ausprägungen der unabhängigen Variable werden “Faktorstufen” genannt (eng.“Treatments”)
Die “mehrfaktoriell” oder mindestens zweifaktoriell Varianzanalyse wird bei mehr als einen Faktor, also mehrere Gruppierungsvariablen, verwendet (vgl. einfaktorielle Varianzanalyse). Der Begriff “Varianzanalyse” wird auch“ANOVA” abgekürzt, da sie in Englisch mit “Analysis of variance” steht.
Die Idee der Varianzanalyse besteht in der Zerlegung der Varianz der abhängigen Variable. Die Gesamtvarianz setzt sich aus der “Varianz innerhalb der Gruppen” und der “Varianz zwischen den Gruppen” zusammen.
Bei einer mehrfaktoriellen Varianzanalyse wird die Varianz zwischen den Gruppen weiter aufgegliedert, und zwar in die Varianz der einzelnen Faktoren und die Varianz der Interaktion(en) der Faktoren. Im Rahmen einer Varianzanalyse wird die Varianz zwischen den Gruppen mit der Varianz innerhalb der Gruppen verglichen.Die Fragestellung der mehrfaktoriellen Varianzanalyse könnte sein: “Unterscheiden sich die Mittelwerte einer abhängigen Variable zwischen mehreren Gruppen? Welche Faktorstufen unterscheiden sich? Gibt es Effekte?”
Deskriptive Statistiken und Normalverteilung
library(readr)
library(dplyr)
library(ggplot2)
library(Hmisc)
titanic <- read_csv("titanic.csv")
titanic <- titanic[!is.na(titanic$Embarked) & !is.na(titanic$Age),]
# titanic <- titanic[titanic$Embarked != "Q",]
titanic$Embarked[titanic$Embarked == "C"] <- "Cherbourg"
titanic$Embarked[titanic$Embarked == "S"] <- "Southampton"
titanic$Embarked[titanic$Embarked == "Q"] <- "Queenstown"
titanic$Pclass[titanic$Pclass == "1"] <- "1st Class"
titanic$Pclass[titanic$Pclass == "2"] <- "2nd Class"
titanic$Pclass[titanic$Pclass == "3"] <- "3rd Class"
titanic %>%
group_by(Embarked) %>%
summarise(Anzahl = n(), Mittelwert = mean(Age), Median = median(Age), Standardabweichung = sd(Age)) %>%
mutate_if(is.numeric, round, 2)
titanic %>%
group_by(Embarked) %>%
ggplot(aes(Age, color=Embarked)) +
geom_histogram(aes(fill = Embarked), bins = 20) +
facet_wrap(~Embarked) +
theme_grey()+
labs(x= "Anzahl der Age",y = "Anzahl" )

Wir betrachten nun ein Histogramm unterteilt nach den drei Häfen. Man kann bereits erkennen das in Southampton die meisten Personen zugestiegen sind, aber an jedem Hafen haben wir die gesamte Altersbreite von 0 - 80 vertreten. Alle haben einen starke Häufung im Bereich zwischen 20 und 30. Der Grossteil der Passagiere ist in Southampton (England, nahe London) eingestiegen, dem ersten Hafen der Titanic. Hier sind 554 Passagiere der 891 Passagiere zugestiegen. Die kleinste Anzahl von Personen ist in Queenstown (Irland) zugestiegen mit nur 28 Personen. 130 Personen sind in Cherbourg (England) zugestiegen. Für das Alter der Personen sehen wir bereits verschiedene Alterswerte haben bei den Einstiegsorten. Diese unterscheiden sich nicht sehr stark und wir haben bei allen eine grosse Standardabweichung. Daher gehen wir davon aus dass sich die Altersgruppen, gruppiert nach Einschiffungshafen, stark überlappen werden. Man kann anhand der Histogramme sehen, dass die Annahme einer Normalverteilung gerechtfertigt ist.
titanic %>%
group_by(Pclass) %>%
summarise(Anzahl = n(), Mittelwert = mean(Age), Median = median(Age), Standardabweichung = sd(Age)) %>%
mutate_if(is.numeric, round, 2)
titanic %>%
group_by(Pclass) %>%
ggplot(aes(Age, color=Pclass)) +
geom_histogram(aes(fill = Pclass), bins = 20) +
facet_wrap(~Pclass) +
theme_grey()+
labs(x= "Anzahl der Pclass",y = "Anzahl" )

Wenn wir jetzt das Histogramm für die Passagierklassen betrachten, dann erkennen wir dass die zweite Klassen auch in den unteren Altersbereichen ausgeprägte Bin´s haben, während hingegen die erste Klasse in diesem Bereich keine bis nur minimale Bin´s hat. Auch kann man in der ersten Klasse erkennen dass wir hier einen Häufungspunkt haben der weiter rechts liegt als bei den anderen Klassen. Wir vermuten daher eher einen Einfluss der Passagierklassen auf die Altersverteilung als einen Einfluss der Einschiffungsorte. Man kann anhand der Histogramme sehen, dass die Annahme einer Normalverteilung gerechtfertigt ist.
titanic %>%
group_by(Embarked, Pclass) %>%
summarise(Anzahl = n(), Mittelwert = mean(Age), Median = median(Age), Standardabweichung = sd(Age)) %>%
mutate_if(is.numeric, round, 2)
`summarise()` has grouped output by 'Embarked'. You can override using the `.groups` argument.
`mutate_if()` ignored the following grouping variables:
Column `Embarked`
Betrachten wir im Folgenden nun die Kreuzmatrix mit den Kombinationen von Klasse und Einschiffungsort. Wir können hier bereits erkennen dass unsere Stichproben in der Kombination Cherbourg (3. Klasse, 2. Klasse), Queenstown (1. Klasse + 2. Klasse + 3.Klasse) weniger als 25 Personen beinhalten. Das bedeutet das wir in diesen Gruppen bei der Berechnung des Mittelwertes nicht vom zentralen Grenzwertsatz ausgehen können. Die Berechnung des Mittelwertes, welcher für den Vergleich der Gruppen herangezogen wird ist reiner Zufall und nicht aufgrund der Struktur zu erkennen. Aus diesem Grund wird für die weitere Analyse der Hafen “Queenstown” herausgelöscht, weil hier die Anzahl an Daten zu klein ist um eine Aussage zu treffen. Wir beschränken uns im Folgenden somit nur auf die beiden Häfen Cherbourg und Southampton, und die drei Klassen.
ggplot(titanic, aes(x=Age))+
geom_histogram(bins = 25)+
theme_grey()+
facet_wrap(Embarked~Pclass, ncol = 3)

Bei den kombinierten Histogramplots sehen wir die selben Effekte wie bereits oben in der Tabelle erkannt. Der Queenstown Hafen ist zu dünn besetzt. Der Southampton Hafen ist aufgrund der Grösse der Passagieranzahlen der beste Hafen in den Daten. Bei der ersten und der zweiten Klasse sehen wir auch eine nahezu normalverteilte Verteilung in der dritten Klassen haben wir jedoch eine rechtsschiefe Verteilung. Da wir jedoch in diesen Klassen einen ausreichend grossen Datensatz haben, können wir den zentralen Grenzwertsatz verwenden und damit von einer Normalverteilung ausgehen für die Berechnung des Mittelwerts.
Bei Cherbourg sehen die Daten innerhalb der Klassen normalverteilt aus. Die zweite Klasse in Cherbourg ist jedoch weiterhin zu schwach besetzt, wir lassen diese aber im weiteren Schritt drinnen um für die Southampton 2. Klasse einen Vergleichswert zu haben.
Boxplot
titanic <- titanic[titanic$Embarked != "Queenstown",]
ggplot(titanic, aes(Embarked, Age, fill=factor(Pclass))) +
geom_boxplot() +
theme_minimal()+
labs(fill = "Class", x="Port", y="Anzahl Age")

Wenn wir uns nun die verbleibenden Daten im Boxplot anschauen, dann können wir erkennen dass wir zwischen den Passagierklassen einen Unterschied in den Daten haben, d.h. wir vermuten auch in dieser Darstellung bei den Passagierklassen einen Unterschied. Vergleichen wir aber die Häfen miteinander, dann können wir z.B. bei der ersten Klasse sehen das wir hier sehr grosse Schnittmengen haben auch bei den zweiten und dritten Klasse liegen die Werte ineinander, sie weichen in der Verteilung untereinander zwar ab, aber überlappen etwas. Ob der Effekt ausreicht um von einem Unterschied hier zu sprechen müssen wir noch herausfinden.
Zwischenfazit
Bisher konnten wir folgende Punkte herausfinden: Wir haben den Queenstown Hafen aus unserem Datensatz gestrichen aufgrund der mangelnde Menge an Daten innerhalb der Klasse. Zudem konnten wir bereits herausfinden dass wir einen Unterschied zwischen den Passagierklassen vermuten, nicht aber zwischen den Häfen.
Profildiagramm
#titanic$Embarked
library(htmltools)
library(ggplot2)
titanic$Pclass <- as.factor(titanic$Pclass )
ggplot(titanic,
aes(x=Embarked,
y=Age,
group = Pclass,
color = Pclass,
aesthetics = "fill"
)
)+
stat_summary(fun = mean,
geom="point",
size=3
)+
stat_summary(fun = mean,
geom="line",
size= 1.5
)+
stat_summary(fun.data = mean_cl_normal, geom="errorbar",width=.25, size=1)+
stat_summary(aes(label=round(..y..)),
fun ='mean',
geom="text",
size=4,
position = position_nudge(x = -0.15, y = 0.75)
)+
labs(title = "Durschnittsalter der Passagiere am jeweiligen Zustiegshafen",
x="Klasse",
y="Age")+
theme(panel.background = element_rect(size = 0.5, fill = "gray91", colour = "black", linetype='solid'),
panel.grid.major = element_line(size = 0.5, linetype = 'solid', colour = "darkgray"),
panel.grid.minor = element_line(size = 0.5, linetype = 'solid', colour = "gray"),
)

Betrachten wir das Profidiagramm der verschiedenen Klassen und und des Einschiffungsortes, dann erkennen wir dass wir grundsätzlich in Cherbourg einen deutlich geringeres Alter beim Einstieg haben als in Southampton. Für die erste Klasse ist der Mittelwert am geringsten. Was wir ebenso sehen ist jedoch eine sehr starke Überlagerung bezüglich der Spannbreite bei der Altersklasse. In Southampton haben wir dann wieder eine schöne Trennung, sodass wir wenn wir nur Southampton betrachten auch von einem Altersunterschied der Klassen ausgehen könnten. Betrachten wir Cherbourg wird die Unterscheidung für die zweite und dritte Klasse schwer, aber eine Unterscheidung zwischen der ersten und der zweiten und dritten Klasse zusammen sieht gut aus.
Zur Durchführung unseres Testes müssen wir nun die Vorraussetzung der Varianzhomogenität prüfen. Dies machen wir mit dem Levene-Test.
Levene -Test
library(car)
leveneTest(Age ~ Embarked*Pclass, data = titanic, center = "mean")
Levene's Test for Homogeneity of Variance (center = "mean")
Df F value Pr(>F)
group 5 3.3477 0.005388 **
678
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Der Levene Test liefert uns mit einem empirischen Wert von 3,3477 und einem DF = 5 einen p-Wert von 0.005388, d.h. der Unterschied der Varianzen ist bei unserer Irrtumswahrscheinlichkeit von 0.05 kleiner, sodass wir davon ausgehen müssen dass die Varianzen zwischen den Gruppen nicht identisch sind. Die Varianzen sind somit heterogen, sodass wir dies in unserer ANOVA beachten “müssten”. Da die Varianzen leider nicht gleich sind, ist es zu empfehlen eine Korrektur mithilfe des Welch-Tests durchzuführen.
Ergebnisse der mehrfaktorielle Varianzanalyse
mehrAnova1 <- lm(Age ~ Embarked*Pclass, data = titanic)
myAnova <- Anova(mehrAnova1 , type = 3)
myAnova
Anova Table (Type III tests)
Response: Age
Sum Sq Df F value Pr(>F)
(Intercept) 107008 1 604.7606 < 2.2e-16 ***
Embarked 1 1 0.0039 0.9504
Pclass 8981 2 25.3775 2.353e-11 ***
Embarked:Pclass 792 2 2.2373 0.1075
Residuals 119967 678
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
embarkedwelch <- oneway.test(Age~Embarked, data = titanic, var.equal = F)
embarkedwelch
One-way analysis of means (not assuming equal variances)
data: Age and Embarked
F = 0.85483, num df = 1.00, denom df = 183.18, p-value = 0.3564
Der F-Test für die Abhängigkeit der Analyse bezüglich des Einflusses des Alters und dem Einschiffungsort bei ungleichen Varianzen ist nicht signifikant. D.h. bei F(1,183.18) = 0.85483 erhalten wir einen p-value = 0.3564, dieser Wert ist grösser als unsere Irrtumswahrscheinlichkeit von 0.05, sodass wir hier von keinem signifikanten Test ausgehen können. Der Einschiffungsort, hat keinen Einfluss auf das Alter unserer Passagiere.
pclasswelch <- oneway.test(Age~Pclass, data = titanic, var.equal = F)
pclasswelch
One-way analysis of means (not assuming equal variances)
data: Age and Pclass
F = 51.453, num df = 2.00, denom df = 352.23, p-value < 2.2e-16
Der F-Test für die Abhängigkeit der Analyse bezüglich des Einflusses des Alters und der Passagierklasse bei ungleichen Varianzen ist signifikant. D.h. bei F(2,352.23) = 51.453 erhalten wir einen p-value < 2.2e-16, dieser Wert ist kleiner als unsere Irrtumswahrscheinlichkeit von 0.05, sodass wir hier von einem signifikanten Test ausgehen können. Die Passagierklasse, hat somit einen Einfluss auf das Alter unserer Passagiere.
AXBwelch <- oneway.test(Age~Embarked*Pclass, data = titanic, var.equal = F)
AXBwelch
One-way analysis of means (not assuming equal variances)
data: Age and Embarked * Pclass
F = 22.808, num df = 5.00, denom df = 104.56, p-value = 2.051e-15
Der F-Test für die Abhängigkeit der Analyse bezüglich des Einflusses des Alters und der Kombination aus Einschiffungsort & Passagierklasse bei ungleichen Varianzen ist signifikant. D.h. bei F(5,104.56) = 22.808 erhalten wir einen p-value = 2.051e-15. Dieser Wert ist kleiner als unsere Irrtumswahrscheinlichkeit von 0.05, sodass wir hier von einem signifikanten Test ausgehen können. Die Passagierklasse in Kombination mit dem Einschiffungsort hat somit einen Einfluss auf das Alter unserer Passagiere.
Post-Hoc-Test
Bis hier her haben wir herausgefunden dass die Passagierklasse und die Interaktion der Passagierklasse mit dem Einschiffungsort signifikant sind in ihrem Einfluss auf das Alter der Passagiere. Im Folgenden wollen wir herausfinden welche Passagierklasse einen Einfluss hat auf das Alter hat. Hierfür führen wir einen TukeyHSD Test durch. Zu diesem Zweck werden Tukey-korrigierte Mehrfachvergleiche berechnet.
Da wir beim TukeyHSD Testverfahren mehrere t-Test durchführen welche nicht unabhängig voneinander sind, d.h. wir haben das Risiko den identischen Zufallsfehler mehrmals zu messen korrigieren wir beim TukeyHSD Test automatisch die Irrumswahrscheinlichkeit. Hierbei wird α durch die Anzahl der Paarvergleiche dividiert. Wir können also somit den adjustierten p-Value gegen unsere Irrtumswahrscheinlichkeit von Alpha = 0.05 testen. In diesem Fall ist n = 15, sodass wir alpha/15 teilen werden.
PostHoc <- aov(Age~Embarked*Pclass, data=titanic)
TukeyHSD(PostHoc)
Tukey multiple comparisons of means
95% family-wise confidence level
Fit: aov(formula = Age ~ Embarked * Pclass, data = titanic)
$Embarked
diff lwr upr p adj
Southampton-Cherbourg -1.369372 -3.91469 1.175946 0.2911894
$Pclass
diff lwr upr p adj
2nd Class-1st Class -7.946247 -11.273829 -4.618666 0.0000001
3rd Class-1st Class -12.631211 -15.514473 -9.747950 0.0000000
3rd Class-2nd Class -4.684964 -7.627453 -1.742475 0.0005846
$`Embarked:Pclass`
diff lwr upr p adj
Southampton:1st Class-Cherbourg:1st Class 0.125010 -5.611787 5.8618070 0.9999999
Cherbourg:2nd Class-Cherbourg:1st Class -15.260360 -26.024890 -4.4958311 0.0008029
Southampton:2nd Class-Cherbourg:1st Class -7.640296 -13.006254 -2.2743380 0.0007468
Cherbourg:3rd Class-Cherbourg:1st Class -17.285076 -24.686285 -9.8838670 0.0000000
Southampton:3rd Class-Cherbourg:1st Class -12.330475 -17.281526 -7.3794248 0.0000000
Cherbourg:2nd Class-Southampton:1st Class -15.385370 -25.860432 -4.9103090 0.0004373
Southampton:2nd Class-Southampton:1st Class -7.765306 -12.524017 -3.0065955 0.0000549
Cherbourg:3rd Class-Southampton:1st Class -17.410086 -24.383587 -10.4365850 0.0000000
Southampton:3rd Class-Southampton:1st Class -12.455485 -16.740893 -8.1700772 0.0000000
Southampton:2nd Class-Cherbourg:2nd Class 7.620064 -2.656588 17.8967162 0.2785619
Cherbourg:3rd Class-Cherbourg:2nd Class -2.024715 -13.496157 9.4467257 0.9960072
Southampton:3rd Class-Cherbourg:2nd Class 2.929885 -7.136344 12.9961143 0.9615646
Cherbourg:3rd Class-Southampton:2nd Class -9.644780 -16.316540 -2.9730196 0.0005773
Southampton:3rd Class-Southampton:2nd Class -4.690179 -8.464751 -0.9156075 0.0054712
Southampton:3rd Class-Cherbourg:3rd Class 4.954601 -1.388252 11.2974528 0.2242481
Wie wir bereits vermutet haben, hat der Einschiffungshafen keinen signifkanten Einfluss auf das Alter der Passagiere. Hingegen können wir erkennen das alle Passagierklassen einen globalen Effekt auf das Alter der Passagiere haben. Hier können wir sogar von einem globalen Effekt sprechen. D.h. die Passagierklassen haben immer einen Effekt auf das Alter unserer Passagiere. Wenn wir uns den Boxplot und den Mittelwertplot wieder in Erinnerung rufen, kann man sagen dass in der ersten Klasse immer die älteren Personen mitfahren im Vergleich zu den anderen und dass wir auch in der zweiten Klasse ältere Passagiere haben als in der dritten Klasse.
Betrachten wir im nächsten Schritt die Kombination der Passagierklasse mit dem Einschiffungshafen. Hier sehen wir dass folgende Kombinationen keinen Effekt haben:
Southampton:1 Class-Cherbourg:1 Class
Southampton:2 Class-Cherbourg:2 Class
Cherbourg:3 Class-Cherbourg:2 Class
Southampton:3 Class-Cherbourg:2 Class
Southampton:3 Class-Cherbourg:3 Class
Aufgrund der Liste können wir auch schnell erkennen dass wir keinen globalen Effekt haben bei der Kombinatorik der Daten. Wir können somit nicht pauschal sagen dass eine Kombination einen globalen Effekt hat und somit pauschal einen Effekt hat auf das Alter der Passagiere.
Partielles Eta-Quadrat
Das partielle Eta-Quadrat (partielles η2) ist ein Mass für die Effektgrösse: Es setzt die Variation, die durch einen Faktor erklärt wird, in Bezug mit jener Variation, die nicht durch andere Faktoren im Modell erklärt wird. Das heisst, es wird ausschliesslich jene Variation betrachtet, welche nicht durch die anderen Faktoren im Modell erklärt wird. Das partielle Eta-Quadrat zeigt, welchen Anteil davon ein Faktor erklärt:
library(sjstats)
eta <- effectsize::eta_squared(mehrAnova1, partial = TRUE)
eta
Parameter | Eta2 (partial) | 90% CI
-----------------------------------------------
Embarked | 1.64e-03 | [0.00, 0.01]
Pclass | 0.15 | [0.11, 0.19]
Embarked:Pclass | 6.56e-03 | [0.00, 0.02]
Berechnung der Effektstärke
Effektstärke für den Einschiffungshafen
effembarked <- sqrt(eta$Eta2[1]/(1-eta$Eta2[1]))
sprintf("Effektstärke für den Einschiffungshafen: f= %.3f", effembarked)
[1] "Effektstärke für den Einschiffungshafen: f= 0.041"
Zur Abrundung des Ganzen Themas, zeigt auch die Effektstärke des Einschiffungshafen keinen Einfluss auf das Alter der Passagiere.Hier liegt kein Effekt vor.
f = .10 entspricht einem schwachen Effekt f = .25 entspricht einem mittleren Effekt f = .40 entspricht einem starken Effekt
Effektstärke für die Passagierklasse
effpclass <- sqrt(eta$Eta2[2]/(1-eta$Eta2[2]))
sprintf("Effektstärke fürs Class: f= %.3f", effpclass)
[1] "Effektstärke fürs Class: f= 0.414"
Bei der Passagierklasse liegt mit f = 0.414 ein sehr starker Effekt vor.
f = .10 entspricht einem schwachen Effekt f = .25 entspricht einem mittleren Effekt f = .40 entspricht einem starken Effekt
Effektstärke für die Interaktion
effAxB <- sqrt(eta$Eta2[3]/(1-eta$Eta2[3]))
sprintf("Effektstärke der Interaktion zwischen Klasse und Hafen: f= %.3f", effAxB)
[1] "Effektstärke der Interaktion zwischen Klasse und Hafen: f= 0.081"
Auch haben wir bei der Interaktion der Kategorien keinen Effekt, da der Wert von f = 0.081 < 0.10 liegt.
f = .10 entspricht einem schwachen Effekt f = .25 entspricht einem mittleren Effekt f = .40 entspricht einem starken Effekt
Eine Aussage
Die Mittelwerte der Gruppen lassen sich nur durch die Passagierklasse erklären und dies auch mit einem starken Effekt, der Einschiffungshafen hat keinen Einfluss auf die Altersverteilung auf dem Schiff. Somit wird die Hypothese H1_Pclass bestätigt, während H1_harbor und H1_interaction verworfen werden.
