Übung 1

Aufgabe

Entscheide für jede der 6 Grafiken, ob ein starker, moderater oder schwacher Zusammenhang zwischen den Variablen besteht und ob ein lineares Modell gültig ist.

Lösung

  1. starker Zusammenhang, nicht linear
  2. starker Zusammenhang, nicht linear
  3. starker positiver linearer Zusammenhang (\(r = 0.955\))
  4. schwacher positiver linearer Zusammenhang (\(r = 0.275\))
  5. schwacher negativer linearer Zusammenhang (\(r = -0.568\))
  6. moderater bis starker negativer linearer Zusammenhang (\(r = -0.718\))

Übung 2

Aufgabe

Das Great Britain Office of Population Census and Surveys sammelte einst Daten aus einer Zufallsstichprobe von verheirateten Paaren. Erfragt wurden Alter und Körpergrösse von Ehegattin und Ehegatten.

  1. Beschreibe die Beziehung zwischen dem Alter von Ehegattin und Ehegatten.
  2. Beschreibe die Beziehung zwischen der Körpergrösse von Ehegattin und Ehegatten.
  3. Welche Grafik zeigt eine stärkere Korrelation? Begründe deine Antwort.

Lösung

  1. Der Zusammenhang zwischen dem Alter von Mann und Frau ist stark, positiv und linear.
  2. Der Zusammenhang zwischen der Körpergrösse von Mann und Frau ist schwach aber positiv.
  3. Alter zwischen den Ehepartnern korreliert stärker (\(r = 0.939\)) als Körpergrösse (\(r = 0.306\)). Die Punkte im Altersplot streuen weniger um eine gedachte Gerade als die Punkte im Plot zur Körpergrösse.

Übung 3

Aufgabe

Welcher Korrelationskoeffizient nach Pearson passt zu welcher Grafik?

  1. \(r = -0.7\)
  2. \(r = 0.45\)
  3. \(r = 0.06\)
  4. \(r = 0.92\)

Lösung

Plot a) \(r = 0.06\), nicht linear
Plot b) \(r = 0.92\), stark positiv linear
Plot c) \(r = 0.45\), moderat positiv linear
Plot d) \(r = -0.7\), moderat negativ linear

Übung 4

In einer longitudinalen Studie wurde untersucht, wie sich der IQ bei Menschen, welche im Koma lagen, erholt. Aufgrund vieler fehlender Werte (missing values), wurde der Original-Datensatz für diese Übung gekürzt. Der Datensatz “IQ_recovery.csv” umfasst folgende Variablen:

  • days: IQ-Messzeitpunkt: Anzahl Tage seit dem Koma
  • duration: Dauer des Komas in Tagen
  • sex: Geschlecht: «Female», «Male»
  • age: Alter zum Zeitpunkt der Verletzung
  • Piq_1: Performance IQ (z.B. mathematischer), Zeitpunkt 1
  • viq_1: Verbaler IQ, Zeitpunkt 1
  • Piq_2 Performance IQ (z.B. mathematischer), Zeitpunkt 2
  • viq_2 Verbaler IQ, Zeitpunkt 2


Höhere Punkte entsprechen einem besser IQ (Quelle)

Aufgabe

Es soll analysiert werden, ob die Dauer des Komas mit dem Performance IQ zum ersten Messzeitpunkt korreliert.

  1. Laden Sie den Datensatz “IQ_recovery.csv” in RStudio
  2. Formulieren Sie Ihre Hypothesen.
  3. Erstellen Sie eine geeignete Grafik, um einen potentiellen Zusammenhang zu visualisieren.
  4. Führen Sie eine geeignte Korrelationsanalyse durch.
  5. Interpretieren Sie ihr Resultat.

Lösung

  1. Laden Sie den Datensatz “IQ_recovery.csv” in RStudio
library(rio)
IQ <- import("../Data/IQ_recovery.csv")
  1. Formulieren Sie Ihre Hypothesen.
  • \(H_0\): Es besteht kein Zusammenhang zwischen der Dauer des Komas und dem Performance IQ zum ersten Messzeitpunkt, \(r = 0\).
  • \(H_A\): Es besteht ein Zusammenhang zwischen der Dauer des Komas und dem Performance IQ zum ersten Messzeitpunkt, \(r \ne 0\).
  1. Erstellen Sie eine geeignete Grafik, um einen potentiellen Zusammenhang zu visualisieren.

piq_1 ist die abhängige Variable und muss darum auf der y-Achse präsentiert werden.

plot(IQ$duration, IQ$piq_1, xlab = "Dauer des Komas in Tagen", ylab = "Performance IQ")


  1. Führen Sie eine geeignete Korrelationsanalyse durch.

In der Grafik ist gut ersichtlich, dass es sich nicht um einen linearen Zusammenhang handelt. Folglich sollte der Korrelationskoeffizient nach Spearman berechnet werden.

cor.test(IQ$duration, IQ$piq_1, method = "spearman")
## 
##  Spearman's rank correlation rho
## 
## data:  IQ$duration and IQ$piq_1
## S = 56538, p-value = 5e-05
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
##    rho 
## -0.495


  1. Interpretieren Sie ihr Resultat.

Geprüft wurde ein Zusammenhang zwischen der Dauer des Komas und dem Performance IQ zum ersten Messzeitpunkt. Die Korrelationsanalyse ergab einen negativen Zusammenhang: \(r_{s}\) = -0.495, p < 0.001. Somit liegt Evidenz gehen \(H_{0}\) vor: Je länger jemand im Koma liegt, desto tiefer ist der Performance IQ. Weil es sich bei Korrelationskoeffizient nach Spearman um ein nicht-parametrsiches Verfahren handelt, wird kein Konfidenzintervall angegeben.


Übung 5

Um Zusammenhänge richtig zu interpretieren ist es wichtig, stets die Grafiken anzuschauen. Um dies zu verdeutlichen analysieren wir den Datensatz “anscombe.csv”. Dieser besteht aus 4 x-y-Kombinationen (x1-y1, x2-y2 etc.) die alle die gleichen statistischen Merkmale (Mittelwert, Standardabweichung, Korrelationskoeffizient nach Pearson etc. aufweisen) und trotzdem völlig unterschiedlich sind.

Aufgabe

  1. Laden Sie den Datensatz “anscombe.csv” in RStudio.
  2. Berechnen Sie Mittelwert und Standardabweichung für jede Variable. Was fällt Ihnen auf?
  3. Berechnen Sie die Korrelationskoeffizienten nach Pearson für die 4 x-y-Paare.
  4. Erstellen Sie für jedes x-y-Paar eine Grafik. Erklären Sie die Ergebnisse dieser Übung.



Lösung

  1. Laden Sie den Datensatz “anscombe.csv” in RStudio.
data <- import("../Data/anscombe.csv")
  1. Berechnen Sie Mittelwert und Standardabweichung für jede Variable. Was fällt Ihnen auf?

Theoretisch kann man jede Berechnung manuell durchführen. Das ist aber etwas aufwängig, weshalb hier noch eine Alternative gezeigt wird.

mean(data$x1)
mean(data$x2)
mean(data$x3)
mean(data$x4)

mean(data$y1)
mean(data$y2)
mean(data$y3)
mean(data$y4)

sd(data$x1)
sd(data$x2)
sd(data$x3)
sd(data$x4)

sd(data$y1)
sd(data$y2)
sd(data$y3)
sd(data$y4)
sapply(data, mean)
##  x1  x2  x3  x4  y1  y2  y3  y4 
## 9.0 9.0 9.0 9.0 7.5 7.5 7.5 7.5
sapply(data, sd)
##   x1   x2   x3   x4   y1   y2   y3   y4 
## 3.32 3.32 3.32 3.32 2.03 2.03 2.03 2.03
  • x-Variablen haben alle den gleichen Mittelwert 9 und die gleiche Standardabweichung 3.32.
  • y-Variablen haben alle den gleichen Mittelwert 7.5 und die gleiche Standardabweichung 2.03
  1. Berechnen Sie die Korrelationskoeffizienten nach Pearson für die vier x-y-Paare.
cor(data$x1, data$y1)
## [1] 0.816
cor(data$x2, data$y2)
## [1] 0.816
cor(data$x3, data$y3)
## [1] 0.816
cor(data$x4, data$y4)
## [1] 0.817
  • Bis auf die 3. Stelle nach dem Komma sind alle Korrelationskoeffizienten gleich und weisen auf einen starken Zusammenhang hin.
  1. Erstellen Sie für jedes x-y-Paar eine Grafik.
plot(data$x1, data$y1)

plot(data$x2, data$y2)

plot(data$x3, data$y3)

plot(data$x4, data$y4)

  1. Das erste Datenpaar entspricht recht gut einem linearen Zusammenhang.
  2. Das zweite Datenpaar zeigt keinen linearen Zusammenhang.
  3. Das dritte Datenpaar zeigt einen Ausreisser, der nicht mit einem linearen Modell vereinbar ist.
  4. Das vierte Datenpaar zeigt ebenfalls einen Ausreisser, der nicht mit einem linearen Modell vereinbar ist.


Übung 6

Hier ein Beispiel dafür, dass man mit Korrelationen jeden Unsinn “beweisen” kann.

2020 publizierte Pavlo Blavatskyy eine Studie, in der der Zusammenhang des BMI der Minister von 15 Postsowjet-Staaten und dem Korruptionslevel untersucht wurde. Er ermittelte mit Hilfe von Machine-Learning-Algorithmen anhand von Fotografien der Minister deren BMI und verglich diesen mit 5 Korruptionsindizes. 2021 wurde Blavatskyy der Ig-Nobelpreis wikipedia für diese Publikation verliehen Improbable Research.

Für diese Aufgabe wird nur der Korruptionsindex CPI von Transparancy International berücksichtigt (die anderen 4 stehen im Datensatz für eigene Analysen zur Verfügung). Der CPI 2020 umfasst 180 Länder, die auf einer Skala von 0 (hohes Maß an wahrgenommener Korruption) bis 100 (keine wahrgenommene Korruption) angeordnet werden. Weltweit erreichen mehr als zwei Drittel aller Länder eine Punktzahl von unter 50 Punkten, das heisst wengier als die Hälfte der möglichen Punktzahl. Der Durchschnitt liegt bei nur 43 Punkten.

Der Index fasst 13 Einzelindizes von 12 unabhängigen Institutionen zusammen und beruht auf Daten aus der Befragung von Expertinnen und Experten, Umfragen sowie weiteren Untersuchungen. Der Korruptionswahrnehmungsindex bezieht sich dabei auf den öffentlichen Sektor und erfasst keine Aktivitäten wie Steuerbetrug, Geldwäsche, illegale Finanzströme oder andere Formen der Korruption im privaten Sektor. Transparency International

Wir arbeiten mit dem Datensatz “corruption.csv”.

Aufgabe

Fragestellung: Besteht ein Zusammenhang zwischen dem BMI von Ministern ehemaliger Sowjet-Staaten und dem Korruptionsindex CPI?

  1. Laden Sie den Datensatz “corruption.csv” in RStudio.
  2. Formulieren Sie Ihre Hypothesen.
  3. Erstellen Sie ein Streudiagramm und führen Sie eine Korrelationsanalyse durch.
  4. Interpretieren Sie ihr Resultat.


Lösung

  1. Laden Sie den Datensatz “corruption.csv” in RStudio.
corruption <- import("../Data/corruption.csv")


  1. Formulieren Sie Ihre Hypothesen.
  • \(H_0\): Es besteht kein Zusammenhang zwischen dem BMI der Minister und dem Korruptionsindex, \(r = 0\).
  • \(H_A\): Es besteht ein Zusammenhang zwischen dem BMI der Minister und dem Korruptionsindex, \(r \ne 0\).
  1. Erstellen Sie ein Streudiagramm und führen Sie eine Korrelationsanalyse durch.
# Blavatskyy, P. Obesity of politicians and corruption in post-Soviet countries. Econ Transit Institut Change. 2021; 29: 343– 356. https://doi.org/10.1111/ecot.12259

plot(corruption$Median_BMI, corruption$Corruption_Perceptions_Index_2017)

cor.test(corruption$Median_BMI, corruption$Corruption_Perceptions_Index_2017)
## 
##  Pearson's product-moment correlation
## 
## data:  corruption$Median_BMI and corruption$Corruption_Perceptions_Index_2017
## t = -9, df = 13, p-value = 7e-07
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.976 -0.789
## sample estimates:
##    cor 
## -0.927
cor.test(corruption$Median_BMI, corruption$Corruption_Perceptions_Index_2017, method = "spearman")
## 
##  Spearman's rank correlation rho
## 
## data:  corruption$Median_BMI and corruption$Corruption_Perceptions_Index_2017
## S = 1033, p-value = 7e-05
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
##    rho 
## -0.845
  1. Interpretieren Sie ihr Resultat.

Die Daten zeigen einen signifikanten linearen Zusammenhang zwischen dem BMI und dem Korruptionsindex. Nimmt der BMI zu, sinkt der Korrupitionsindex (und verschlechtert sich damit). Mit \(r\) = -0.927 [-0.976, -0.789], p < .0001 ist der Zusammenhang sehr stark.

Je höher der Korruptionsindex, desto geringer ist die Korruption, d.h. es besteht ein negativer Zusammenhang zwischen Korruptionsindex und Korruption. Die Aussage ist wenig intuitiv und wird besser verständlich, wenn wir den CPI transformieren, so dass ein Korruptionsindex von 0 keiner Korruption und ein Korruptionsindex von 100 maximaler Korruption entspricht:

Corruption_Perceptions_Index_2017_t <- 100 - corruption$Corruption_Perceptions_Index_2017

plot(corruption$Median_BMI, Corruption_Perceptions_Index_2017_t)

Die Aussage dieser Grafik ist intuitiv besser verständlich: Es besteht ein starker positiver linearer Zusammenhang zwischen BMI und Korruption; mit zunehmendem BMI der Minister steigt auch die Korruption im Land. Der Korrelationskoeffizient wird durch diese Transformation nicht beeinflusst.

Anmerkung: Die Art der Fragestellung, die Methodik der Studie und die Schlussfolgerung sind äusserst fragwürdig. Die Studie von Pavlo Blavatskyy wurde in der Presse und von anderen Forscher:innen massiv kritisiert, z.B. hier.