Einleitung

In der Statistik beschreibt die Korrelation den Grad und die Richtung des linearen Zusammenhangs zwischen zwei Variablen. Sie wird durch den Korrelationskoeffizienten \(r\) quantifiziert, der einen Wert zwischen -1 und 1 annehmen kann:

  • r=1 : Perfekte positive Korrelation (wenn eine Variable steigt, steigt die andere ebenfalls).

  • r=-1 : Perfekte negative Korrelation (wenn eine Variable steigt, sinkt die andere).

  • r=0 : Keine lineare Korrelation (keine erkennbare lineare Beziehung zwischen den Variablen).

Übung 1

Aufgabe

Entscheide für jede der 6 Grafiken, ob ein starker, moderater oder schwacher Zusammenhang zwischen den Variablen besteht und ob ein lineares Modell gültig ist.

Lösung

  1. starker Zusammenhang, nicht linear
  2. starker positiver linearer Zusammenhang (r = 0.955)
  3. schwacher positiver linearer Zusammenhang (r = 0.275)
  4. schwacher negativer linearer Zusammenhang (r = -0.568)
  5. moderater bis starker negativer linearer Zusammenhang (r = -0.718)

Übung 2

Aufgabe

Das Great Britain Office of Population Census and Surveys sammelte einst Daten aus einer Zufallsstichprobe von verheirateten Paaren. Erfragt wurden Alter und Körpergrösse von Ehegattin und Ehegatten.

  1. Beschreibe die Beziehung zwischen dem Alter von Ehegattin und Ehegatten.
  2. Beschreibe die Beziehung zwischen der Körpergrösse von Ehegattin und Ehegatten.
  3. Welche Grafik zeigt eine stärkere Korrelation? Begründe deine Antwort.

Lösung

  1. Der Zusammenhang zwischen dem Alter von Mann und Frau ist stark, positiv und linear.
  2. Der Zusammenhang zwischen der Körpergrösse von Mann und Frau ist schwach aber positiv.
  3. Alter zwischen den Ehepartnern korreliert stärker (r = 0.939) als Körpergrösse (r = 0.306). Die Punkte im Altersplot streuen weniger um eine gedachte Gerade als die Punkte im Plot zur Körpergrösse.

Übung 3

Aufgabe

Welcher Korrelationskoeffizient nach Pearson passt zu welcher Grafik?

  1. r = -0.7
  2. r = 0.45
  3. r = 0.06
  4. r = 0.92

Lösung

  1. r = 0.06, nicht linear
  2. r = 0.92, stark positiv linear
  3. r = 0.45, moderat positiv linear
  4. r = -0.7, moderat negativ linear

Übung 4

Aufgabe

In einer longitudinalen Studie wurde untersucht, wie sich der IQ bei Menschen, welche im Koma lagen, erholt. Aufgrund vieler fehlender Werte (missing values), wurde der Original-Datensatz für diese Übung gekürzt. Der Datensatz “IQ_recovery.csv” umfasst folgende Variablen:

  • days: IQ-Messzeitpunkt: Anzahl Tage seit dem Koma
  • duration: Dauer des Komas in Tagen
  • sex: Geschlecht: «Female», «Male»
  • age: Alter zum Zeitpunkt der Verletzung
  • Piq_1: Performance IQ (z.B. mathematischer), Zeitpunkt 1
  • viq_1: Verbaler IQ, Zeitpunkt 1
  • Piq_2 Performance IQ (z.B. mathematischer), Zeitpunkt 2
  • viq_2 Verbaler IQ, Zeitpunkt 2

Höhere Punkte entsprechen einem besser IQ.

[Quelle:] (https://vincentarelbundock.github.io/Rdatasets/doc/carData/Wong.html)

Es soll analysiert werden, ob die Dauer des Komas mit dem Performance IQ zum ersten Messzeitpunkt korreliert.

  1. Laden Sie den Datensatz “IQ_recovery.csv” in RStudio
  2. Formulieren Sie Ihre Hypothesen.
  3. Erstellen Sie eine geeignete Grafik, um einen potentiellen Zusammenhang zu visualisieren.
  4. Führen Sie eine geeignte Korrelationsanalyse durch.
  5. Interpretieren Sie ihr Resultat.

Lösung

  1. Laden Sie den Datensatz “IQ_recovery.csv” in RStudio
library(rio)
IQ <-import("C:/Users/koar/OneDrive - Kt. SG BLD/Dokumente/Rkurs24/IQ_recovery.csv")
  1. Formulieren Sie Ihre Hypothesen.
  • H0: Es besteht kein Zusammenhang zwischen der Dauer des Komas und dem Performance IQ zum ersten Messzeitpunkt
  • HA: Es besteht ein Zusammenhang zwischen der Dauer des Komas und dem Performance IQ zum ersten Messzeitpunkt
  1. Erstellen Sie eine geeignete Grafik, um einen potentiellen Zusammenhang zu visualisieren. piq_1 ist die abhängige Variable und muss darum auf der y-Achse präsentiert werden.
plot(IQ$duration, IQ$piq_1, xlab = "Dauer des Komas in Tagen", ylab = "Performance IQ")

  1. Führen Sie eine geeignete Korrelationsanalyse durch.

In der Grafik ist gut ersichtlich, dass es sich nicht um einen linearen Zusammenhang handelt. Folglich sollte der Korrelationskoeffizient nach Spearhman berechnet werden.

cor.test(IQ$duration, IQ$piq_1, method = "spearman")
## Warning in cor.test.default(IQ$duration, IQ$piq_1, method = "spearman"): Kann
## exakten p-Wert bei Bindungen nicht berechnen
#Warnung: Kann exakten p-Wert bei Bindungen nicht berechnen
    #Spearman's rank correlation rho

# data:  IQ$duration and IQ$piq_1
# S = 56538, p-value = 5.02e-05
# alternative hypothesis: true rho is not equal to 0
# sample estimates:
#      rho 
# -0.4949198 
  1. Interpretieren Sie ihr Resultat.

Geprüft wurde ein Zusammenhang zwischen der Dauer des Komas und dem Performance IQ zum ersten Messzeitpunkt. Die Korrelationsanalyse ergab einen negativen Zusammenhang: rs = -0.495, p < 0.001. Somit liegt Evidenz gehen H0 vor: Je länger jemand im Koma liegt, desto tiefer ist der der Performance IQ. Weil es sich bei Korrelationskoeffizient nach Spearman um ein nicht-parametrsiches Verfahren handelt, wird kein Konfidenzintervall angegeben.

Übung 5

Um Zusammenhänge richtig zu interpretieren ist es wichtig, stets die Grafiken anzuschauen. Um dies zu verdeutlichen analysieren wir den Datensatz “anscombe.csv”. Dieser besteht aus 4 x-y-Kombinationen (x1-y1, x2-y2 etc) die alle die gleichen statistischen Merkmale (Mittelwert, Standardabweichung, Korrelationskoeffizient nach Pearson etc. aufweisen) und trotzdem völlig unterschiedlich sind.

Aufgabe

  1. Laden Sie den Datensatz “anscombe.csv” in RStudio.
  2. Berechnen Sie Mittelwert und Standardabweichung für jede Variable. Was fällt Ihnen auf?
  3. Berechnen Sie die Korrelationskoeffizienten nach Pearson für die 4 x-y-Paare.
  4. Erstellen Sie für jedes x-y-Paar eine Grafik. Erklären Sie die Ergebnisse dieser Übung.

Lösung

  1. Laden Sie den Datensatz “anscombe.csv” in RStudio.
data <- import("C:/Users/koar/OneDrive - Kt. SG BLD/Dokumente/Rkurs24/anscombe.csv")
  1. Berechnen Sie Mittelwert und Standardabweichung für jede Variable. Was fällt Ihnen auf?

Theoretisch kann man jede Berechnung manuell durchführen. Das ist aber etwas aufwängig, weshalb hier noch eine Alternative gezeigt wird.

mean(data$x1)
mean(data$x2)
mean(data$x3)
mean(data$x4)

mean(data$y1)
mean(data$y2)
mean(data$y3)
mean(data$y4)

sd(data$x1)
sd(data$x2)
sd(data$x3)
sd(data$x4)

sd(data$y1)
sd(data$y2)
sd(data$y3)
sd(data$y4)
sapply(data, mean)
sapply(data, sd)
  • x-Variablen haben alle den gleichen Mittelwert 9 und die gleiche Standardabweichung 3.32.
  • y-Variablen haben alle den gleichen Mittelwert 7.5 und die gleiche Standardabweichung 2.03
  1. Berechnen Sie die Korrelationskoeffizienten nach Pearson für die vier x-y-Paare.
cor(data$x1, data$y1)
cor(data$x2, data$y2)
cor(data$x3, data$y3)
cor(data$x4, data$y4)
  • Bis auf die 3. Stelle nach dem Komma sind alle Korrelationskoeffizienten gleich und weisen auf einen starken Zusammenhang hin.
  1. Erstellen Sie für jedes x-y-Paar eine Grafik.
plot(data$x1, data$y1)

plot(data$x2, data$y2)

plot(data$x3, data$y3)

plot(data$x4, data$y4)

1. Das erste Datenpaar entspricht recht gut einem linearen Zusammenhang.

  1. Das zweite Datenpaar zeigt keinen linearen Zusammenhang.

  2. Das dritte Datenpaar zeigt einen Ausreisser, der nicht mit einem linearen Modell vereinbar ist.

  3. Das vierte Datenpaar zeigt ebenfalls einen Ausreisser, der nicht mit einem linearen Modell vereinbar ist.

Übung 6

Hier ein Beispiel dafür, dass man mit Korrelationen jeden Unsinn “beweisen” kann.

2020 publizierte Pavlo Blavatskyy eine Studie, in der der Zusammenhang des BMI der Minister von 15 Postsowjet-Staaten und dem Korruptionslevel untersucht wurde. Er ermittelte mit Hilfe von Machine-Learning-Algorithmen anhand von Fotografien der Minister deren BMI und verglich diesen mit 5 Korruptionsindizes [@corruption]. 2021 wurde Blavatskyy der Ig-Nobelpreis wikipedia für diese Publikation verliehen Improbable Research.

Für diese Aufgabe wird nur der Korruptionsindex CPI von Transparancy International berücksichtigt (die anderen 4 stehen im Datensatz für eigene Analysen zur Verfügung). Der CPI 2020 umfasst 180 Länder, die auf einer Skala von 0 (hohes Maß an wahrgenommener Korruption) bis 100 (keine wahrgenommene Korruption) angeordnet werden. Weltweit erreichen mehr als zwei Drittel aller Länder eine Punktzahl von unter 50 Punkten, das heisst wengier als die Hälfte der möglichen Punktzahl. Der Durchschnitt liegt bei nur 43 Punkten.

Der Index fasst 13 Einzelindizes von 12 unabhängigen Institutionen zusammen und beruht auf Daten aus der Befragung von Expertinnen und Experten, Umfragen sowie weiteren Untersuchungen. Der Korruptionswahrnehmungsindex bezieht sich dabei auf den öffentlichen Sektor und erfasst keine Aktivitäten wie Steuerbetrug, Geldwäsche, illegale Finanzströme oder andere Formen der Korruption im privaten Sektor. Transparency International

Wir arbeiten mit dem Datensatz “corruption.csv”.

Übung 7

Fragestellung: Besteht ein Zusammenhang zwischen dem BMI von Ministern ehemaliger Sowjet-Staaten und dem Korruptionsindex CPI Corruption_Perceptions_Index_2017.

Aufgabe

  1. Laden Sie den Datensatz “corruption.csv2 in RStudio.
  2. Formulieren Sie Ihre Hypothesen.
  3. Erstellen Sie ein Streudiagramm und führen Sie eine Korrelationsanalyse durch.
  4. Interpretieren Sie ihr Resultat.

Lösung

  1. Laden Sie den Datensatz “corruption.csv” in RStudio.
corruption <- import("C:/Users/koar/OneDrive - Kt. SG BLD/Dokumente/Rkurs24/corruption.csv")
  1. Erstellen Sie ein Streudiagramm und führen Sie eine Korrelationsanalyse durch.
plot(corruption$Median_BMI, corruption$Corruption_Perceptions_Index_2017)

cor.test(corruption$Median_BMI, corruption$Corruption_Perceptions_Index_2017)
cor.test(corruption$Median_BMI, corruption$Corruption_Perceptions_Index_2017, method = "spearman")
## Warning in cor.test.default(corruption$Median_BMI,
## corruption$Corruption_Perceptions_Index_2017, : Kann exakten p-Wert bei
## Bindungen nicht berechnen
  1. Interpretieren Sie ihr Resultat.

Die Daten zeigen einen signifikanten linearen Zusammenhang zwischen dem BMI und dem Korruptionsindex. Nimmt der BMI zu, sinkt der Korrupitionsindex (und verschlechtert sich damit). Mit r = -0.927 [-0.976, -0.789], p < .0001 ist der Zusammenhang sehr stark.

Je höher der Korruptionsindex, desto geringer ist die Korruption, d.h. es besteht ein negativer Zusammenhang zwischen Korruptionsindex und Korruption. Die Aussage ist wenig intuitiv und wird besser verständlich, wenn wir den Corruption_Perceptions_Index_2017 transformieren, so dass ein Korruptionsindex von 0 keiner Korruption und ein Korruptionsindex von 100 maximaler Korruption entspricht:

Corruption_Perceptions_Index_2017_t = 100 - Corruption_Perceptions_Index_2017

Corruption_Perceptions_Index_2017_t <- 100 - corruption$Corruption_Perceptions_Index_2017

plot(corruption$Median_BMI, Corruption_Perceptions_Index_2017_t)

Die Aussage dieser Grafik ist intuitiv besser verständlich: Es besteht ein starker positiver linearer Zusammenhang zwischen BMI und Korruption; mit zunehmendem BMI der Minister steigt auch die Korruption im Land. Der Korrelationskoeffizient wird durch diese Transformation nicht beeinflusst.

Anmerkung: Die Art der Fragestellung, die Methodik der Studie und die Schlussfolgerung sind äusserst fragwürdig. Die Studie von Pavlo Blavatskyy wurde in der Presse und von anderen Forscher:innen massiv kritisiert, z.B. hier Link…..