In der Statistik beschreibt die Korrelation den Grad und die Richtung des linearen Zusammenhangs zwischen zwei Variablen. Sie wird durch den Korrelationskoeffizienten \(r\) quantifiziert, der einen Wert zwischen -1 und 1 annehmen kann:
r=1 : Perfekte positive Korrelation (wenn eine Variable steigt, steigt die andere ebenfalls).
r=-1 : Perfekte negative Korrelation (wenn eine Variable steigt, sinkt die andere).
r=0 : Keine lineare Korrelation (keine erkennbare lineare Beziehung zwischen den Variablen).
Entscheide für jede der 6 Grafiken, ob ein starker, moderater oder schwacher Zusammenhang zwischen den Variablen besteht und ob ein lineares Modell gültig ist.
Das Great Britain Office of Population Census and Surveys sammelte einst Daten aus einer Zufallsstichprobe von verheirateten Paaren. Erfragt wurden Alter und Körpergrösse von Ehegattin und Ehegatten.
Welcher Korrelationskoeffizient nach Pearson passt zu welcher Grafik?
In einer longitudinalen Studie wurde untersucht, wie sich der IQ bei Menschen, welche im Koma lagen, erholt. Aufgrund vieler fehlender Werte (missing values), wurde der Original-Datensatz für diese Übung gekürzt. Der Datensatz “IQ_recovery.csv” umfasst folgende Variablen:
Höhere Punkte entsprechen einem besser IQ.
[Quelle:] (https://vincentarelbundock.github.io/Rdatasets/doc/carData/Wong.html)
Es soll analysiert werden, ob die Dauer des Komas mit dem Performance IQ zum ersten Messzeitpunkt korreliert.
library(rio)
IQ <-import("C:/Users/koar/OneDrive - Kt. SG BLD/Dokumente/Rkurs24/IQ_recovery.csv")
plot(IQ$duration, IQ$piq_1, xlab = "Dauer des Komas in Tagen", ylab = "Performance IQ")
In der Grafik ist gut ersichtlich, dass es sich nicht um einen linearen Zusammenhang handelt. Folglich sollte der Korrelationskoeffizient nach Spearhman berechnet werden.
cor.test(IQ$duration, IQ$piq_1, method = "spearman")
## Warning in cor.test.default(IQ$duration, IQ$piq_1, method = "spearman"): Kann
## exakten p-Wert bei Bindungen nicht berechnen
#Warnung: Kann exakten p-Wert bei Bindungen nicht berechnen
#Spearman's rank correlation rho
# data: IQ$duration and IQ$piq_1
# S = 56538, p-value = 5.02e-05
# alternative hypothesis: true rho is not equal to 0
# sample estimates:
# rho
# -0.4949198
Geprüft wurde ein Zusammenhang zwischen der Dauer des Komas und dem Performance IQ zum ersten Messzeitpunkt. Die Korrelationsanalyse ergab einen negativen Zusammenhang: rs = -0.495, p < 0.001. Somit liegt Evidenz gehen H0 vor: Je länger jemand im Koma liegt, desto tiefer ist der der Performance IQ. Weil es sich bei Korrelationskoeffizient nach Spearman um ein nicht-parametrsiches Verfahren handelt, wird kein Konfidenzintervall angegeben.
Um Zusammenhänge richtig zu interpretieren ist es wichtig, stets die Grafiken anzuschauen. Um dies zu verdeutlichen analysieren wir den Datensatz “anscombe.csv”. Dieser besteht aus 4 x-y-Kombinationen (x1-y1, x2-y2 etc) die alle die gleichen statistischen Merkmale (Mittelwert, Standardabweichung, Korrelationskoeffizient nach Pearson etc. aufweisen) und trotzdem völlig unterschiedlich sind.
data <- import("C:/Users/koar/OneDrive - Kt. SG BLD/Dokumente/Rkurs24/anscombe.csv")
Theoretisch kann man jede Berechnung manuell durchführen. Das ist aber etwas aufwängig, weshalb hier noch eine Alternative gezeigt wird.
mean(data$x1)
mean(data$x2)
mean(data$x3)
mean(data$x4)
mean(data$y1)
mean(data$y2)
mean(data$y3)
mean(data$y4)
sd(data$x1)
sd(data$x2)
sd(data$x3)
sd(data$x4)
sd(data$y1)
sd(data$y2)
sd(data$y3)
sd(data$y4)
sapply(data, mean)
sapply(data, sd)
cor(data$x1, data$y1)
cor(data$x2, data$y2)
cor(data$x3, data$y3)
cor(data$x4, data$y4)
plot(data$x1, data$y1)
plot(data$x2, data$y2)
plot(data$x3, data$y3)
plot(data$x4, data$y4)
1. Das erste Datenpaar entspricht recht gut einem linearen
Zusammenhang.
Das zweite Datenpaar zeigt keinen linearen Zusammenhang.
Das dritte Datenpaar zeigt einen Ausreisser, der nicht mit einem linearen Modell vereinbar ist.
Das vierte Datenpaar zeigt ebenfalls einen Ausreisser, der nicht mit einem linearen Modell vereinbar ist.
Hier ein Beispiel dafür, dass man mit Korrelationen jeden Unsinn “beweisen” kann.
2020 publizierte Pavlo Blavatskyy eine Studie, in der der Zusammenhang des BMI der Minister von 15 Postsowjet-Staaten und dem Korruptionslevel untersucht wurde. Er ermittelte mit Hilfe von Machine-Learning-Algorithmen anhand von Fotografien der Minister deren BMI und verglich diesen mit 5 Korruptionsindizes [@corruption]. 2021 wurde Blavatskyy der Ig-Nobelpreis wikipedia für diese Publikation verliehen Improbable Research.
Für diese Aufgabe wird nur der Korruptionsindex CPI von Transparancy International berücksichtigt (die anderen 4 stehen im Datensatz für eigene Analysen zur Verfügung). Der CPI 2020 umfasst 180 Länder, die auf einer Skala von 0 (hohes Maß an wahrgenommener Korruption) bis 100 (keine wahrgenommene Korruption) angeordnet werden. Weltweit erreichen mehr als zwei Drittel aller Länder eine Punktzahl von unter 50 Punkten, das heisst wengier als die Hälfte der möglichen Punktzahl. Der Durchschnitt liegt bei nur 43 Punkten.
Der Index fasst 13 Einzelindizes von 12 unabhängigen Institutionen zusammen und beruht auf Daten aus der Befragung von Expertinnen und Experten, Umfragen sowie weiteren Untersuchungen. Der Korruptionswahrnehmungsindex bezieht sich dabei auf den öffentlichen Sektor und erfasst keine Aktivitäten wie Steuerbetrug, Geldwäsche, illegale Finanzströme oder andere Formen der Korruption im privaten Sektor. Transparency International
Wir arbeiten mit dem Datensatz “corruption.csv”.
Fragestellung: Besteht ein Zusammenhang zwischen dem BMI von Ministern ehemaliger Sowjet-Staaten und dem Korruptionsindex CPI Corruption_Perceptions_Index_2017.
corruption <- import("C:/Users/koar/OneDrive - Kt. SG BLD/Dokumente/Rkurs24/corruption.csv")
plot(corruption$Median_BMI, corruption$Corruption_Perceptions_Index_2017)
cor.test(corruption$Median_BMI, corruption$Corruption_Perceptions_Index_2017)
cor.test(corruption$Median_BMI, corruption$Corruption_Perceptions_Index_2017, method = "spearman")
## Warning in cor.test.default(corruption$Median_BMI,
## corruption$Corruption_Perceptions_Index_2017, : Kann exakten p-Wert bei
## Bindungen nicht berechnen
Die Daten zeigen einen signifikanten linearen Zusammenhang zwischen dem BMI und dem Korruptionsindex. Nimmt der BMI zu, sinkt der Korrupitionsindex (und verschlechtert sich damit). Mit r = -0.927 [-0.976, -0.789], p < .0001 ist der Zusammenhang sehr stark.
Je höher der Korruptionsindex, desto geringer ist die Korruption, d.h. es besteht ein negativer Zusammenhang zwischen Korruptionsindex und Korruption. Die Aussage ist wenig intuitiv und wird besser verständlich, wenn wir den Corruption_Perceptions_Index_2017 transformieren, so dass ein Korruptionsindex von 0 keiner Korruption und ein Korruptionsindex von 100 maximaler Korruption entspricht:
Corruption_Perceptions_Index_2017_t = 100 - Corruption_Perceptions_Index_2017
Corruption_Perceptions_Index_2017_t <- 100 - corruption$Corruption_Perceptions_Index_2017
plot(corruption$Median_BMI, Corruption_Perceptions_Index_2017_t)
Die Aussage dieser Grafik ist intuitiv besser verständlich: Es besteht ein starker positiver linearer Zusammenhang zwischen BMI und Korruption; mit zunehmendem BMI der Minister steigt auch die Korruption im Land. Der Korrelationskoeffizient wird durch diese Transformation nicht beeinflusst.
Anmerkung: Die Art der Fragestellung, die Methodik der Studie und die Schlussfolgerung sind äusserst fragwürdig. Die Studie von Pavlo Blavatskyy wurde in der Presse und von anderen Forscher:innen massiv kritisiert, z.B. hier Link…..