Entscheide für jede der 6 Grafiken, ob ein starker, moderater oder schwacher Zusammenhang zwischen den Variablen besteht und ob ein lineares Modell gültig ist.
Das Great Britain Office of Population Census and Surveys sammelte einst Daten aus einer Zufallsstichprobe von verheirateten Paaren. Erfragt wurden Alter und Körpergrösse von Ehegattin und Ehegatten.
Welcher Korrelationskoeffizient nach Pearson passt zu welcher Grafik?
Plot a) \(r = 0.06\), nicht
linear
Plot b) \(r = 0.92\), stark positiv
linear
Plot c) \(r = 0.45\), moderat positiv
linear
Plot d) \(r = -0.7\), moderat negativ
linear
In einer longitudinalen Studie wurde untersucht, wie sich der IQ bei Menschen, welche im Koma lagen, erholt. Aufgrund vieler fehlender Werte (missing values), wurde der Original-Datensatz für diese Übung gekürzt. Der Datensatz “IQ_recovery.csv” umfasst folgende Variablen:
days
: IQ-Messzeitpunkt: Anzahl Tage seit dem Komaduration
: Dauer des Komas in Tagensex
: Geschlecht: «Female», «Male»age
: Alter zum Zeitpunkt der VerletzungPiq_1
: Performance IQ (z.B. mathematischer), Zeitpunkt
1viq_1
: Verbaler IQ, Zeitpunkt 1Piq_2
Performance IQ (z.B. mathematischer), Zeitpunkt
2viq_2
Verbaler IQ, Zeitpunkt 2Höhere Punkte entsprechen einem besser IQ (Quelle)
Es soll analysiert werden, ob die Dauer des Komas mit dem Performance IQ zum ersten Messzeitpunkt korreliert.
piq_1
ist die abhängige Variable und muss darum auf der
y-Achse präsentiert werden.
In der Grafik ist gut ersichtlich, dass es sich nicht um einen linearen Zusammenhang handelt. Folglich sollte der Korrelationskoeffizient nach Spearman berechnet werden.
##
## Spearman's rank correlation rho
##
## data: IQ$duration and IQ$piq_1
## S = 56538, p-value = 5e-05
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
## rho
## -0.495
Geprüft wurde ein Zusammenhang zwischen der Dauer des Komas und dem Performance IQ zum ersten Messzeitpunkt. Die Korrelationsanalyse ergab einen negativen Zusammenhang: \(r_{s}\) = -0.495, p < 0.001. Somit liegt Evidenz gehen \(H_{0}\) vor: Je länger jemand im Koma liegt, desto tiefer ist der Performance IQ. Weil es sich bei Korrelationskoeffizient nach Spearman um ein nicht-parametrsiches Verfahren handelt, wird kein Konfidenzintervall angegeben.
Um Zusammenhänge richtig zu interpretieren ist es wichtig, stets die Grafiken anzuschauen. Um dies zu verdeutlichen analysieren wir den Datensatz “anscombe.csv”. Dieser besteht aus 4 x-y-Kombinationen (x1-y1, x2-y2 etc.) die alle die gleichen statistischen Merkmale (Mittelwert, Standardabweichung, Korrelationskoeffizient nach Pearson etc. aufweisen) und trotzdem völlig unterschiedlich sind.
Theoretisch kann man jede Berechnung manuell durchführen. Das ist aber etwas aufwängig, weshalb hier noch eine Alternative gezeigt wird.
mean(data$x1)
mean(data$x2)
mean(data$x3)
mean(data$x4)
mean(data$y1)
mean(data$y2)
mean(data$y3)
mean(data$y4)
sd(data$x1)
sd(data$x2)
sd(data$x3)
sd(data$x4)
sd(data$y1)
sd(data$y2)
sd(data$y3)
sd(data$y4)
## x1 x2 x3 x4 y1 y2 y3 y4
## 9.0 9.0 9.0 9.0 7.5 7.5 7.5 7.5
## x1 x2 x3 x4 y1 y2 y3 y4
## 3.32 3.32 3.32 3.32 2.03 2.03 2.03 2.03
## [1] 0.816
## [1] 0.816
## [1] 0.816
## [1] 0.817
Hier ein Beispiel dafür, dass man mit Korrelationen jeden Unsinn “beweisen” kann.
2020 publizierte Pavlo Blavatskyy eine Studie, in der der Zusammenhang des BMI der Minister von 15 Postsowjet-Staaten und dem Korruptionslevel untersucht wurde. Er ermittelte mit Hilfe von Machine-Learning-Algorithmen anhand von Fotografien der Minister deren BMI und verglich diesen mit 5 Korruptionsindizes. 2021 wurde Blavatskyy der Ig-Nobelpreis wikipedia für diese Publikation verliehen Improbable Research.
Für diese Aufgabe wird nur der Korruptionsindex CPI von Transparancy International berücksichtigt (die anderen 4 stehen im Datensatz für eigene Analysen zur Verfügung). Der CPI 2020 umfasst 180 Länder, die auf einer Skala von 0 (hohes Maß an wahrgenommener Korruption) bis 100 (keine wahrgenommene Korruption) angeordnet werden. Weltweit erreichen mehr als zwei Drittel aller Länder eine Punktzahl von unter 50 Punkten, das heisst wengier als die Hälfte der möglichen Punktzahl. Der Durchschnitt liegt bei nur 43 Punkten.
Der Index fasst 13 Einzelindizes von 12 unabhängigen Institutionen zusammen und beruht auf Daten aus der Befragung von Expertinnen und Experten, Umfragen sowie weiteren Untersuchungen. Der Korruptionswahrnehmungsindex bezieht sich dabei auf den öffentlichen Sektor und erfasst keine Aktivitäten wie Steuerbetrug, Geldwäsche, illegale Finanzströme oder andere Formen der Korruption im privaten Sektor. Transparency International
Wir arbeiten mit dem Datensatz “corruption.csv”.
Fragestellung: Besteht ein Zusammenhang zwischen dem BMI von Ministern ehemaliger Sowjet-Staaten und dem Korruptionsindex CPI?
# Blavatskyy, P. Obesity of politicians and corruption in post-Soviet countries. Econ Transit Institut Change. 2021; 29: 343– 356. https://doi.org/10.1111/ecot.12259
plot(corruption$Median_BMI, corruption$Corruption_Perceptions_Index_2017)
##
## Pearson's product-moment correlation
##
## data: corruption$Median_BMI and corruption$Corruption_Perceptions_Index_2017
## t = -9, df = 13, p-value = 7e-07
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## -0.976 -0.789
## sample estimates:
## cor
## -0.927
##
## Spearman's rank correlation rho
##
## data: corruption$Median_BMI and corruption$Corruption_Perceptions_Index_2017
## S = 1033, p-value = 7e-05
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
## rho
## -0.845
Die Daten zeigen einen signifikanten linearen Zusammenhang zwischen dem BMI und dem Korruptionsindex. Nimmt der BMI zu, sinkt der Korrupitionsindex (und verschlechtert sich damit). Mit \(r\) = -0.927 [-0.976, -0.789], p < .0001 ist der Zusammenhang sehr stark.
Je höher der Korruptionsindex, desto geringer ist die Korruption,
d.h. es besteht ein negativer Zusammenhang zwischen Korruptionsindex und
Korruption. Die Aussage ist wenig intuitiv und wird besser verständlich,
wenn wir den CPI transformieren, so dass ein Korruptionsindex von 0
keiner Korruption und ein Korruptionsindex von 100 maximaler Korruption
entspricht:
Corruption_Perceptions_Index_2017_t <- 100 - corruption$Corruption_Perceptions_Index_2017
plot(corruption$Median_BMI, Corruption_Perceptions_Index_2017_t)
Die Aussage dieser Grafik ist intuitiv besser verständlich: Es besteht ein starker positiver linearer Zusammenhang zwischen BMI und Korruption; mit zunehmendem BMI der Minister steigt auch die Korruption im Land. Der Korrelationskoeffizient wird durch diese Transformation nicht beeinflusst.
Anmerkung: Die Art der Fragestellung, die Methodik der Studie und die
Schlussfolgerung sind äusserst fragwürdig. Die Studie von Pavlo
Blavatskyy wurde in der Presse und von anderen Forscher:innen massiv
kritisiert, z.B. hier.