Entscheiden Sie für jede der sechs Grafiken, ob ein starker, moderater oder schwacher Zusammenhang zwischen den Variablen besteht und ob ein lineares Modell gültig ist.
Das Great Britain Office of Population Census and Surveys sammelte einst Daten aus einer Zufallsstichprobe von verheirateten Paaren. Erfragt wurden Alter und Körpergrösse von Ehegattin und Ehegatten.
Welcher Korrelationskoeffizient nach Pearson passt zu welcher Grafik?
Plot a) r = 0.06, nicht linearer Zusammenhang
Plot b) r = 0.92, stark positiv linearer Zusammenhang
Plot c) r = 0.45, moderat positiv linearer Zusammenhang
Plot d) r = -0.7, moderat negativ linearer Zusammenhang
Besteht ein Zusammenhang zwischen Körpergrösse und Schuhgrösse bei
den Physiotherapie-Studierenden. Arbeiten Sie mit dem Datensatz
physio.csv bzw. physio.omv, den Sie bereits
früher erstellt haben.
physio.csv bzw.
physio.omv in jamovi.Groesse und Schuhgroesse in
VariablesGroesse in X-Axis, Schuhgroesse
in Y-Axis##
## DESCRIPTIVES
##
## Descriptives
## ──────────────────────────────────────────────────
## Groesse Schuhgroesse
## ──────────────────────────────────────────────────
## N 228 228
## Missing 0 0
## Mean 169.4781 39.27193
## Median 168.0000 39.00000
## Standard deviation 7.764397 2.448717
## Minimum 148.0000 35.00000
## Maximum 198.0000 48.00000
## ──────────────────────────────────────────────────
Groesse und
Schuhgroesse als Variablen auswählen > Correlation
Coefficients > Häkchen bei Pearson setzen >
Additional Options > Häkchen bei Report
significance und Confidence intervals setzen.##
## CORRELATION MATRIX
##
## Correlation Matrix
## ──────────────────────────────────────────────────────────────
## Groesse Schuhgroesse
## ──────────────────────────────────────────────────────────────
## Groesse Pearson's r —
## p-value —
## 95% CI Upper —
## 95% CI Lower —
##
## Schuhgroesse Pearson's r 0.8545966 —
## p-value < .0000001 —
## 95% CI Upper 0.8861315 —
## 95% CI Lower 0.8151841 —
## ──────────────────────────────────────────────────────────────
Um Zusammenhänge richtig zu interpretieren, ist es wichtig, stets als
Erstes die Grafiken anzuschauen. Um dies zu illustrieren, analysieren
wir den Datensatz anscombe.csv. Dieser besteht aus 4
x-y-Kombinationen (x1-y1, x2-y2 etc) die alle die gleichen statistischen
Merkmale (Mittelwert, Standardabweichung, Korrelationskoeffizient nach
Pearson etc. aufweisen) und trotzdem völlig unterschiedlich sind.
Laden Sie den Datensatz anscombe.csv in
jamovi.
Laden Sie den Datensatz anscombe.csv in
jamovi. Sie müssen die x1 -
x4-Variablen in jamovi als continuous-integer
kategorisieren.
Berechnen Sie Mittelwert und Standardabweichung für jede
Variable. Was fällt Ihnen auf?
Berechnen Sie die Korrelationskoeffizienten nach Pearson \(p\) für die 4 x-y-Paare.
Erstellen Sie für jedes x-y-Paar eine Grafik.
x1 - y4 als Variables auswählen.##
## DESCRIPTIVES
##
## Descriptives
## ──────────────────────────────────────────────────────────────────────────────────────────────────────────────────────
## x1 x2 x3 x4 y1 y2 y3 y4
## ──────────────────────────────────────────────────────────────────────────────────────────────────────────────────────
## N 11 11 11 11 11 11 11 11
## Mean 9.000000 9.000000 9.000000 9.000000 7.500909 7.500909 7.500000 7.500909
## Standard deviation 3.316625 3.316625 3.316625 3.316625 2.031568 2.031657 2.030424 2.030579
## ──────────────────────────────────────────────────────────────────────────────────────────────────────────────────────
x-Variablen haben alle den gleichen Mittelwert 9
und die gleiche Standardabweichung 3.32.y-Variablen haben alle den gleichen Mittelwert 7.5
und die gleiche Standardabweichung 2.03.Erstellen Sie eine Korrelationsmatrix mit allen x- und
y-Variablen. Lesen Sie den Korrelationskoeffizienten für die
zusammengehörenden Paare x1-y1, x2-y2,
x3-y3 und x4-y4 ab.
jamovi > Register Analyses >
Regression > Correlation Matrix > Alle Variablen
x1 - y4 als Variables auswählen >
Correlation Coefficients > Pearson auswählen >
in der angezeigten Korrelations-Matrix die Korrelationskoeffizienten für
die zusammengehörenden Paare ablesen.
##
## CORRELATION MATRIX
##
## Correlation Matrix
## ─────────────────────────────────────────────────────────────────────────────────────────────────────────────────────
## x1 x2 x3 x4 y1 y2 y3 y4
## ─────────────────────────────────────────────────────────────────────────────────────────────────────────────────────
## x1 —
## x2 1.0000000 —
## x3 1.0000000 1.0000000 —
## x4 -0.5000000 -0.5000000 -0.5000000 —
## y1 0.8164205 0.8164205 0.8164205 -0.5290927 —
## y2 0.8162365 0.8162365 0.8162365 -0.7184365 0.7500054 —
## y3 0.8162867 0.8162867 0.8162867 -0.3446610 0.4687167 0.5879193 —
## y4 -0.3140467 -0.3140467 -0.3140467 0.8165214 -0.4891162 -0.4780949 -0.1554718 —
## ─────────────────────────────────────────────────────────────────────────────────────────────────────────────────────
| Paar | \(r\) |
|---|---|
| x1-y1 | .8164 |
| x2-y2 | .8162 |
| x3-y3 | .8163 |
| x4-y4 | .8165 |
x1
in X-Axis und y1 in Y-Axis einfügen, Regression
Line > Häkchen bei Linear. Das Gleiche für die übrigen
drei Datenpaare x2-y2, x3-y3 und
x4-y4 wiederholen.x1-y1 entspricht recht gut einem
linearen Zusammenhang.x2-y2 zeigt keinen linearen
Zusammenhang.x3-y3 zeigt einen Ausreisser, der
nicht mit einem linearen Modell vereinbar ist.x4-y4zeigt ebenfalls ein Muster,
das nicht mit einem linearen Modell vereinbar ist.Der Datensatz calories5000.csv enthält anonymiserte
Fitbit-Daten von 5000 Proband:innen, die ein Training von geringer bis
moderater Intensität von max. 30 Min. Dauer absolviert haben.
Codebook: Der Datensatz umfasst n = 5’000 Proband:innen und 9 Variablen
| Variable | Beschreibung |
|---|---|
| User_ID | Benutzer anonym |
| Gender | Geschlecht, male, female |
| Age | Alter in Jahren |
| Height | Körpergrösse in cm |
| Weight | Körpergewicht in kg |
| Duration | Durchschnittliche Trainingsdauer |
| Heart_Rate | Durchschnittliche Herzfrequenz während einem Training |
| Body_Temp | Durchschnittliche Körpertemperatur während einem Training |
| Calories | Durchschnittlicher Kalorienverbrauch pro Training |
Laden Sie den Datensatz calories5000.csv in
jamovi.
Laden Sie den Datensatz calories5000.csv in
jamovi und kategorisieren Sie die Variablen. Speichern
Sie den Datensatz als calories5000.omv, wir benötigen ihn
wieder bei den Regressionsanalysen.
Finden Sie einen linearen Zusammenhang zwischen …
Finden Sie einen linearen Zusammenhang zwischen …
Heart_Rate, Y-Axis: Calories >
Group: Gender > Regression Line:
Linear.Interpretation: Es besteht ein positiver Zusammenhang zwischen Kalorienverbrauch und Herzfrequenz. Ein linearer Zusammenhang ist fraglich. Damit ist diese Voraussetzung für den Korralationskoeffizienten nach Pearson nicht erfüllt und wir entscheiden für den Rangkorrelationskoeffizienten nach Spearman \(r_s\). (für Nerds: Wählen Sie unter Regression Line: Smooth und Sie erkennen, dass der wahre Zusammenhang einer schwach S-förmig gekrümmten Kurve folgt.)
jamovi > Register Analyses >
Regression > Correlation Matrix > Wählen Sie die
Variablen Heart_Rate und Calories aus (für den
Korrelationskoeffizienten ist die Reihenfolge irrelevant) >
Correlation Coefficients: Spearman > Additional
Options: Häkchen bei Report significance.
##
## CORRELATION MATRIX
##
## Correlation Matrix
## ───────────────────────────────────────────────────────────
## Heart_Rate Calories
## ───────────────────────────────────────────────────────────
## Heart_Rate Spearman's rho —
## p-value —
##
## Calories Spearman's rho 0.9169651 —
## p-value < .0000001 —
## ───────────────────────────────────────────────────────────
##
## CORRELATION MATRIX
##
## Correlation Matrix
## ──────────────────────────────────────────────────────────
## Body_Temp Calories
## ──────────────────────────────────────────────────────────
## Body_Temp Spearman's rho —
## p-value —
##
## Calories Spearman's rho 0.9185212 —
## p-value < .0000001 —
## ──────────────────────────────────────────────────────────
##
## CORRELATION MATRIX
##
## Correlation Matrix
## ───────────────────────────────────────────────────────────
## Heart_Rate Body_Temp
## ───────────────────────────────────────────────────────────
## Heart_Rate Spearman's rho —
## p-value —
##
## Body_Temp Spearman's rho 0.8144434 —
## p-value < .0000001 —
## ───────────────────────────────────────────────────────────
##
## CORRELATION MATRIX
##
## Correlation Matrix
## ────────────────────────────────────────────────────────
## Age Duration
## ────────────────────────────────────────────────────────
## Age Pearson's r —
## p-value —
## Spearman's rho —
## p-value —
##
## Duration Pearson's r 0.0366568 —
## p-value 0.0095350 —
## Spearman's rho 0.0346048 —
## p-value 0.0144030 —
## ────────────────────────────────────────────────────────
Intensity = Heart_Rate * Duration##
## CORRELATION MATRIX
##
## Correlation Matrix
## ──────────────────────────────────────────────────────────
## Calories Intensity
## ──────────────────────────────────────────────────────────
## Calories Pearson's r —
## p-value —
## 95% CI Upper —
## 95% CI Lower —
## Spearman's rho —
## p-value —
##
## Intensity Pearson's r 0.9743146 —
## p-value < .0000001 —
## 95% CI Upper 0.9756833 —
## 95% CI Lower 0.9728699 —
## Spearman's rho 0.9849117 —
## p-value < .0000001 —
## ──────────────────────────────────────────────────────────
Trainingsintensität und
Kalorienverbrauch.Fragestellung: Besteht ein Zusammenhang zwischen dem Alter einer
Person und ihrer Performance beim 100-Meter-Sprint. Um die Frage zu
beantworten, messen wir von 6 Personen das Alter in Jahren, und die Zeit
für einen 100-Meter-Sprint in Sekunden. Die Ergebnisse sind im Datensatz
m100.csv abgelegt.
Codebook: Der Datensatz umfasst 6 Beobachtungseinheiten und 3 Variablen.
| Variable | Beschreibung |
|---|---|
| ID | Proband:in, A … F |
| jahre | Alter in Jahren |
| sec | Zeit für 100-m-Sprint in Sekunden |
Laden Sie den Datensatz m100.csv in
jamovi und kategorisieren Sie die Variablen
(jahre ist continuous-integer).
m100.csv in
jamovi.##
## CORRELATION MATRIX
##
## Correlation Matrix
## ─────────────────────────────────────────────────────
## jahre sec
## ─────────────────────────────────────────────────────
## jahre Pearson's r —
## p-value —
## Spearman's rho —
## p-value —
##
## sec Pearson's r 0.7301807 —
## p-value 0.0993819 —
## Spearman's rho 0.8285714 —
## p-value 0.0583333 —
## ─────────────────────────────────────────────────────
Hier ein Beispiel dafür, dass man mit Korrelationen jeden Unsinn “beweisen” kann.
2020 publizierte Pavlo Blavatskyy eine Studie, in der der Zusammenhang des BMI der Minister von 15 Postsowjet-Staaten und dem Korruptionslevel untersucht wurde. Er ermittelte mit Hilfe von Machine-Learning-Algorithmen anhand von Fotografien der Minister deren BMI und verglich diesen mit 5 Korruptionsindizes [@corruption]. 2021 wurde Blavatskyy der Ig-Nobelpreis wikipedia für diese Publikation verliehen Improbable Research.
Für diese Aufgabe wird nur der Korruptionsindex CPI von Transparancy International berücksichtigt (die anderen 4 stehen im Datensatz für eigene Analysen zur Verfügung). Der CPI 2020 umfasst 180 Länder, die auf einer Skala von 0 (hohes Maß an wahrgenommener Korruption) bis 100 (keine wahrgenommene Korruption) angeordnet werden. Weltweit erreichen mehr als zwei Drittel aller Länder eine Punktzahl von unter 50 Punkten, das heisst wengier als die Hälfte der möglichen Punktzahl. Der Durchschnitt liegt bei nur 43 Punkten.
Der Index fasst 13 Einzelindizes von 12 unabhängigen Institutionen zusammen und beruht auf Daten aus der Befragung von Expertinnen und Experten, Umfragen sowie weiteren Untersuchungen. Der Korruptionswahrnehmungsindex bezieht sich dabei auf den öffentlichen Sektor und erfasst keine Aktivitäten wie Steuerbetrug, Geldwäsche, illegale Finanzströme oder andere Formen der Korruption im privaten Sektor. Transparency International
Laden Sie den Datensatz corruption.csv in
jamovi.
Falls Sie sich für die Fotografien der Minister interessieren, anhand derer der BMI geschätzt wurde finden Sie diese hier.
Fragestellung: Besteht ein Zusammenhang zwischen dem BMI von Ministern ehemaliger Sowjet-Staaten und dem Korruptionsindex CPI Corruption_Perceptions_Index_2017.
corruption.csv in jamovi.Codebook (abgekürzt): Der Datensatz umfasst 7 Variablen zu 15 Ländern
| Variable | Beschreibung |
|---|---|
| Country | Postsowjet-Staat |
| Median_BMI | Geschätzter durchschnittlicher BMI der Minister:innen (Median) |
| Corruption_Perceptions_Index_2017 | Korruptionsindex CPI von Transparency International |
| … | weitere Korruptionsindizes |
##
## CORRELATION MATRIX
##
## Correlation Matrix
## ────────────────────────────────────────────────────────────────────────────────────────────────────────
## Median_BMI Corruption_Perceptions_Index_2017
## ────────────────────────────────────────────────────────────────────────────────────────────────────────
## Median_BMI Pearson's r —
## p-value —
## 95% CI Upper —
## 95% CI Lower —
##
## Corruption_Perceptions_Index_2017 Pearson's r -0.9267462 —
## p-value 0.0000007 —
## 95% CI Upper -0.7890977 —
## 95% CI Lower -0.9757729 —
## ────────────────────────────────────────────────────────────────────────────────────────────────────────
Die Daten zeigen einen signifikanten linearen Zusammenhang zwischen dem BMI und dem Korruptionsindex. Nimmt der BMI zu, sinkt der Korrupitionsindex (und verschlechtert sich damit). Mit \(p\) = -0.927 [-0.976, -0.789], p < .0001 ist der Zusammenhang sehr stark.
Je höher der Korruptionsindex, desto geringer ist die Korruption,
d.h. es besteht ein negativer Zusammenhang zwischen Korruptionsindex und
Korruption. Die Aussage ist wenig intuitiv und wird besser verständlich,
wenn wir den Corruption_Perceptions_Index_2017 transformieren, so dass
ein Korruptionsindex von 0 keiner Korruption und ein Korruptionsindex
von 100 maximaler Korruption entspricht:
jamovi > Register Data >
Compute > Corruption_Perceptions_Index_2017_t =
100 - Corruption_Perceptions_Index_2017
##
## CORRELATION MATRIX
##
## Correlation Matrix
## ────────────────────────────────────────────────────────────────────────────────────────────────────────────
## Median_BMI Corruption_Perceptions_Index_2017_t
## ────────────────────────────────────────────────────────────────────────────────────────────────────────────
## Median_BMI Pearson's r —
## p-value —
## 95% CI Upper —
## 95% CI Lower —
##
## Corruption_Perceptions_Index_2017_t Pearson's r 0.9267462 —
## p-value 0.0000007 —
## 95% CI Upper 0.9757729 —
## 95% CI Lower 0.7890977 —
## ────────────────────────────────────────────────────────────────────────────────────────────────────────────
Die Aussage dieser Grafik ist intuitiv besser verständlich: Es besteht ein starker positiver linearer Zusammenhang zwischen BMI und Korruption; mit zunehmendem BMI der Minister steigt auch die Korruption im Land. Der Korrelationskoeffizient wird durch diese Transformation nicht beeinflusst.
Anmerkung: Die Art der Fragestellung, die Methodik der Studie und die Schlussfolgerung sind äusserst fragwürdig. Die Studie von Pavlo Blavatskyy wurde in der Presse und von anderen Forscher:innen massiv kritisiert, z.B. hier.
Ist die Impfung gegen COVID-19 wirksam? Um diese Frage zu beantworten
verwenden wir den Datensatz impfquote_bag.csv mit den
Variablen Impfquote(% der kantonalen Bevölkerung, die
mindestens einmal geimpft sind) und inzsumTotal_last7d
(Covid-19 7-Tage-Inzidenz pro 100’000). Die Variable
geoRegion gibt die jeweiligen Kantone an. (Die Daten
stammen vom BAG. Sie wurden von Marius Brülhart aufbereitet und von Der
Bund online publiziert).
Formulieren Sie eine Fragestellung: Besteht ein Zusammenhang zwischen der kantonalen Impfquote und der kantonalen 7-Tage-Inzidenz an Covid-19-Infektionen.
Formulieren Sie die Hypothesen.
##
## CORRELATION MATRIX
##
## Correlation Matrix
## ──────────────────────────────────────────────────────────────────────────
## Impfquote inzsumTotal_last7d
## ──────────────────────────────────────────────────────────────────────────
## Impfquote Pearson's r —
## p-value —
## 95% CI Upper —
## 95% CI Lower —
##
## inzsumTotal_last7d Pearson's r -0.8323732 —
## p-value 0.0000001 —
## 95% CI Upper -0.6567817 —
## 95% CI Lower -0.9223423 —
## ──────────────────────────────────────────────────────────────────────────
Die Daten zeigen einen signifikanten linearen Zusammenhang zwischen kantonaler Impfquote und Covid-19 7-Tage-Inzidenz. Es besteht ein negativer Zusammenhang: Mit zunehmender Impfquote nimmt die Covid-19-Inzidenz ab (\(p\) = -0.832 [-0.922, -0.657], p < 0.0001)
Haben wir damit bewiesen, dass die Impfung wirksam ist? Nein! Auch wenn der Zusammenhang stark und signifikant ist, kann anhand dieser Analyse kein kausaler Zusammenhang zwischen Impfquote und Covid-19-Inzidenz bewiesen werden werden! Die Korrelation kann jedoch einen Hinweis für einen Kausalzusammenhang geben.