.csv-Format vor (header =
TRUE, sep = “,”, dec = “.”) und können direkt in jamovi geöffnet werden.
Es wird empfohlen, nach der Kategorisierung der Variablen in jamovi, die
Datei im jamovi-Format .omv zu speichern.[1] The jamovi project (2021). jamovi (Version 1.6) [Computer Software]. Retrieved from https://www.jamovi.org
Entscheide für jede der 6 Grafiken, ob ein starker, moderater oder schwacher Zusammenhang zwischen den Variablen besteht und ob ein lineares Modell gültig ist.
Das Great Britain Office of Population Census and Surveys sammelte einst Daten aus einer Zufallsstichprobe von verheirateten Paaren. Erfragt wurden Alter und Körpergrösse von Ehegattin und Ehegatten.
Welcher Korrelationskoeffizient nach Pearson passt zu welcher Grafik?
Plot a) r = 0.06, nicht linear
Plot b) r = 0.92, stark positiv linear
Plot c) r = 0.45, moderat positiv linear
Plot d) r = -0.7, moderat negativ linear
Besteht ein Zusammenhang zwischen Körpergrösse und Schuhgrösse bei
den Physiotherapie-Studierenden. Arbeiten Sie mit dem Datensatz
physio.csv bzw. physio.omv, den Sie bereits
früher erstellt haben.
physio.csv bzw.
physio.omv in jamovi.scatr).##
## DESCRIPTIVES
##
## Descriptives
## --------------------------------------------------
## Groesse Schuhgroesse
## --------------------------------------------------
## N 228 228
## Missing 0 0
## Mean 169.4781 39.27193
## Median 168.0000 39.00000
## Standard deviation 7.764397 2.448717
## Minimum 148.0000 35.00000
## Maximum 198.0000 48.00000
## --------------------------------------------------
## Warning in max(nchar(levels)): kein nicht-fehlendes Argument für max; gebe -Inf
## zurück
Wählen Sie in jamovi unter dem Register Regression >
Correlation Matrix
Geprüft wurde der Zusammenhang zwischen Körpergrösse und
Schuhgrösse. Die Korrelationsanalyse ergab einen positiven Zusammenhang
zwischen Körpergrösse und Schuhgrösse, \(p\) = .85 [.8152, .8861], p <
.0001.
Um Zusammenhänge richtig zu interpretieren ist es wichtig, stets die
Grafiken anzuschauen. Um dies zu verdeutlichen analysieren wir den
Datensatz anscombe.csv. Dieser besteht aus 4
x-y-Kombinationen (x1-y1, x2-y2 etc) die alle die gleichen statistischen
Merkmale (Mittelwert, Standardabweichung, Korrelationskoeffizient nach
Pearson etc. aufweisen) und trotzdem völlig unterschiedlich sind.
Laden Sie den Datensatz anscombe.csv hier
herunter.
anscombe.csv in jamovi. Sie
müssen die x-Variablen in jamovi als continuous
kategorisieren.##
## DESCRIPTIVES
##
## Descriptives
## ----------------------------------------------------------------------------------------------------------------------
## x1 x2 x3 x4 y1 y2 y3 y4
## ----------------------------------------------------------------------------------------------------------------------
## N 11 11 11 11 11 11 11 11
## Mean 9.000000 9.000000 9.000000 9.000000 7.500909 7.500909 7.500000 7.500909
## Standard deviation 3.316625 3.316625 3.316625 3.316625 2.031568 2.031657 2.030424 2.030579
## ----------------------------------------------------------------------------------------------------------------------
##
## CORRELATION MATRIX
##
## Correlation Matrix
## ---------------------------------------------------------------------------------------------------------------------
## x1 x2 x3 x4 y1 y2 y3 y4
## ---------------------------------------------------------------------------------------------------------------------
## x1 —
## x2 1.0000000 —
## x3 1.0000000 1.0000000 —
## x4 -0.5000000 -0.5000000 -0.5000000 —
## y1 0.8164205 0.8164205 0.8164205 -0.5290927 —
## y2 0.8162365 0.8162365 0.8162365 -0.7184365 0.7500054 —
## y3 0.8162867 0.8162867 0.8162867 -0.3446610 0.4687167 0.5879193 —
## y4 -0.3140467 -0.3140467 -0.3140467 0.8165214 -0.4891162 -0.4780949 -0.1554718 —
## ---------------------------------------------------------------------------------------------------------------------
| Paar | \(r\) |
|---|---|
| x1-y1 | .8164 |
| x2-y2 | .8162 |
| x3-y3 | .8163 |
| x4-y4 | .8165 |
Wir arbeiten mit dem Datensatz calories5000.csv Laden
Sie den Datensatz calories5000.csv hier
herunter.
Der Datensatz umfasst n = 5’000 Probanden.
| Variable | Beschreibung |
|---|---|
| User_ID | Benutzer anonym |
| Gender | Geschlecht, male, female |
| Age | Alter in Jahren |
| Height | Körpergrösse in cm |
| Weight | Körpergewicht in kg |
| Duration | Durchschnittliche Trainingsdauer |
| Heart_Rate | Durchschnittliche Herzfrequenz während einem Training |
| Body_Temp | Durchschnittliche Körpertemperatur während einem Training |
| Calories | Durchschnittlicher Kalorienverbrauch pro Training |
Laden Sie den Datensatz calories5000.csv in jamovi
und kategorisieren Sie die Variablen. Speichern Sie den Datensatz als
calories5000.omv, wir benötigen ihn wieder bei den
Regressionsanalysen.
Finden Sie einen linearen Zusammenhang zwischen
##
## CORRELATION MATRIX
##
## Correlation Matrix
## -----------------------------------------------------------
## Heart_Rate Calories
## -----------------------------------------------------------
## Heart_Rate Pearson's r —
## p-value —
## 95% CI Upper —
## 95% CI Lower —
## Spearman's rho —
## p-value —
##
## Calories Pearson's r 0.8976648 —
## p-value < .0000001 —
## 95% CI Upper 0.9029171 —
## 95% CI Lower 0.8921444 —
## Spearman's rho 0.9169651 —
## p-value < .0000001 —
## -----------------------------------------------------------
Es besteht ein signifikanter positiver Zusammenhang zwischen Herzfrequenz und Kalorienverbrauch, \(r\) = 0.898, \(r_s\) = 0.916, p < .0001. Auf Grund der Grafik ist ein vollkommen linearer Zusammenhang unsicher. Für \(r\) ist ein linearer Zusammenhang voraussetzung, deshalb entscheiden wir uns für den \(r_s\).
##
## CORRELATION MATRIX
##
## Correlation Matrix
## ----------------------------------------------------------
## Body_Temp Calories
## ----------------------------------------------------------
## Body_Temp Pearson's r —
## p-value —
## 95% CI Upper —
## 95% CI Lower —
## Spearman's rho —
## p-value —
##
## Calories Pearson's r 0.8235807 —
## p-value < .0000001 —
## 95% CI Upper 0.8322993 —
## 95% CI Lower 0.8144546 —
## Spearman's rho 0.9185212 —
## p-value < .0000001 —
## ----------------------------------------------------------
Es besteht ein signifikanter positiver Zusammenhang zwischen Körpertemperatur und Kalorienverbrauch, \(r\) = 0.82, \(r_s\) = 0.92, p < .0001. Der Zusammenhang ist eindeutig nicht linear und wir entscheiden uns für \(r_s\).
##
## CORRELATION MATRIX
##
## Correlation Matrix
## -----------------------------------------------------------
## Heart_Rate Body_Temp
## -----------------------------------------------------------
## Heart_Rate Pearson's r —
## p-value —
## 95% CI Upper —
## 95% CI Lower —
## Spearman's rho —
## p-value —
##
## Body_Temp Pearson's r 0.7759284 —
## p-value < .0000001 —
## 95% CI Upper 0.7867266 —
## 95% CI Lower 0.7646554 —
## Spearman's rho 0.8144434 —
## p-value < .0000001 —
## -----------------------------------------------------------
Es besteht ein signifikanter positiver Zusammenhang zwischen Körpertemperatur und Herzfrequenz, \(r\) = .77, \(r_s\) = .81, p < .0001. Der Zusammenhang ist eindeutig nicht linear und wir entscheiden uns für \(r_s\).
##
## CORRELATION MATRIX
##
## Correlation Matrix
## --------------------------------------------------------
## Age Duration
## --------------------------------------------------------
## Age Pearson's r —
## p-value —
## 95% CI Upper —
## 95% CI Lower —
## Spearman's rho —
## p-value —
##
## Duration Pearson's r 0.0366568 —
## p-value 0.0095350 —
## 95% CI Upper 0.0643108 —
## 95% CI Lower 0.0089466 —
## Spearman's rho 0.0346048 —
## p-value 0.0144030 —
## --------------------------------------------------------
Es besteht kein Zusammenhang zwischen Alter und Trainingsdauer, \(r\) = .04, p = .0095; \(r_s\) = .03, p = .0144. Die signifikanten p-Werte sind etwas irritierend ;)
Intensity = Heart_Rate * Duration##
## CORRELATION MATRIX
##
## Correlation Matrix
## ----------------------------------------------------------
## Calories Intensity
## ----------------------------------------------------------
## Calories Pearson's r —
## p-value —
## 95% CI Upper —
## 95% CI Lower —
## Spearman's rho —
## p-value —
##
## Intensity Pearson's r 0.9743146 —
## p-value < .0000001 —
## 95% CI Upper 0.9756833 —
## 95% CI Lower 0.9728699 —
## Spearman's rho 0.9849117 —
## p-value < .0000001 —
## ----------------------------------------------------------
Es besteht ein signifikanter, linearer und postiver Zusammenhang zwischen Trainingsintensität und Kalorienverbrauch. Mit \(r\) = 0.9743 [0.9729, 0.9754], p < .0001 ist der Zusammenhang stark.
Fragestellung: Besteht ein Zusammenhang zwischen dem Alter einer Person und ihrer Performance beim 100-Meter-Sprint. Um die Frage zu beantworten, messen wir von 6 Personen das Alter in Jahren, und die Zeit für 100 Meter in Sekunden.
m100.csv in jamovi.##
## CORRELATION MATRIX
##
## Correlation Matrix
## -----------------------------------------------------
## jahre sec
## -----------------------------------------------------
## jahre Pearson's r —
## p-value —
## Spearman's rho —
## p-value —
##
## sec Pearson's r 0.7301807 —
## p-value 0.0993819 —
## Spearman's rho 0.8285714 —
## p-value 0.0583333 —
## -----------------------------------------------------
Die Daten zeigen keinen signifikanten Zusammenhang zwischen
Alter und Laufzeit \((r = 0.730, p =
0.099)\). Aus dem Streudiagramm geht nicht eindeutig hervor ob
der Zusammenhang zwischen Alter und Laufzeit linear ist. Die Messung der
Laufzeit beim jüngsten Läufer ist vermutlich ein Ausreisser. Auch die
Berechnung des Rangkorrelationskoeffizienten nach Spearman ergibt keinen
signifikanten Zusammenhang zwischen Alter und Laufzeit \((r_s = 0.829, p = 0.058)\).
Hier ein Beispiel dafür, dass man mit Korrelationen jeden Unsinn “beweisen” kann.
2020 publizierte Pavlo Blavatskyy eine Studie, in der der Zusammenhang des BMI der Minister von 15 Postsowjet-Staaten und dem Korruptionslevel untersucht wurde. Er ermittelte mit Hilfe von Machine-Learning-Algorithmen anhand von Fotografien der Minister deren BMI und verglich diesen mit 5 Korruptionsindizes [@corruption]. 2021 wurde Blavatskyy der Ig-Nobelpreis wikipedia für diese Publikation verliehen Improbable Research.
Für diese Aufgabe wird nur der Korruptionsindex CPI von Transparancy International berücksichtigt (die anderen 4 stehen im Datensatz für eigene Analysen zur Verfügung). Der CPI 2020 umfasst 180 Länder, die auf einer Skala von 0 (hohes Maß an wahrgenommener Korruption) bis 100 (keine wahrgenommene Korruption) angeordnet werden. Weltweit erreichen mehr als zwei Drittel aller Länder eine Punktzahl von unter 50 Punkten, das heisst wengier als die Hälfte der möglichen Punktzahl. Der Durchschnitt liegt bei nur 43 Punkten.
Der Index fasst 13 Einzelindizes von 12 unabhängigen Institutionen zusammen und beruht auf Daten aus der Befragung von Expertinnen und Experten, Umfragen sowie weiteren Untersuchungen. Der Korruptionswahrnehmungsindex bezieht sich dabei auf den öffentlichen Sektor und erfasst keine Aktivitäten wie Steuerbetrug, Geldwäsche, illegale Finanzströme oder andere Formen der Korruption im privaten Sektor. Transparency International
Wir arbeiten mit dem Datensatz corruption.csv Laden Sie
den Datensatz corruption.csv hier
herunter.
Fragestellung: Besteht ein Zusammenhang zwischen dem BMI von Ministern ehemaliger Sowjet-Staaten und dem Korruptionsindex CPI Corruption_Perceptions_Index_2017.
corruption.csv in jamovi.##
## CORRELATION MATRIX
##
## Correlation Matrix
## --------------------------------------------------------------------------------------------------------
## Median_BMI Corruption_Perceptions_Index_2017
## --------------------------------------------------------------------------------------------------------
## Median_BMI Pearson's r —
## p-value —
## 95% CI Upper —
## 95% CI Lower —
##
## Corruption_Perceptions_Index_2017 Pearson's r -0.9267462 —
## p-value 0.0000007 —
## 95% CI Upper -0.7890977 —
## 95% CI Lower -0.9757729 —
## --------------------------------------------------------------------------------------------------------
Die Daten zeigen einen signifikanten linearen Zusammenhang zwischen dem BMI und dem Korruptionsindex. Nimmt der BMI zu, sinkt der Korrupitionsindex (und verschlechtert sich damit). Mit \(p\) = -0.927 [-0.976, -0.789], p < .0001 ist der Zusammenhang sehr stark.
Je höher der Korruptionsindex, desto geringer ist die Korruption,
d.h. es besteht ein negativer Zusammenhang zwischen Korruptionsindex und
Korruption. Die Aussage ist wenig intuitiv und wird besser verständlich,
wenn wir den Corruption_Perceptions_Index_2017 transformieren, so dass
ein Korruptionsindex von 0 keiner Korruption und ein Korruptionsindex
von 100 maximaler Korruption entspricht:
Corruption_Perceptions_Index_2017_t = 100 - Corruption_Perceptions_Index_2017
##
## CORRELATION MATRIX
##
## Correlation Matrix
## ------------------------------------------------------------------------------------------------------------
## Median_BMI Corruption_Perceptions_Index_2017_t
## ------------------------------------------------------------------------------------------------------------
## Median_BMI Pearson's r —
## p-value —
## 95% CI Upper —
## 95% CI Lower —
##
## Corruption_Perceptions_Index_2017_t Pearson's r 0.9267462 —
## p-value 0.0000007 —
## 95% CI Upper 0.9757729 —
## 95% CI Lower 0.7890977 —
## ------------------------------------------------------------------------------------------------------------
Die Aussage dieser Grafik ist intuitiv besser verständlich: Es besteht ein starker positiver linearer Zusammenhang zwischen BMI und Korruption; mit zunehmendem BMI der Minister steigt auch die Korruption im Land. Der Korrelationskoeffizient wird durch diese Transformation nicht beeinflusst.
Anmerkung: Die Art der Fragestellung, die Methodik der Studie und die
Schlussfolgerung sind äusserst fragwürdig. Die Studie von Pavlo
Blavatskyy wurde in der Presse und von anderen Forscher:innen massiv
kritisiert, z.B. hier.
Ist die Impfung gegen COVID-19 wirksam? Um diese Frage zu beantworten
verwenden wir den Datensatz impfquote_bag.csv mit den
Variablen Impfquote(% der kantonalen Bevölkerung, die
mindestens einmal geimpft sind) und inzsumTotal_last7d
(Covid-19 7-Tage-Inzidenz pro 100’000). Die Variable
geoRegion gibt die jeweiligen Kantone an. (Die Daten
stammen vom BAG. Sie wurden von Marius Brülhart aufbereitet und von Der
Bund online publiziert).
\(H_0:\) Es gibt keinen Zusammenhang
zwischen der kantonalen Impfquote und der kantonalen 7-Tage-Inzidenz.
\(p = 0\)
\(H_A:\) Es gibt einen Zusammenhang
zwischen der kantonalen Impfquote und der kantonalen 7-Tage-Inzidenz.
\(p \neq 0\)
##
## Pearson's product-moment correlation
##
## data: impfquote$Impfquote and impfquote$inzsumTotal_last7d
## t = -7.3577, df = 24, p-value = 1.343e-07
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## -0.9223423 -0.6567817
## sample estimates:
## cor
## -0.8323732
##
## CORRELATION MATRIX
##
## Correlation Matrix
## --------------------------------------------------------------------------
## Impfquote inzsumTotal_last7d
## --------------------------------------------------------------------------
## Impfquote Pearson's r —
## p-value —
## 95% CI Upper —
## 95% CI Lower —
##
## inzsumTotal_last7d Pearson's r -0.8323732 —
## p-value 0.0000001 —
## 95% CI Upper -0.6567817 —
## 95% CI Lower -0.9223423 —
## --------------------------------------------------------------------------
Haben wir damit bewiesen, dass die Impfung wirksam ist? Nein! Auch wenn der Zusammenhang stark und signifikant ist, kann anhand dieser Analyse kein kausaler Zusammenhang zwischen Impfquote und Covid-19-Inzidenz bewiesen werden werden! Die Korrelation kann jedoch als Hinweis für einen Kausalzusammenhang dienen.