Technische Vorbemerkung
- Die Übungen sind für die Arbeit mit jamovi [1] angelegt, können aber mit jeder anderen Statistiksoftware bearbeitet werden.
- Die Datensätze für alle Übungen können hier als zip-Datei heruntergeladen werden. Es wird empfohlen, alle Datensätze im gleichen Ordner abzulegen.
- Die Datensätze liegen im
.csv
-Format vor (header = TRUE, sep = “,”, dec = “.”) und können direkt in jamovi geöffnet werden. Es wird empfohlen, nach der Kategorisierung der Variablen in jamovi, die Datei im jamovi-Format .omv
zu speichern.
[1] The jamovi project (2021). jamovi (Version 1.6) [Computer Software]. Retrieved from https://www.jamovi.org
Diskutieren Sie diese Übungen auch mit Ihren Mitstudierenden und den Betreuungspersonen.
Deskriptive Statistik
Übung 1
Die Daten für diese Grafik stammen aus der Befragung 2019 American Community Survey. Eingeschlossen wurden 3142 Gemeinden in den USA. Der Fragebogen umfasst 95 Items. Das Histogramm zeigt die Daten für das mittlere Haushaltseinkommen in 1000 $.

Aufgabe
- Beschreiben Sie die Verteilung der Daten.
- Welches ist das häufigste mittlere Einkommen?
- Wo etwas schätzen Sie liegt der Median?
- Ist der Mittelwert grösser oder kleiner als der Median?
- Welche Kennzahlen sind für die Beschreibung dieser Verteilung eher geeignet: Mittelwert und Standardabweichung oder Median und Interquartilabstand?
- Bei welcher Art von Grafik könnten Sie den Median direkt ablesen?
Lösung
- Beschreiben Sie die Verteilung der Daten.
- Die Verteilung ist rechtschief (linkssteil). Dies ist eine typische Einkommensverteilung: Die meisten Haushalte verfügen über niedrige bis mittlere Einkommen und wenige Haushalte verfügen über sehr grosse Einkommen
- Welches ist das häufigste mittlere Einkommen?
- Geben Sie einen Bereich an, in dem der Median schätzungsweise liegt?
- ca. bei 65’000 - 70’000 (exakt liegt er bei 66875$)
- Ist der Mittelwert grösser oder kleiner als der Median?
- Bei rechtsschiefen Verteilungen ist der Mittelwert grösser als der Median (hier ist \(\bar{x}\) = 70180)
- Welche Kennzahlen sind für die Beschreibung dieser Verteilung eher geeignet: Mittelwert und Standardabweichung oder Median und Interquartilabstand?
- Bei schiefen Verteilungen eignen sich Median und Interquartilabstand besser als typische Kennzahlen
- Bei welcher Art von Grafik könnten Sie den Median direkt ablesen?
Übung 2
Die Grafik zeigt einen Boxplot der gleichen Daten wie in Übung 1.

Aufgabe
- Schätzen Sie anhand des Boxplots: Wo etwa liegen das untere und das obere Quartil?
- Wie gross ist etwa der prozentuale Anteil der Daten innerhalb der Box?
- Wie gross ist etwa der prozentuale Anteil der Gemeinden mit einem durchschnittlichen Haushaltseinkommen unter 59’000 $?
- Wie gross etwa sind das minimale und das maximale Haushaltseinkommen?
Lösung
- Schätzen Sie anhand des Boxplots: Wo etwa liegen das untere und das obere Quartil?
- unteres Quartil: ca. 59’000 $ (exakt 59214 $), oberes Quartil: ca. 77’000 $ (exakt: 76951 $)
- Wie gross ist etwa der prozentuale Anteil der Daten innerhalb der Box?
- 50% der Daten liegen innerhalb des Interquartilabstands \(IQR\)
- Wie gross ist etwa der prozentuale Anteil der Gemeinden mit einem durchschnittlichen Haushaltseinkommen unter 59’000?
- 25% der Daten liegen unterhalb des unteren Quartils
- Wie gross etwa sind das minimale und das maximale Haushaltseinkommen?
- Minimum: ca. 36’000 $ (exakt 35’819 $), Maximum: ca. 182’000 $ (exakt: 181’261 $)
Übung 3
Migräne ist eine ausserordentlich schmerzhafte Form von Kopfschmerzen, welche Patienten gelegentlich mit Akupunktur behandeln möchten. Um herauszufinden, ob Akupunktur gegen Migräne hilft, hat eine Forschungsgruppe eine randomisierte kontrollierte Studie durchgeführt, in der 89 Frauen mit diagnostizierter Migräne randomisiert in eine Interventions- und eine Kontrollgruppe eingeteilt wurden. Die 43 Probandinnen in der Interventionsgruppe wurden mit einem Akupunkturverfahren behandelt, das spezifisch für Migräne eingesetzt wird. 46 Probandinnen erhielten eine Schein-Akupunktur (Nadeln wurden an Nicht-Akupunkturpunkten gesetzt). 24 Stunden, nachdem die Probandinnen jeweils die Akupunkturbehandlung erhielten, wurden sie gefragt, ob sie schmerzfrei seien. Die Resultate sind in der Tabelle zusammengefasst.
Intervention |
10 |
33 |
43 |
Kontrolle |
2 |
44 |
46 |
Total |
12 |
77 |
89 |
Aufgabe
- Wie gross ist der prozentuale Anteil der Probandinnen in der Interventionsgruppe, die 24 Stunden nach Akupunktur schmerzfrei waren?
- Wie gross ist der prozentuale Anteil der Probandinnen in der Kontrollgruppe, die 24 Stunden nach Scheinakupunktur schmerzfrei waren?
- Haben Sie auf den ersten Blick den Eindruck, dass Akupunktur eine wirksame Behandlungsmethode bei Migräne ist?
- Sind Sie auf Grund der Daten überzeugt, dass Akupunktur eine wirksame Behandlungsmethode für Migräne ist oder könnte der Unterschied alleine auf zufällige Stichprobenvariation zurückzuführen sein?
Lösung
- Wie gross ist der prozentuale Anteil der Probandinnen in der Interventionsgruppe, die 24 Stunden nach Akupunktur schmerzfrei waren?
## [1] 23.25581
- 23.26% der Probandinnen sind 24 Stunden nach Akupunktur schmerzfrei
- Wie gross ist der prozentuale Anteil der Probandinnen in der Kontrollgruppe, die 24 Stunden nach Scheinakupunktur schmerzfrei waren?
## [1] 4.347826
- 4.35% der Probandinnen sind 24 Stunden nach Scheinakupunktur schmerzfrei
- Haben Sie auf den ersten Blick den Eindruck, dass Akupunktur eine wirksame Behandlungsmethode bei Migräne ist?
## [1] 18.91
- Ja. Der prozenuale Anteil der Probandinnen, die in der Interventionsgruppe sind ist um 18.91% höher als in der Kontrollgruppe.
- Sind Sie auf Grund der Daten überzeugt, dass Akupunktur eine wirksame Behandlungsmethode für Migräne ist oder könnte der Unterschied alleine auf zufällige Stichprobenvariation zurückzuführen sein?
- Der grosse Unterschied von knapp 19% zwischen Interventions- und Kontrollgruppe ist recht überzeugend. Allerdings kann nie ausgeschlossen werden, dass das Ergebnis alleine auf zufällige Stichprobenvariation zurückzuführen ist
Übung 4

Aufgabe
Beschreiben Sie die Verteilungen in den drei Histogrammen und ordnen Sie diese dem richtigen Boxplot zu.
Lösung
- (a) Normalverteilung, passt zu (B)
- (b) Uniforme Verteilung, passt zu (C)
- (c) linksschiefe Verteilung, passt zu (A)
Übung 5
Die Daten von Facebook zeigen, dass 50% der Facebook-Abonnent:innen 100 oder mehr Freunde haben und dass die durchschnittliche Anzahl an Freunden 190 beträgt.
Aufgabe:
Welche Form der Verteilung erwarten Sie für die Anzahl Freunde von Facebook-Abonnent:innen.
Lösung:
Die Aussage, dass “50% der Facebook-Abonnent:innen 100 oder mehr Freunde haben” bedeutet, dass der Median für die Anzahl Freunde bei 100 liegt. Der Mittelwert für die Anzahl Freunde liegt bei 190. Dies bedeutet, dass die Verteilung der Anzahl Freunde pro Facebook-Abonnent:in rechtsschief ist.
Übung 6
In einem Raum haben sich 40 Personen versammelt. Das erste Histogramm zeigt die Verteilung des jährlichen Einkommens dieser Personen. Jetzt betreten zwei neue Personen den Raum: Eine verdient $250’000 und die andere $250’000 pro Jahr. Das zweite Histogramm zeigt die neue Einkommensverteilung. Die Tabelle gibt die Kennzahlen für die beiden Situationen an.
|
|
|
n
|
40
|
42
|
Min.
|
60679
|
60679
|
1st Qu.
|
63625
|
63715
|
Median
|
65238
|
65352
|
Mean
|
65089
|
73299
|
3rd Qu.
|
66156
|
66535
|
Max.
|
69885
|
250000
|
s
|
2122
|
37321
|
Aufgabe
Repräsentiert eher der Mittelwert oder der Median das typische jährliche Einkommen für die 42 Personen? Was bedeutet dies für die Robustheit der beiden Kennzahlen?
Ist eher die Standardabweichung oder der Interquartilabstand IQR repräsentativ für die Variabilität der jährlichen Einkommen der 42 Personen? Was bedeutet dies für die Robustheit der beiden Kennzahlen?
Lösung
a) Der Median ist die bessere Kennzahl, um das typische jährliche Durchschnittseinkommen dieser 42 Personen zu beschreiben. Der Mittelwert ist viel höher als das durchschnittliche Einkommen der 40 Personen, weil er viel empfindlicher auf Extremwerte reagiert als der Median. Der Median ist robust gegen Extremwerte.
b) Der IQR ist das bessere Mass für die Variabilität der jährlichen Einkommen der 42 Personen. Die Standardabweichung ist empfindlich für Extremwerte, der IQR dagegen ist robust gegenüber Extremwerten.
Korrelation und Regression
Übung 7
Neben dem Geschlecht, dem Körpergewicht, Trinkgewohnheiten und weiteren Faktoren spielt die Menge an konsumiertem Alkohol eine Rolle für den Alkoholspiegel im Blut. Wir haben Daten von 16 freiwilligen Studierenden, denen randomisiert eine bestimmte Menge Bierdosen (Variable cans
) zugewiesen wurden. Es nahmen 8 Studenten und 8 Studentinnen am Versuch teil, die sich in Gewicht und Trinkgewohnheiten unterschieden. 30 Minuten nach dem Konsum der letzten Dose Bier wurde ihr Alkoholspiegel in g Alkohol/dl Blut (Variable BAC
) gemessen.
Das Streudiagramm und die Regressionstabelle fassen die Ergebnisse zusammen.

##
## LINEAR REGRESSION
##
## Model Fit Measures
## -----------------------------------
## Model R R²
## -----------------------------------
## 1 0.9062641 0.8213147
## -----------------------------------
##
##
## MODEL SPECIFIC RESULTS
##
## MODEL 1
##
## Model Coefficients - BAC
## ----------------------------------------------------------------------
## Predictor Estimate SE t p
## ----------------------------------------------------------------------
## Intercept -0.01140426 0.011733442 -0.9719452 0.3475721
## cans 0.01807236 0.002252893 8.0218470 0.0000013
## ----------------------------------------------------------------------
Aufgabe
- Beschreiben Sie den Zusammenhang zwischen der Anzahl Dosen Bier und und dem Blutalkoholspiegel.
- Notieren Sie die Gleichung für die Regressionsgerade.
- Zeigen die Daten Evidenz dafür, dass es einen Zusammenhang zwischen Bierkonsum und Alkoholspiegel im Blut gibt?
- Wie gross ist der Korrelationskoeffizient nach Pearson für den Zusammenhang von Bierkonsum und Alkoholspiegel im Blut?
- Interpretieren sie \(R^2\)
- Wie hoch ist der erwartete Blutalkoholspiegel nach i) 3.5 Dosen Bier, ii) 19 Dosen Bier?
Lösung
- Beschreiben Sie den Zusammenhang zwischen der Anzahl Dosen Bier und und dem Blutalkoholspiegel.
- Es besteht ein positiver starker linearer Zusammenhang zwischen der Anzahl konsumierter Dosen Bier und dem Blutalkoholspiegel
- Notieren Sie die Gleichung für die Regressionsgerade.
\[\widehat{Blutalkoholspiegel} = -0.011 + 0.018 \times Anzahl ~Dosen ~Bier\]
- Zeigen die Daten Evidenz dafür, dass es einen Zusammenhang zwischen Bierkonsum und Alkoholspiegel im Blut gibt? Notieren Sie die Nullhypothese und die Alternativhypothese, \(\alpha = 0.05\).
\(H_0: \beta_1 = 0}\) Die wahre Steigung für den Koeffizienten der Anzahl konsumierter Dosen Bier ist 0.
\(H_A: \beta_1 \neq 0\) Die wahre Steigung für den Koeffizienten der Anzahl konsumierter Dosen Bier ist nicht gleich 0.
Der p-Wert für den Regressionskoeffizienten \(\beta_1\) ist \(p < 0.0001\). Damit ist der \(p\)-Wert kleiner als das Signifikanzniveau \(\alpha\) und wir haben Evidenz gegen die Nullhypothese. Unsere Daten liefern Evidenz für einen statistisch signifikanten positiven linearen Zusammenhang zwischen konsumierter Alkoholmenge und Blutalkoholspiegel, Steigung \(\beta_1\) = 0.018, p <.001
- Wie gross ist der Korrelationskoeffizient nach Pearson \(r\) für den Zusammenhang von Bierkonsum und Alkoholspiegel im Blut?
- Interpretieren sie \(R^2\)
- Die konsumierte Biermenge erklärt 82% der Variabilität des Blutalkoholspiegels
- Wie hoch ist der erwartete Blutalkoholspiegel nach i) 3.5 Dosen Bier, ii) 19 Dosen Bier?
- Wir setzen die Menge an Bierdosen in unsere Regressionsgleichung ein:
# Fall i
-0.0114 + 0.0181 * 3.5
## [1] 0.05195
# Fall ii
-0.0114 + 0.0181 * 19
## [1] 0.3325
Fall i: 30 Minuten nach dem Konsum von 3.5 Dosen Bier erwarten wir im Durchschnitt einen Blutalkoholspiegel von 0.052 g Alkohol/dl Blut.
Fall ii: 30 Minuten nach dem Konsum von 19 Dosen Bier erwarten wir im Durchschnitt einen Blutalkoholspiegel von 0.333 g Alkohol/dl Blut. ACHTUNG: Diese Berechnung ist eine Extrapolation über unseren Datenbereich hinaus. Sie ist nur dann gültig, wenn wir sicher sind, dass die lineare Beziehung auch ausserhalb von unserem Datenbereich von 1 bis 9 Dosen Bier gültig ist. Da wir das aber nicht wissen, ist diese Berechnung unzuverlässig.
Übung 8
Gibt es einen Zusammenhang zwischen der Körpergrösse der Partner bei heterosexuellen Ehepaaren? Das Streudiagramm zeigt die Körpergrössen von Frauen und Männern von 170 zufällig ausgewählten Ehepaaren in Grossbritannien. Beide Ehepartner sind jünger als 65 Jahre. Zudem finden Sie den Output für die Regressionsgerade, die die Körpergrösse von Ehefrauen aus der Körpergrösse der Ehemänner vorhersagt.

##
## Call:
## lm(formula = ht_wife ~ ht_husband, data = hw_65)
##
## Residuals:
## Min 1Q Median 3Q Max
## -17.810 -3.597 -0.412 4.214 17.677
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 110.68189 11.89796 9.303 < 2e-16 ***
## ht_husband 0.28630 0.06862 4.172 0.0000482 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 5.93 on 168 degrees of freedom
## Multiple R-squared: 0.09389, Adjusted R-squared: 0.0885
## F-statistic: 17.41 on 1 and 168 DF, p-value: 0.00004825
Aufgabe
- Liefern die Daten Evidenz dafür, dass Männer grösser sind als Frauen? Notieren Sie ihre Hypothesen und interpretieren Sie den Output der Regressionsanalyse.
- Notieren Sie die Gleichung für die Regressionsgerade, die die Körpergrösse von Ehefrauen aus der Körpergrösse der Ehemänner vorhersagt.
- Interpretieren Sie die Steigung und den Achsenabschnitt im Zusammenhang mit der Fragestellung.
- \(R^2\) ist 0.094. Welchen Wert hat der Korrelationskoeffizient nach Pearson \(r\).
- Sie treffen einen verheirateten Mann, der 175 cm gross ist. Welche Grösse würden Sie für seine Frau vorhersagen und wie zuverlässig wäre diese Aussage?
- Sie treffen einen anderen verheirateten Mann, der 205 cm gross ist. Wäre es klug, das gleiche lineare Modell für die Vorhersage der Körpergrösse seiner Frau zu wählen? Begründen Sie.
Lösung
- Liefern die Daten Evidenz dafür, dass Männer grösser sind als Frauen? Notieren Sie ihre Hypothesen und interpretieren Sie den Output der Regressionsanalyse.
- \(H_0: \beta_1 = 0\) Die wahre Steigung für den Koeffizienten der Grösse des Mannes ist 0.
- \(H_1: \beta_1 > 0\) Die wahre Steigung für den Koeffizienten der Grösse des Mannes ist grösser als 0.
- Die Teststatistik \(t\) beträgt 4.17 (df = 170 - 2) und der \(p\)-Wert für eine zweiseitige Hypothese ist kleiner als 0.0001. Damit ist auch der p-Wert für eine einseitige Hypothese kleiner als \(\alpha = 0.05\). Mit einem derart kleinen \(p\)-Wert, verwerfen wir \(H_0\) und schliessen, dass die Daten statistisch signifikante Evidenz dafür liefern, dass die Körpergrössen von Ehefrauen und Ehemännern einen positiven linearen Zusammenhang aufweisen und dass die wahre Steigung grösser als 0 ist.
- Notieren Sie die Gleichung für die Regressionsgerade, die die Körpergrösse von Ehefrauen aus der Körpergrösse der Ehemänner vorhersagt.
\[\widehat{Groesse_w} = 110.68 + 0.29 \times Groesse_m\]
c) Interpretieren Sie die Steigung und den Achsenabschnitt im Zusammenhang mit der Fragestellung.
- Steigung: Wir erwarten dass pro cm Grössenzunahme der Ehemänner die Grösse ihrer Frauen um durchschnittlich 0.29 cm zunimmt.
- Achsenabschnitt: Männer mit einer Körpergrösse von 0 cm haben Frauen mit einer durchschnittlichen Grösse von 110.7 cm. Diese Aussage ist ziemlich unsinnig.
- \(R^2\) ist 0.094. Welchen Wert hat der Korrelationskoeffizient nach Pearson \(r\).
\[r = \sqrt{R^2}\]
## [1] 0.3065942
- Der Pearson Korrelationskoeffizient \(r\) beträgt 0.307. Dieser Wert steht für einen schwachen positiven linearen Zusammenhang zwischen der Körpergrösse der Ehefrauen und der Körpergrösse der Ehemänner.
- Sie treffen einen verheirateten Mann, der 175 cm gross ist. Welche Grösse würden Sie für seine Frau vorhersagen und wie zuverlässig wäre diese Aussage?
- Wir setzen 175 in unsere Regressionsgleichung ein.
## [1] 161.43
- Unser Modell sagt eine Körpergrösse der Ehefrau von, im Durchschnitt, 161.4 cm voraus. Mit einem \(R^2\) von 0.094 ist diese Vorhersage nicht sehr zuverlässig
- Sie treffen einen anderen verheirateten Mann, der 205 cm gross ist. Wäre es klug, das gleiche lineare Modell für die Vorhersage der Körpergrösse seiner Frau zu wählen? Begründen Sie.
- Nein. Die Vorhersage für eine Körpergrösse von 205 cm überschreitet den gemessenen Datenbereich. Das Regressionsmodell könnte ausserhalb dieses Bereichs nicht mehr gültig sein.
- Zwei verheiratete Freunde treffen sich. Der eine ist vier cm grösser als der andere (beide < 190 cm gross). Um wieviel grösser ist seine Frau im Durchschnitt?
## [1] 1.144
- Unser Modell sagt voraus, dass die Frau des grösseren Mannes um durchschnittlich 1.144 cm grösser ist als die Frau des kleineren Mannes.