Praxistipp: Vorgehen bei Hypothesentests für quantitative Daten

  1. Hypothesen \(H_0\) und \(H_A\) formulieren. Sind diese einseitig oder zweiseitig formuliert?
  2. Signifikanzniveau festlegen. Für alle Übungen wird \(\alpha < 0.05\) festgelegt.
  3. Sind die Daten gepaart (paired) oder unabhängig (independent)?
  4. Prüfgrösse bestimmen:
    • für unabhängige Daten: \(\mu_2 - \mu_1\) (Differenz der Mittelwerte)
    • für gepaarte Daten: \(\mu_{diff}\) (Mittelwert der paarweisen Differenzen)
    • wenn Sie sich für nicht-parametrische Tests entscheiden, ersetzen sie \(\mu\) durch \(Md\) (Median)
  5. Stichprobenumfang prüfen
    • \(n < 30\): nichparametrischen Test (Wilcoxon) wählen
    • unterschiedliche Stichprobenumfänge bei unabhängigen Daten: nichtparametrischen Test (Wilcoxon) wählen
  6. Verteilung der Prüfgrösse untersuchen
    • Daten sind annähernd normalverteilt: t-Test wählen
    • Daten sind nicht normalverteilt: nichtparametrischen Test (Wilcoxon) wählen
    • Unterschiedliche Varianzen bei unabhängigen Daten: nichtparametrischen Test (Wilcoxon) wählen.
  7. Vertrauensintervalle für die Prüfgrösse berechnen.
  8. Gewählten Test durchführen: t- und p-Wert bestimmen.
  9. Schlussfolgerung ziehen und das Ergebnis im Zusammenhang mit der Forschungsfrage interpretieren.


Übung 1

Eine Kaffeekette betreibt eine Filiale in Basel und eine Filiale in Bern. Die Berner Kolleginnen erzählen, dass sie mehr Caffè Latte (mittlere Grösse) in Bern als in Basel für das gleiche Geld erhalten. Sie können das nicht glauben und wollen der Sache auf den Grund gehen. Ihre Frage lautet: Unterscheiden sich die Kaffeemengen an den Standorten Basel und Bern?

Als erstes sammeln Sie Daten: Sie kaufen an beiden Standorten 20 Becher Caffè Latte mittlerer Grösse. Sie messen jeweils die Mengen in ml.

Laden Sie die Datei caffe.csv hier herunter.

Der Datensatz umfasst zwei Variablen:

Variable Beschreibung
Ort Ort der Datenerhebung: Bern, Basel
Menge Kaffeemenge in ml

Aufgabe

  1. Laden Sie den Datensatz herunter und importieren Sie ihn in R.
  2. Formulieren Sie die Null- und die Alternativhypothese.
  3. Beschreiben Sie die Daten deskriptiv. Erstellen Sie ein Boxplot für den Vergleich der Kaffeemengen in Bern und Basel.
  4. Wählen Sie den richtigen Hypothesentest aus.
  5. Berechnen Sie das 95%-Konfidenzintervall für die Differenz der Kaffeemenge zwischen Bern und Basel.
  6. Formulieren Sie ihr Resultat in ein bis zwei Sätzen.



Lösung

  1. Laden Sie den Datensatz herunter und importieren Sie ihn R.
library(rio)
caffe <- import("../data/caffe.csv")
caffe
##      Ort    Menge
## 1  Basel 305.0273
## 2  Basel 311.4508
## 3  Basel 303.7935
## 4  Basel 303.1087
## 5  Basel 306.6558
## 6  Basel 285.0107
## 7  Basel 299.3285
## 8  Basel 314.2387
## 9  Basel 302.2344
## 10 Basel 281.8530
## 11 Basel 299.9207
## 12 Basel 317.6032
## 13 Basel 303.3306
## 14 Basel 304.4187
## 15 Basel 304.4873
## 16 Basel 297.1018
## 17 Basel 292.4915
## 18 Basel 301.4013
## 19 Basel 302.3160
## 20 Basel 302.5607
## 21  Bern 312.6990
## 22  Bern 330.4950
## 23  Bern 349.8080
## 24  Bern 308.7820
## 25  Bern 329.2743
## 26  Bern 325.0282
## 27  Bern 306.2820
## 28  Bern 343.6620
## 29  Bern 344.7321
## 30  Bern 277.5935
## 31  Bern 279.7771
## 32  Bern 318.5638
## 33  Bern 279.1173
## 34  Bern 324.4203
## 35  Bern 292.6793
## 36  Bern 294.0034
## 37  Bern 276.2918
## 38  Bern 318.4481
## 39  Bern 308.1934
## 40  Bern 314.1120
  1. Formulieren Sie ihre Hypothese.
  • \(H_0\) : Die Kaffeemengen von Bern und Basel unterscheiden sich nicht. \(\mu_{Basel} = \mu_{Bern}\).
  • \(H_A\) : Die Kaffeemengen von Bern und Basel unterscheiden sich. \(\mu_{Basel} \neq \mu_{Bern}\).

Erläuterung: Die Fragestellung ist zweiseitig formuliert.


  1. Beschreiben Sie die Daten deskriptiv und erstellen Sie ein Boxplot für den Vergleich der Kaffeemengen in Bern und Basel.
# Teildatensätze (Subsets) erstellen
bern <- subset(caffe, Ort == "Bern")
basel <- subset(caffe, Ort == "Basel")

# Kennzahlen berechnen
summary(bern)
##      Ort                Menge      
##  Length:20          Min.   :276.3  
##  Class :character   1st Qu.:293.7  
##  Mode  :character   Median :313.4  
##                     Mean   :311.7  
##                     3rd Qu.:326.1  
##                     Max.   :349.8
summary(basel)
##      Ort                Menge      
##  Length:20          Min.   :281.9  
##  Class :character   1st Qu.:299.8  
##  Mode  :character   Median :302.8  
##                     Mean   :301.9  
##                     3rd Qu.:304.6  
##                     Max.   :317.6
# Boxplot erstellen
boxplot(caffe$Menge ~ caffe$Ort)

Die durchschnittliche Kaffeemenge in Bern beträgt 311.7 ml und in Basel 301.9 ml. Im Boxplot ist zu sehen, dass die Variationsbreite in Bern grösser ist, als in Basel.


  1. Wählen Sie den richtigen t-Test aus. Erstellen Sie auch eine Grafik für den Vergleich der 95%-Vertrauensintervalle.
  • Der Stichprobenumfang pro Gruppe ist n = 20.
  • Wir prüfen auf Normalverteilung der Daten in beiden Gruppen mit einem QQ-Plot:
# QQ-Plot für Bern
qqnorm(bern$Menge)
qqline(bern$Menge)

# QQ-Plot für Basel
qqnorm(basel$Menge)
qqline(basel$Menge)

  • Interpretation der QQ-Plots: Die zentralen Bereiche der Daten liegen weitgehend auf einer Linie. Wir dürfen schliessen, dass die Daten aus einer normalverteilten Population stammen.
  • Die Daten sind unabhängig.
  • Testwahl: Da n < 30, wählen wir ein nichtparametrisches Verfahren, den Mann-Whitney-U-Test (Wilcoxon Rangsummen-Test). Zum Vergleich führen wir aber auch einen Zweistichproben-t-Test für unabhängige Daten durch.
wilcox.test(caffe$Menge ~ caffe$Ort, alternative = "two.sided", paired = FALSE)
## 
##  Wilcoxon rank sum exact test
## 
## data:  caffe$Menge by caffe$Ort
## W = 128, p-value = 0.0524
## alternative hypothesis: true location shift is not equal to 0

Interpretation des Wilcoxon Rangsummentests: Die Teststatistik W interpretieren wir nicht! Die Wahrscheinlichkeit, für unsere Teststatistik oder noch eine extremere Teststatistik unter der Nullhypothese beträgt 5.24% (p = 0.0524)

t.test(caffe$Menge ~ caffe$Ort, alternative = "two.sided", paired = FALSE)
## 
##  Welch Two Sample t-test
## 
## data:  caffe$Menge by caffe$Ort
## t = -1.7984, df = 24.103, p-value = 0.08465
## alternative hypothesis: true difference in means between group Basel and group Bern is not equal to 0
## 95 percent confidence interval:
##  -21.004502   1.441587
## sample estimates:
## mean in group Basel  mean in group Bern 
##            301.9167            311.6981

Interpretation des Zweistichproben-t-Tests: Die Teststatistik t = -1.7984 ist weniger extrem als die “magische Grenze” um -/+ 2 und wir können bereits jetzt annehmen, dass wir keinen signifikanten Unterschied zwischen den Kaffeemengen in Basel und in Bern haben. Die Anzahl der Freiheitsgrade df = 24.103 wollen wir beim Welch-Test, einer Variante des Zweistichproben-t-Tests für unabhängige Daten, nicht interpretieren. Die Wahrscheinlichkeit für unserer Teststatistik t oder einen noch extremeren Wert für t unter der Nullhypothese beträgt 8.465% (p = 0.08465).


  1. Berechnen Sie das 95%-Konfidenzintervall für die Differenz der Kaffeemenge zwischen Bern und Basel.
  • Sie finden das 95%-Konfidenzintervall für die Differenz der durchschnittlichen Kaffeemengen im Output des t-Tests unter 95 percent confidence interval:. Das 95%-Konfidenzintervall für die durchschnittliche Differenz der Kaffeemengen zwischen Bern und Basel liegt somit zwischen [-21.005, 1.442] ml. Unter der Nullhypothese liegt die durchschnittliche Differenz bei Null. Null ist in diesem Konfidenzintervall enthalten und somit ein plausibler Wert. Das 95%-Konfidenzintervall bestätigt die Ergebnisse der Hypothesentests.
  1. Formulieren Sie ihr Resultat in ein bis zwei Sätzen.
  • Die durchschnittlichen Kaffeemengen in Bern (311.7 ml) und in Basel (301.9 ml) unterscheiden sich nicht signifikant voneinander, Mann-Whitney-U-Test W = 128, p = 0.0524. Die durchschnittliche Differenz der Kaffeemengen (Basel minus Bern) beträgt -9.8 [CI95: -21.005, 1.442] ml.


Übung 2

Welches Ergebnis erwarten Sie, wenn die Fragestellung bei Übung 1 lauten würde: Ist die durchschnittliche Kaffeemenge in Basel geringer als in Bern?

Aufgabe

  1. Formulieren Sie die Null- und die Alternativhypothese.
  2. Führen Sie einen Hypothesentest durch.
  3. Fassen Sie das Ergebnis zusammen.

Lösung

  1. Formulieren Sie die Null- und die Alternativhypothese.
  • \(H_0\) : Die Kaffeemengen von Bern und Basel unterscheiden sich nicht. \(\mu_{Basel} = \mu_{Bern}\).
  • \(H_A\) : Die Kaffeemenge in Basel ist kleiner als in Bern. \(\mu_{Basel} < \mu_{Bern}\).

Erläuterung: Die Fragestellung ist einseitig formuliert.

  1. Führen Sie einen Hypothesentest durch.
wilcox.test(caffe$Menge ~ caffe$Ort, alternative = "less", paired = FALSE)
## 
##  Wilcoxon rank sum exact test
## 
## data:  caffe$Menge by caffe$Ort
## W = 128, p-value = 0.0262
## alternative hypothesis: true location shift is less than 0
t.test(caffe$Menge ~ caffe$Ort, alternative = "less", paired = FALSE)
## 
##  Welch Two Sample t-test
## 
## data:  caffe$Menge by caffe$Ort
## t = -1.7984, df = 24.103, p-value = 0.04233
## alternative hypothesis: true difference in means between group Basel and group Bern is less than 0
## 95 percent confidence interval:
##        -Inf -0.4775344
## sample estimates:
## mean in group Basel  mean in group Bern 
##            301.9167            311.6981
  1. Vergleichen Sie den resultierenden p-Wert mit dem p-Wert aus Übung 1.
Test einseitig zweiseitig
Wilcox 0.0262 0.0524
t-Test 0.0423 0.0847

Wenn wir einseitig testen, ist der p-Wert halb so gross wie beim zweiseitigen Testen.

Übung 3

Ein Gefängnisaufenthalt ist mit psychischem Stress verbunden. Eine Möglichkeit, diesen Stress abzubauen ist sportliche Betätigung. Ein Studie hat den Stresslevel von 26 Gefängnissinsassen bei Ein- und Austritt mittels Fragebogen untersucht (je höher der Stresslevel desto grösser der Stress). Ein Teil der Gefangenen erhielt ein sportliches Training.

Laden Sie die Datei prisonStress.csv hier herunter.

Der Datensatz umfasst 5 Variablen

Variable Beschreibung
Subject anonyme ID
Group Gruppe sport oder control
PSSbefore Stresslevel (Assessment-Score) bei Eintritt
PSSafter Stresslevel (Assessment-Score) bei Austritt
Diff Paarweise Differenzen (PSSafter - PSSbefore)

Aufgabe

  1. Laden Sie den Datensatz in R und kategorisieren Sie die Variablen.
  2. Frage: Haben beide Gruppen bei Eintritt den gleichen Stresslevel?
  3. Frage: Haben beide Gruppen bei Austritt den gleichen Stresslevel?
  4. Frage: Besteht ein Unterschied im Stresslevel zwischen Ein- und Austritt in der Kontrollgruppe?
  5. Frage: Besteht ein Unterschied im Stresslevel zwischen Ein- und Austritt in der Sportgruppe?
  6. Frage: Hat Sport einen Effekt auf den Stresslevel im Vergleich zu einer Kontrollgruppe, die keinen Sport macht?

Führen Sie für alle Fragen sowohl einen nichtparametrischen (Wilcoxon) als auch einen parametrischen (t-Test) Test durch.

Lösung 1

prison <- import("../data/prisonStress.csv")
str(prison)
## 'data.frame':    26 obs. of  5 variables:
##  $ Subject  : chr  "A1" "A3" "A4" "A5" ...
##  $ Group    : chr  "Sport" "Sport" "Sport" "Sport" ...
##  $ PSSbefore: int  25 17 12 21 29 28 21 18 20 29 ...
##  $ PSSafter : int  13 15 13 22 25 24 19 19 24 21 ...
##  $ Diff     : int  -12 -2 1 1 -4 -4 -2 1 4 -8 ...
# Die Variable Group ist nominal und wird als factor kategorisiert
prison$Group <- factor(prison$Group)
str(prison)
## 'data.frame':    26 obs. of  5 variables:
##  $ Subject  : chr  "A1" "A3" "A4" "A5" ...
##  $ Group    : Factor w/ 2 levels "Control","Sport": 2 2 2 2 2 2 2 2 2 2 ...
##  $ PSSbefore: int  25 17 12 21 29 28 21 18 20 29 ...
##  $ PSSafter : int  13 15 13 22 25 24 19 19 24 21 ...
##  $ Diff     : int  -12 -2 1 1 -4 -4 -2 1 4 -8 ...

Lösung 2

Fragestellung: Haben die Gruppen Sport und Control bei Eintritt den gleichen Stresslevel?

  1. Hypothesen

    • \(H_0\) Es besteht kein Unterschied im Stresslevel der Gruppen Sport und Kontrolle bei Eintritt, \(\mu_{con,before} = \mu_{sport,before}\)
    • \(H_A\) Es besteht ein Unterschied im Stresslevel der Gruppen Sport und Kontrolle bei Eintritt, \(\mu_{con,before} \neq \mu_{sport,before}\)
# Deskriptive Statistik nach Subsets
sport <- subset(prison, Group == "Sport")
control <- subset(prison, Group == "Control")

summary(sport$PSSbefore)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   12.00   19.00   23.00   23.93   27.50   44.00
summary(control$PSSbefore)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    0.00    9.00   15.00   16.36   26.00   30.00
boxplot(prison$PSSbefore ~ prison$Group)

  1. Das Signifikanzniveau legen wir bei \(\alpha = 0.05\) fest.
  2. Die Daten sind unabhängig (wir vergleichen zwei unterschiedliche Gruppen).
  3. Die Prüfgrösse ist die Differenz der Mittelwerte der beiden Gruppen \(\mu_{con,before} - \mu_{sport,before}\)
  4. Der Stichprobenumfang pro Gruppe ist n < 30, was für den Man-Whitney-U-Test spricht.
  5. Die Verteilung der Prüfgrösse anhand der Box im Boxplot ergibt eine leicht rechtssteile Verteilung in der Kontrollgruppe und etwa Normalverteilung in der Sportgruppe. Die QQ-Plots sind wenig aussagekräftig. Die Streuung der Daten ist unterschiedlich.
# QQ-Plot für Sportgruppe
qqnorm(sport$PSSbefore)
qqline(sport$PSSbefore, col = "blue")

# QQ-Plot für Controlgruppe
qqnorm(control$PSSbefore)
qqline(control$PSSbefore, col = "blue")

  • Die Prüfung der Testbedingungen legt nichtparametrische Verfahren zur statistischen Analyse nahe.
  1. Vertrauensintervalle für die Prüfgrösse und Teststatistik bestimmen
wilcox.test(PSSbefore ~ Group, data = prison, alternative = "two.sided")
## Warning in wilcox.test.default(x = DATA[[1L]], y = DATA[[2L]], ...): kann bei
## Bindungen keinen exakten p-Wert Berechnen
## 
##  Wilcoxon rank sum test with continuity correction
## 
## data:  PSSbefore by Group
## W = 52.5, p-value = 0.1249
## alternative hypothesis: true location shift is not equal to 0

Interpretation des Wilcoxon Rangsummentests (= Mann-Whitney-U-Test): Die Warnung können Sie ignorieren ;). Die Teststatistik W interpretieren wir nicht. Die Wahrscheinlichkeit für den Wert der Teststatistik oder einen noch extremeren Wert beträgt 12.5% (p = 0.1249).

t.test(PSSbefore ~ Group, data = prison, alternative = "two.sided")
## 
##  Welch Two Sample t-test
## 
## data:  PSSbefore by Group
## t = -2.0064, df = 16.863, p-value = 0.06112
## alternative hypothesis: true difference in means between group Control and group Sport is not equal to 0
## 95 percent confidence interval:
##  -15.5344325   0.3950385
## sample estimates:
## mean in group Control   mean in group Sport 
##              16.36364              23.93333

Interpretation des Zweistichproben-t-Tests: Die Teststatistik beträgt t = -2.0064. Dieser Wert liegt in der Nähe der “magischen Grenze” von -2. Allerdings liegen hier kleine Stichprobenumfänge vor, wodurch die Kurve der t-Verteilung an den Enden sehr flach verläuft und der kritische Wert für die 2.5% Grenze weiter als -2.0 liegt. Anzahl Freiheitsgrade df interpretieren wir beim Welch-Test nicht. Die Wahrscheinlichkeit für den Wert der Teststatistik t oder einen noch extremeren Wert unter der Nullhypothese beträgt 6.1% (p = 0.06112). Die Sportgruppe hat bei Eintritt im Durchschnitt einen etwas höheren Stresslevel (23.9) als die Controlgruppe (16.4). Die durchschnittliche Differenz des Stresslevels zwischen den beiden Gruppen (Control minus Sport) beträgt -7.560 [95%-CI: -15.534, 0.395]. Dieses 95%-Konfidenzintervall schliesst 0 ein und unterstützt die Ergebnisse aus den Hypothesentests. Für die Formulierung des Resultats verwenden wir nur die Angaben zum 95%-Konfidenzintervall, da wir uns für den Mann-Whitney-U-Test als korrekten Test entschieden haben!


  1. Resultat, Schlussfolgerung

Der Stresslevel bei Eintritt ins Gefängnis ist in der Kontrollgruppe (n = 11) im Durchschnitt um -7.560 [-15.534, 0.395] Punkte tiefer als in der Sportgruppe (n = 15). Es liegt jedoch keine Evidenz dafür vor, dass sich die beiden Gruppen im Stresslevel bei Eintritt ins Gefängnis signifikant unterscheiden, Man-Whitney-U = 52.5, p = 0.1249.


Lösung 3

Fragestellung: Haben beide Gruppen bei Austritt den gleichen Stresslevel? Das ist die ähnliche Fragestellung wie Frage 2. Versuchen Sie diese Aufgabe möglichst ohne Hilfsmittel zu bearbeiten.

  1. Hypothesen

    • \(H_0\) Es besteht kein Unterschied im Stresslevel der Gruppen Sport und Kontrolle bei Austritt, \(\mu_{con,after} = \mu_{sport,after}\)
    • \(H_A\) Es besteht ein Unterschied im Stresslevel der Gruppen Sport und Kontrolle bei Austritt, \(\mu_{con,after} \neq \mu_{sport,after}\)
  2. Das Signifikanzniveau legen wir bei \(\alpha = .05\) fest.

  3. Die Daten sind unabhängig.

  4. Die Prüfgrösse ist \(\mu_{con,after} - \mu_{sport,after}\).

  5. Der Stichprobenumfang pro Gruppe ist n < 30, was für Man-Whitney-U-Test spricht.

# Die Subsets sport und control haben wir schon unter Lösung 1 gemacht
summary(sport$PSSafter)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##       8      14      21      20      24      33
summary(control$PSSafter)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    9.00   20.50   26.00   23.73   28.50   33.00
boxplot(prison$PSSafter ~ prison$Group)


  1. Die Verteilung der Prüfgrösse anhand der Box im Boxplot ergibt eine leicht rechtssteile Verteilung in beiden Gruppen. Die QQ-Plots sind wenig aussagekräftig. Die Streuung der Daten ist ähnlich.
# QQ-Plot für Sportgruppe
qqnorm(sport$PSSafter)
qqline(sport$PSSafter, col = "blue")

# QQ-Plot für Controlgruppe
qqnorm(control$PSSafter)
qqline(control$PSSafter, col = "blue")

  • Die Prüfung der Testbedingungen (n < 30, rechtssteile Verteilungen) legt nichtparametrische Verfahren zur statistischen Analyse nahe.

  1. Vertrauensintervalle für die Prüfgrösse und Teststatistik bestimmen
wilcox.test(PSSafter ~ Group, data = prison, alternative = "two.sided")
## Warning in wilcox.test.default(x = DATA[[1L]], y = DATA[[2L]], ...): kann bei
## Bindungen keinen exakten p-Wert Berechnen
## 
##  Wilcoxon rank sum test with continuity correction
## 
## data:  PSSafter by Group
## W = 108.5, p-value = 0.185
## alternative hypothesis: true location shift is not equal to 0
t.test(PSSafter ~ Group, data = prison, alternative = "two.sided")
## 
##  Welch Two Sample t-test
## 
## data:  PSSafter by Group
## t = 1.3361, df = 21.325, p-value = 0.1956
## alternative hypothesis: true difference in means between group Control and group Sport is not equal to 0
## 95 percent confidence interval:
##  -2.068912  9.523458
## sample estimates:
## mean in group Control   mean in group Sport 
##              23.72727              20.00000
  1. Schlussfolgerung

Der Stresslevel bei Austritt aus dem Gefängnis ist in der Kontrollgruppe (n = 11) im Durchschnitt um 3.727 [95%-CI: -2.069, 9.523] Punkte höher als in der Sportgruppe (n = 15). Es liegt keine Evidenz dafür vor, dass sich die beiden Gruppen im Stresslevel bei Austritt aus dem Gefängnis signifikant unterscheiden, Man-Whitney-U-Test W = 108.5, p = 0.185.


Lösung 4

Fragestellung: Besteht ein Unterschied im Stresslevel zwischen Ein- und Austritt in der Kontrollgruppe?


  1. Hypothesen

    • \(H_0\) Es besteht kein Unterschied im Stresslevel in der Kontrollgruppe zwischen Ein- und Austritt, \(\mu_{con,diff}=0}\) (Mittelwert der paarweisen Differenzen!)
    • \(H_A\) Es besteht ein Unterschied im Stresslevel in der Kontrollgruppe bei Eintritt, \(\mu_{con,diff} \neq 0\)$
  2. Das Signifikanzniveau legen wir bei \(\alpha = .05\) fest.

  3. Die Daten sind gepaart (2 Messungen pro Proband:in).

  4. Die Prüfgrösse ist \(\mu_{con,diff}\). Die paarweisen Differenzen sind in der Variablen prison$Diff berechnet. Wir arbeiten hier nur mit dem Subset control.

  5. Der Stichprobenumfang ist n = 11, was für den Wilcoxon-Vorzeichenrang-Test spricht. Hinweis: Bei gepaarten Daten darf ein parametrischer Test bereits bei einem Stichprobenumfang von n = 12 oder mehr durchgeführt werden.

# Das subset control wurde bereits in Lösung 1 erstellt
summary(control$Diff)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  -8.000   0.500   7.000   7.364  15.000  20.000
boxplot(control$Diff)


  1. Die Verteilung der Prüfgrösse Diff anhand von Boxplot und QQ-Plot ist auf Grund der geringen Datenmenge wenig zuverlässig zu interpretieren; es scheint aber nichts dagegen zu sprechen, dass die Daten aus einer normalverteilten Population stammen.
## QQ-Plot für Diff in der Gruppe Control
qqnorm(control$Diff)
qqline(control$Diff, col = "blue")

  • Die Prüfung der Testbedingungen (n < 12) legt nichtparametrische Verfahren zur statistischen Analyse nahe. Wir führen aber auch den t-Test für gepaarte Daten durch, um das 95%-Konfidenzintervall zu berechnen.


  1. Vertrauensintervalle für die Prüfgrösse und Teststatistik bestimmen
wilcox.test(control$PSSafter, control$PSSbefore, 
            paired = TRUE, alternative = "two.sided")
## Warning in wilcox.test.default(control$PSSafter, control$PSSbefore, paired =
## TRUE, : kann bei Bindungen keinen exakten p-Wert Berechnen
## Warning in wilcox.test.default(control$PSSafter, control$PSSbefore, paired =
## TRUE, : kann den exakten p-Wert bei Nullen nicht berechnen
## 
##  Wilcoxon signed rank test with continuity correction
## 
## data:  control$PSSafter and control$PSSbefore
## V = 47.5, p-value = 0.04657
## alternative hypothesis: true location shift is not equal to 0
t.test(control$PSSafter, control$PSSbefore, 
       paired = TRUE, alternative = "two.sided")


  1. Schlussfolgerung

Der Stresslevel bei Austritt aus dem Gefängnis ist in der Kontrollgruppe (n = 11) im Durchschnitt um 7.634 [95%-CI: 1.161, 13.567] Punkte höher als beim Eintritt. Es liegt Evidenz dafür vor, dass sich der durchschnittliche Stresslevel in der Kontrollgruppe beim Aufenthalt im Gefängnis signifikant erhöht hat, Wilcoxon Vorzeichenrang-Test V = 47.5, p = 0.047.



Lösung 5

Fragestellung: Besteht ein Unterschied im Stresslevel zwischen Ein- und Austritt in der Sportgruppe? Das ist die ähnliche Fragestellung wie Frage 4. Versuchen Sie diese Aufgabe möglichst ohne Hilfsmittel zu bearbeiten.


  1. Hypothesen

    • \(H_0\) Es besteht kein Unterschied im Stresslevel in der Sportgruppe zwischen Ein- und Austritt, \(\mu_{sport,diff}=0}\) (Mittelwert der paarweisen Differenzen!)
    • \(H_A\) Es besteht ein Unterschied im Stresslevel in der Kontrollgruppe bei Eintritt, \(\mu_{sport,diff} \neq 0\)$
  2. Das Signifikanzniveau legen wir bei \(\alpha = .05\) fest.

  3. Die Daten sind gepaart (2 Messungen pro Proband)

  4. Die Prüfgrösse ist \(\mu_{sport,diff}\)

  5. Der Stichprobenumfang in der Sportgruppe ist n = 15. Bei gepaarten Daten darf ein parametrischer Test bereits bei einem Stichprobenumfang von n = 12 oder mehr durchgeführt werden.

# Das subset sport wurde bereits in Lösung 1 erstellt
summary(sport$Diff)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
## -15.000  -7.000  -4.000  -3.933   1.000   4.000
boxplot(sport$Diff)


  1. Die Verteilung der Prüfgrösse Diff anhand von Boxplot und QQ-Plot ist auf Grund der geringen Datenmenge wenig zuverlässig zu interpretieren; es scheint aber nichts dagegen zu sprechen, dass die Daten aus einer normalverteilten Population stammen.
# QQ-Plot für Diff in der Sportgruppe
qqnorm(sport$Diff)
qqline(sport$Diff, col = "blue")

  • Die Prüfung der Testbedingungen legt ein parametrisches Verfahren zur statistischen Analyse nahe.


  1. Vertrauensintervalle für die Prüfgrösse und Teststatistik bestimmen
t.test(sport$PSSafter, sport$PSSbefore, 
       paired = TRUE, alternative = "two.sided")
Paired t-test

data: sport\(PSSafter and sport\)PSSbefore t = -2.6842, df = 14, p-value = 0.0178 alternative hypothesis: true mean difference is not equal to 0 95 percent confidence interval: -7.0762338 -0.7904329 sample estimates: mean difference -3.933333


  1. Schlussfolgerung

Der Stresslevel bei Austritt aus dem Gefängnis ist in der Sportgruppe (n = 15) im Durchschnitt um -3.933 [95%-CI: -7.076, -0.790] Punkte tiefer als beim Eintritt. Es liegt Evidenz dafür vor, dass sich der Stresslevel beim Aufenthalt im Gefängnis in der Sportgruppe signifikant senkt, t = -2.684, df = 14, p = 0.0178.

Hinweis: Bei den Übungen 4 und 5 können Sie die Tests auch als Einstichproben-Test für die die paarweisen Differenzen Diff und den Nullwert 0 durchführen. Das Ergebnis ist identisch.

t.test(sport$Diff, mu = 0, alternative = "two.sided")
## 
##  One Sample t-test
## 
## data:  sport$Diff
## t = -2.6842, df = 14, p-value = 0.0178
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
##  -7.0762338 -0.7904329
## sample estimates:
## mean of x 
## -3.933333



Lösung 6

Fragestellung: Hat Sport einen Effekt auf den Stresslevel im Vergleich zu einer Kontrollgruppe, die keinen Sport macht?

  1. Hypothesen

    • \(H_0\) Sport hat keinen Effekt, \(\mu_{diff,sport} = \mu_{diff,con}\)
    • \(H_A\) Sport hat einen Effekt, \(\mu_{diff,sport} \neq \mu_{diff,con}\)
  2. Das Signifikanzniveau legen wir bei \(\alpha = .05\) fest.

  3. Die Daten sind unabhängig.

  4. Die Prüfgrösse ist \(\mu_{diff,sport} = \mu_{diff,con}\)

  5. Der Stichprobenumfang pro Gruppe ist n < 30, was für Man-Whitney-U-Test spricht. In diesem Fall ist es nicht mehr nötig QQ-Plots zu erstellen, wir machen es übungshalber trotzdem ;).

summary(control$Diff)

Min. 1st Qu. Median Mean 3rd Qu. Max. -8.000 0.500 7.000 7.364 15.000 20.000

summary(sport$Diff)

Min. 1st Qu. Median Mean 3rd Qu. Max. -15.000 -7.000 -4.000 -3.933 1.000 4.000

boxplot(prison$Diff ~ prison$Group)


  1. Die Verteilung der Daten in beiden Gruppen anhand von Boxplot und QQ-Plot ist auf Grund der geringen Datenmenge wenig zuverlässig zu interpretieren; es scheint aber nichts dagegen zu sprechen, dass die Daten aus einer normalverteilten Population stammen.
## QQ-Plot für Diff in der Controlgruppe
qqnorm(control$Diff)
qqline(control$Diff, col = "blue")

## QQ-Plot für Diff in der Controlgruppe
qqnorm(sport$Diff)
qqline(sport$Diff, col = "blue")

  • Die Prüfung der Testbedingungen legt nichtparametrische Verfahren zur statistischen Analyse nahe.


  1. Vertrauensintervalle für die Prüfgrösse und Teststatistik bestimmen
wilcox.test(Diff ~ Group, data = prison, alternative = "two.sided")
## Warning in wilcox.test.default(x = DATA[[1L]], y = DATA[[2L]], ...): kann bei
## Bindungen keinen exakten p-Wert Berechnen
## 
##  Wilcoxon rank sum test with continuity correction
## 
## data:  Diff by Group
## W = 138, p-value = 0.004218
## alternative hypothesis: true location shift is not equal to 0
t.test(Diff ~ Group, data = prison, alternative = "two.sided")
## 
##  Welch Two Sample t-test
## 
## data:  Diff by Group
## t = 3.5908, df = 15.461, p-value = 0.002565
## alternative hypothesis: true difference in means between group Control and group Sport is not equal to 0
## 95 percent confidence interval:
##   4.608668 17.985272
## sample estimates:
## mean in group Control   mean in group Sport 
##              7.363636             -3.933333


  1. Schlussfolgerung

Untersucht wurde der Effekt von Sport auf den Stresslevel bei Gefängnisinsassen, die in eine Sport- (n = 15) und eine Kontrollgruppe (n = 11) eingeteilt wurden. In der Kontrollgruppe hat der Stresslevel um 7.364 Punkte zugenommen und in der Sportgruppe um durchschnittlich -3.933 Punkte abgenommen. Im Durchschnitt vermindert sich der Stresslevel in der Sportgruppe um 11.297 [4.608, 17.985] Punkte im Vergleich zur Contorlgruppe. Die Daten liefern Evidenz dafür, dass sich Sport günstig auf den Stresslevel im Gefängnis auswirkt, Man-Whitney-U-Test W = 138, p = .0042.



