Allgemeiner Hinweis zu dieser Übung

In dieser Übung werden folgende Inhalte abgedeckt:

  • Deskriptive Statistik (Datentypen, Masse der Lage/Streuung, Häufigkeiten, Visualisierung und Interpretation von Verteilungen)
  • Mittelwertsvergleiche (Einstichproben-Tests, Zweistichproben-Tests)
  • Korrelation, einfache lineare Regression
  • Chi-Quadrat Test

Ziel dieser Übung ist es, Kenntnisse zu den oben stehenden Themen auf eine konkrete Forschungsfrage mithilfe der Statistiksoftware R anzuwenden und die Resultate sinngemäss zu interpretieren.

Als Grundlage erhalten Sie den Datensatz “Beat the blues”. Dieser Datensatz stammt von einer randomisierten, kontrollierten Studie, in welcher untersucht wurde, ob das «Beat the Blues» Programm zur Behandlung von Menschen mit Depression effektiver ist als die Standardbehandlung (Treatment as usual, TAU). Der in dieser Übung verwendete Datensatz umfasst einen repräsentativen Teil der Proband:innen. Mehr Informationen zur Methodik dieser Studie finden Sie hier.

Codebook

Der Datensatz umfasst folgende Variablen:

  • drug: Ob der Proband Antidepressiva nimmt oder nicht
  • length: Länge der aktuellen Depressionsepisode (<6 Monate oder >6 Monate)
  • treatment: Standardtherapie (TAU) oder «Beat the Blues» (BtheB)
  • bdi_pre: Beck Depression Inventory vor der Therapie
  • bdi_2m: Beck Depression Inventory nach zwei Monaten
  • bdi_4m: Beck Depression Inventory nach vier Monaten
  • bdi_6m: Beck: Depression Inventory nach sechs Monaten
  • bdi_8m: Beck Depression Inventory nach acht Monaten

Der BDI Score geht von 0 bis 63, ein höherer BDI steht für einen höheren Grad einer Depression:

0–8: Keine Depression
9–13: Minimale Depression
14–19: Leichte Depression
20–28: Mittelschwere Depression
29–63: Schwere Depression

Den Datensatz können Sie im Moodle-Kurs herunterladen. Sie brauchen ihn, um die folgenden Aufgaben zu lösen.



1: Datensatz einlesen

Aufgabe

Laden Sie den Datensatz herunter und öffnen Sie ihn in R.

  1. Wie viele Variablen umfasst der Datensatz?
  2. Wie viele Beobachtungseinheiten umfasst der Datensatz?



Lösung

library(rio)
btb <- import("../Data/BTB.csv") # Die working directory muss individuell angepasst werden.
str(btb)
## 'data.frame':    52 obs. of  9 variables:
##  $ Subject  : int  2 4 6 7 8 9 10 11 14 15 ...
##  $ drug     : chr  "Yes" "No" "Yes" "Yes" ...
##  $ length   : chr  ">6m" ">6m" "<6m" "<6m" ...
##  $ treatment: chr  "BtheB" "BtheB" "BtheB" "TAU" ...
##  $ bdi_pre  : int  32 21 7 17 20 18 20 30 30 23 ...
##  $ bdi_2m   : int  16 17 0 7 20 13 5 32 26 13 ...
##  $ bdi_4m   : int  24 16 0 7 21 14 5 24 36 13 ...
##  $ bdi_6m   : int  17 10 0 3 19 20 8 12 27 12 ...
##  $ bdi_8m   : int  20 9 0 7 13 11 12 2 22 23 ...

Der Datensatz umfasst 9 Variablen, wobei die erste Variable eine reine Identifikationsvariable ist. Insgesamt gibt es 52 Beobachtungseinheiten.



2: Datentypen

Aufgabe 1

Bestimmen Sie den Datentyp (Skalenniveau) jeder Variable.



Lösungen 1

  • Subject: qualitativ-nominal
  • drug: qualitativ-nominal
  • length: qualitativ-nominal
  • treatment: qualitativ-nominal
  • bdi_pre: quantitativ-diskret
  • bdi_2m: quantitativ-diskret
  • bdi_4m: quantitativ-diskret
  • bdi_6m: quantitativ-diskret
  • bdi_8m: quantitativ-diskret



Aufgabe 2

Passen Sie den Datentyp in R an, wenn dieser nicht korrekt hinterlegt ist.



Lösung 2

Die Variablen drug, length und treamtent sind kategoriale Variablen und sollten in Faktoren umgewandelt werden. Bei den restlichen Variablen kann der von R definierte Datentyp beibehalten werden.

btb$drug <- factor(btb$drug)
btb$length <- factor(btb$length)
btb$treatment <- factor(btb$treatment)

str(btb)
## 'data.frame':    52 obs. of  9 variables:
##  $ Subject  : int  2 4 6 7 8 9 10 11 14 15 ...
##  $ drug     : Factor w/ 2 levels "No","Yes": 2 1 2 2 1 2 2 1 2 2 ...
##  $ length   : Factor w/ 2 levels "<6m",">6m": 2 2 1 1 2 1 2 2 2 2 ...
##  $ treatment: Factor w/ 2 levels "BtheB","TAU": 1 1 1 2 2 1 1 2 2 1 ...
##  $ bdi_pre  : int  32 21 7 17 20 18 20 30 30 23 ...
##  $ bdi_2m   : int  16 17 0 7 20 13 5 32 26 13 ...
##  $ bdi_4m   : int  24 16 0 7 21 14 5 24 36 13 ...
##  $ bdi_6m   : int  17 10 0 3 19 20 8 12 27 12 ...
##  $ bdi_8m   : int  20 9 0 7 13 11 12 2 22 23 ...



3: Deskriptive Statistik

Aufgabe 1

In kontrollierten Studien ist es wichtig, dass die Gruppen zu Beginn der Studie vergleichbar sind. Berechnen Sie das n, den Mittelwert, den Median, die Standardabweichung das Minimum, das Maximum und die Quartile für die Variable bdi_pre separat für die Personen in der BtheB-Gruppe und die Personen in der TAU-Gruppe. Berechnen Sie ebenfalls die absoluten Häufigkeiten für die Variablen drug und length nach Gruppe. Sind die Gruppe BtheB und die Gruppe TAU zu Beginn der Studie vergleichbar in Bezug auf die Variablen bdi_pre, drug und length?



Lösung 1

Hier wird die Augabe mit Hilfe des tidyverse Package gelöst. Natürlich sind alle Lösungswege, welche zum gleichen Resultat führen auch korret (zum Beispiel, indem man subsets für beide Gruppen erstellt).

library(tidyverse)
library(kableExtra)
btb %>% 
  group_by(treatment) %>% 
  summarise(n = length(bdi_pre), 
            Mean = mean(bdi_pre),
            Median = median(bdi_pre),
            SD = sd(bdi_pre),
            Min = min(bdi_pre),
            Max = max(bdi_pre),
            Q1 = quantile(bdi_pre, probs = 0.25),
            Q3 = quantile(bdi_pre, probs = 0.75)) %>% 
  kbl() %>% 
  kable_styling()# Macht, dass die Tabelle etwas schöner aussieht - ist inhaltlich nicht relevant
treatment n Mean Median SD Min Max Q1 Q3
BtheB 27 22.00 19 10.894600 7 44 14 32.5
TAU 25 24.12 22 8.074239 10 38 17 30.0


Die BtheB Gruppe umfasst 27 Personen, die TAU Gruppe 25. Mittelwert (22 vs. 24.1) und Median (19 vs 22) sind in der BtheB Gruppe leicht tiefer als in der TAU Gruppe. Die Werte in der BtheB Gruppe streuen etwas mehr um den Mittelwert als in der TAU Gruppe (Standarabweichung: 10.9 vs 8.07). Die Randomisierung scheint ihren Job gut gemacht zu haben: Die Gruppen sind bzgl. der Variable bdi_pre insgesamt vergleichbar.


Durch das Erstellen von Häufigkeitstabellen können die Gruppen bzgl. den Variablen drug und length verglichen werden.

table(btb$drug, btb$treatment, dnn = c("Drug", "Group"))
##      Group
## Drug  BtheB TAU
##   No     11  17
##   Yes    16   8
table(btb$length, btb$treatment, dnn = c("Length", "Group"))
##       Group
## Length BtheB TAU
##    <6m    12   9
##    >6m    15  16

Während es bei der Variable length keine grossen Unterschiede gibt, fällt auf, dass in der BtheB Gruppe etwas mehr Leute Antidepressiva einnahmen als in der TAU Gruppe.



Aufgabe 2

Erstellen Sie eine Grafik mit Boxplots der Variable bdi_pre, sepparat pro Gruppe. Interpretieren Sie die Grafik.



Lösung 2

boxplot(btb$bdi_pre ~ btb$treatment, xlab = "Treatment", ylab = "BDI pre score")

Die Grafik bestätigt die Interpretation oben. Es wird ersichtlich, dass der Median in der TAU Gruppe etwas höher ist und die Werte in der BtheB Gruppe etwas mehr streuen. In beiden Gruppen gibt es keine Ausreisser und keine Werte, die nicht plausibel wären. Insgesamt kann gesagt werden, dass die Gruppen zu Beginn der Studie bzgl. des BDI-Scores vergleichbar sind.



4: Erstellen einer neuen Variable

Aufgabe 1

Berechnen Sie eine neue Variable bdi_diff, welche die Differenz zwischen der ersten und der letzten Messung darstellt. Rechnen Sie die Differenz so, dass eine positive Zahl eine Verbesserung der Depression bedeutet.

Anmerkung: Theoretisch könnten Sie dieser neuen Variable einen beliebigen Namen geben. Zur Nachvollziehbarkeit der Aufgaben und Lösungen empfehlen wir jedoch, den Namen bdi_diff zu übernhemen.



Lösung 1

Die Variable bdi_diff kann wie folgt erstellt und direkt dem Datensatz (letzte Spalte) hinzugefügt werden:

btb$bdi_diff <- btb$bdi_pre - btb$bdi_8m
head(btb)
##   Subject drug length treatment bdi_pre bdi_2m bdi_4m bdi_6m bdi_8m bdi_diff
## 1       2  Yes    >6m     BtheB      32     16     24     17     20       12
## 2       4   No    >6m     BtheB      21     17     16     10      9       12
## 3       6  Yes    <6m     BtheB       7      0      0      0      0        7
## 4       7  Yes    <6m       TAU      17      7      7      3      7       10
## 5       8   No    >6m       TAU      20     20     21     19     13        7
## 6       9  Yes    <6m     BtheB      18     13     14     20     11        7



Aufgabe 2

Um wie viel hat sich die Person in der vierten Zeile (Subject 7) von der Baseline (bdi_pre) bis zur letzten Messung (bdi_8m) verbessert/verschlechtert?



Lösung 2

Wir sehen, dass sich die Person in der vierten Zeile (Subject 7) um 10 Punkte verbessert hat (der Score nimmt ab, also hat sich die Depression verbessert).

btb[4,]
##   Subject drug length treatment bdi_pre bdi_2m bdi_4m bdi_6m bdi_8m bdi_diff
## 4       7  Yes    <6m       TAU      17      7      7      3      7       10



Aufgabe 3

Wie gross ist die durchschnittliche Verbesserung in der BtheB Gruppe und in der TAU Gruppe? Wie gross ist die jeweilige Standardabweichung?



Lösung 3

btb %>% 
  group_by(treatment) %>% 
  summarise(Mean_diff = mean(bdi_diff),
            SD_diff = sd(bdi_diff)) %>% 
  kbl() %>% 
  kable_styling()
treatment Mean_diff SD_diff
BtheB 13.14815 10.04108
TAU 10.52000 11.02316

Im Durchschnitt hat sich der BDI-Score in der BtheB Gruppe um 13.1 Punkte verbessert (sd = 10) und in der TAU Gruppe um 10.5 Punkte (sd = 11).



5: Veränderung innerhalb der Gruppen

Untersuchen Sie, ob es Evidenz dafür gibt, dass sich die BDI-Scores innerhalb der Gruppen von der Baseline bis zur Messung nach 8 Monaten verändert haben. Die folgenden Aufgaben beziehen sich sowohl auf die BtheB Gruppe sowie die TAU Gruppe.

Aufgabe 1

Mit welchem statistischen Test/Verfahren können Sie dies prüfen? Begründen Sie.



Lösung 1

In Frage kommt entweder ein t-Test für abhängige Stichproben oder der Wilcoxon-Test. Wir müssen einen Test für abhängige Stichproben wählen, weil die Daten vor und nach der Behandlung von der selben Person stammen. Weil wir die Differenz zwischen bdi_pre und bdi_8m bereits berechnet haben, können wir auch einen Einstichproben Test mit der Variable bdi_diff durchführen (was mathematisch äquivalent ist mit einen Test für abhängige Stichproben).



Aufgabe 2

Wie lauten Ihre statistischen Hypothesen?



Lösung 2

Die Nullhypothese sagt in diesem Fall, dass sich der durchschnittliche BDI-Score nicht verändert hat. Mathematisch ausgedrückt:

\[\mu_{bdi.diff} = 0\]

Die Alternativhypothese lautet folglich:

\[\mu_{bdi.diff} \neq 0\] Weil es grundsätzlich plausibel ist, dass das Beat the Blues Programm schlechter abschneidet als die Standardtherapie, sollten ungerichtete Hypothesen formuliert werden.



Aufgabe 3

Prüfen Sie allfällige Voraussetzungen für ihr vorgesehenes Testverfahren.



Lösung 3

Falls Sie sich für einen t-Test entscheiden, sollten Sie folgendes beachten:

  • Sind die Daten quantitativ skaliert? –> Wenn man ganz streng ist, dann muss man die Frage mit nein beantworten, weil man die echte Distanz zwischen den einzelnen BDI-Werten nicht kennt. Die sogenannte Äquidistanz ist also nicht gegeben (wir können nicht sagen, dass der Unterschied einer Depression von 10 und 15 Punkten gleich gross wie derjenige zwischen 20 und 25 Punkten). In der Forschungspraxis würde den BDI-Score jedoch in den meisten Fällen als quantitative Variable behandeln.
  • Sind die mittleren Differenzen annähernd normalverteilt? Eigentlich können wir das nicht testen. Um einen Anhaltspunkt zu erhalten prüfen wir deshalb, ob die paarweisen Differenzen annähernd normalverteilt sind –> dazu eignet sich die Darstellung mittels QQ-Plot:
BtheB <- subset(btb, treatment == "BtheB") # Damit die Gruppen separat analysiert werden können, erstellt man am einfachsten Subsets. 
TAU <- subset(btb, treatment == "TAU")

qqnorm(BtheB$bdi_diff, main = "BtheB")
qqline(BtheB$bdi_diff)

qqnorm(TAU$bdi_diff, main = "TAU")
qqline(TAU$bdi_diff)

Man sieht, dass die Daten in beiden Gruppen nicht perfekt, aber annähernd einer Normalverteilung folgen.

Welcher Test soll nun durchgeführt werden?!

Auf diese Frage gibt es kein Richtig oder Falsch. Weil parametrische Verfahren (also hier der t-Test) gegenüber den nicht-parametrischen Verfahren flexibler sind, werden in der Forschungspraxis deutlich häufiger parametrische Verfahren angewendet (so auch in der Beat the Blues Studie). Fans des zentralen Grenzwertsatz haben ohnehin gute Argumente für parametrische Verfahren. Die Autoren dieser Übung sind der Ansicht, dass in diesem Fall ein t-Test für abhängige Stichproben angemessen ist. Vollständigkeitshalber wird aber auch das nicht-paramtetrische Verfahren (Wilcoxon Test) gezeigt.



Aufgabe 4

Führen Sie das Testverfahren für jede Gruppe in R durch und interpretieren Sie das Resultat des statistischen Tests.



Lösung 4

Damit die Gruppen separat analysiert werden können, verwenden wir am einfachsten weiterhin die Subsets, welche oben schon erstellt wurden.

t.test(BtheB$bdi_diff) # ergibt das gleiche Resultat wie t.test(BtheB$bdi_pre, BtheB$bdi_8m, paired = TRUE)
## 
##  One Sample t-test
## 
## data:  BtheB$bdi_diff
## t = 6.804, df = 26, p-value = 3.199e-07
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
##   9.176028 17.120269
## sample estimates:
## mean of x 
##  13.14815


Interpretation

Die mittlere Differenz zwischen den beiden Zeitpunkten beträgt in der BtheB Gruppe 13.1 Punkte. Unter dem Szenario, dass H0 wahr ist, ist die Wahrscheinlichkeit (also der p-Wert), eine Teststatistik t von 6.8 bei einer t-Verteilung mit 26 Freiheitsgeraden zu finden, sehr klein (kleiner als 0.1%). Bei einem Signifikanzniveau von 5% fällt die Teststatistik t somit in den Verwerfungsbereich. Folglich wird H0 zugunsten von HA verworfen. Wir können zu 95% darauf vertrauen, dass die wahre mittlere Differenz irgendwo zwischen 9.18 und 17.1 Punkten liegt. Die Daten liefern also Evidenz dafür, dass sich der BDI-Score in der TAU Gruppe verbessert.

Der Wilcoxon-Test ist kongruent mit dem t-Test.

wilcox.test(BtheB$bdi_diff)
## 
##  Wilcoxon signed rank test with continuity correction
## 
## data:  BtheB$bdi_diff
## V = 324, p-value = 1.446e-05
## alternative hypothesis: true location is not equal to 0


Für die TAU-Gruppe ist das Vorgehen analog wie oben bei der BtheB Gruppe.

t.test(TAU$bdi_diff)
## 
##  One Sample t-test
## 
## data:  TAU$bdi_diff
## t = 4.7718, df = 24, p-value = 7.419e-05
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
##   5.969864 15.070136
## sample estimates:
## mean of x 
##     10.52


Interpretation:

Die mittlere Differenz zwischen den beiden Zeitpunkten beträgt in der TAU Gruppe 10.5 Punkte. Unter dem Szenario, dass H0 wahr ist, ist die Wahrscheinlichkeit (also der p-Werte), eine Teststatistik t von 4.77 bei einer t-Verteilung mit 24 Freiheitsgeraden zu finden, sehr klein (kleiner als 0.1%). Bei einem Signifikanzniveau von 5% fällt die Teststatistik t somit in den Verwerfungsbereich. Folglich wird H0 zugunsten von HA verworfen. Wir können zu 95% darauf vertrauen, dass die wahre mittlere Differenz irgendwo zwischen 5.97 und 15.1 Punkten liegt. Die Daten liefern also Evidenz dafür, dass sich der BDI-Score in der BtheB Gruppe verbessert.

Der Wilcoxon-Test ist kongruent mit dem t-Test.

wilcox.test(TAU$bdi_diff)
## 
##  Wilcoxon signed rank test with continuity correction
## 
## data:  TAU$bdi_diff
## V = 298.5, p-value = 0.0002649
## alternative hypothesis: true location is not equal to 0



6: Vergleich zwischen den Gruppen

In der Übung 5 haben Sie in Erfahrung gebracht, dass sie sowohl die BtheB Gruppe (um 13.1 Punkte [95% CI: 9.18 bis 17.1]) sowie die TAU Gruppe (um 10.5 Punkte [95% CI: 5.97 bis 15.1]) statistisch signifikant verbessert haben beim BDI-Score. In dieser Übung geht es nun um die Fragen, ob sich die mittlere Veränderung des BDI-Scores zwischen den Gruppen unterscheidet.
Untersuchen Sie, ob sich die durchschnittliche Veränderung des BDI-Scores zwischen der BtheB Gruppe und der TAU Gruppe unterscheidet.

Aufgabe 1

Stellen Sie die Variable bdi_diff mittels Boxplots separat pro Gruppe dar. Würden Sie aufgrund dieser Darstellung einen statistisch signifikanten Unterschied zwischen den Gruppen erwarten? Mit welchem statistischen Test/Verfahren können Sie dies prüfen?



Lösung 1

boxplot(btb$bdi_diff ~ btb$treatment, xlab = "Treatment", ylab = "Difference BDI score")


Anhand der Grafik oben würde man kaum annehmen, dass sich die durchschnittliche Veränderung zwischen den Gruppen unterscheidet. Um dies mit einem statistischen Test zu überprüfen, kommt entweder ein t-Test für unabhängige Stichproben oder der Mann-Withney U Test in Frage. Wir müssen einen Test für unabhängige Stichproben wählen, weil die Daten in der BthB Gruppe unabhängig von jenen in der TAU Gruppe sind.



Aufgabe 2

Wie lauten Ihre statistischen Hypothesen?



Lösung 2

Die Nullhypothese sagt in diesem Fall, dass sich die mittlere Differenz des BDI-Scores zwischen der BtheB Gruppe und der TAU Gruppe nicht unterscheidet. Mathematisch ausgedrückt:

\[\mu_{bdi.diff(BtheB)} = \mu_{bdi.diff(TAU)} \]

Die Alternativhypothese lautet folglich:

\[\mu_{bdi.diff(BtheB)} \neq \mu_{bdi.diff(TAU)}\] Weil es grundsätzlich plausibel ist, dass das Beat the Blues Programm schlechter abschneidet als die Standardtherapie, sollten ungerichtete Hypothesen formuliert werden.



Aufgabe 3

Prüfen Sie allfällige Voraussetzungen für ihr vorgesehenes Testverfahren.



Lösung 3

Falls Sie sich für einen t-Test entscheiden, sollten Sie folgendes beachten:

  • Sind die Daten quantitativ skaliert? –> Wenn man ganz streng ist, dann muss man die Frage mit nein beantworten, weil man die echte Distanz zwischen den einzelnen BDI-Werten nicht kennt. Die sogenannte Äquidistanz ist nicht also nicht gegeben (wir können nicht sagen, dass der Unterschied einer Depression von 10 und 15 Punkten gleich grosse wie derjenige zwischen 20 und 25 Punkten). Oft werden in der Forschungspraxis solche Scores dennoch als quantitative Variablen behandelt (man konnte zeigen, dass dies die Analyse nicht verfälscht).
  • Sind die Mittelwertsdifferenzen annähernd normalverteilt? –> Eigentlich können wir das nicht prüfen. Um jedoch einen Anhaltspunkt zu erhalten, schauen wir, ob die Variable bdi_diff in den beiden Gruppen annähernd normalverteilt ist. Die Darstellung erfolgt am einfachsten mittels QQ-Plot:
qqnorm(BtheB$bdi_diff, main = "BtheB")
qqline(BtheB$bdi_diff)

qqnorm(TAU$bdi_diff, main = "TAU")
qqline(TAU$bdi_diff)

Man sieht, dass die Daten nicht perfekt, aber annähernd eine Normalverteilung folgen.

Welcher Test soll nun durchgeführt werden?!

Auf diese Frage gibt es kein Richtig oder Falsch. Weil parametrische Verfahren (also hier der t-Test für unabhängige Stichproben) gegenüber den nicht-parametrischen Verfahren flexibler sind, werden in der Forschungspraxis deutlich häufiger parametrische Verfahren angewendet (so auch in der Beat the Blues Studie). Fans des zentralen Grenzwertsatz haben ohnehin gute Argumente für parametrische Verfahren. Die Autoren dieser Übung sind der Ansicht, dass in diesem Fall ein t-Test für unabhängige Stichproben angemessen ist. Vollständigkeitshalber wird aber auch das nicht-paramtetrische Verfahren (Mann-Withney U Test) gezeigt.



Aufgabe 4

Führen Sie das Testverfahren in R durch und interpretieren Sie das Resultat des statistischen Tests.



Lösung 4

Der Output des t-Tests für unabhängige Stichproben sieht wie folgt aus:

t.test(btb$bdi_diff ~ btb$treatment)
## 
##  Welch Two Sample t-test
## 
## data:  btb$bdi_diff by btb$treatment
## t = 0.89647, df = 48.577, p-value = 0.3744
## alternative hypothesis: true difference in means between group BtheB and group TAU is not equal to 0
## 95 percent confidence interval:
##  -3.264531  8.520827
## sample estimates:
## mean in group BtheB   mean in group TAU 
##            13.14815            10.52000


Interpretation

Die Mittelwertsdifferenz zwischen den Gruppen beträgt 2.63 Punkte. Unter dem Szenario, dass H0 (Mittelwertsdifferenz = 0) wahr ist, ist die Wahrscheinlichkeit (also der p-Wert), eine Teststatistik t von 0.9 bei einer t-Verteilung mit 50 Freiheitsgeraden zu finden, relativ gross (37.3%). Bei einem Signifikanzniveau von 5% fällt die Teststatistik t somit nicht in den Verwerfungsbereich. Folglich liefern die Daten keine Evidenz gegen H0 und wir verwerfen H0 deshalb nicht.
Wir können zu 95% darauf vertrauen, dass die wahre Mittelwertsdifferenz irgendwo zwischen -3.24 und 8.5 Punkten liegt. Da das Intervall breit ist und sowohl negative (TAU ist besser) wie auch positive (BtheB ist besser) Werte beinhaltet, liefern die Daten keine Evidenz dafür, dass sich die durchschnittliche Verbesserung des BDI-Scores in der BtheB Gruppe und der TAU Gruppe unterscheidet.

Der Welch’s t-Test korrigiert für die Tatsache, dass die Standardabweichungen der beiden Gruppen nicht ganz genau gleich sind. Das Ergebnis unterscheidet sich jedoch kaum vom normalen t-Test. Auch das nicht-parametrische Verfahren, der Mann-Withney U Test, führt zur selben Interpretation:

wilcox.test(btb$bdi_diff ~ btb$treatment)
## 
##  Wilcoxon rank sum test with continuity correction
## 
## data:  btb$bdi_diff by btb$treatment
## W = 375.5, p-value = 0.4914
## alternative hypothesis: true location shift is not equal to 0

Der Eindruck, welcher durch die Betrachtung der Boxplots entstand, hat also nicht getäuscht (es lohnt sich immer, zuerst grafische Eindrücke zu sammeln!).



7: Zusammenhang zwischen Baseline-Score und Veränderung des BDI-Scores

Es stellt sich die Frage, ob es einen Zusammenhang gibt zwischen dem Schweregrad der Depression zu Beginn der Studie (bdi_pre) und der Veränderung des BDI-Scores (bdi_diff). Um diese Frage zu beantworten, wurde die folgende einfache lineare Regression berechnet:

## 
## Call:
## lm(formula = bdi_diff ~ bdi_pre, data = btb)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -24.044  -5.315   1.113   5.670  14.584 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  -2.5855     3.1505  -0.821    0.416    
## bdi_pre       0.6286     0.1265   4.970 8.24e-06 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 8.679 on 50 degrees of freedom
## Multiple R-squared:  0.3307, Adjusted R-squared:  0.3173 
## F-statistic:  24.7 on 1 and 50 DF,  p-value: 8.243e-06


Aufgabe 1

Reproduzieren Sie die lineare Regression in R.



Lösung 1

Sie können das lineare Regressionsmodell wie folgt in R berechnen lassen:

lin_reg <- lm(bdi_diff ~ bdi_pre, data = btb)
summary(lin_reg)
## 
## Call:
## lm(formula = bdi_diff ~ bdi_pre, data = btb)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -24.044  -5.315   1.113   5.670  14.584 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  -2.5855     3.1505  -0.821    0.416    
## bdi_pre       0.6286     0.1265   4.970 8.24e-06 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 8.679 on 50 degrees of freedom
## Multiple R-squared:  0.3307, Adjusted R-squared:  0.3173 
## F-statistic:  24.7 on 1 and 50 DF,  p-value: 8.243e-06


Aufgabe 2

Beurteilen Sie für alle folgenden Aussagen, ob diese zutreffen oder nicht und begründen Sie ihre Entscheidung:

  1. Die Variable bdi_pre ist die abhängige Variable.
  2. Zwischen bdi_pre und bdi_diff besteht ein positiver, linearer Zusammenhang.
  3. Der Korrelationskoeffizient nach Pearson ist \(r = 0.331\).
  4. Die Nullhypothese für die Frage nach dem Zusammenhang zwischen bdi_pre und bdi_diff lautet \(H_0: \beta_0 = 0\).
  5. Die Alternativhypothese für die Frage nach dem Zusammenhang zwischen bdi_pre und bdi_diff lautet \(H_A: \beta_1 \neq 0\).
  6. \(\beta_0\) ist der durchschnittliche BDI-Score zur Baseline der Studie.
  7. \(\beta_1\) ist der Steigungsparameter und beschreibt den Zusammenhang zwischen bdi_pre und bdi_diff.
  8. Je tiefer der Schweregrad zu Beginn der Studie, desto grösser die Verbesserung des BDI-Scores.
  9. Das Modell schätzt für eine Person, welche zu Beginn der Studie einen BDI-Score von 30 hat, eine durchschnittliche Verbesserung von 16.3 Punten.
  10. Die Variable bdi_pre erklärt ca. einen Drittel der Variabilität der Variable bdi_diff.
  11. Die Daten zeigen Evidenz dafür, dass sich die Steigung der Regressionsgeraden \(\beta_1\) signifikant von Null unterscheidet.
  12. Die Residuen sind homogen um 0 verteilt.
  13. Sind die Voraussetzungen für eine lineare Regression verletzt, könnte alternativ der Korrelationskoeffizient nach Spearman berechnet werden, um einen Zusammenhang zwischen bdi_pre und bdi_diff zu analysieren.



Lösung 2

Beurteilung der Aussagen zur obigen lineare Regression:

  1. Die Variable bdi_pre ist die abhängige Variable. Diese Aussage ist FALSCH. In diesem Modell ist die Variable bdi_pre die unabhängige Variable (auch Prädiktorvariable genannt) und die Variable bdi_diff ist die abhängige Variable.

  1. Zwischen bdi_pre und bdi_diff besteht ein positiver, linearer Zusammenhang. Diese Aussage ist KORREKT. Wenn man die beiden Variablen in einem Streudiagramm darstellt, ist ein positiver, linearer Zusammenhang vertretbar. Es gibt zwei Personen (die Punkte unten rechts), welche etwas von diesem Muster abweichen.
plot(btb$bdi_pre, btb$bdi_diff, xlab = "BDI Baseline", ylab = "BDI difference")


  1. Der Korrelationskoeffizient nach Pearson ist \(r = 0.331\). Diese Aussage ist FALSCH. 0.331 ist nicht der Korrelationskoeffizient nach Pearson, sondern \(R^2\), also das Bestimmtheitsmass. Der Korrelationskoeffizient nach Pearson \(r = \sqrt{R^2} = 0.575\).

  1. Die Nullhypothese für die Frage nach dem Zusammenhang zwischen bdi_pre und bdi_diff lautet \(H_0: \beta_0 = 0\). Diese Aussage ist FALSCH. Nicht \(\beta_0\), sondern \(\beta_1\) beschreibt den Zusammenhang zwischen bdi_pre und bdi_diff. Folglich lautet die Nullhypothese \(H_0: \beta_1 = 0\).

  1. Die Alternativhypothese für die Frage nach dem Zusammenhang zwischen bdi_pre und bdi_diff lautet \(H_A: \beta_1 \neq 0\). Diese Aussage ist KORREKT. \(\beta_1\) beschreibt die Steigung, also um wie viel sich bdi_diff durchschnittlich erhöt, wenn sich bdi_pre um einen Punkt erhöt. Wenn \(\beta_1 = 0\) bedeutet dies, dass kein Zusammenhang zwischen den Variablen besteht.

  1. \(\beta_0\) ist der durchschnittliche BDI-Score zur Baseline der Studie. Diese Aussage ist FALSCH. \(\beta_0\) ist in diesem Fall inhaltlich nicht sinnvoll interpretierbar. Es wäre der durchschnittliche Wert von bdi_diff, wenn die Variable bdi_pre den Wert 0 annimmt. Für solche Personen ist das Modell jedoch nicht aussagekräftig, weil Personen ohne Depression nicht zur untersuchten Population gehören.

  1. \(\beta_1\) ist der Steigungsparameter und beschreibt den Zusammenhang zwischen bdi_pre und bdi_diff. Diese Aussage ist KORREKT. \(\beta_1\) beschreibt die Steigung, also um wie viel sich bdi_diff durchschnittlich erhöt, wenn sich bdi_pre um einen Punkt erhöt.

  1. Je tiefer der Schweregrad zu Beginn der Studie, desto grösser die Verbesserung des BDI-Scores. Diese Aussage ist FALSCH. Weil \(\beta_1\) eine positove Zahl ist, ist auch der Zusammenhang positiv: Je höher der Schweregrad zu Beginn der Studie, desto grösser die Verbesserung des BDI-Scores.

  1. Das Modell schätzt für eine Person, welche zu Beginn der Studie einen BDI-Score von 30 hat, eine durchschnittliche Verbesserung von 16.3 Punkten. Diese Aussage ist KORREKT. Die Regressionsformel lautet \(\beta_0 + \beta1 * x = -2.586 + 0.629 * 30 = 16.284\).

  1. Die Variable bdi_pre erklärt ca. einen Drittel der Variabilität der Variable bdi_diff. Diese Aussage ist KORREKT. Der Anteil der durch die unabhängige Variable bdi_pre erklärte Variabilität der abhängigen Variable bdi_diff gibt uns das Bestimmtheitsmass an: \(R^2 = 0.331 = 33.1%\).

  1. Die Daten zeigen Evidenz dafür, dass sich die Steigung der Regressionsgeraden \(\beta_1\) signifikant von Null unterscheidet. Diese Aussage ist KORREKT. Der kleine p-Wert (<0.001) bedeutet, dass die Daten nicht kompatibel mit \(H_0\) sind. Folglich wird \(H_0\) verworfen zugunsten von \(H_1: \beta_1 \neq 0\).

  1. Die Residuen sind homogen um 0 verteilt. Diese Aussage ist FALSCH. Wenn man den Residuenplot anschaut sieht man, dass das Modell bei tiefen Werten diese eher unterschätzt und hohe Werte eher überschätzt: Bei tiefen geschätzten Werten sind die Residuen eher negativ und bei hohen geschätzen Werten sind die Residuen eher posisitv. Somit sind die Residuen nicht homogen um 0 vertteilt.

  1. Sind die Voraussetzungen für eine lineare Regression verletzt, könnte alternativ der Korrelationskoeffizient nach Spearman berechnet werden, um einen Zusammenhang zwischen bdi_pre und bdi_diff zu analysieren. Diese Aussage ist KORREKT.

8. Klinisch relevante Veränderung

Ein Studie hat untersucht, wie gross die Reduktion des BDI’s sein muss, damit man von einer klinisch relevanten Veränderung ausgehen kann (minimal clinically important difference, MCID). Die Autor:innen kommen zum Schluss, dass sich Personen, welche noch nicht lange an Depression leiden, um 17.5% verbessern müssen. Personen, welche schon länger an Depression leiden, benötigen eine 32%-ige Verbesserung.

Um die Übung zu vereinfach, soll untersucht werden, wie viele Leute in jeder Gruppe sich um mindestens 17.5% verbessert haben.

Aufgabe 1

Erstellen Sie eine neue Variable mcid. Diese Variable soll angeben, ob jemand die MCID erreicht hat oder nicht. Das erreichen Sie, indem Sie eine Bedingung aufstellen:

\[bdi_{diff} > bdi_{pre} * 0.175\]



Lösung 1

Sie können die Variable wie folgt erstellen und dem Datensatz hinzufügen:

btb$mcid <- btb$bdi_diff > btb$bdi_pre * 0.175
btb$mcid
##  [1]  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE FALSE  TRUE  TRUE
## [13]  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE FALSE  TRUE  TRUE  TRUE  TRUE
## [25] FALSE  TRUE  TRUE  TRUE FALSE FALSE  TRUE  TRUE  TRUE  TRUE  TRUE FALSE
## [37]  TRUE  TRUE  TRUE FALSE  TRUE FALSE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE
## [49]  TRUE  TRUE FALSE  TRUE

Die Variable mcid nimmt die Ausprägung TRUE an, wenn die MCID erreicht wurde und FALSE, wenn diese nicht erreicht wurde.

Anmerkung: In R hat TRUE den Wert 1 und FALSE den Wert 0



Aufgabe 2

Berechnen Sie die Häufkeiten der Variable mcid pro Gruppe. Was stellen Sie fest?



Lösung 2

Da es sich bei der Variable mcid um eine qualitative Variable handelt, macht nur die Berechnung von Häufigkeiten Sinn. Dies erreicht man am einfachsten durch die Erstellung einer Kreuztabelle:

table(btb$mcid, btb$treatment, dnn = c("MCID", "Group"))
##        Group
## MCID    BtheB TAU
##   FALSE     3   6
##   TRUE     24  19

In der BthtB Gruppe haben 3 von 27 (11.1%) und in der TAU Gruppe 6 von 25 (24%) Personen die MCID nicht erreicht.



Aufgabe 3

Mit welchem statistischen Verfahren könnten analysieren, ob die in Aufgabe 2 gefundenen Unterschiede statistisch signifikant sind? Wie lauten die statistischen Hypothese zu diesem Test? Was sind die Voraussetzungen für diesen Test?



Lösung 3

Eine Möglichkeit, um die Unabhängigkeit zweier nominaler Variablen zu testen, ist der Chi-Quadrat Test. Dabei werden die folgenden Hypothesen aufgestellt:

\(𝐻_0\): Die zwei Variablen sind unabhängig

\(H_𝐴\):Die zwei Variablen sind abhängig

Für einen Chi-Quadrat Test sollte die erwartete Häufigkeit in keine Zelle kleiner als 5 sein. Ansonsten sollte der Fisher-Test verwendet werden.



Aufgabe 4

Führen Sie einen Chi-Quadrat (oder ggf. einen Fisher-Test) durch und interpretieren Sie das Resultat.



Lösung 4

Um den Chi-Quadrat Test durchzuführen, wird die oben erstellte Kreuztabelle verwendet:

tab <- table(btb$mcid, btb$treatment, dnn = c("MCID", "Group"))
tab
##        Group
## MCID    BtheB TAU
##   FALSE     3   6
##   TRUE     24  19
chisq.test(tab)
## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  tab
## X-squared = 0.74071, df = 1, p-value = 0.3894

Damit entschieden werden kann, ob die Voraussetzung bzgl. den erwarteten Häufigkeiten erfüllt ist, werden diese separat angezeigt:

chisq.test(tab)$expected
##        Group
## MCID        BtheB       TAU
##   FALSE  4.673077  4.326923
##   TRUE  22.326923 20.673077


Die erwarteten Häufigkeiten entsprechen quasi der Nullhypothese, also dass es keinen Zusammenhang zwischen Gruppe und der Anzahl Personen gibt, welche die MCID erreichen, bzw. nicht erreichen. Und \(H_0\) wird erwartet, dass in der BtheB Gruppe 4.67 und in der TAU Gruppe 4.33 Personen die MCID nicht erreichen. Unsere beobachteten Häufigkeiten weichen nur geringfügig von den erwarteten Häufigkeiten ab. Somit besteht wenig Evidenz gegen \(H_0\). Das bestätig der hohe p-Wert des Chi-Quadrat Tests. Weil die erwarteten Häufigkeiten in zwei Zellen knapp kleiner sind als 5, sollte man den p-Wert des Fisher-Tests interpretieren:

fisher.test(tab)
## 
##  Fisher's Exact Test for Count Data
## 
## data:  tab
## p-value = 0.2839
## alternative hypothesis: true odds ratio is not equal to 1
## 95 percent confidence interval:
##  0.05756031 2.18777403
## sample estimates:
## odds ratio 
##   0.402943

Dieser ist ebenfalls hoch. Wir können also keinen Zusammenhang zwischen Gruppe und dem erreichen der MCID nachweisen.



9 Fazit

Wir haben gesehen, dass sich zwar beide Gruppen statistisch signifikant verbessern, jedoch zwischen den Gruppen keine statistisch signifikanten Unterschiede festgestellt werden konnten (sowohl beim t-Test sowie beim Chi-Quardrat Test). Dieses Phänomen ist bei Interventionsstudien im Gesundheitssektor gang und gägbe. Der Faktor “Zeit” ist also nicht zu unterschätzen. Nicht selten setzt man genau dann eine Intervention an, wenn das Problem am schlimmsten ist. In vielen fällen ist es dann nicht mehr als logisch, dass man sich verbessert (Regression to the mean). Genau aus diesem Grund ist es so wichtig, dass man eine Intervention wenn immer möglich mit einer Kontrollintervention vergleicht. Durch eine Randomisierung erreicht man am ehesten, dass die Gruppen zu Beginn der Studie vergleichbar sind. Bei dieser Teilstichprobe, war dies der Fall.

Falls Sie die Originalstudie gelesen haben wird Ihnen aufgefallen sein, dass dort von einem “statistisch signifikanten” Unterschied zwischen den Gruppen die Rede ist. Haben Sie in dieser Übung nun doch alles falsch gerechnet? Nein! Es gibt mehrere Gründe, warum die Originalstudie zu (leicht) unterschiedlichen Resultaten kommt:

  • Wir verfügen nur über einen Teildatensatz. Die Stichprbengrösse in der publizierten Studie ist fast doppelt so gross. Dies führt zu einer erheblich grösseren statistischen Power: Aufgrund des Wurzel-n-Gesetztes wissen wir, dass mit grössererm Stichprobenumfang der Standardfehler kleiner wird. Heisst: Bei gleichem Effekt werden Vertrauensintervalle schmaler, Teststatistiken grösser und p-Werte somit kleiner und schneller signifikant.

  • In der Studie wurde eine andere Analyse durchgefüht. Sie haben sicher gesehen, dass der BDI auch nach zwei, vier und sechs Monaten gemessen wurden. Im statistischen Modell der Autor:innen (einem soganannten mixed effects model) wurden alle Zeitpunkte berücksichtig. Weil die BtheB Gruppe bei allen Zeitpunkten leicht besser war als die TAU Gruppe, erhöht das die Wahrscheinlichkeit, dass man insgesamt einen p-Wert unter 5% findet.

  • In der Studie wurde mit dem effektiven BDI-Wert gerechnet, wir haben mit der Differenz (vorher-nachher) gererchnet. Das Rechnen mit der Differenz bietet den Vorteil, dass dadurch automatisch für die Baseline adjustiert wird!

  • In der Studie wird der Zeitpunkt nach 8 Monaten nur halbpatzig berücksichtig (siehe z.B. Tabelle unten). Warum wohl? Wenn sie einen t-Test machen für den BDI-Score nach 6 Monaten werden Sie einen signifikanten Unterschied zwischen den Gruppen feststellen, jedoch nicht nach 8 Monaten!

Auszug aus der Studie
Auszug aus der Studie