In dieser Übung werden folgende Inhalte abgedeckt:
Ziel dieser Übung ist es, Kenntnisse zu den oben stehenden Themen auf eine konkrete Forschungsfrage mithilfe der Statistiksoftware R anzuwenden und die Resultate sinngemäss zu interpretieren.
Als Grundlage erhalten Sie den Datensatz “Beat the blues”. Dieser Datensatz stammt von einer randomisierten, kontrollierten Studie, in welcher untersucht wurde, ob das «Beat the Blues» Programm zur Behandlung von Menschen mit Depression effektiver ist als die Standardbehandlung (Treatment as usual, TAU). Der in dieser Übung verwendete Datensatz umfasst einen repräsentativen Teil der Proband:innen. Mehr Informationen zur Methodik dieser Studie finden Sie hier.
Der Datensatz umfasst folgende Variablen:
Der BDI Score geht von 0 bis 63, ein höherer BDI steht für einen höheren Grad einer Depression:
0–8: Keine Depression
9–13: Minimale Depression
14–19: Leichte Depression
20–28: Mittelschwere Depression
29–63: Schwere Depression
Den Datensatz können Sie im Moodle-Kurs herunterladen. Sie brauchen ihn, um die folgenden Aufgaben zu lösen.
Laden Sie den Datensatz herunter und öffnen Sie ihn in R.
library(rio)
btb <- import("../Data/BTB.csv") # Die working directory muss individuell angepasst werden.
str(btb)
## 'data.frame': 52 obs. of 9 variables:
## $ Subject : int 2 4 6 7 8 9 10 11 14 15 ...
## $ drug : chr "Yes" "No" "Yes" "Yes" ...
## $ length : chr ">6m" ">6m" "<6m" "<6m" ...
## $ treatment: chr "BtheB" "BtheB" "BtheB" "TAU" ...
## $ bdi_pre : int 32 21 7 17 20 18 20 30 30 23 ...
## $ bdi_2m : int 16 17 0 7 20 13 5 32 26 13 ...
## $ bdi_4m : int 24 16 0 7 21 14 5 24 36 13 ...
## $ bdi_6m : int 17 10 0 3 19 20 8 12 27 12 ...
## $ bdi_8m : int 20 9 0 7 13 11 12 2 22 23 ...
Der Datensatz umfasst 9 Variablen, wobei die erste Variable eine reine Identifikationsvariable ist. Insgesamt gibt es 52 Beobachtungseinheiten.
Bestimmen Sie den Datentyp (Skalenniveau) jeder Variable.
Passen Sie den Datentyp in R an, wenn dieser nicht korrekt hinterlegt ist.
Die Variablen drug
, length
und
treamtent
sind kategoriale Variablen und sollten in
Faktoren umgewandelt werden. Bei den restlichen Variablen kann der von R
definierte Datentyp beibehalten werden.
btb$drug <- factor(btb$drug)
btb$length <- factor(btb$length)
btb$treatment <- factor(btb$treatment)
str(btb)
## 'data.frame': 52 obs. of 9 variables:
## $ Subject : int 2 4 6 7 8 9 10 11 14 15 ...
## $ drug : Factor w/ 2 levels "No","Yes": 2 1 2 2 1 2 2 1 2 2 ...
## $ length : Factor w/ 2 levels "<6m",">6m": 2 2 1 1 2 1 2 2 2 2 ...
## $ treatment: Factor w/ 2 levels "BtheB","TAU": 1 1 1 2 2 1 1 2 2 1 ...
## $ bdi_pre : int 32 21 7 17 20 18 20 30 30 23 ...
## $ bdi_2m : int 16 17 0 7 20 13 5 32 26 13 ...
## $ bdi_4m : int 24 16 0 7 21 14 5 24 36 13 ...
## $ bdi_6m : int 17 10 0 3 19 20 8 12 27 12 ...
## $ bdi_8m : int 20 9 0 7 13 11 12 2 22 23 ...
In kontrollierten Studien ist es wichtig, dass die Gruppen zu Beginn
der Studie vergleichbar sind. Berechnen Sie das n, den Mittelwert, den
Median, die Standardabweichung das Minimum, das Maximum und die Quartile
für die Variable bdi_pre
separat für die Personen in der
BtheB-Gruppe und die Personen in der TAU-Gruppe. Berechnen Sie ebenfalls
die absoluten Häufigkeiten für die Variablen drug
und
length
nach Gruppe. Sind die Gruppe BtheB
und
die Gruppe TAU
zu Beginn der Studie vergleichbar in Bezug
auf die Variablen bdi_pre
, drug
und
length
?
Hier wird die Augabe mit Hilfe des tidyverse
Package
gelöst. Natürlich sind alle Lösungswege, welche zum gleichen Resultat
führen auch korret (zum Beispiel, indem man subsets für beide Gruppen
erstellt).
library(tidyverse)
library(kableExtra)
btb %>%
group_by(treatment) %>%
summarise(n = length(bdi_pre),
Mean = mean(bdi_pre),
Median = median(bdi_pre),
SD = sd(bdi_pre),
Min = min(bdi_pre),
Max = max(bdi_pre),
Q1 = quantile(bdi_pre, probs = 0.25),
Q3 = quantile(bdi_pre, probs = 0.75)) %>%
kbl() %>%
kable_styling()# Macht, dass die Tabelle etwas schöner aussieht - ist inhaltlich nicht relevant
treatment | n | Mean | Median | SD | Min | Max | Q1 | Q3 |
---|---|---|---|---|---|---|---|---|
BtheB | 27 | 22.00 | 19 | 10.894600 | 7 | 44 | 14 | 32.5 |
TAU | 25 | 24.12 | 22 | 8.074239 | 10 | 38 | 17 | 30.0 |
Die BtheB Gruppe umfasst 27 Personen, die TAU Gruppe 25. Mittelwert
(22 vs. 24.1) und Median (19 vs 22) sind in der BtheB Gruppe leicht
tiefer als in der TAU Gruppe. Die Werte in der BtheB Gruppe streuen
etwas mehr um den Mittelwert als in der TAU Gruppe (Standarabweichung:
10.9 vs 8.07). Die Randomisierung scheint ihren Job gut gemacht zu
haben: Die Gruppen sind bzgl. der Variable bdi_pre
insgesamt vergleichbar.
Durch das Erstellen von Häufigkeitstabellen können die Gruppen bzgl.
den Variablen drug
und length
verglichen
werden.
## Group
## Drug BtheB TAU
## No 11 17
## Yes 16 8
## Group
## Length BtheB TAU
## <6m 12 9
## >6m 15 16
Während es bei der Variable length
keine grossen
Unterschiede gibt, fällt auf, dass in der BtheB Gruppe etwas mehr Leute
Antidepressiva einnahmen als in der TAU Gruppe.
Erstellen Sie eine Grafik mit Boxplots der Variable
bdi_pre
, sepparat pro Gruppe. Interpretieren Sie die
Grafik.
Die Grafik bestätigt die Interpretation oben. Es wird ersichtlich, dass der Median in der TAU Gruppe etwas höher ist und die Werte in der BtheB Gruppe etwas mehr streuen. In beiden Gruppen gibt es keine Ausreisser und keine Werte, die nicht plausibel wären. Insgesamt kann gesagt werden, dass die Gruppen zu Beginn der Studie bzgl. des BDI-Scores vergleichbar sind.
Berechnen Sie eine neue Variable bdi_diff
, welche die
Differenz zwischen der ersten und der letzten Messung darstellt. Rechnen
Sie die Differenz so, dass eine positive Zahl eine Verbesserung der
Depression bedeutet.
Anmerkung: Theoretisch könnten Sie dieser neuen Variable einen
beliebigen Namen geben. Zur Nachvollziehbarkeit der Aufgaben und
Lösungen empfehlen wir jedoch, den Namen bdi_diff
zu
übernhemen.
Die Variable bdi_diff
kann wie folgt erstellt und direkt
dem Datensatz (letzte Spalte) hinzugefügt werden:
## Subject drug length treatment bdi_pre bdi_2m bdi_4m bdi_6m bdi_8m bdi_diff
## 1 2 Yes >6m BtheB 32 16 24 17 20 12
## 2 4 No >6m BtheB 21 17 16 10 9 12
## 3 6 Yes <6m BtheB 7 0 0 0 0 7
## 4 7 Yes <6m TAU 17 7 7 3 7 10
## 5 8 No >6m TAU 20 20 21 19 13 7
## 6 9 Yes <6m BtheB 18 13 14 20 11 7
Um wie viel hat sich die Person in der vierten Zeile (Subject 7) von
der Baseline (bdi_pre
) bis zur letzten Messung
(bdi_8m
) verbessert/verschlechtert?
Wir sehen, dass sich die Person in der vierten Zeile (Subject 7) um 10 Punkte verbessert hat (der Score nimmt ab, also hat sich die Depression verbessert).
## Subject drug length treatment bdi_pre bdi_2m bdi_4m bdi_6m bdi_8m bdi_diff
## 4 7 Yes <6m TAU 17 7 7 3 7 10
Wie gross ist die durchschnittliche Verbesserung in der BtheB Gruppe und in der TAU Gruppe? Wie gross ist die jeweilige Standardabweichung?
btb %>%
group_by(treatment) %>%
summarise(Mean_diff = mean(bdi_diff),
SD_diff = sd(bdi_diff)) %>%
kbl() %>%
kable_styling()
treatment | Mean_diff | SD_diff |
---|---|---|
BtheB | 13.14815 | 10.04108 |
TAU | 10.52000 | 11.02316 |
Im Durchschnitt hat sich der BDI-Score in der BtheB Gruppe um 13.1 Punkte verbessert (sd = 10) und in der TAU Gruppe um 10.5 Punkte (sd = 11).
Untersuchen Sie, ob es Evidenz dafür gibt, dass sich die BDI-Scores innerhalb der Gruppen von der Baseline bis zur Messung nach 8 Monaten verändert haben. Die folgenden Aufgaben beziehen sich sowohl auf die BtheB Gruppe sowie die TAU Gruppe.
Mit welchem statistischen Test/Verfahren können Sie dies prüfen? Begründen Sie.
In Frage kommt entweder ein t-Test für abhängige Stichproben oder der
Wilcoxon-Test. Wir müssen einen Test für abhängige Stichproben wählen,
weil die Daten vor und nach der Behandlung von der selben Person
stammen. Weil wir die Differenz zwischen bdi_pre
und
bdi_8m
bereits berechnet haben, können wir auch einen
Einstichproben Test mit der Variable bdi_diff
durchführen
(was mathematisch äquivalent ist mit einen Test für abhängige
Stichproben).
Wie lauten Ihre statistischen Hypothesen?
Die Nullhypothese sagt in diesem Fall, dass sich der durchschnittliche BDI-Score nicht verändert hat. Mathematisch ausgedrückt:
\[\mu_{bdi.diff} = 0\]
Die Alternativhypothese lautet folglich:
\[\mu_{bdi.diff} \neq 0\] Weil es grundsätzlich plausibel ist, dass das Beat the Blues Programm schlechter abschneidet als die Standardtherapie, sollten ungerichtete Hypothesen formuliert werden.
Prüfen Sie allfällige Voraussetzungen für ihr vorgesehenes Testverfahren.
Falls Sie sich für einen t-Test entscheiden, sollten Sie folgendes beachten:
BtheB <- subset(btb, treatment == "BtheB") # Damit die Gruppen separat analysiert werden können, erstellt man am einfachsten Subsets.
TAU <- subset(btb, treatment == "TAU")
qqnorm(BtheB$bdi_diff, main = "BtheB")
qqline(BtheB$bdi_diff)
Man sieht, dass die Daten in beiden Gruppen nicht perfekt, aber annähernd einer Normalverteilung folgen.
Welcher Test soll nun durchgeführt werden?!
Auf diese Frage gibt es kein Richtig oder Falsch. Weil parametrische Verfahren (also hier der t-Test) gegenüber den nicht-parametrischen Verfahren flexibler sind, werden in der Forschungspraxis deutlich häufiger parametrische Verfahren angewendet (so auch in der Beat the Blues Studie). Fans des zentralen Grenzwertsatz haben ohnehin gute Argumente für parametrische Verfahren. Die Autoren dieser Übung sind der Ansicht, dass in diesem Fall ein t-Test für abhängige Stichproben angemessen ist. Vollständigkeitshalber wird aber auch das nicht-paramtetrische Verfahren (Wilcoxon Test) gezeigt.
Führen Sie das Testverfahren für jede Gruppe in R durch und interpretieren Sie das Resultat des statistischen Tests.
Damit die Gruppen separat analysiert werden können, verwenden wir am einfachsten weiterhin die Subsets, welche oben schon erstellt wurden.
t.test(BtheB$bdi_diff) # ergibt das gleiche Resultat wie t.test(BtheB$bdi_pre, BtheB$bdi_8m, paired = TRUE)
##
## One Sample t-test
##
## data: BtheB$bdi_diff
## t = 6.804, df = 26, p-value = 3.199e-07
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
## 9.176028 17.120269
## sample estimates:
## mean of x
## 13.14815
Interpretation
Die mittlere Differenz zwischen den beiden Zeitpunkten beträgt in der BtheB Gruppe 13.1 Punkte. Unter dem Szenario, dass H0 wahr ist, ist die Wahrscheinlichkeit (also der p-Wert), eine Teststatistik t von 6.8 bei einer t-Verteilung mit 26 Freiheitsgeraden zu finden, sehr klein (kleiner als 0.1%). Bei einem Signifikanzniveau von 5% fällt die Teststatistik t somit in den Verwerfungsbereich. Folglich wird H0 zugunsten von HA verworfen. Wir können zu 95% darauf vertrauen, dass die wahre mittlere Differenz irgendwo zwischen 9.18 und 17.1 Punkten liegt. Die Daten liefern also Evidenz dafür, dass sich der BDI-Score in der TAU Gruppe verbessert.
Der Wilcoxon-Test ist kongruent mit dem t-Test.
##
## Wilcoxon signed rank test with continuity correction
##
## data: BtheB$bdi_diff
## V = 324, p-value = 1.446e-05
## alternative hypothesis: true location is not equal to 0
Für die TAU-Gruppe ist das Vorgehen analog wie oben bei der BtheB Gruppe.
##
## One Sample t-test
##
## data: TAU$bdi_diff
## t = 4.7718, df = 24, p-value = 7.419e-05
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
## 5.969864 15.070136
## sample estimates:
## mean of x
## 10.52
Interpretation:
Die mittlere Differenz zwischen den beiden Zeitpunkten beträgt in der TAU Gruppe 10.5 Punkte. Unter dem Szenario, dass H0 wahr ist, ist die Wahrscheinlichkeit (also der p-Werte), eine Teststatistik t von 4.77 bei einer t-Verteilung mit 24 Freiheitsgeraden zu finden, sehr klein (kleiner als 0.1%). Bei einem Signifikanzniveau von 5% fällt die Teststatistik t somit in den Verwerfungsbereich. Folglich wird H0 zugunsten von HA verworfen. Wir können zu 95% darauf vertrauen, dass die wahre mittlere Differenz irgendwo zwischen 5.97 und 15.1 Punkten liegt. Die Daten liefern also Evidenz dafür, dass sich der BDI-Score in der BtheB Gruppe verbessert.
Der Wilcoxon-Test ist kongruent mit dem t-Test.
##
## Wilcoxon signed rank test with continuity correction
##
## data: TAU$bdi_diff
## V = 298.5, p-value = 0.0002649
## alternative hypothesis: true location is not equal to 0
In der Übung 5 haben Sie in Erfahrung gebracht, dass sie sowohl die
BtheB Gruppe (um 13.1 Punkte [95% CI: 9.18 bis 17.1]) sowie die TAU
Gruppe (um 10.5 Punkte [95% CI: 5.97 bis 15.1]) statistisch signifikant
verbessert haben beim BDI-Score. In dieser Übung geht es nun um die
Fragen, ob sich die mittlere Veränderung des BDI-Scores
zwischen den Gruppen unterscheidet.
Untersuchen Sie, ob sich die durchschnittliche Veränderung des
BDI-Scores zwischen der BtheB Gruppe und der TAU Gruppe
unterscheidet.
Stellen Sie die Variable bdi_diff
mittels Boxplots
separat pro Gruppe dar. Würden Sie aufgrund dieser Darstellung einen
statistisch signifikanten Unterschied zwischen den Gruppen erwarten? Mit
welchem statistischen Test/Verfahren können Sie dies prüfen?
Anhand der Grafik oben würde man kaum annehmen, dass sich die durchschnittliche Veränderung zwischen den Gruppen unterscheidet. Um dies mit einem statistischen Test zu überprüfen, kommt entweder ein t-Test für unabhängige Stichproben oder der Mann-Withney U Test in Frage. Wir müssen einen Test für unabhängige Stichproben wählen, weil die Daten in der BthB Gruppe unabhängig von jenen in der TAU Gruppe sind.
Wie lauten Ihre statistischen Hypothesen?
Die Nullhypothese sagt in diesem Fall, dass sich die mittlere Differenz des BDI-Scores zwischen der BtheB Gruppe und der TAU Gruppe nicht unterscheidet. Mathematisch ausgedrückt:
\[\mu_{bdi.diff(BtheB)} = \mu_{bdi.diff(TAU)} \]
Die Alternativhypothese lautet folglich:
\[\mu_{bdi.diff(BtheB)} \neq \mu_{bdi.diff(TAU)}\] Weil es grundsätzlich plausibel ist, dass das Beat the Blues Programm schlechter abschneidet als die Standardtherapie, sollten ungerichtete Hypothesen formuliert werden.
Prüfen Sie allfällige Voraussetzungen für ihr vorgesehenes Testverfahren.
Falls Sie sich für einen t-Test entscheiden, sollten Sie folgendes beachten:
bdi_diff
in den
beiden Gruppen annähernd normalverteilt ist. Die Darstellung erfolgt am
einfachsten mittels QQ-Plot:Man sieht, dass die Daten nicht perfekt, aber annähernd eine Normalverteilung folgen.
Welcher Test soll nun durchgeführt werden?!
Auf diese Frage gibt es kein Richtig oder Falsch. Weil parametrische Verfahren (also hier der t-Test für unabhängige Stichproben) gegenüber den nicht-parametrischen Verfahren flexibler sind, werden in der Forschungspraxis deutlich häufiger parametrische Verfahren angewendet (so auch in der Beat the Blues Studie). Fans des zentralen Grenzwertsatz haben ohnehin gute Argumente für parametrische Verfahren. Die Autoren dieser Übung sind der Ansicht, dass in diesem Fall ein t-Test für unabhängige Stichproben angemessen ist. Vollständigkeitshalber wird aber auch das nicht-paramtetrische Verfahren (Mann-Withney U Test) gezeigt.
Führen Sie das Testverfahren in R durch und interpretieren Sie das Resultat des statistischen Tests.
Der Output des t-Tests für unabhängige Stichproben sieht wie folgt aus:
##
## Welch Two Sample t-test
##
## data: btb$bdi_diff by btb$treatment
## t = 0.89647, df = 48.577, p-value = 0.3744
## alternative hypothesis: true difference in means between group BtheB and group TAU is not equal to 0
## 95 percent confidence interval:
## -3.264531 8.520827
## sample estimates:
## mean in group BtheB mean in group TAU
## 13.14815 10.52000
Interpretation
Die Mittelwertsdifferenz zwischen den Gruppen beträgt 2.63 Punkte.
Unter dem Szenario, dass H0 (Mittelwertsdifferenz = 0) wahr ist, ist die
Wahrscheinlichkeit (also der p-Wert), eine Teststatistik t von 0.9 bei
einer t-Verteilung mit 50 Freiheitsgeraden zu finden, relativ gross
(37.3%). Bei einem Signifikanzniveau von 5% fällt die Teststatistik t
somit nicht in den Verwerfungsbereich. Folglich liefern die Daten keine
Evidenz gegen H0 und wir verwerfen H0 deshalb nicht.
Wir können zu 95% darauf vertrauen, dass die wahre Mittelwertsdifferenz
irgendwo zwischen -3.24 und 8.5 Punkten liegt. Da das Intervall breit
ist und sowohl negative (TAU ist besser) wie auch positive (BtheB ist
besser) Werte beinhaltet, liefern die Daten keine Evidenz dafür, dass
sich die durchschnittliche Verbesserung des BDI-Scores in der BtheB
Gruppe und der TAU Gruppe unterscheidet.
Der Welch’s t-Test korrigiert für die Tatsache, dass die Standardabweichungen der beiden Gruppen nicht ganz genau gleich sind. Das Ergebnis unterscheidet sich jedoch kaum vom normalen t-Test. Auch das nicht-parametrische Verfahren, der Mann-Withney U Test, führt zur selben Interpretation:
##
## Wilcoxon rank sum test with continuity correction
##
## data: btb$bdi_diff by btb$treatment
## W = 375.5, p-value = 0.4914
## alternative hypothesis: true location shift is not equal to 0
Der Eindruck, welcher durch die Betrachtung der Boxplots entstand, hat also nicht getäuscht (es lohnt sich immer, zuerst grafische Eindrücke zu sammeln!).
Es stellt sich die Frage, ob es einen Zusammenhang gibt zwischen dem
Schweregrad der Depression zu Beginn der Studie (bdi_pre
)
und der Veränderung des BDI-Scores (bdi_diff
). Um diese
Frage zu beantworten, wurde die folgende einfache lineare Regression
berechnet:
##
## Call:
## lm(formula = bdi_diff ~ bdi_pre, data = btb)
##
## Residuals:
## Min 1Q Median 3Q Max
## -24.044 -5.315 1.113 5.670 14.584
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -2.5855 3.1505 -0.821 0.416
## bdi_pre 0.6286 0.1265 4.970 8.24e-06 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 8.679 on 50 degrees of freedom
## Multiple R-squared: 0.3307, Adjusted R-squared: 0.3173
## F-statistic: 24.7 on 1 and 50 DF, p-value: 8.243e-06
Reproduzieren Sie die lineare Regression in R.
Sie können das lineare Regressionsmodell wie folgt in R berechnen lassen:
##
## Call:
## lm(formula = bdi_diff ~ bdi_pre, data = btb)
##
## Residuals:
## Min 1Q Median 3Q Max
## -24.044 -5.315 1.113 5.670 14.584
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -2.5855 3.1505 -0.821 0.416
## bdi_pre 0.6286 0.1265 4.970 8.24e-06 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 8.679 on 50 degrees of freedom
## Multiple R-squared: 0.3307, Adjusted R-squared: 0.3173
## F-statistic: 24.7 on 1 and 50 DF, p-value: 8.243e-06
Beurteilen Sie für alle folgenden Aussagen, ob diese zutreffen oder nicht und begründen Sie ihre Entscheidung:
bdi_pre
ist die abhängige Variable.bdi_pre
und bdi_diff
besteht ein
positiver, linearer Zusammenhang.bdi_pre
und bdi_diff
lautet \(H_0: \beta_0 = 0\).bdi_pre
und bdi_diff
lautet \(H_A: \beta_1 \neq 0\).bdi_pre
und bdi_diff.
bdi_pre
erklärt ca. einen Drittel der
Variabilität der Variable bdi_diff
.bdi_pre
und
bdi_diff
zu analysieren.Beurteilung der Aussagen zur obigen lineare Regression:
bdi_pre
ist die abhängige Variable. Diese
Aussage ist FALSCH. In diesem Modell ist die Variable
bdi_pre
die unabhängige Variable (auch Prädiktorvariable
genannt) und die Variable bdi_diff
ist die abhängige
Variable.bdi_pre
und bdi_diff
besteht ein
positiver, linearer Zusammenhang. Diese Aussage ist
KORREKT. Wenn man die beiden Variablen in einem
Streudiagramm darstellt, ist ein positiver, linearer Zusammenhang
vertretbar. Es gibt zwei Personen (die Punkte unten rechts), welche
etwas von diesem Muster abweichen.bdi_pre
und bdi_diff
lautet \(H_0: \beta_0 = 0\). Diese Aussage ist
FALSCH. Nicht \(\beta_0\), sondern \(\beta_1\) beschreibt den Zusammenhang
zwischen bdi_pre
und bdi_diff
. Folglich lautet
die Nullhypothese \(H_0: \beta_1 =
0\).bdi_pre
und bdi_diff
lautet \(H_A: \beta_1 \neq 0\). Diese Aussage ist
KORREKT. \(\beta_1\)
beschreibt die Steigung, also um wie viel sich bdi_diff durchschnittlich
erhöt, wenn sich bdi_pre um einen Punkt erhöt. Wenn \(\beta_1 = 0\) bedeutet dies, dass kein
Zusammenhang zwischen den Variablen besteht.bdi_diff
, wenn die Variable
bdi_pre
den Wert 0 annimmt. Für solche Personen ist das
Modell jedoch nicht aussagekräftig, weil Personen ohne Depression nicht
zur untersuchten Population gehören.bdi_pre
und bdi_diff.
Diese Aussage ist
KORREKT. \(\beta_1\)
beschreibt die Steigung, also um wie viel sich bdi_diff durchschnittlich
erhöt, wenn sich bdi_pre um einen Punkt erhöt.bdi_pre
erklärt ca. einen Drittel der
Variabilität der Variable bdi_diff
. Diese Aussage ist
KORREKT. Der Anteil der durch die unabhängige Variable
bdi_pre
erklärte Variabilität der abhängigen Variable
bdi_diff
gibt uns das Bestimmtheitsmass an: \(R^2 = 0.331 = 33.1%\).bdi_pre
und
bdi_diff
zu analysieren. Diese Aussage ist
KORREKT.Ein Studie hat untersucht, wie gross die Reduktion des BDI’s sein muss, damit man von einer klinisch relevanten Veränderung ausgehen kann (minimal clinically important difference, MCID). Die Autor:innen kommen zum Schluss, dass sich Personen, welche noch nicht lange an Depression leiden, um 17.5% verbessern müssen. Personen, welche schon länger an Depression leiden, benötigen eine 32%-ige Verbesserung.
Um die Übung zu vereinfach, soll untersucht werden, wie viele Leute in jeder Gruppe sich um mindestens 17.5% verbessert haben.
Erstellen Sie eine neue Variable mcid
. Diese Variable
soll angeben, ob jemand die MCID erreicht hat oder nicht. Das erreichen
Sie, indem Sie eine Bedingung aufstellen:
\[bdi_{diff} > bdi_{pre} * 0.175\]
Sie können die Variable wie folgt erstellen und dem Datensatz hinzufügen:
## [1] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE FALSE TRUE TRUE
## [13] TRUE TRUE TRUE TRUE TRUE TRUE TRUE FALSE TRUE TRUE TRUE TRUE
## [25] FALSE TRUE TRUE TRUE FALSE FALSE TRUE TRUE TRUE TRUE TRUE FALSE
## [37] TRUE TRUE TRUE FALSE TRUE FALSE TRUE TRUE TRUE TRUE TRUE TRUE
## [49] TRUE TRUE FALSE TRUE
Die Variable mcid
nimmt die Ausprägung TRUE
an, wenn die MCID erreicht wurde und FALSE
, wenn diese
nicht erreicht wurde.
Anmerkung: In R hat TRUE den Wert 1 und FALSE den Wert 0
Berechnen Sie die Häufkeiten der Variable mcid
pro
Gruppe. Was stellen Sie fest?
Da es sich bei der Variable mcid
um eine qualitative
Variable handelt, macht nur die Berechnung von Häufigkeiten Sinn. Dies
erreicht man am einfachsten durch die Erstellung einer Kreuztabelle:
## Group
## MCID BtheB TAU
## FALSE 3 6
## TRUE 24 19
In der BthtB Gruppe haben 3 von 27 (11.1%) und in der TAU Gruppe 6 von 25 (24%) Personen die MCID nicht erreicht.
Mit welchem statistischen Verfahren könnten analysieren, ob die in Aufgabe 2 gefundenen Unterschiede statistisch signifikant sind? Wie lauten die statistischen Hypothese zu diesem Test? Was sind die Voraussetzungen für diesen Test?
Eine Möglichkeit, um die Unabhängigkeit zweier nominaler Variablen zu testen, ist der Chi-Quadrat Test. Dabei werden die folgenden Hypothesen aufgestellt:
\(𝐻_0\): Die zwei Variablen sind unabhängig
\(H_𝐴\):Die zwei Variablen sind abhängig
Für einen Chi-Quadrat Test sollte die erwartete Häufigkeit in keine Zelle kleiner als 5 sein. Ansonsten sollte der Fisher-Test verwendet werden.
Führen Sie einen Chi-Quadrat (oder ggf. einen Fisher-Test) durch und interpretieren Sie das Resultat.
Um den Chi-Quadrat Test durchzuführen, wird die oben erstellte Kreuztabelle verwendet:
## Group
## MCID BtheB TAU
## FALSE 3 6
## TRUE 24 19
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: tab
## X-squared = 0.74071, df = 1, p-value = 0.3894
Damit entschieden werden kann, ob die Voraussetzung bzgl. den erwarteten Häufigkeiten erfüllt ist, werden diese separat angezeigt:
## Group
## MCID BtheB TAU
## FALSE 4.673077 4.326923
## TRUE 22.326923 20.673077
Die erwarteten Häufigkeiten entsprechen quasi der Nullhypothese, also dass es keinen Zusammenhang zwischen Gruppe und der Anzahl Personen gibt, welche die MCID erreichen, bzw. nicht erreichen. Und \(H_0\) wird erwartet, dass in der BtheB Gruppe 4.67 und in der TAU Gruppe 4.33 Personen die MCID nicht erreichen. Unsere beobachteten Häufigkeiten weichen nur geringfügig von den erwarteten Häufigkeiten ab. Somit besteht wenig Evidenz gegen \(H_0\). Das bestätig der hohe p-Wert des Chi-Quadrat Tests. Weil die erwarteten Häufigkeiten in zwei Zellen knapp kleiner sind als 5, sollte man den p-Wert des Fisher-Tests interpretieren:
##
## Fisher's Exact Test for Count Data
##
## data: tab
## p-value = 0.2839
## alternative hypothesis: true odds ratio is not equal to 1
## 95 percent confidence interval:
## 0.05756031 2.18777403
## sample estimates:
## odds ratio
## 0.402943
Dieser ist ebenfalls hoch. Wir können also keinen Zusammenhang zwischen Gruppe und dem erreichen der MCID nachweisen.
Wir haben gesehen, dass sich zwar beide Gruppen statistisch signifikant verbessern, jedoch zwischen den Gruppen keine statistisch signifikanten Unterschiede festgestellt werden konnten (sowohl beim t-Test sowie beim Chi-Quardrat Test). Dieses Phänomen ist bei Interventionsstudien im Gesundheitssektor gang und gägbe. Der Faktor “Zeit” ist also nicht zu unterschätzen. Nicht selten setzt man genau dann eine Intervention an, wenn das Problem am schlimmsten ist. In vielen fällen ist es dann nicht mehr als logisch, dass man sich verbessert (Regression to the mean). Genau aus diesem Grund ist es so wichtig, dass man eine Intervention wenn immer möglich mit einer Kontrollintervention vergleicht. Durch eine Randomisierung erreicht man am ehesten, dass die Gruppen zu Beginn der Studie vergleichbar sind. Bei dieser Teilstichprobe, war dies der Fall.
Falls Sie die Originalstudie gelesen haben wird Ihnen aufgefallen sein, dass dort von einem “statistisch signifikanten” Unterschied zwischen den Gruppen die Rede ist. Haben Sie in dieser Übung nun doch alles falsch gerechnet? Nein! Es gibt mehrere Gründe, warum die Originalstudie zu (leicht) unterschiedlichen Resultaten kommt:
Wir verfügen nur über einen Teildatensatz. Die Stichprbengrösse in der publizierten Studie ist fast doppelt so gross. Dies führt zu einer erheblich grösseren statistischen Power: Aufgrund des Wurzel-n-Gesetztes wissen wir, dass mit grössererm Stichprobenumfang der Standardfehler kleiner wird. Heisst: Bei gleichem Effekt werden Vertrauensintervalle schmaler, Teststatistiken grösser und p-Werte somit kleiner und schneller signifikant.
In der Studie wurde eine andere Analyse durchgefüht. Sie haben sicher gesehen, dass der BDI auch nach zwei, vier und sechs Monaten gemessen wurden. Im statistischen Modell der Autor:innen (einem soganannten mixed effects model) wurden alle Zeitpunkte berücksichtig. Weil die BtheB Gruppe bei allen Zeitpunkten leicht besser war als die TAU Gruppe, erhöht das die Wahrscheinlichkeit, dass man insgesamt einen p-Wert unter 5% findet.
In der Studie wurde mit dem effektiven BDI-Wert gerechnet, wir haben mit der Differenz (vorher-nachher) gererchnet. Das Rechnen mit der Differenz bietet den Vorteil, dass dadurch automatisch für die Baseline adjustiert wird!
In der Studie wird der Zeitpunkt nach 8 Monaten nur halbpatzig berücksichtig (siehe z.B. Tabelle unten). Warum wohl? Wenn sie einen t-Test machen für den BDI-Score nach 6 Monaten werden Sie einen signifikanten Unterschied zwischen den Gruppen feststellen, jedoch nicht nach 8 Monaten!