R
Für die meisten Aufgaben werden Sie die Statistiksoftware
R
brauchen. Die benötigten R-Befehle und kurze
Programmiercodesequenzen (Skripte) stehen zur Verfügung (siehe
Kursunteralgen). Dabei sind drei Aspekte hervorzuheben:
R
-Skripte situativ
an die jeweilige Fragestellung anzupassen. Es wird nicht erwartet, dass
diese Übungen ohne Kursunterlagen gelöst werden können.R
und schreibt/kopiert die Codes dort hinein. Das Skript
kann man mit Kommentaren (#
) versehen und dann
abspeichern.R
gibt es jedoch meistens mehrere Wege, welche zum Ziel führen. Falls dein
Vorgehen nicht exakt jenem der Lösung entspricht, ist das nicht weiter
ein Problem, solange du auf das gleiche Resultat kommst.In einer randomisierten, kontrollierten Studie wurde untersucht, ob das «Beat the Blues» Programm zur Behandlung von Menschen mit Depression effektiver ist als die Standardbehandlung. Der in dieser Übung verwendete Datensatz umfasst einen Teil der insgesamt \(n = 167\) Proband:innen. Mehr Informationen zur Methodik dieser Studie findest du hier. Der Datensatz umfasst folgende Variablen:
drug
: Ob der Proband Antidepressiva nimmt oder
nichtlength
: Länge der aktuellen Depressionsepisode (<6
Monate oder >6 Monate)treatment
: Standardtherapie (TAU) oder «Beat the Blues»
(BtheB)bdi_pre
: Beck Depression Inventory vor der
Therapiebdi_2m
: Beck Depression Inventory nach zwei
Monatenbdi_4m
: Beck Depression Inventory nach vier
Monatenbdi_6m
: Beck: Depression Inventory nach sechs
Monatenbdi_8m
: Beck Depression Inventory nach acht
MonatenEin höherer BDI steht für einen höheren Grad einer Depression.
Lade den Datensatz herunter und speichere ihn ab. Definiere danach
deine Working directory entsprechend. Lies den Datensatz in
R
ein.
treatment
an.Es gibt verschiedene Möglichkeiten, dies zu tun. Du kannst im Global
Environment (oben rechts) auf das kleine Tabellensymbol hinter dem neu
erstellten Objekt klicken. Dann öffnet sich eine Tabelle und du hast wie
eine Excel-Ansicht. Mit str()
siehst du die einzelnen
Variablen, die jeweilige Datenklasse sowie die ersten Werte. Mit
head()
kannst du die ersten 6 Zeilen des Datensatzes.
## 'data.frame': 52 obs. of 9 variables:
## $ Subject : int 2 4 6 7 8 9 10 11 14 15 ...
## $ drug : chr "Yes" "No" "Yes" "Yes" ...
## $ length : chr ">6m" ">6m" "<6m" "<6m" ...
## $ treatment: chr "BtheB" "BtheB" "BtheB" "TAU" ...
## $ bdi_pre : int 32 21 7 17 20 18 20 30 30 23 ...
## $ bdi_2m : int 16 17 0 7 20 13 5 32 26 13 ...
## $ bdi_4m : int 24 16 0 7 21 14 5 24 36 13 ...
## $ bdi_6m : int 17 10 0 3 19 20 8 12 27 12 ...
## $ bdi_8m : int 20 9 0 7 13 11 12 2 22 23 ...
## [1] 52
## [1] 9
## Subject drug length treatment bdi_pre bdi_2m bdi_4m bdi_6m bdi_8m
## 6 9 Yes <6m BtheB 18 13 14 20 11
## [1] 32 21 7 17 20 18 20 30 30 23 16 13 37 35 26 36 10 27 18 11 44 21 34 38 20
## [26] 17 42 33 36 31 7 22 23 17 9 14 28 15 22 21 27 10 21 36 35 33 19 19 16 16
## [51] 11 13
treatment
an.## [1] "BtheB" "BtheB" "BtheB" "TAU" "TAU" "BtheB" "BtheB" "TAU" "TAU"
## [10] "BtheB" "TAU" "BtheB" "TAU" "BtheB" "TAU" "BtheB" "BtheB" "TAU"
## [19] "BtheB" "BtheB" "BtheB" "TAU" "TAU" "TAU" "TAU" "TAU" "BtheB"
## [28] "BtheB" "TAU" "TAU" "BtheB" "TAU" "TAU" "TAU" "BtheB" "TAU"
## [37] "BtheB" "BtheB" "BtheB" "TAU" "TAU" "TAU" "TAU" "BtheB" "TAU"
## [46] "BtheB" "BtheB" "BtheB" "BtheB" "BtheB" "BtheB" "TAU"
## [1] 13
Sind alle Datentypen richtig hinterlegt? Korrigiere falls nötig.
Die Vaiablen drug
, length
und
treatment
sind kategoriale Variablen und müssen in Faktoren
umgewandelt werden.
BTB$drug <- factor(BTB$drug)
BTB$length <- factor(BTB$length)
BTB$treatment <- factor(BTB$treatment)
str(BTB)
## 'data.frame': 52 obs. of 9 variables:
## $ Subject : int 2 4 6 7 8 9 10 11 14 15 ...
## $ drug : Factor w/ 2 levels "No","Yes": 2 1 2 2 1 2 2 1 2 2 ...
## $ length : Factor w/ 2 levels "<6m",">6m": 2 2 1 1 2 1 2 2 2 2 ...
## $ treatment: Factor w/ 2 levels "BtheB","TAU": 1 1 1 2 2 1 1 2 2 1 ...
## $ bdi_pre : int 32 21 7 17 20 18 20 30 30 23 ...
## $ bdi_2m : int 16 17 0 7 20 13 5 32 26 13 ...
## $ bdi_4m : int 24 16 0 7 21 14 5 24 36 13 ...
## $ bdi_6m : int 17 10 0 3 19 20 8 12 27 12 ...
## $ bdi_8m : int 20 9 0 7 13 11 12 2 22 23 ...
Berechne folgende Werte für die Variable bdi_8m
:
## [1] 11.13462
## [1] 86.58937
## [1] 9.305341
## [1] 0
## [1] 40
## [1] 10.5
## 25%
## 3
## 75%
## 15.25
length.
length.
length
in den Zeilen und
drug
in den Spalten (absolute Häufigkeiten).length
in den Zeilen und
drug
in den Spalten. Stelle Spaltenprozente dar.length
in den Zeilen und
drug
in den Spalten. Stelle Zeilenprozente dar.length
##
## <6m >6m
## 21 31
##
## <6m >6m
## 0.4038462 0.5961538
length
in den
Zeilen und drug
in den Spalten##
## No Yes
## <6m 11 10
## >6m 17 14
length
in den
Zeilen und drug
in den Spalten (Spatenprozente)##
## No Yes
## <6m 0.3928571 0.4166667
## >6m 0.6071429 0.5833333
length
in den
Zeilen und drug
in den Spalten (Zeilenprozente)##
## No Yes
## <6m 0.5238095 0.4761905
## >6m 0.5483871 0.4516129
Erstelle ein Histogramm der Variable bdi_8m
. Unterteile
das Histogramm in 4 Klassen. Wie beurteilst du die Form der
Verteilung?
Erstelle einen Boxplot der Variable bdi_8m
. Erkennt man
die asymmetrische Verteilung?
Ja, die Ausreisser nach oben (rechts im Histogramm) sind deutlich. Dies bestätigt die rechts-schiefe Verteilungsform.
Erstelle ein Balkendiagramm für die Verteilung der Variable
length
. Fällt etwas auf?