Einleitung
Die beschreibende (deskriptive) Statistik hat die
Aufgabe, Daten grafisch darzustellen und statistische Kennzahlen wie
Mittelwert, Median oder Standardabweichung zu berechnen, ohne dabei
Rückschlüsse auf die Grundgesamtheit zu ziehen.
Beispel-Deskriptive Statistik
In einer randomisierten, kontrollierten Studie wurde untersucht, ob
das «Beat the Blues» Programm zur Behandlung von Menschen mit Depression
effektiver ist als die Standardbehandlung. Der in dieser Übung
verwendete Datensatz umfasst einen Teil der insgesamt 167 Proband:innen.
Mehr Informationen zur Methodik dieser Studie findest du hier. Der
Datensatz umfasst folgende Variablen:
- drug: Ob der Proband Antidepressiva nimmt oder nicht
- length: Länge der aktuellen Depressionsepisode (<6 Monate oder
>6 Monate)
- treatment: Standardtherapie (TAU) oder «Beat the Blues» (BtheB)
- bdi_pre: Beck Depression Inventory vor der Therapie
- bdi_2m: Beck Depression Inventory nach zwei Monaten
- bdi_4m: Beck Depression Inventory nach vier Monaten
- bdi_6m: Beck: Depression Inventory nach sechs Monaten
- bdi_8m: Beck Depression Inventory nach acht Monaten Ein höherer BDI
steht für einen höheren Grad einer Depression.
Datensatz einlesen
Aufgabe
Lade den Datensatz herunter und speichere ihn ab. Definiere danach
deine Working directory entsprechend. Lies den Datensatz in R ein.
Lösung
Der Datenimport ist am einfachsten mit dem rio-Package. Beachte, dass
der Name zwischen den beiden “” identisch mit jenem der Datei auf deinem
Rechner sein muss. Die Working directory muss natürlich auch korrekt
definiert sein.
library(rio)
BTB <- import("C:/Users/koar/OneDrive - Kt. SG BLD/Dokumente/Rkurs24/BTB.csv")
Datensatz anschauen
Aufgabe
- Schau dir die Struktur des Datensatzes an.
- Wie viele Zeilen und Spalten hat der Datensatz?
- Schau dir die 6. Zeile des Datensatzes an.
- Schau dir die 5. Spalte des Datensatzes an.
- Schau dir die Variable “treatment” an.
- Welchen BDI-Wert hat die 12. Person vor der Behandlung?
Lösungen
- Nutze einen einfachen Befehl um zu kontrollieren, ob die Daten
richtig eingelesen wurden. Es gibt verschiedene Möglichkeiten, dies zu
tun. Du kannst im Global Environment (oben rechts) auf das kleine
Tabellensymbol hinter dem neu erstellten Objekt klicken. Dann öffnet
sich eine Tabelle und du hast wie eine Excel-Ansicht. Mit str() siehst
du die einzelnen Variablen, die jeweilige Datenklasse sowie die ersten
Werte. Mit head() kannst du die ersten 6 Zeilen des Datensatzes.
str(BTB)
- Wie viele Zeilen und Spalten hat der Datensatz?
nrow(BTB)
ncol(BTB)
- Schau dir die 6. Zeile des Datensatzes an.
BTB[6, ]
- Schau dir die 5. Spalte des Datensatzes an.
BTB[ ,5]
- Schau dir die Variable “treatment” an.
BTB$treatment
- Welchen BDI-Wart hat die 12. Person vor der Behandlung?
BTB$bdi_pre[12]
Datentyp anpassen
Aufgabe
Sind alle Datentypen richtig hinterlegt? Korrigiere falls nötig.
Lösung
Die Vaiablen drug, length und treatment sind kategoriale Variablen
und müssen in Faktoren umgewandelt werden.
BTB$drug <- factor(BTB$drug)
BTB$length <- factor(BTB$length)
BTB$treatment <- factor(BTB$treatment)
str(BTB)
Lage und Streumasse
Aufgabe
Berechne folgende Werte für die Variable bdi_8m: * Mittelwert *
Varianz * Standardabweichung * Minimum * Maximum * Median * Erstes
Quartil * Drittes Quartil
Lösung
mean(BTB$bdi_8m)
var(BTB$bdi_8m)
sd(BTB$bdi_8m)
min(BTB$bdi_8m) # oder quantile(BTB$bdi_8m, probs = 0)
max(BTB$bdi_8m)
median(BTB$bdi_8m)
quantile(BTB$bdi_8m, probs = 0.25)
quantile(BTB$bdi_8m, probs = 0.75)
Häufigkeitstabellen
Aufgabe
- Erstelle eine absolute Häufigkeitstabelle der Variable length.
- Erstelle eine relative Häufigkeitstabelle der Variable length.
- Erstelle eine absolute Kreuztabelle mit length in den Zeilen und
drug in den Spalten.
- Erstelle eine relative Kreuztabelle mit length in den Zeilen und
drug in den Spalten (Spatenprozente).
- Erstelle eine relative Kreuztabelle mit length in den Zeilen und
drug in den Spalten (Zeilenprozente).
Lösungen
- Erstelle eine absolute Häufigkeitstabelle der Variable length
table(BTB$length)
- Erstelle eine relative Häufigkeitstabelle der Variable length
prop.table(table(BTB$length))
- Erstelle eine absolute Kreuztabelle mit length in den Zeilen und
drug in den Spalten
tab <- table(BTB$length, BTB$drug)
tab
- Erstelle eine relative Kreuztabelle mit length in den Zeilen und
drug in den Spalten (Spatenprozente)
prop.table(tab, margin = 2)
- Erstelle eine relative Kreuztabelle mit length in den Zeilen und
drug in den Spalten (Zeilenprozente)
prop.table(tab, margin = 1)
prop.table(tab, margin = 1)`
Graphische Darstellungen
Aufgabe 1
Erstelle ein Histogramm der Variable bdi_8m. Unterteile das
Histogramm in 4 Klassen. Wie beurteilst du die Form der Verteilung?
Lösung 1
hist(BTB$bdi_8m, breaks = 4)

Aufgabe 2
Erstelle einen Boxplot der Variable bdi_8m. Erkennt man die
asymmetrische Verteilung?
Lösung 2
boxplot(BTB$bdi_8m)

Aufgabe 3
Erstelle ein Balkendiagramm für die Verteilung der Variable length.
Fällt etwas auf?
Lösung 3
plot(BTB$length)
