Einleitung

Die beschreibende (deskriptive) Statistik hat die Aufgabe, Daten grafisch darzustellen und statistische Kennzahlen wie Mittelwert, Median oder Standardabweichung zu berechnen, ohne dabei Rückschlüsse auf die Grundgesamtheit zu ziehen.

Beispel-Deskriptive Statistik

In einer randomisierten, kontrollierten Studie wurde untersucht, ob das «Beat the Blues» Programm zur Behandlung von Menschen mit Depression effektiver ist als die Standardbehandlung. Der in dieser Übung verwendete Datensatz umfasst einen Teil der insgesamt 167 Proband:innen. Mehr Informationen zur Methodik dieser Studie findest du hier. Der Datensatz umfasst folgende Variablen:

  • drug: Ob der Proband Antidepressiva nimmt oder nicht
  • length: Länge der aktuellen Depressionsepisode (<6 Monate oder >6 Monate)
  • treatment: Standardtherapie (TAU) oder «Beat the Blues» (BtheB)
  • bdi_pre: Beck Depression Inventory vor der Therapie
  • bdi_2m: Beck Depression Inventory nach zwei Monaten
  • bdi_4m: Beck Depression Inventory nach vier Monaten
  • bdi_6m: Beck: Depression Inventory nach sechs Monaten
  • bdi_8m: Beck Depression Inventory nach acht Monaten Ein höherer BDI steht für einen höheren Grad einer Depression.

Datensatz einlesen

Aufgabe

Lade den Datensatz herunter und speichere ihn ab. Definiere danach deine Working directory entsprechend. Lies den Datensatz in R ein.

Lösung

Der Datenimport ist am einfachsten mit dem rio-Package. Beachte, dass der Name zwischen den beiden “” identisch mit jenem der Datei auf deinem Rechner sein muss. Die Working directory muss natürlich auch korrekt definiert sein.

library(rio)
BTB <- import("C:/Users/koar/OneDrive - Kt. SG BLD/Dokumente/Rkurs24/BTB.csv")

Datensatz anschauen

Aufgabe

  • Schau dir die Struktur des Datensatzes an.
  • Wie viele Zeilen und Spalten hat der Datensatz?
  • Schau dir die 6. Zeile des Datensatzes an.
  • Schau dir die 5. Spalte des Datensatzes an.
  • Schau dir die Variable “treatment” an.
  • Welchen BDI-Wert hat die 12. Person vor der Behandlung?

Lösungen

  • Nutze einen einfachen Befehl um zu kontrollieren, ob die Daten richtig eingelesen wurden. Es gibt verschiedene Möglichkeiten, dies zu tun. Du kannst im Global Environment (oben rechts) auf das kleine Tabellensymbol hinter dem neu erstellten Objekt klicken. Dann öffnet sich eine Tabelle und du hast wie eine Excel-Ansicht. Mit str() siehst du die einzelnen Variablen, die jeweilige Datenklasse sowie die ersten Werte. Mit head() kannst du die ersten 6 Zeilen des Datensatzes.
str(BTB)
  • Wie viele Zeilen und Spalten hat der Datensatz?
nrow(BTB)
ncol(BTB)
  • Schau dir die 6. Zeile des Datensatzes an.
BTB[6, ]
  • Schau dir die 5. Spalte des Datensatzes an.
BTB[ ,5]
  • Schau dir die Variable “treatment” an.
BTB$treatment
  • Welchen BDI-Wart hat die 12. Person vor der Behandlung?
BTB$bdi_pre[12]

Datentyp anpassen

Aufgabe

Sind alle Datentypen richtig hinterlegt? Korrigiere falls nötig.

Lösung

Die Vaiablen drug, length und treatment sind kategoriale Variablen und müssen in Faktoren umgewandelt werden.

BTB$drug <- factor(BTB$drug)
BTB$length <- factor(BTB$length)
BTB$treatment <- factor(BTB$treatment)
str(BTB)

Lage und Streumasse

Aufgabe

Berechne folgende Werte für die Variable bdi_8m: * Mittelwert * Varianz * Standardabweichung * Minimum * Maximum * Median * Erstes Quartil * Drittes Quartil

Lösung

  • Mittelwert
mean(BTB$bdi_8m)
  • Varianz
var(BTB$bdi_8m)
  • Standardabweichung
sd(BTB$bdi_8m)
  • Minimum
min(BTB$bdi_8m) # oder quantile(BTB$bdi_8m, probs = 0)
  • Maximum
max(BTB$bdi_8m)
  • Median
median(BTB$bdi_8m)
  • Quartil
quantile(BTB$bdi_8m, probs = 0.25)
  • Quartil
quantile(BTB$bdi_8m, probs = 0.75)

Häufigkeitstabellen

Aufgabe

  • Erstelle eine absolute Häufigkeitstabelle der Variable length.
  • Erstelle eine relative Häufigkeitstabelle der Variable length.
  • Erstelle eine absolute Kreuztabelle mit length in den Zeilen und drug in den Spalten.
  • Erstelle eine relative Kreuztabelle mit length in den Zeilen und drug in den Spalten (Spatenprozente).
  • Erstelle eine relative Kreuztabelle mit length in den Zeilen und drug in den Spalten (Zeilenprozente).

Lösungen

  • Erstelle eine absolute Häufigkeitstabelle der Variable length
table(BTB$length)
  • Erstelle eine relative Häufigkeitstabelle der Variable length
prop.table(table(BTB$length))
  • Erstelle eine absolute Kreuztabelle mit length in den Zeilen und drug in den Spalten
tab <- table(BTB$length, BTB$drug)
tab
  • Erstelle eine relative Kreuztabelle mit length in den Zeilen und drug in den Spalten (Spatenprozente)
prop.table(tab, margin = 2)
  • Erstelle eine relative Kreuztabelle mit length in den Zeilen und drug in den Spalten (Zeilenprozente)
prop.table(tab, margin = 1)

prop.table(tab, margin = 1)`

Graphische Darstellungen

Aufgabe 1

Erstelle ein Histogramm der Variable bdi_8m. Unterteile das Histogramm in 4 Klassen. Wie beurteilst du die Form der Verteilung?

Lösung 1

hist(BTB$bdi_8m, breaks = 4)

Aufgabe 2

Erstelle einen Boxplot der Variable bdi_8m. Erkennt man die asymmetrische Verteilung?

Lösung 2

boxplot(BTB$bdi_8m)

Aufgabe 3

Erstelle ein Balkendiagramm für die Verteilung der Variable length. Fällt etwas auf?

Lösung 3

plot(BTB$length)