Für das Lösen der Übungen können Sie R, einen Taschenrechner oder Excel verwenden. Allfällige Lösungswege werden mit R dargestellt.

Bei vielen Übungen dieser Art gibt es verschiedene Lösungen, die je nach Argumentation richtig sein können. Die hier präsentierten Lösungen sind ein Vorschlag, oft aber nicht die einzige mögliche Lösung. Diskussionen sind ausdrücklich erwünscht!

Übung 1

Arbeiten mit ICD-Codes am Beispiel der Todesstatistik

Sie finden auf Moodle einen Auszug aus der Todesstatistik von 2022 des Kantons Bern.

  • Wie viele Personen sind im Jahr 2022 an einer Herzkreislauferkrankung (Krankheiten des Kreislaufsystems) gestorben?
    • Waren Frauen oder Männer häufiger betroffen?
    • Unterscheidet sich das Alter dieser Personen von der entsprechenden Lebenserwartung bei Geburt (siehe z.B. hier)? Warum?
  • Welches waren die drei häufigsten Todesursachen? Welche davon lässt sich erraten, ohne in die Statistik zu schauen?

Anmerkung: Verwenden Sie zum Lösen der Aufgabe einen online Katalog, um die ICD-Codes zur recherchieren. Falls Sie die Aufgabe in R lösen, können Sie ChatGPT als Code-Assistent verwenden.

Lösung

library(rio) # paket für den Datenimport
df.deaths <- import("../data/death-stat-Bern-2022.csv", header = TRUE)

Wir entnehmen dem ICD-10 Katalog, dass die Kategorie aller Herzkreislauferkrankungen mit dem Buchstabe I beginnt (enthalten sind alle Krankheiten I00 bis I99). Wir filtern den Datensatz, dass nur Zeilen angezeit werden, wo der ICD-Code mit I beginnt und berechnen Anzahl Zeilen.

library(tidyverse)
df.deaths %>%
  filter(str_starts(ICD, "I")) %>% 
  summarise(n = n())
##      n
## 1 3114

Gruppieren wir zusätzlich nach Geschlecht, sehen wir, dass Frauen etwas mehr betroffen waren.

df.deaths %>%
  filter(str_starts(ICD, "I")) %>% 
  group_by(sex) %>% 
  summarise(n = n())
## # A tibble: 2 × 2
##   sex       n
##   <chr> <int>
## 1 F      1702
## 2 M      1412

Die Lebenserwartung bei Geburt von Männern beträgt im Jahr 2023 82.2 Jahre und von Frauen 85.8 Jahr z.B. BFS.

df.deaths %>%
  filter(str_starts(ICD, "I")) %>% 
  group_by(sex) %>% 
  summarise(n = n(), mean_age = mean(age))
## # A tibble: 2 × 3
##   sex       n mean_age
##   <chr> <int>    <dbl>
## 1 F      1702     87.7
## 2 M      1412     82.0

Die Werte sind also gleich, resp. sogar höher (Frauen). Mögliche Erklärungen:

  • Lebenserwartung bei Geburt bezieht sich auf den erwarteten Durchschnitt ab Geburt, inkl. aller Todesfälle in jedem Alter.
  • Sie wird durch frühe Todesfälle (Säugling, Unfälle, Krebs in jungen Jahren) nach unten gezogen.
  • Durchschnittsalter bei Tod an einer spezifischen Erkrankung (Herz-Kreislauferkrankungen) betrifft nur Personen, die alt genug geworden sind, um überhaupt an dieser Krankheit zu sterben.
  • Herz-Kreislauferkrankungen treten meist im höheren Alter auf, Personen, die daran sterben, sind bereits in einem hohen Alter
  • Wer früher stirbt (an anderen Krankheiten), geht nicht in diese Berechnung ein.
  • “Gesündere“ Menschen, die Herz-Kreislauferkrankungen entwickeln, überleben andere Todesursachen und sterben daher später daran.
df.deaths %>%
  count(ICD, sort = TRUE) %>% 
  slice_max(n, n = 3)
##    ICD   n
## 1  F03 745
## 2 U071 567
## 3 I251 566

Die drei häufigsten Codes, welche als Todesursache hinterlegt worden sind, sind F03 (nicht näher bezeichnete Demenz), U071 (COVID-19, Virus nachgewiesen) und I251 (Atherosklerotische Herzkrankheit).


Übung 2

Studiendesigns

Sie sehen unten fünf Skizzen der Methodik von Studien. Teilen Sie das korrekte Studiendesign zu. Welche epidemiologische Kennzahl wird idealerweise berechnet? Begründen Sie.

  1. Ein Forschungsteam begleitet 5’000 Nichtraucher:innen und Raucher:innen über 15 Jahre und dokumentiert, wer im Verlauf einen Herzinfarkt erleidet.

  2. Forscher:innen werten Krankenakten einer Fabrikbelegschaft aus den Jahren 1995–2010 aus, um herauszufinden, ob Mitarbeitende, die Chemikalie \(X\) ausgesetzt waren, häufiger an Lungenkrebs erkrankt sind als nicht-exponierte Mitarbeitende.

  3. Eine Befragung wird in einer Stadt im Jahr 2025 durchgeführt, um den Zusammenhang zwischen aktuellem Bewegungsverhalten und Übergewicht zu analysieren.

  4. Forscher:innen vergleichen 200 Patient:innen mit neu diagnostiziertem Melanom mit 200 Personen ohne Melanom aus derselben Region hinsichtlich ihrer früheren Sonnenexposition und Nutzung von Sonnenschutzmitteln.

  5. Ein Forschungsteam analysiert Daten aus 30 Ländern und untersucht, ob Länder mit höherem durchschnittlichem Alkoholkonsum auch eine höhere Leberkrebsrate auf Bevölkerungsebene aufweisen.

Lösung

  1. Lösung: Prospektive Kohortenstudie

Begründung: Es wird eine definierte Gruppe (Kohorte) nach Exposition (Rauchen/Nichtrauchen) eingeteilt. Die Erkrankungen (Herzinfarkt) werden im Verlauf der Zeit beobachtet, das Ereignis tritt nach der Festlegung der Kohorte auf. Prospektiv, weil die Daten ab Beginn der Studie in die Zukunft erhoben werden. Es ist nicht anzunehmen, dass alle Personen die gleiche Beobachutungszeit aufweisen. Folglich sollte ein Verhältnis der Inzidenzdichten (incidence rate ratio) berechnet werden.

  1. Lösung: Retrospektive Kohortenstudie

Begründung: Die Exposition (Chemikalie \(X\)) und die Kohorte sind bereits definiert (in der Vergangenheit). Es wird geprüft, ob in der Vergangenheit bei Exponierten häufiger die Erkrankung aufgetreten ist. “Retrospektiv“ bedeutet hier, dass die Daten aus der Vergangenheit erhoben und ausgewertet werden, aber das Design bleibt kohortenbasiert, also longitudinal. Folglich sollte wie oben ein Verhältnis der Inzidenzdichten (incidence rate ratio) berechnet werden weil nicht anzunehmen ist, dass alle Mitarbeitenden die gleiche Beobachtungszeit hatten.

  1. Lösung: Querschnittsstudie

Begründung: Daten zu Exposition (Bewegungsverhalten) und Ergebnis (Übergewicht) werden zeitgleich zu einem bestimmten Zeitpunkt erhoben. Keine zeitliche Abfolge wird untersucht, sondern nur die gleichzeitige Prävalenz und deren Zusammenhang. Daher sollte ein Odds Ratio berechnet werden, da keine Aussage zu Risiken möglich.

  1. Lösung: Fall-Kontroll-Studie

Begründung: Die Studienteilnehmer werden aufgrund ihres Krankheitsstatus (Fall: Melanom; Kontrollgruppe: kein Melanom) ausgewählt. Es wird rückblickend nach Risikofaktoren (Sonnenexposition, Sonnenschutz) gefragt (klassisch zur Untersuchung seltener Erkrankungen oder langer Latenzzeiten). Es können keine Risiken berechnet werden –> Odds Ratio sollte berechnet werden.

  1. Lösung: Ökologische Studie

Begründung: Die Analyse erfolgt auf Bevölkerungsebene (Länderdaten), nicht auf individueller Ebene. Es wird geprüft, ob eine Assoziation zwischen dem durchschnittlichen Alkoholkonsum und der Leberkrebsrate auf Ebene von Ländern besteht. Charakteristisch für ökologische Studien, bei denen aggregierte Daten analysiert werden. Die Inzidenzrate ist hier sinnvoller als Prävalenz, da Leberkrebs eine Erkrankung mit meist kurzer Überlebenszeit ist und die Inzidenz eine bessere Darstellung des Risikos liefert. Idealerweise werden die Raten standardisiert, z.B. für Alter und Geschlecht.


Übung 3

Sie wollen den Zusammenhang zwischen Schichtarbeit und Depression untersuchen.

  • Welches Studiendesign eignet sich dafür am besten?
  • Was wäre die abhängige Variable \(Y\) und die unabhängige Varialbe \(X\)?
  • Welche weiteren Studiendesigns wären möglich (aber weniger geeignet)?
  • Begründen Sie jeweils

Lösung

Am besten geeignet ist eine Kohortenstudie (idealerweise prospektiv), da:

  • Die Exposition (Schichtarbeit) kann zu Beginn der Studie genau erfasst werden.
  • Man kann über die Zeit beobachten, wer eine Depression entwickelt (Inzidenz).
  • Zeitliche Reihenfolge zwischen Exposition und Outcome ist klar.
  • Allfällige Änderungen des Expositionsstatus können berücksichtig werden.
  • Der Risikofaktor (\(X\)) “Schichtarbeit” muss gut definiert und ggf. in adäquate Kategorien eingeteilt werden
  • Depression (\(Y\)) muss genau definiert werden (ICD). Klare Kriterien für die Diagnostik sollten definiert werden.
  • Wichtige Co-Variablen sollten erhoben werden (z.B. sozioökonomischer Statust, Alter, Geschlecht, etc.) damit das Resulat nicht verzerrt wird.
  • Vorteil: hohe Evidenzstufe
  • Nachteil: Ressourcenintensiv, potentielle Drop-outs, grosse Stichprobe nötig.

Eine Fall-Kontroll-Studie ist eher weniger geeignet:

  • Schwierigkeit bei der Auswahl der Kontrollen
  • Gefahr von Recall-Bias
  • Depression ist eher nicht eine seltene Krankheit
  • Keine Inzidenz, nur Odds Ratio

Eine Querschnittsstudie wäre denkbar:

  • Verhältnissmässig wenig ressourcenintensiv
  • Keine Aussage zur Kausalität (Exposition und Outcome gleichzeitig erfasst)
  • Confounder schwer kontrollierbar
  • Keine Inzidenz, nur Odds Ratio
  • Tiefes Evidenzlevel