Quantitative Datenanalyse

Lernziele

nach dem Kapitel…

kennen Sie zentrale Grundbegriffe der quantitativen Datenanalyse (z. B. Skalenniveaus, unabhängige/ abhängige Variable/ Kovariable)
können Sie Probleme erläutern, die durch die Nichtberücksichtigung von Drittvariablen entstehen können (z. B. Simpson-Paradox).
können Sie zentrale Begriffe um Stichproben(verfahren) und Populationen erläutern.
verstehen Sie die Unterschiede hinsichtlich Zufall und Kausalität bei Beobachtungs- vs. Experimentalstudien.
können Sie die Phasen des PPDAC-Zyklus benennen und anhand von Beispielen illustrieren.
können Sie ein vollständiges Studiendesign entwickeln.

Was bisher geschah…

Ein Forschungsproblem wurde eruiert
Literaturrecherche ist erfolgt
Modellanbindung ist erfolgt
Forschungsfrage ist formuliert
Hypothesen sind formuliert
Variablen sind definiert und
operationalisiert

Bleibt die Frage: an wem wird die Studie wie vollzogen?

Quantitativer Forschungsprozess – PPDAC

P: Problem
\(\rightarrow\) Problemdefinition, Literaturrecherche Forschungsfrage, Modellanbindung, Hypothesenformulierung.

P: Plan
\(\rightarrow\) Studienplanung (Variablenauswahl, Operationalisierung der Hypothesen, Wahl des Stichprobenverfahren und/ oder Versuchsplanung).

D: Data
\(\rightarrow\) Datenerhebung, Datenmanagement, Datenbereinigung.

A: Analysis
\(\rightarrow\) Explorative Datenanalyse, Modellierung, Hypothesenprüfung.

C: Conclusion
\(\rightarrow\) Schlussfolgerungen, Interpretation, Limitationen, neue Hypothesen, Kommunikation.

Studiendesign

::: callout-tip Was wird Wie an Wem an Wie vielen von denen Wo und Wann Wie oft gemessen? :::

Datentabelle

Aufbau einer Datentabelle:

Name	Geschlecht	Größe
Ahmet	m	180
Gabi	w	170
Max	m	186
Susi	w	172

Zeilen: Beobachtungen: auf welcher Einheit liegen die Daten vor: z.B. einzelne Menschen, Unternehmen, Länder. Hier Studierende.
Spalten: Variablen: welche Eigenschaften/ Merkmale liegen je Beobachtung vor: Motivation, Umsatz, Lebenserwartung. Hier Geschlecht (kategorial – nominal), Größe (numerisch – verhältnisskaliert).

Hinweis: Jede Zeile sollte genau eine Beobachtung beinhalten, jede Spalte genau eine Variable.

Variation

Idee:

\[\text{ Daten } = \text{ Modell } + \text{ Rest}\]

Messwerte einer Variable variieren/ streuen, u. a.

zufällig,
aufgrund der Messung,
aufgrund der Stichprobe,
systematisch – kann evtl. modelliert werden.

Bsp.: Punkte einer Klausur variieren. Womit hängt das zusammen?

systematisch: die Ursache der Streuung ist kein Zufall, sondern entsteht durch einen Einflussfaktor, ein Gesetz, einen Bias, der sich ggf. modellieren bzw. vorhersagen lässt.

Zusammenhangsanalyse

Abhängige Variable (AV - endogen, erklärt):
Wert hängt von der/ den unabhängige(n) Variable(n) ab (“\(y\)”).

Unabhängige Variable (UV - exogen, erklärend):
Wert hängt von keiner anderen Variable ab (“\(x\)”).

Kovariablen/ Störvariablen:
Variablen, deren Wert ebenfalls auf die abhängige Variable einwirkt und/ oder den Zusammenhang zwischen unabhängigen und abhängigen Variablen beeinflusst (“\(z\)”).

Video: https://www.causeweb.org: McLellan M © Confounding Variables]

Zusammenhang ist nicht gleicht Kausalität

Merke:

\(x\) steht in Zusammenhang mit \(y\)” heißt nicht zwangsläufig, dass \(x\) kausal (ursächlich) für \(y\) sein muss!

Quelle: https://tylervigen.com/spurious/correlation/5920_per-capita-consumption-of-margarine_correlates-with_the-divorce-rate-in-maine

Übung: Zusammenhang

Die Dozentin stellt fest, dass die Motivation der Studierenden mit der Uhrzeit zusammenhängt, und zwar unterschiedlich für Frauen und Männer. Welche Aussage stimmt?

A. Es gibt eine abhängige Variable (Motivation), eine unabhängige Variable (Uhrzeit) und eine Kovariable (Geschlecht).
B. Es gibt eine abhängige Variable (Uhrzeit), eine unabhängige Variable (Motivation) und eine Kovariable (Geschlecht).
C. Es gibt zwei abhängige Variablen (Motivation und Geschlecht) und eine unabhängige Variable (Uhrzeit).
D. Es gibt eine abhängige Variable (Geschlecht) und zwei unabhängige Variablen (Motivation und Uhrzeit).

Lösung: Übung - Zusammenhang

Stichproben sind eine Teilmenge der Population

Stichproben sind eine Teilmenge der Population/ Grundgesamtheit, die Beobachtungen/ Daten.

In der Regel ist man daran interessiert, das Ergebnis einer Stichprobe zu verallgemeinern, zu generalisieren: vom Geschmack des Suppenlöffels auf die ganze Suppe.

Quelle Bild: perplexity.ai

Begriffe: Stichproben

Population: Die Menge, über die eine Aussage getroffen werden soll: die ganze Suppe im Suppentopf.

Stichprobe: Teilmenge der Population, die zur Analyse ausgewählt wurde: der Löffel voll Suppe.

Stichprobenverfahren: Der Prozess, mit dem die Teilmenge ausgewählt wurde. Z. B. zufällig: der Auswahlprozess, wo und wie der Löffel aus dem Suppentopf gefüllt wurde.

Repräsentative Stichprobe: Ist die Verteilung der Eigenschaften der Stichprobe ähnlich der in der Population? Wenn der Löffel anders schmeckt als die Suppe war der Löffel nicht repräsentativ.

Bias / Verzerrung: Ein Teil der Population wird bevorzugt: nur Fleischbällchen auf dem Löffel.

Stichprobenverfahren

Generalisierbarkeit: Inwieweit kann von der Stichprobe auf die Grundgesamtheit geschlossen werden? Wenn wir gut umgerührt haben, sollten die Verteilung der Gewürze etc. auf dem Löffel ähnlich der im Topf sein und wir können vom Löffel auf den Topf schließen.

Bei einer (einfachen) Zufallsstichprobe hat jede Beobachtung die gleiche Wahrscheinlichkeit, Teil der Stichprobe zu sein.
Bei geschichteten Stichproben setzen sich die Schichten aus ähnlichen Beobachtungen zusammen (z. B. Alter, Geschlecht). Es wird eine einfache, zufällige Stichprobe aus jeder Schicht genommen.
Zufällige Stichproben erlauben einen Schluss auf die Grundgesamtheit (Generalisierbarkeit).
Gelegenheitsstichproben, d.h. willkürliche, nicht zufällige Stichproben, können verzerrt sein.

Begriffe: Parameter und Statistik

Parameter: Wert der Population, an dem wir interessiert sind: z. B. Temperatur der Suppe insgesamt. Häufig durch griechische Buchstaben symbolisiert: \(\mu, \ldots\)

Statistik: Wert, der auf Basis der Stichprobe berechnet wird: z. B. Temperatur der Suppe auf dem Löffel. Häufig durch symbolisiert lateinische Buchstaben: \(\bar{x}, \ldots\)

Hinweis:

Häufig kann die Datengenerierung als Zufallsprozess aufgefasst werden, (Formal: Beobachtung \(x\) ist die Realisation einer Zufallsvariable \(X\).)

Übung: Stichprobe

Kann die Dozentin von den Studierenden, die die Vorlesung besuchen (=Stichprobe), unverzerrt auf das Interesse aller Studierenden schließen, die für die Vorlesung angemeldet sind (Population)?

Ja.
Nein.

Lösung: Übung - Stichprobe

Beobachtungsstudien und Experimente

Bei Beobachtungsstudien werden Daten gesammelt, ohne die Entstehung der Daten zu beeinflussen (keine unmittelbaren Kausalaussagen möglich).

Bei einem Experiment wird der Wert der unabhängigen Variable(n) (“\(x\)”) manipuliert
\(\rightarrow\) z. B. Zielgruppe erhält Werbung, Kontrollgruppe nicht und die Variation der abhängigen Variable (“\(y\)”) gemessen.
Um Verzerrungen durch Kovariablen zu vermeiden, erfolgt die Zuordnung zu den Experimentalkonditionen zufällig (randomisiert), d.h., der Zufall entscheidet welche Beobachtung welchen Wert \(x\) zugewiesen bekommt.
die Kovariablen werden dadurch “gleich” auf die Kontroll- und Experimentalgruppe zugeordnet - die Kovariablen in den Gruppen sind kontrolliert (“gleichverteilt”).

Durch wiederholte Messung kann der Effekt der Experimentalkonditionen geschätzt werden: hohe interne Validität. Bei Quasi-Experimenten ist die Zuordnung nicht randomisiert: geringere interne Validität.

Beispiel-Experiment - Studienaufbau

Szenario:

Wie lässt sich der Zusammenhang eines einzelnen Gens mit der Verlängerung von Gesundheit und Lebenserwartung verstehen?

Akteur: C.elegans ein Laborwurm :worm:

Forschungfrage: Welche Gene, die bei Nahrungskarenz aktiviert werden führen zu Langlebigkeit?

H1: Das Ausschalten des Insulinrezeptors (DAF-2) (als Modell für reduzierte Insulinwirkung) führt zu einer Verlängerung der Lebensdauer im Laborwurm Caenorhabditis elegans.

Kontrollgruppe:
DAF-2 = Insulinrezeptor bleibt angeschaltet

Experimentalgruppe:
DAF-2 = Insulinrezeptor ist ausgeschaltet (=Simulation von Fasten)

Studienverlauf:
Die Akteure (alle gleich) werden im gleichen Alter randomisiert in die beiden Gruppen verteilt.

Beispiel-Experiment - Studiendurchführung und Ergebnis

Kovariablen:
Alle weiteren Kovariablen, die ebenfalls einen Einfluss auf das Überleben haben, werden “gleichverteilt”/ “kontrolliert”, sind in beiden Gruppen gleich (Temperatur, Futterverfügbarkeit, Art des Futters, Wasser, Luftfeuchtigkeit, Tag-/Nacht-Zyklus).

Studiendurchführung: :worm: Die Würmchen werden Tag wird gezählt, wie viele Würmchen noch am Leben sind.

Resultat:
An Tag 7 sind alle Würmchen der Kontrollgruppe verstorben. Die der Experimentalgruppe leben noch und werden ca. 14 Tage alt. :worm:

Interpretation (vereinfacht):
Der einzige Einflussfaktor, der die beiden Gruppen unterscheidet ist der ausgeschaltete “Insulinrezeptor”.
D.h. die Experimentalgruppe konnte keine Energie in die Zelle bringen, was zur Aktivierung von “Langlebigkeitsgenen”, Schutzfaktoren führt und so dem Altern entgegen wirkt.

Kausalaussage: ist möglich
Ein Energiedefizit führt zu Langlebigkeit \(\rightarrow\) hohe interne Validität: es ist nur diese eine Erklärung möglich.

Beispiel-Experiment - interne und externe Validität

Hohe interne Validität: Die untersuchte unabhängige Variable (= Energiedefizit) hat die Veränderungen im Ergebnis (abhängige Variable = Langlebigkeit) bewirkt. Der beobachtete Effekt wurde nicht durch andere Störfaktoren oder Zufälle verfälscht. (einfach im Laborversuch)

Niedrige externe Validität:
Die Ergebnisse sind sehr spezifisch und im Labor erhoben. Natürliche (beeinflussende) Umweltfaktoren sind ausgeschaltet. Die Ergebnisse sind nicht auf andere reale Lebenssituationen oder Organismen übertragbar.

Beispiel-Experiment - von hoher interner zu hoher externer Validität

Heute haben wir in dem Forschungsgebiet auch eine hohe externe Validität (= Wirkung auch in realer Lebenswelt auch unter Einfluss von Umweltfaktoren) erlangt.

Aus dem Experiment sind die kausalen Zusammenhänge (interne Validität) bekannt.

In nachfolgenden Studien an anderen Organismen und final auch in epidemiologischen Humanstudien konnten dieselben Mechanismen gezeigt werden;
reduzierte Energiezufuhr (z.B. Intervallfasten) kann mit einer längeren gesunden Lebensdauer in Verbindung gebracht werden.

Nach dem Verstehen des molekularen Mechanismus, ist heute die praktische Relevanz für Langlebigkeit beim Menschen über diverse Lebenskontexte hinweg bekannt und in Teilen verstanden.

Labor- und Feldexperiment

Bei Laborexperimenten erfolgt die Untersuchung innerhalb einer speziellen Versuchsanordnung (geringe externe Validität).
Bei Feldexperimenten erfolgt die Untersuchung im natürlichen Umfeld (hohe externe Validität).

Übung: Beobachtungsstudin oder Experiment

Die Dozentin stellt fest, dass die Motivation der Studierenden mit der Uhrzeit zusammenhängt, und zwar unterschiedlich für Frauen und Männer.
Welche Aussage stimmt?

A. Es handelt sich um eine Beobachtungsstudie.
B. Es handelt sich um ein randomisiertes Experiment.

Lösung: Übung - Beobachtungsstudie oder Experiment

Schlussmöglichkeiten

Die Datenerhebung und die unmittelbar möglichen Schlüsse stehen im Zusammenhang mit den wissenschaftlichen Gütekriterien:

- Randomisierte Stichprobe: Externe Validität

- Randomisierte Zuordnung innerhalb eines Experimentes: Interne Validität

	zufällige Zuordnung Experiment	keine zufällige Zuordnung Beobachtungsstudie
zufällige Stichprobe	Kausalschluss, generalisierbar für die Population	kein Kausalschluss, Aussage generalisierbar für die Population

keine zufällige Stichprobe Gelegenheitsstichprobe	Kausalschluss, nur für die Stichprobe	kein Kausalschluss, Aussage nur für die Stichprobe