Entwurf Überarbeitung Seminar 3
Lernziele
- Klärung der Begriffe:
- Stichprobe
- Grundgesamtheit
- (Inferenzstatistik)
- Verteilung
- Quantil, inkl. Min, Max, Quartile, Median
- Deskriptive Beschreibung einer Stichprobe
- (Asymptotischer Übergang der Stichprobenverteilung in die Grundgesamtheitsverteilung mit zunehmender Stichprobengröße)
- Die Grundgesamtheit bezeichnet die Menge, über die eine Aussage getroffen werden soll (angelehnt an Wikipedia)
- Die Stichprobe bezeichnet eine Teilmenge einer Grundgesamtheit (angelehnt an Wikipedia)
- Wir gehen hier von folgendem aus:
- Es handelt sich um eine Zufallsstichprobe
- Die Grundgesamtheit ist sehr (unendlich) groß
- Die Stichprobe wird mit den Mitteln der deskriptiven Statistik beschrieben
- Die Inferenzstatistik erlaubt, auf Grundlage der Stichprobe Aussagen über die Grundgesamtheit zu machen
- Die Verteilung der erhobenen Daten (Stichprobe) nähert sich der zugrunde liegenden, “wahren” Verteilung in der Grundgesamtheit mit größerer Stichprobe immer weiter an
- Deswegen werden die Aussagen über die Grundgesamtheit mit größerer Stichprobe präziser
Entwicklung am Beispiel
Wir wollen uns nun die Verteilung der Blutzuckerwerte von Lehrer:innen bei der Einstellungsuntersuchung anschauen. Um einige grundlegende Dinge zu Verteilungen zu veranschaulichen, gehen wir einfach mal davon aus, dass die Werte in der Grundgesamtheit normalverteilt sind mit einem Mittelwert von 5 mmol / l und einer Standardabweichung von 1 mmol / l.
Wahrscheinlichkeitsdichte
Die nachfolgende Grafik zeigt die Wahrscheinlichkeitsdichte dieser Verteilung. Eine formale Definition der Wahrscheinlichkeitsdichtefunktion findet sich zum Beispiel bei Wikipedia, hier soll es jedoch eher um ein intuitives Verständnis gehen.
- Je größer die Dichte, umso wahrscheinlicher der zugehörige Blutzuckerwert
- Die Fläche unter der Kurve beträgt 1
- Die hellgraue Fläche gibt an, wie groß die Wahrscheinlichkeit ist, dass der Blutzucker einer:s zufällig ausgewählten Lehrers:in kleiner 4 mmol / l ist (p ≈ 0.16)
- Versuchen Sie abzuschätzen:
- wie groß die Wahrscheinlichkeit ist, dass der Blutzucker größer 4 mmol / l und kleiner 7 mmol / l ist (dunkelgraue Fläche) — Antwort: p ≈ 0.82
- wie groß die Wahrscheinlichkeit ist, dass der Blutzucker größer 7 mmol / l ist — Antwort: p ≈ 0.02
- Für welchen Blutzuckerwert gilt, dass ein Viertel der Fälle kleiner ist und der Rest größer? — Antwort: 1. Quartil ≈ 4.3 mmol / l
- Das p-Quantil gibt den Wert an, unterhalb dem sich ein Anteil von p der Fälle der Verteilung befindet
- Besondere Quantile:
- Quartile
- Quartil (=25%-Quantil): Ein Viertel der Werte liegt darunter, der Rest drüber
- Quartil (= Median = 50%-Quantil): Die eine Hälfte der Werte liegt darunter, die andere Hälfte liegt darüber
- etc.
- Minimum, Maximum: der kleinst- / größtmögliche Wert
- Bei der Normalverteilung -/+ Unendlich –> unplausibel in diesem Fall
- Quartile
- Achtung: Unterschied zwischen Quartilen und Quantilen!
- Aufgabe: Versuchen Sie, die 1. und 3. Quartil sowie den Median aus der obenstehenden Grafik abzuschätzen!
Verteilungsfunktion
Die nachfolgende Grafik stellt die Verteilungsfunktion dar.
- Die Verteilungsfunktion F(x) gibt die Wahrscheinlichkeit an, dass eine Zufallszahl aus der Verteilung kleiner gleich x ist
- Die Quantile lassen sich durch Einzeichnen entsprechender horizontaler Linien und anschließendem Ablesen des x-Wertes des Schnittpunktes ermitteln
- Aufgabe:
- Lesen Sie die 1. und 3. Quartil und Median aus der Grafik ab! (Antwort 4.3, 5.7, 5.0)
Stichprobe
Herr Meier hat keine Kenntnis davon, dass die Blutzuckerwerte in der Grundgesamtheit der Neu-Lehrer:innen normalverteilt sind mit Mittelwert 5 mmol / l und Standardabweichung 1 mmol / l. In einer Untersuchung möchte Herr Meier etwas über die Verteilung des Blutzuckers in der Grundgesamtheit in Erfahrung bringen. Dazu schaut sich Herr Meier nun eine Zufallsstichprobe aus 100 frisch eingestellten Lehrer:innen an. Er hat die Messwerte in aufsteigender Reihenfolge sortiert. Hier die Werte von zehn zufällig ausgewählten Lehrer:innen:
| Patienten-ID | Blutzucker (mmol / l) |
|---|---|
| 17 | 4.3 |
| 19 | 4.4 |
| 31 | 4.6 |
| 34 | 4.7 |
| 35 | 4.8 |
| 66 | 5.5 |
| 75 | 5.7 |
| 77 | 5.7 |
| 90 | 6.2 |
| 98 | 7.0 |
Die Daten können zum Beispiel in einem Histogramm dargestellt werden:
Es lässt sich auch die empirische Verteilungsfunktion darstellen (Erklärung fehlt noch), aus der sich recht leicht Quantile ablesen lassen:
Aufgabe: Lesen Sie die folgenden Quantile aus der empirischen kumulativen Verteilungsfunktion ab: Minimum, 1. Quartil, Median, 3. Quartil, Maximum!
Antwort:
| Min. | 1st Qu. | Median | 3rd Qu. | Max. |
|---|---|---|---|---|
| 2.8 | 4.5 | 5.1 | 5.7 | 7.4 |
Diese Quantile können auch schön in einem Boxplot visualisiert werden:
Diskussionspunkte:
- Ist noch zu technisch formuliert aktuell
- Zu wenige Aufgaben
- Normalverteilung geht in beiden Richtungen in die Unendlichkeit –> nur näherungsweise plausibles Modell für Blutzuckerwerte
- Die Werte werden gerundet angegeben –> entspricht ebenfalls nicht der theoretischen Normalverteilung
- Evtl. “mmol / l” durch “\(\frac{\text{mmol}}{\text{l}}\)” ersetzen