Technischer Hinweis: Links in den Übungen öffnen Sie, indem sie darauf rechtsklicken und “Link in neuem Tab/Fenster öffnen” wählen.

Runden Sie Kennzahlen und z-Werte auf zwei Stellen nach dem Komma, p-Werte auf drei Stellen nach dem Komma.

Zuerst etwas Theorie

Population und Stichprobe

Nehmen wir an, wir hätten heute die Aufgabe, die durchschnittliche Körpergrösse der Studentinnen PHY13-PHY17 zu bestimmen. Die Studentinnen PHY13-PHY17 wären demnach unsere Population und die durchschnittliche Körpergrösse das Merkmal, dessen wahrer Wert üblicherweise unbekannt ist. Wir wissen bereits, dass die Körpergrösse normal verteilt ist. Wir suchen also

  • den unbekannten Populations-Mittelwert \(\mu\) für die Körpergrösse und
  • die unbekannte Standardabweichung \(\sigma\) für die Körpergrösse

Beachte: Die unbekannten Populationskennzahlen werden in griechischen Buchstaben angegeben im Gegensatz zu den Stichproben-Kennzahlen, die in lateinischen Buchstaben angegeben werden (\(\bar{x}\) für Mittelwert und \(s\) für Standardabweichung).

Die Verteilung von Stichprobenmittelwerten

Zur Erinnerung hier nochmals die wichtigsten Kennzahlen zur Körpergrösse der Studentinnen:

## 
##  DESCRIPTIVES
## 
##  Descriptives                       
##  ────────────────────────────────── 
##                          Groesse    
##  ────────────────────────────────── 
##    N                          183   
##    Missing                      0   
##    Mean                  166.9235   
##    Median                167.0000   
##    Standard deviation    5.664100   
##    Minimum               148.0000   
##    Maximum               183.0000   
##  ──────────────────────────────────

Für die folgenden Überlegungen nehmen wir unsere 183 Studentinnen als Population. Weil wir einen Datensatz mit den Körpergrössen von allen diesen Studentinnen haben, kennen wir in unserem Fall den wahren Mittelwert \(\mu\) = 166.92 und die wahre Standardabweichung \(\sigma\) = 5.66. Um die theoretischen Grundlagen zu überprüfen, tun wir jetzt aber so, als ob wir das nicht wüssten!.

Um unsere Fragestellung zu untersuchen, ziehen wir aus dieser Population mehrere Zufallsstichproben \(sample_1\) bis \(sample_n\) (Üblicherweise zieht man nur eine einzige Stichprobe, aber wir machen das hier, um die theoretischen Grundlagen zu erläutern). Von jeder dieser Stichproben bestimmen wir den Mittelwert und die Standardabweichung.

Wir dürfen erwarten, dass der Mittelwert von den Stichprobenmittelwerten \(\bar{x}_1\) bis \(\bar{x}_n\) etwa dem wahren Mittelwert in der Population \(\mu\) enspricht:

\[\mu \approx \frac{\bar{x}_1+\bar{x}_2+...+\bar{x}_n}{n}\]

Vermutlich wird keiner der Stichprobenmittelwerte \(\bar{x}_1\) bis \(\bar{x}_n\) exakt den Populationsmittelwert \(\mu\) treffen. Wir erhalten also eine Verteilung der Stichprobenmittelwerte um den Populationsmittelwert \(\mu\). Die Standardabweichung des Mittelwerts der einzelnen Stichprobenmittelwerte wird als Standardfehler SE (engl. standard error) bezeichnet.

Bevor Sie jetzt weiterfahren, empfehle ich ihnen ein Video: Bunnies, Dragons and the ‘Normal’ World: Central Limit Theorem | The New York Times Youtube, 3m38s

Jetzt führen wir ein Experiment durch: Ihre Aufgabe ist es, die Körpergrösse von Studentinnen der Physiotherapie PHY13 bis PHY17 zu bestimmen. Sie können unmöglich alle 183 Studentinnen messen, da diese an verschiedenen Orten verteilt sind und der Aufwand unverhältnismässig gross ist. Zum Glück haben Sie 30 Kolleg:innen, die jeweils von 10 Studentinnen PHY13-PHY17 die Kontaktdaten haben. Sie bitten diese 30 Kolleg:innen darum, bei den 10 Studentinnen die Körpergrösse zu erfragen. Am Schluss haben Sie somit 30 Stichproben aus ihrer Population im Umfang von 10 Studentinnen. Sie berechnen von jeder Stichprobe den Mittelwert und die Standardabweichung. Das Ergebnis sieht folgendermassen aus:

Tab. 2: Groesse PHY13-PHY17, 30 Stichproben, n = 10
Sample n m s
1 10 168.1 7.61
2 10 163.2 5.73
3 10 166.2 5.31
4 10 162.8 4.87
5 10 166.5 6.29
6 10 165.2 3.33
7 10 168.3 6.33
8 10 167.9 5.24
9 10 166.9 6.05
10 10 167.6 3.47
11 10 165.9 3.60
12 10 168.4 6.93
13 10 165.4 5.60
14 10 170.9 5.22
15 10 167.6 6.72
16 10 166.5 5.56
17 10 165.7 5.27
18 10 163.6 2.80
19 10 166.5 5.82
20 10 167.2 7.10
21 10 164.1 5.74
22 10 169.7 5.54
23 10 170.2 5.59
24 10 168.5 5.85
25 10 165.0 3.50
26 10 165.6 5.56
27 10 168.7 5.76
28 10 166.7 4.64
29 10 164.5 3.24
30 10 166.8 5.67

Beachte: In jeder Stichprobe liegt der Mittelwert in der Nähe des Populationsmittelwertes \(\mu = 166.92\) und die Standardabweichung in der Nähe der Populationsstandardabweichung \(\sigma = 5.66\).

Betrachten wir jetzt die Verteilung der Stichprobenmittelwerte im Histogramm:

Wir sehen, dass sich die Stichprobenmittelwerte wie erwartet um den wahren Populationsmittelwert herum verteilen. Die Verteilung von Stichprobenkennzahlen, hier von Stichprobenmittelwerten, erfolgt annähernd einer Normalverteilung.

Zusammenfassung (Zentraler Grenzwertsatz, central limit theorem, CLT)

Die Verteilung einer Stichprobenkennzahl (hier der Mittelwerte aller Stichproben \(\bar{x}_1\) bis \(\bar{x}_n\) folgt annähernd einer Normalverteilung mit einem Mittelwert um den Populationsmittelwert \(\mu\) und einer Standardabweichung SE, die gleich der Populationsstandardabweichung \(\sigma\) dividiert durch die Quadratwurzel der Stichprobenumfänge n ist. Als Formel ausgedrückt:

\[\bar{x} \sim N(\bar{x} = \mu, SE = \frac{\sigma}{\sqrt{n}})\]

Wenn die Standardabweichung der Population unbekannt ist, was meist der Fall ist, setzen wir für die Berechnung des Standardfehlers \(SE\) anstelle von \(\sigma\) die Standardabweichung der Stichprobe \(s\) ein:

\[SE = \frac{s}{\sqrt{n}})\]


Verteilung von Stichprobenkennzahlen, Standardfehler

Übung 1

Wir arbeiten mit einer Simulations-App. Rufen Sie den Link Central Limit Theorem for Means auf (Rechtsklick auf den Link > “Link in neuem Tab öffnen”).

Aufgabe

  1. Wählen Sie Parent Distribution: normal (d.h. die Stichproben werden aus einer normalverteilten Population gezogen)
  2. Stellen Sie die Populationskennzahlen Mean = 0 und Standard Deviation = 20 ein. Im Fenster rechts unter Population Distribution wird jetzt die Verteilung ihrer Population dargestellt. Da die Daten mit ihren Angaben zu Mittelwert und Standardabweichung randomisiert erstellt wurden, kann es sein, dass der Mittelwert und die Standardabweichung leicht von ihren Vorgaben abweichen.
  3. Stellen Sie die Stichprobenangaben Sample size = 25 und Number of Samples = 100 ein.
  4. Wechseln sie jetzt ins Register Samples: Die App hat nach ihren Vorgaben 100 Zufallsstichproben gezogen und die Ergebnisse der ersten acht Stichproben werden angezeigt. Notieren Sie die jeweiligen Mittelwerte x_bar und die Standardabweichung SD der acht Stichproben.

Vergrössern Sie jetzt die Sample Size auf 100. Hat der Stichprobenumfang einen Einfluss …

    1. … auf die Standardabweichungen SD der Stichproben (Register Samples: Sample 1 bis Sample 8)?
    1. … auf die Mittelwerte \(\bar{x}\) der Stichproben (Register Samples: Sample 1 bis Sample 8)?
    1. … auf den den Standardfehler SE der Verteilung der Stichprobenmittelwerte (Register Sampling distribution)?

Wiederholen Sie die Übung mit Stichprobenumfängen von 200 und 400.

Lösung

    1. Die Standardabweichungen der Stichproben ensprechen etwa der Standardabweichung der Population \(s \approx 20\). Der Stichprobenumfang beeinflusst die Standardabweichung SD der Stichprobe insofern, als dass die Abweichungen der einzelnen Stichproben-Standardabweichungen von der Populationsstandardabweichung \(\sigma = 20\) mit steigendem Stichprobenumfang abnehmen.
    1. Die Mittelwerte der Stichproben entsprechen etwa dem Mittelwert der Population \(\bar{x} \approx 0\). Der Stichprobenumfang beeinflusst die Mittelwerte \(\bar{x}\) der Stichproben insofern, als dass die Abweichungen der einzelnen Stichprobenmittelwerte vom Populationsmittelwert \(\mu = 0\) mit steigendem Stichprobenumfang abnehmen.
    1. Die Beobachtung aus (b) äussert sich darin, dass mit steigendem Stichprobenumfang die Variation der Stichprobenmittelwerte um den Populationsparameter, ausgedrückt als Standardfehler SE, immer kleiner wird. Eine Vervierfachung des Stichprobenumfangs von 25 auf 100 oder von 100 auf 400 führt zu einer Halbierung des Standardfehlers.


Übung 2

Wir arbeiten weiter mit der Simulations-App Central Limit Theorem for Means.

Aufgabe

  1. Wählen Sie Parent Distribution: right skewed (d.h. die Stichproben werden aus einer rechtsschief verteilten Population gezogen)
  2. Stellen Sie die Stichprobenangaben Sample size = 2 und Number of Samples = 700 ein. Notieren Sie sich den Populationsmittelwert mean of x und die Standardabweichung SD of x, die im Register Population Distribution angezeigt wird

Vergrössern Sie jetzt die Sample Size schrittweise. Hat der Stichprobenumfang einen Einfluss …

    1. … auf die Standardabweichungen SD der Stichproben (Register Samples: Sample 1 bis Sample 8)?
    1. … auf die Mittelwerte \(\bar{x}\) der Stichproben (Register Samples: Sample 1 bis Sample 8)?
    1. … auf den den Standardfehler SE der Verteilung der Stichprobenmittelwerte (Register Sampling distribution)?
    1. … auf die Form der Verteilung der Stichprobenmittelwerte (Register Sampling distribution)?

Lösung

    1. Die Standardabweichungen der Stichproben ensprechen etwa der Standardabweichung der Population \(s \approx \sigma\). Der Stichprobenumfang beeinflusst die Standardabweichung SD der Stichprobe insofern, als dass die Abweichungen der einzelnen Stichproben-Standardabweichungen von der Populationsstandardabweichung mit steigendem Stichprobenumfang abnehmen.
    1. Die Mittelwerte der Stichproben entsprechen etwa dem Mittelwert der Population \(\bar{x} \approx \mu\). Der Stichprobenumfang beeinflusst die Mittelwerte \(\bar{x}\) der Stichproben insofern, als dass die Abweichungen der einzelnen Stichprobenmittelwerte vom Populationsmittelwert mit steigendem Stichprobenumfang abnehmen.
    1. Die Beobachtung aus (b) äussert sich darin, dass mit steigendem Stichprobenumfang die Variation der Stichprobenmittelwerte um den Populationsparameter, ausgedrückt als Standardfehler SE, immer kleiner wird.
    1. In kleinen Stichproben (n < 30) entspricht die Verteilung der Stichprobenmittelwerte eher der rechtsschiefen Verteilung der Populationsdaten. Mit zunehmendem Stichprobenumfang nähert sich die Verteilung der Stichprobenmittelwerte der Normalverteilung an.

Merke: Unabhängig davon, wie die Daten in der Population verteilt sind (normal, rechtsschief, linksschief, irregulär), nähert sich mit steigendem Umfang die Verteilung der Stichprobenkennzahlen der Normalverteilung an.


Übung 3

Aufgabe

Wir wollen untersuchen, ob es einen Unterschied gibt in der körperlichen Aktivität zwischen Männern und Frauen. Eine Zufallstichprobe ergibt, dass Männer an \(\bar{x}_{maenner} = 4.3\) und Frauen an \(\bar{x}_{frauen} = 3.2\) Tagen pro Woche körperlich aktiv sind. Was wäre eine gute Punktschätzung für die Differenz der körperlichen Aktivität zwischen Männern und Frauen?


Lösung

Wir können die Differenz der beiden Stichprobenkennzahlen verwenden: \(4.3 - 3.2 = 1.1\). Männer sind im Durchschnitt 1.1 Tage/Woche häufiger körperlich aktiv als Frauen.


Übung 4

Aufgabe

    1. Würden Sie eher eine grosse oder eher eine kleine Stichprobe wählen, um einen Populationsparameter zu schätzen? Begründen Sie ihre Antwort.
    1. Würden Sie erwarten, dass eine Punktschätzung von einer kleinen Stichprobe eher einen kleineren oder eher einen grösseren Standardfehler aufweist als eine Punktschätzung von einer grösseren Stichprobe? Begründn Sie ihre Antwort.


Lösung

    1. Nehmen wir als Beispiel zwei Stichproben: Stichprobe 1 umfasst 10 und Stichprobe 2 1000 Beobachtungseinheiten. Einzelne Beobachtungen in Stichprobe 1 haben einen weitaus grösseren Einfluss auf die Punktschätzung, während sich bei grösseren Stichproben wie Stichprobe 2 die einzelnen Werte eher gegenseitig ausgleichen. Die grössere Stichprobe 2 wird daher eher eine präzisere Punktschätzung liefern als die kleine Stichprobe 1.
    1. Eine präzisere Schätzung bedeutet, dass sie mit einem geringeren Fehler behaftet ist. Wir können intuitiv sagen, dass eine grosse Stichprobe einen geringeren Fehler aufweist.


Übung 5

Aufgabe

In einer Stichprobe von n = 100 Studentinnen ist die Standardabweichung für die Körpergrösse \(s = 0.1\) Meter. Die Beobachtungseinheiten sind unabhängig voneinander und der Stichprobenumfang ist kleiner als 10% der Population.

    1. Wie gross ist der Standardfehler SE des Mittelwerts \(\bar{x} = 1.7m\)?
    1. Wären wir überrascht, wenn jemand sagen würde, dass die durchschnittliche Grösse aller Studentinnen in Wahrheit 1.69 m beträgt?


Lösung

    1. Der Standardfehler berechnet sich aus der Formel \(SE = s/\sqrt{n} = 0.1/\sqrt{100} = 0.01\) Meter.
    1. Das wäre nicht überraschend. Unsere Stichprobe ist 1 SE von 1.69 entfernt und das bedeutet dass unser Wert nahe am wirklichen Populationsparameter liegt.


Übung 6

Aufgabe

    1. Was ist vertrauenswürdiger: Eine Stichprobe A mit n = 100 oder eine Stichprobe B mit n = 400 Beobachtungseinheiten? Begründen Sie ihre Antwort.
    1. Zeigen Sie mathematisch, dass unsere Punktschätzung präziser ist, wenn der Stichprobenumfang grösser ist: Berechnen Sie dazu den Standardfehler für die beiden Stichproben A und B; die Standardabweichung beträgt für beide Stichproben \(s = 10\).


Lösung

    1. Zusätzliche Beobachtungseinheiten sind immer wertvoll, wenn man einen Populationsparameter schätzen muss. Allerdings bedeuten grössere Stichproben in der Realität auch höhere Kosten, weshalb der Stichprobenumfang stets einen Kompromiss zwischen Präzision und Kosten darstellt.
    1. Der Standardfehler für n = 100 ist \(SE = 10/sqrt{100} = 1\), für n = 400 \(SE = 10/\sqrt{400} = 0.5\)

Hinweis: Beachten Sie an diesem Beispiel, dass für eine Halbierung des Standardfehlers, der Stichprobenumfang vervierfacht werden muss (Wurzel-n-Gesetz)


Vertrauensintervalle (CI)

Wenn wir eine Population untersuchen, können wir normalerweise nicht mehrere Stichproben analysieren und müssen uns auf eine einzige Stichprobe verlassen. Aber wie präzise lässt sich der wahre Populationsmittelwert \(\mu\) mit einer einzelnen Stichprobe bestimmen?

Nehmen wir als Beispiel die erste Stichprobe von unserem Versuch oben:

Tab. 3: Stichprobe 1
Sample Kohorte Groesse
1 phy13 160
1 phy13 167
1 phy14 169
1 phy13 181
1 phy17 172
1 phy16 158
1 phy17 178
1 phy13 162
1 phy17 163
1 phy13 171
Tab. 4: Mittelwert und Standardabweichung für Stichprobe 1
m s
168.1 7.61

Wie wir aus dem zentralen Grenzwertsatz gelernt haben, ist die Standardabweichung für den Mittelwert der Stichprobenmittelwerte der Standardfehler \(SE\). Wir haben im Moment (und auch in der Regel) zwar nur eine einzige Stichprobe, daher müssen wir die Kennzahlen unserer Stichprobe als besten Schätzer verwenden. D.h.

\[\mu \approx \bar{x}\]

\[SE = \frac{\sigma}{\sqrt{n}} \approx \frac{s}{\sqrt{n}}\]

Wie wir auch aus der Geometrie der Normalverteilung wissen, umfasst der Bereich \(\bar{x} \pm 1.96s\) 95% der zu erwartenden Werte. Für die Schätzung der Vorhersagegenauigkeit unseres Mittelwertes kombinieren wir jetzt diese Kenntnisse und berechnen das 95%-Vertrauensintervall (\(CI_{95}\)) für den Mittelwert.

\[CI_{95} = \bar{x} \pm 1.96 \times SE\]

\[CI_{95} = 168.1 \pm 1.96 \times \frac{7.61}{\sqrt{10}} = [163.38, 172.82]\]

Interpretation des 95% CI Wenn wir 100 Stichproben mit gleichem Stichprobenumfang aus der Population untersuchen, werden 95% der Vertrauensintervalle den wahren Populationsmittelwert \(\mu\) enthalten.

Nach diesen Erläuterungen müsste das 95%-Konfidenzintervall in 95% von unseren 30 Stichproben den Populationsmittelwert enthalten (95% von 30 = 28.5).

Von den 30 Stichproben enthalten 27 den Populationsmittelwert und 3 Stichproben (Sample 4, 14 und 17), also 10%, enthalten ihn nicht. Diese Abweichung von den erwarteten 5% ist auf zufällige Variation zurückzuführen. Je mehr Stichproben wir nehmen würden, desto mehr würden wir uns dem theoretischen Modell annähern.

Quintessenz: Wir wissen zwar nicht, ob ein 95%-Konfidenzintervall den wahren Populationsparameter enthält, aber wir können zu 95% darauf vertrauen, dass ein bestimmtes 95%-Konfidenzintervall den wahren Parameter enthält.


Übung 7

Aufgabe

Wenn wir sicher sein wollen, dass unser Vertrauensintervall den Populationsparameter beinhaltet, sollten wir dann eher ein breites (z.B. 95%-CI) oder eher ein schmales Vertrauensintervall (60%-CI) verwenden?


Lösung

Wenn wir sicher sein wollen, einen Fisch zu fangen, müssen wir ein grösseres Netz wählen. Genau gleich verhält es sich mit Vertrauensintervallen: Wenn wir ein grösseres Vertrauensintervall wählen, können wir eher darauf vertrauen, dass es den Populationsparameter beinhaltet.


Übung 8

Verwenden Sie für diese Aufgaben die Angaben aus Tabelle 2 oben.

Aufgaben

  1. Welche untere und obere Grenze hat das 95%-Vertrauensintervall der 3. Stichprobe? (m = 166.2, s = 5.31, n = 10)
  2. Welche untere und obere Grenze hat das 95%-Vertrauensintervall der 4. Stichprobe? (m = 162.8, s = 4.87, n = 10)
  3. Inwiefern unterscheiden sich die 95%-Vertrauensintervalle der 2. und der 4. Stichprobe bezüglich der Schätzung des Populationsmittelwerts \(\mu = 166.92\)?

Lösungen

\(\bar{x} = 166.2, s = 5.31, n = 10\)

Für die Berechnung des Vertrauensintervalls benötigen Sie den Standardfehler SE:

\[SE = \frac{s}{\sqrt{n}} = \frac{5.31}{\sqrt{10}} = \frac{5.31}{3.16} = 1.679\]

Die Formel für die Berechnung des 95%-Vertrauensintervalls lautet

\[CI_{95} = \bar{x} \pm 1.96 SE = 166.2 \pm 1.96 \times 1.679 = [162.91, 169.50]\]

  1. Vorgehen wie Aufgabe 1: [159.78, 165.82]
  2. Der Populationsmittelwert beträgt 166.92 cm. Das 95%-Vertrauensintervall der Stichprobe 2 enthält den wahren Populationsmittelwert, während das Intervall der 4. Stichprobe den wahren Mittelwert nicht enthält.



Übung 9

Aufgabe

Wie oft wird das 95%-Vertrauensintervall erwartungsgemäss den wahren Populationsmittelwert verfehlen, wenn Sie a) 20, b) 60, c) 120 Stichproben mit dem gleichen Stichprobenumfang untersuchen.



Lösung

  1. \(0.05 \times 20 = 1\), b) \(0.05 \times 60 = 3\), c) \(0.05 \times 120 = 6\)

Übung 10

Aufgabe

Wie können Sie die Präzision ihrer Schätzung des wahren Populationsmittelwerts durch eine Anpassung des Untersuchungsdesigns erhöhen?

Lösung

Durch die Erhöhung des Stichprobenumfangs \(n\). Da der Standardfehler \(SE\) u.a. vom Stichprobenumfang abhängig ist, verkleinert sich das 95%-Vertrauensintervall proportional zur \(\sqrt{n}\). Eine schöne Animation zu dieser Frage liefert https://seeing-theory.brown.edu/frequentist-inference/index.html#section2 . Verändern Sie in den Einstellungen den Stichprobenumfang \(n\) und beachten Sie, wie sich die Breite der Konfidenzintervalle verändert.