Technische Anmerkung

Für diese Übung werden Daten simuliert und grafisch dargestellt. Die dafür verwendeten R-Codes sind zur Vollständigkeit (und für Interessierte) aufgeführt, müssen von den Kursteilnehmenden jedoch nicht nachvollzogen werden können.

Zuerst etwas Theorie

Population und Stichprobe

In der Inferenzstatistik geht es darum, einen Populationsparameter, also zum Beispiel einen Populationsmittelwert, zu bestimmen. In den meisten Situationen ist man nicht in der Lage, die gesamte Population zu messen, weshalb man den Populationsparameter nicht genau bestimmen, sondern nur schätzen kann. Diese Schätzung basiert auf Kenntnissen aus einer Stichprobe. Je nach Eigenschaft dieser Stichprobe, fällt diese Schätzung unterschiedlich ungenau aus.

Die Verteilung von Stichprobenmittelwerten

Um das Konzept der Stichprobenverteilung nachvollziehen zu können, müssen wir so tun, als ob wir den Populationsparameter, welchen wir schätzen wollen, kennen. Konkret wollen wir bei diesem Beispiel den wahren Mittelwert und die wahre Standardabweichung des IQ’s von erwachsenen Menschen schätzen. Wir nehmen an, dass der Populationsmittelwert \(\mu\) = 100 und die Populationsstandardabweichung \(\sigma\) = 15.

Wir ziehen nun aus dieser Population mehrere Zufallsstichproben \(sample_1\) bis \(sample_n\) (Üblicherweise zieht man nur eine einzige Stichprobe, aber wir machen das hier, um die theoretischen Grundlagen zu erläutern). Von jeder dieser Stichproben bestimmen wir den Mittelwert und die Standardabweichung. Jede Stichprobe umfasst 50 Personen.

Wir dürfen erwarten, dass der Mittelwert von den Stichprobenmittelwerten \(\bar{x}_1\) bis \(\bar{x}_n\) etwa dem wahren Mittelwert in der Population \(\mu\) enspricht:

\[\mu \approx \frac{\bar{x}_1+\bar{x}_2+...+\bar{x}_n}{n}\]

Vermutlich wird keiner der Stichprobenmittelwerte \(\bar{x}_1\) bis \(\bar{x}_n\) exakt den Populationsmittelwert \(\mu\) treffen. Wir erhalten eine Verteilung der Stichprobenmittelwerte um den Populationsmittelwert \(\mu\). Die Standardabweichung des Mittelwerts der einzelnen Stichprobenmittelwerte wird als Standardfehler SE (engl. standard error) bezeichnet.

Dringend zu empfehlendes Video: Bunnies, Dragons and the ‘Normal’ World: Central Limit Theorem | The New York Times Youtube, 3m38s

Um den wahren Populationsmittelwert und die wahre Populationsstandardabweichung zu ermitteln, müssten wir, wie oben erwähnt, die ganze Population messen. In der Forschung, zumindest was unsere Disziplinen angeht, ist dies praktisch nie möglich. Genau so wenig ist es möglich “unendlich viele Stichproben” zu messen. Dank Computer können wir aber illustrieren, was passiert, wenn wir mehrere Stichproben messen könnten. Ich habe unten 30 Stichproben aus der Population mit \(\mu = 100\) und \(\sigma = 15\) gezogen und für jede Stichprobe den Mittelwert und die Standardabweichung berechnet. Jede der 30 Stichproben umfasst 50 Personen.

# Dieser Code ist nicht prüfungsrelevant
sample <- vector()
m <- vector()
s <- vector()

for(i in 1:30){
  sample[i] <- paste("sample", i, sep = "")
  x <- rnorm(50, 100, 15)
  m[i] <- mean(x)
  s[i] <- sd(x)
}

df <- data.frame(sample, m, s, 
                 n = rep(50, 30))
df %>% 
  kbl() %>% 
  kable_paper() %>%
  scroll_box(width = "300px", height = "300px")
sample m s n
sample1 104.3023 15.7089 50
sample2 96.0371 13.9470 50
sample3 101.6689 16.2059 50
sample4 100.5569 16.7525 50
sample5 101.5228 15.2434 50
sample6 102.6791 17.3595 50
sample7 99.7102 13.0674 50
sample8 98.6415 12.9916 50
sample9 98.1519 15.5816 50
sample10 101.1433 13.7919 50
sample11 101.0506 16.2608 50
sample12 98.8594 13.8249 50
sample13 98.6980 15.0439 50
sample14 100.4182 15.5871 50
sample15 103.4566 14.5935 50
sample16 100.0596 14.2619 50
sample17 102.3122 13.5207 50
sample18 100.3040 17.7668 50
sample19 102.9384 15.6123 50
sample20 97.8949 15.6296 50
sample21 101.7375 12.4412 50
sample22 95.6337 14.5671 50
sample23 99.8625 15.4779 50
sample24 98.8975 14.8946 50
sample25 98.2747 17.6312 50
sample26 98.7965 12.8475 50
sample27 94.9566 15.3341 50
sample28 97.0847 15.0005 50
sample29 97.8455 16.6465 50
sample30 100.3075 15.8799 50

Beachte: In jeder Stichprobe liegt der Mittelwert in der Nähe des Populationsmittelwertes \(\mu = 100\) und die Standardabweichung in der Nähe der Populationsstandardabweichung \(\sigma = 15\). Die Abweichung eines Stichprobenmittelwertes zum Populationsmittelwert wird als sampling error bezeichnet. Als zweites fällt auf, dass sich die verschiedenen Stichprobenmittelwerte unterscheiden. Hier heisst der Fachbegriff sampling variation. Diese Stichprobenverteilung schauen wir uns jetzt etwas genauer an.

# Dieser Code ist nicht prüfungsrelevant
ggplot(df, aes(x = m)) + geom_histogram(binwidth = 2) +
    ggtitle("Verteilung der Stichprobenmittelwerte", 
          subtitle = "30 samples, n = 50, violette Linie = Populationsmittelwert") +
  xlab("Stichprobenmittelwerte") +
  geom_vline(xintercept = 100, size = 1, color = "#00998a")

Wir sehen, dass sich die Stichprobenmittelwerte wie erwartet um den wahren Populationsmittelwert herum verteilen. Die Verteilung von Stichprobenkennzahlen, hier von Stichprobenmittelwerten, erfolgt annähernd einer Normalverteilung.

Der Gesamtmittelwert (also der Mittelwert der 30 Mittelwerten) beträgt 99.793423 und ist somit sehr nahe an der Wahrheit. Die Gesamtstandardabeichung (also der Mittelwert der 30 Standardabweichungen) beträgt 15.115727 und ist somit sehr nahe an der Wahrheit.

Zusammenfassung (Zentraler Grenzwertsatz, central limit theorem, CLT)

Die Verteilung einer Stichprobenkennzahl (hier der Mittelwerte aller Stichproben) folgt annähernd einer Normalverteilung mit einem Mittelwert um den Populationsmittelwert \(\mu\) und einer Standardabweichung SE, die gleich der Populationsstandardabweichung \(\sigma\) dividiert durch die Quadratwurzel der Stichprobenumfänge n ist. Als Formel ausgedrückt:

\[\bar{x} \sim N(\bar{x} = \mu, SE = \frac{\sigma}{\sqrt{n}})\]


Verteilung von Stichprobenkennzahlen, Standardfehler

Übung 1

Wir arbeiten mit einer Simulations-App. Rufe den Link Central Limit Theorem for Means auf.

Aufgabe

  1. Wähle Parent Distribution: normal (d.h. die Stichproben werden aus einer normalverteilten Population gezogen)
  2. Stelle die Populationskennzahlen Mean = 0 und Standard Deviation = 20 ein.
  3. Stelle die Stichprobenangaben Sample size = 25 und Number of Samples = 100 ein.

Vergrössere jetzt die Sample Size auf 100, 200, 400. Hat der Stichprobenumfang einen Einfluss …

    1. … auf die Standardabweichungen SD der Stichproben (Register Samples: Sample 1 bis Sample 8)?
    1. … auf die Mittelwerte \(\bar{x}\) der Stichproben (Register Samples: Sample 1 bis Sample 8)?
    1. … auf den den Standardfehler SE der Verteilung der Stichprobenmittelwerte (Register Sampling distribution)?

Lösung

    1. Die Standardabweichungen der Stichproben ensprechen etwa der Standardabweichung der Population \(s \approx 20\). Der Stichprobenumfang beeinflusst die Standardabweichung SD der Stichprobe insofern, als dass die Abweichungen der einzelnen Stichproben-Standardabweichungen von der Populationsstandardabweichung \(\sigma = 20\) mit steigendem Stichprobenumfang abnehmen.
    1. Die Mittelwerte der Stichproben entsprechen etwa dem Mittelwert der Population \(\bar{x} \approx 0\). Der Stichprobenumfang beeinflusst die Mittelwerte \(\bar{x}\) der Stichproben insofern, als dass die Abweichungen der einzelnen Stichprobenmittelwerte vom Populationsmittelwert \(\mu = 0\) mit steigendem Stichprobenumfang abnehmen.
    1. Die Beobachtung aus (b) äussert sich darin, dass mit steigendem Stichprobenumfang die Variation der Stichprobenmittelwerte um den Populationsparameter, ausgedrückt als Standardfehler SE, immer kleiner wird. Eine Vervierfachung des Stichprobenumfangs von 125 auf 500 führt zu einer Halbierung des Standardfehlers.


Übung 2

Wir arbeiten weiter mit der Simulations-App Central Limit Theorem for Means.

Aufgabe

  1. Wähle Parent Distribution: right skewed (d.h. die Stichproben werden aus einer rechtssteil verteilten Population gezogen)
  2. Stelle die Stichprobenangaben Sample size = 2 und Number of Samples = 700 ein. Notiere dir den Populationsmittelwert mean of x und die Standardabweichung SD of x, die im Register Population Distribution angezeigt wird

Vergrössere jetzt die Sample Size schrittweise. Hat der Stichprobenumfang einen Einfluss …

    1. … auf die Standardabweichungen SD der Stichproben (Register Samples: Sample 1 bis Sample 8)?
    1. … auf die Mittelwerte \(\bar{x}\) der Stichproben (Register Samples: Sample 1 bis Sample 8)?
    1. … auf den den Standardfehler SE der Verteilung der Stichprobenmittelwerte (Register Sampling distribution)?
    1. … auf die Form der Verteilung der Stichprobenmittelwerte (Register Sampling distribution)?

Lösung

    1. Die Standardabweichungen der Stichproben ensprechen etwa der Standardabweichung der Population \(s \approx \mu\). Der Stichprobenumfang beeinflusst die Standardabweichung SD der Stichprobe insofern, als dass die Abweichungen der einzelnen Stichproben-Standardabweichungen von der Populationsstandardabweichung mit steigendem Stichprobenumfang abnehmen.
    1. Die Mittelwerte der Stichproben entsprechen etwa dem Mittelwert der Population \(\bar{x} \approx \mu\). Der Stichprobenumfang beeinflusst die Mittelwerte \(\bar{x}\) der Stichproben insofern, als dass die Abweichungen der einzelnen Stichprobenmittelwerte vom Populationsmittelwert mit steigendem Stichprobenumfang abnehmen.
    1. Die Beobachtung aus (b) äussert sich darin, dass mit steigendem Stichprobenumfang die Variation der Stichprobenmittelwerte um den Populationsparameter, ausgedrückt als Standardfehler SE, immer kleiner wird.
    1. In kleinen Stichproben (n < 30) entspricht die Verteilung der Stichprobenmittelwerte eher der rechtssteilen Verteilung der Populationsdaten. Mit zunehmendem Stichprobenumfang nähert sich die Verteilung der Stichprobenmittelwerte der Normalverteilung an.

Merke: Unabhängig davon, wie die Daten in der Population verteilt sind (normal, rechtssteil, linkssteil, irregulär), mit steigendem Umfang nähert sich die Verteilung der Stichprobenkennzahlen der Normalverteilung an.


Übung 3

Aufgabe

Wir wollen untersuchen, ob es einen Unterschied gibt in der körperlichen Aktivität zwischen Männern und Frauen. Eine Zufallstichprobe ergibt, dass Männer an \(\bar{x}_{maenner} = 4.3\) und Frauen an \(\bar{x}_{frauen} = 3.2\) Tagen pro Woche körperlich aktiv sind. Was wäre eine gute Punktschätzung für die Differenz?


Lösung

Wir können die Differenz der beiden Stichprobenkennzahlen verwenden: \(4.3 - 3.2 = 1.1\). Männer sind im Durchschnitt 1.1 Tage/Woche häufiger körperlich aktiv als Frauen.


Übung 4

Aufgabe

    1. Würdest du eher eine grosse oder eher eine kleine Stichprobe wählen, um einen Populationsparameter zu schätzen? Begründe deine Antwort.
    1. Würdest Du erwarten, dass eine Punktschätzung von einer kleinen Stichprobe eher einen kleineren oder eher einen grösseren Standardfehler aufweist als eine Punktschätzung von einer grösseren Stichprobe? Begründe deine Antwort.


Lösung

    1. Nehmen wir als Beispiel zwei Stichproben: Stichprobe 1 umfasst 10 und Stichprobe 2 1000 Beobachtungseinheiten. Einzelne Beobachtungen in Stichprobe 1 haben einen weitaus grösseren Einfluss auf die Punktschätzung, während sich bei grösseren Stichproben wie Stichprobe 2 die einzelnen Werte eher gegenseitig ausgleichen. Die grössere Stichprobe 2 wird daher eher eine präzisere Punktschätzung liefern als die kleine Stichprobe 1.
    1. Eine präzisere Schätzung bedeutet, dass sie mit einem geringeren Fehler behaftet ist. Wir können intuitiv sagen, dass eine grosse Stichprobe einen geringeren Fehler aufweist.


Übung 5

Aufgabe

In einer Stichprobe von n = 100 Studentinnen ist die Standardabweichung für die Körpergrösse \(s = 0.1\) Meter. Die Beobachtungseinheiten sind unabhängig voneinander und der Stichprobenumfang ist kleiner als 10% der Population.

    1. Wie gross ist der Standardfehler SE des Mittelwerts \(\bar{x} = 1.7m\)?
    1. Wären wir überrascht, wenn jemand sagen würde, dass die durchschnittliche Grösse aller Studentinnen in Wahrheit 1.69 m beträgt?


Lösung

    1. Der Standardfehler berechnet sich aus der Formel \(SE = s/\sqrt{n} = 0.1/\sqrt{100} = 0.01\) Meter.
    1. Das wäre nicht überraschend. Unsere Stichprobe ist 1 SE von 1.69 entfernt und das bedeutet dass unser Wert nahe am wirklichen Populationsparameter liegt.


Übung 6

Aufgabe

    1. Was ist vertrauenswürdiger: Eine Stichprobe mit n = 100 oder eine Stichprobe mit n = 400 Beobachtungseinheiten? Begründe deine Antwort.
    1. Zeige mathematisch, dass unsere Punktschätzung präziser ist, wenn der Stichprobenumfang grösser ist: Berechne den Standardfehler für die beiden Stichproben; die Standardabweichung beträgt für beide Stichproben \(s = 10\).


Lösung

    1. Zusätzliche Beobachtungseinheiten sind immer wertvoll, wenn man einen Populationsparameter schätzen muss.
    1. Der Standardfehler für n = 100 ist \(SE = 10/sqrt{100} = 1\), für n = 400 \(SE = 10/\sqrt{400} = 0.5\)

Hinweis: Beachte an diesem Beispiel, dass für eine Halbierung des Standardfehlers, der Stichprobenumfang vervierfacht werden muss (Wurzel-n-Gesetz)


Vertrauensintervalle (CI)

Wenn wir eine Population untersuchen, können wir normalerweise nicht mehrere Stichproben analysieren und müssen uns auf eine einzige Stichprobe verlassen. Aber wie präzise lässt sich der wahre Populationsmittelwert \(\mu\) mit einer einzelnen Stichprobe bestimmen?

Nehmen wir als Beispiel die erste Stichprobe von unserem Versuch oben:

# Dieser Code ist nicht prüfungsrelevant
df %>% 
  slice(1) %>% 
  kbl() %>% 
  kable_paper(full_width = FALSE)
sample m s n
sample1 104.302 15.7089 50

Wie wir aus dem zentralen Grenzwertsatz gelernt haben, ist die Standardabweichung für den Mittelwert der Stichprobenmittelwerte der Standardfehler SE. Wir haben im Moment (und auch in der Regel) zwar nur eine einzige Stichprobe, daher müssen wir die Kennzahlen unserer Stichprobe als besten Schätzer verwenden. D.h.

\[\mu \approx \bar{x}\]
\[SE = \frac{\sigma}{\sqrt{n}} \approx \frac{s}{\sqrt{n}}\]

Wie wir auch aus der Geometrie der Normalverteilung wissen, umfasst der Bereich \(\bar{x} \pm 1.96s\) 95% der zu erwartenden Werte. Für die Schätzung der Vorhersagegenauigkeit unseres Mittelwertes kombinieren wir jetzt diese Kenntnisse und berechnen das 95%-Vertrauensintervall (\(CI_{95}\)) für den Mittelwert.

\(CI_{95} = \bar{x} \pm 1.96 SE\)

\(CI_{95} = 104.302279 \pm 1.96 \times \frac{15.708871}{\sqrt{50}} = [99.948002, 108.656556]\)

Interpretation des 95% CI Wenn wir 100 Stichproben mit gleichem Stichprobenumfang aus der Population untersuchen, werden 95% der Vertrauensintervalle den wahren Populationsmittelwert \(\mu\) enthalten.

se <- df$s/sqrt(50)
df$se <- se
ci_low <- df$m - 1.96 * df$se
df$ci_low <- ci_low
ci_up <- df$m + 1.96 * df$se
df$ci_up <- ci_up

ggplot(df, aes(x = as.numeric(factor(sample)), y = m)) + geom_point() +
  geom_hline(yintercept = 100, col = "#00998a", size = 1) + 
  geom_errorbar(ymin = ci_low, ymax = ci_up) +
  scale_y_continuous(limits = c(90, 110)) +
  labs(title = "95% CIs der 30 Stichproben",
       y = "IQ",
       x = "Stichproben")


Übung 7

Aufgabe

Wenn wir sicher sein wollen, dass wir den Populationsparameter treffen, sollten wir dann eher ein breites (z.B. 95%-CI) oder eher ein schmales Vertrauensintervall (60%-CI) verwenden?


Lösung

Wenn wir sicher sein wollen, einen Fisch zu fangen, müssen wir ein grösseres Netz wählen. Genau gleich verhält es sich mit Vertrauensintervallen: Wenn wir ein grösseres Vertrauensintervall wählen, können wir eher darauf vertrauen, dass es den Populationsparameter beinhaltet.

Übung 8

Aufgaben

# Dieser Code ist nicht prüfungsrelevant
df %>% 
  select(sample:n) %>%
   kbl() %>% 
  kable_paper() %>%
  scroll_box(width = "300px", height = "300px")
sample m s n
sample1 104.3023 15.7089 50
sample2 96.0371 13.9470 50
sample3 101.6689 16.2059 50
sample4 100.5569 16.7525 50
sample5 101.5228 15.2434 50
sample6 102.6791 17.3595 50
sample7 99.7102 13.0674 50
sample8 98.6415 12.9916 50
sample9 98.1519 15.5816 50
sample10 101.1433 13.7919 50
sample11 101.0506 16.2608 50
sample12 98.8594 13.8249 50
sample13 98.6980 15.0439 50
sample14 100.4182 15.5871 50
sample15 103.4566 14.5935 50
sample16 100.0596 14.2619 50
sample17 102.3122 13.5207 50
sample18 100.3040 17.7668 50
sample19 102.9384 15.6123 50
sample20 97.8949 15.6296 50
sample21 101.7375 12.4412 50
sample22 95.6337 14.5671 50
sample23 99.8625 15.4779 50
sample24 98.8975 14.8946 50
sample25 98.2747 17.6312 50
sample26 98.7965 12.8475 50
sample27 94.9566 15.3341 50
sample28 97.0847 15.0005 50
sample29 97.8455 16.6465 50
sample30 100.3075 15.8799 50


  1. Welche untere und obere Grenze hat das 95%-Vertrauensintervall der 3. Stichprobe?
  2. Welche untere und obere Grenze hat das 95%-Vertrauensintervall der 22. Stichprobe?

Lösungen

Für die Berechnung des Vertrauensintervalls benötigen Sie den Standardfehler SE:

\[SE = \frac{s}{\sqrt{n}} = \frac{16.205895}{\sqrt{50}} = 2.29186\]

Die Formel für die Berechnung des 95%-Vertrauensintervalls ist

\[CI_{95} = \bar{x} \pm 1.96 SE = [97.176889, 106.160979]\]

  1. Vorgehen wie Aufgabe 1: [91.595908, 99.671472]



Übung 9

Aufgabe

Wie oft wird das 95%-Vertrauensintervall erwartungsgemäss den wahren Populationsmittelwert verfehlen, wenn Sie a) 20, b) 60, c) 120 Stichproben mit dem gleichen Stichprobenumfang untersuchen.

Lösung

  1. \(0.05 \times 20 = 1\), b) \(0.05 \times 60 = 3\), c) \(0.05 \times 120 = 6\)

Übung 10

Aufgabe

Wie können Sie die Präzision ihrer Schätzung des wahren Populationsmittelwerts durch eine Anpassung des Untersuchungsdesigns erhöhen?

Lösung

Durch die Erhöhung des Stichprobenumfangs n. Da der Standardfehler SE u.a. vom Stichprobenumfang abhängig ist, verkleinert sich das 95%-Vertrauensintervall proportional zur \(\sqrt{n}\). Siehe z.B. hier https://seeing-theory.brown.edu/frequentist-inference/index.html#section2