Technische Anmerkung

Für diese Übung werden Daten simuliert und grafisch dargestellt. Die dafür verwendeten R-Codes sind zur Vollständigkeit (und für Interessierte) aufgeführt, müssen von den Kursteilnehmenden jedoch nicht nachvollzogen werden können.

Zuerst etwas Theorie

Population und Stichprobe

In der Inferenzstatistik geht es darum, einen Populationsparameter, also zum Beispiel einen Populationsmittelwert, zu bestimmen. In den meisten Situationen ist man nicht in der Lage, die gesamte Population zu messen, weshalb man den Populationsparameter nicht genau bestimmen, sondern nur schätzen kann. Diese Schätzung basiert auf Kenntnissen aus einer Stichprobe. Je nach Eigenschaft dieser Stichprobe, fällt diese Schätzung unterschiedlich ungenau aus.

Die Verteilung von Stichprobenmittelwerten

Um das Konzept der Stichprobenverteilung nachvollziehen zu können, müssen wir so tun, als ob wir den Populationsparameter, welchen wir schätzen wollen, kennen. Konkret wollen wir bei diesem Beispiel den wahren Mittelwert und die wahre Standardabweichung des IQ’s von erwachsenen Menschen schätzen. Wir nehmen an, dass der Populationsmittelwert \(\mu\) = 100 und die Populationsstandardabweichung \(\sigma\) = 15.

Wir ziehen nun aus dieser Population mehrere Zufallsstichproben \(sample_1\) bis \(sample_n\) (Üblicherweise zieht man nur eine einzige Stichprobe, aber wir machen das hier, um die theoretischen Grundlagen zu erläutern). Von jeder dieser Stichproben bestimmen wir den Mittelwert und die Standardabweichung.

Wir dürfen erwarten, dass der Mittelwert von den Stichprobenmittelwerten \(\bar{x}_1\) bis \(\bar{x}_n\) etwa dem wahren Mittelwert in der Population \(\mu\) enspricht:

\[\mu \approx \frac{\bar{x}_1+\bar{x}_2+...+\bar{x}_n}{n}\]

Vermutlich wird keiner der Stichprobenmittelwerte \(\bar{x}_1\) bis \(\bar{x}_n\) exakt den Populationsmittelwert \(\mu\) treffen. Wir erhalten eine Verteilung der Stichprobenmittelwerte um den Populationsmittelwert \(\mu\). Die Standardabweichung des Mittelwerts der einzelnen Stichprobenmittelwerte wird als Standardfehler SE (engl. standard error) bezeichnet.

Dringend zu empfehlendes Video: Bunnies, Dragons and the ‘Normal’ World: Central Limit Theorem | The New York Times Youtube, 3m38s

Um den wahren Populationsmittelwert und die wahre Populationsstandardabweichung zu ermitteln, müssten wir, wie oben erwähnt, die ganze Population messen. In der Forschung, zumindest was unsere Disziplinen angeht, ist dies praktisch nie möglich. Genau so wenig ist es möglich “unendlich viele Stichproben” zu messen. Dank Computer können wir aber illustrieren, was passiert, wenn wir mehrere Stichproben messen könnten. Ich habe unten 30 Stichproben aus der Population mit \(\mu = 100\) und \(\sigma = 15\) gezogen und für jede Stichprobe den Mittelwert und die Standardabweichung berechnet. Jede der 30 Stichproben umfasst 50 Personen.

sample <- vector()
m <- vector()
s <- vector()
set.seed(123)
for(i in 1:30){
  sample[i] <- paste("sample", i, sep = "")
  x <- rnorm(50, 100, 15)
  m[i] <- round(mean(x), 2)
  s[i] <- round(sd(x), 2)
}

n <- rep(50, 30)
df <- data.frame(sample,m, s, n)
df %>% 
  kbl() %>% 
  kable_paper() %>%
  scroll_box(width = "200px", height = "300px")

sample	m	s	n
sample1	100.52	13.89	50
sample2	102.20	13.58	50
sample3	96.19	14.84	50
sample4	100.58	13.96	50
sample5	99.87	14.21	50
sample6	103.74	14.16	50
sample7	100.03	15.47	50
sample8	98.88	15.83	50
sample9	99.02	15.41	50
sample10	104.16	13.93	50
sample11	100.40	13.42	50
sample12	98.33	14.78	50
sample13	97.56	15.34	50
sample14	97.95	15.66	50
sample15	103.19	16.08	50
sample16	99.99	14.15	50
sample17	99.91	15.43	50
sample18	102.90	16.13	50
sample19	101.50	15.56	50
sample20	97.92	14.99	50
sample21	102.57	17.19	50
sample22	101.03	14.06	50
sample23	99.77	15.53	50
sample24	99.65	14.54	50
sample25	98.14	15.08	50
sample26	101.79	12.55	50
sample27	97.53	15.70	50
sample28	100.66	14.68	50
sample29	99.54	14.64	50
sample30	103.25	14.85	50

Beachte: In jeder Stichprobe liegt der Mittelwert in der Nähe des Populationsmittelwertes \(\mu = 100\) und die Standardabweichung in der Nähe der Populationsstandardabweichung \(\sigma = 15\). Die Abweichung eines Stichprobenmittelwertes zum Populationsmittelwert wird als sampling error bezeichnet. Als zweites fällt auf, dass sich die verschiedenen Stichprobenmittelwerte unterscheiden. Hier heisst der Fachbegriff sampling variation. Diese Stichprobenverteilung schauen wir uns jetzt etwas genauer an.

ggplot(df, aes(x = m)) + geom_histogram(binwidth = 3) +
    ggtitle("Verteilung der Stichprobenmittelwerte", 
          subtitle = "30 samples, n = 50, violette Linie = Populationsmittelwert") +
  xlab("Stichprobenmittelwerte") +
  geom_vline(xintercept = 100, size = 1, color = "#00998a")

Wir sehen, dass sich die Stichprobenmittelwerte wie erwartet um den wahren Populationsmittelwert herum verteilen. Die Verteilung von Stichprobenkennzahlen, hier von Stichprobenmittelwerten, erfolgt annähernd einer Normalverteilung.

Der Gesamtmittelwert (also der Mittelwert der 30 Mittelwerten) beträgt 100.29233 und ist somit sehr nahe an der Wahrheit. Die Gesamtstandardabeichung (also der Mittelwert der 30 Standardabweichungen) beträgt 14.85467 und ist somit sehr nahe an der Wahrheit.

Zusammenfassung (Zentraler Grenzwertsatz, central limit theorem, CLT)

Die Verteilung einer Stichprobenkennzahl (hier der Mittelwerte aller Stichproben) folgt annähernd einer Normalverteilung mit einem Mittelwert um den Populationsmittelwert \(\mu\) und einer Standardabweichung SE, die gleich der Populationsstandardabweichung \(\sigma\) dividiert durch die Quadratwurzel der Stichprobenumfänge \(n\) ist. Als Formel ausgedrückt:

\[\bar{X} \sim \mathcal{N}(\mu, \frac{\sigma^2}{n}),\]

wenn \(n\) gross.

Verteilung von Stichprobenkennzahlen, Standardfehler

Übung 1

Wir arbeiten mit einer Simulations-App. Rufe den Link Central Limit Theorem for Means auf.

Aufgabe

Wähle Parent Distribution: normal (d.h. die Stichproben werden aus einer normalverteilten Population gezogen)
Stelle die Populationskennzahlen Mean = 0 und Standard Deviation = 20 ein.
Stelle die Stichprobenangaben Sample size = 25 und Number of Samples = 100 ein.

Vergrössere jetzt die Sample Size auf 100, 200, 400. Hat der Stichprobenumfang einen Einfluss …

1. … auf die Standardabweichungen SD der Stichproben (Register Samples: Sample 1 bis Sample 8)?
1. … auf die Mittelwerte \(\bar{x}\) der Stichproben (Register Samples: Sample 1 bis Sample 8)?
1. … auf den den Standardfehler SE der Verteilung der Stichprobenmittelwerte (Register Sampling distribution)?

Lösung

1. Die Standardabweichungen der Stichproben ensprechen etwa der Standardabweichung der Population \(s \approx 20\). Der Stichprobenumfang beeinflusst die Standardabweichung SD der Stichprobe insofern, als dass die Abweichungen der einzelnen Stichproben-Standardabweichungen von der Populationsstandardabweichung \(\sigma = 20\) mit steigendem Stichprobenumfang abnehmen.
1. Die Mittelwerte der Stichproben entsprechen etwa dem Mittelwert der Population \(\bar{x} \approx 0\). Der Stichprobenumfang beeinflusst die Mittelwerte \(\bar{x}\) der Stichproben insofern, als dass die Abweichungen der einzelnen Stichprobenmittelwerte vom Populationsmittelwert \(\mu = 0\) mit steigendem Stichprobenumfang abnehmen.
1. Die Beobachtung aus (b) äussert sich darin, dass mit steigendem Stichprobenumfang die Variation der Stichprobenmittelwerte um den Populationsparameter, ausgedrückt als Standardfehler SE, immer kleiner wird. Eine Vervierfachung des Stichprobenumfangs von 125 auf 500 führt zu einer Halbierung des Standardfehlers.

Übung 2

Wir arbeiten weiter mit der Simulations-App Central Limit Theorem for Means.

Aufgabe

Wähle Parent Distribution: right skewed (d.h. die Stichproben werden aus einer rechtssteil verteilten Population gezogen)
Stelle die Stichprobenangaben Sample size = 2 und Number of Samples = 700 ein. Notiere dir den Populationsmittelwert mean of x und die Standardabweichung SD of x, die im Register Population Distribution angezeigt wird

Vergrössere jetzt die Sample Size schrittweise. Hat der Stichprobenumfang einen Einfluss …

1. … auf die Standardabweichungen SD der Stichproben (Register Samples: Sample 1 bis Sample 8)?
1. … auf die Mittelwerte \(\bar{x}\) der Stichproben (Register Samples: Sample 1 bis Sample 8)?
1. … auf den den Standardfehler SE der Verteilung der Stichprobenmittelwerte (Register Sampling distribution)?
1. … auf die Form der Verteilung der Stichprobenmittelwerte (Register Sampling distribution)?

Lösung

1. Die Standardabweichungen der Stichproben ensprechen etwa der Standardabweichung der Population \(s \approx \mu\). Der Stichprobenumfang beeinflusst die Standardabweichung SD der Stichprobe insofern, als dass die Abweichungen der einzelnen Stichproben-Standardabweichungen von der Populationsstandardabweichung mit steigendem Stichprobenumfang abnehmen.
1. Die Mittelwerte der Stichproben entsprechen etwa dem Mittelwert der Population \(\bar{x} \approx \mu\). Der Stichprobenumfang beeinflusst die Mittelwerte \(\bar{x}\) der Stichproben insofern, als dass die Abweichungen der einzelnen Stichprobenmittelwerte vom Populationsmittelwert mit steigendem Stichprobenumfang abnehmen.
1. Die Beobachtung aus (b) äussert sich darin, dass mit steigendem Stichprobenumfang die Variation der Stichprobenmittelwerte um den Populationsparameter, ausgedrückt als Standardfehler SE, immer kleiner wird.
1. In kleinen Stichproben (n < 30) entspricht die Verteilung der Stichprobenmittelwerte eher der rechtssteilen Verteilung der Populationsdaten. Mit zunehmendem Stichprobenumfang nähert sich die Verteilung der Stichprobenmittelwerte der Normalverteilung an.

Merke: Unabhängig davon, wie die Daten in der Population verteilt sind (normal, rechtssteil, linkssteil, irregulär), mit steigendem Umfang nähert sich die Verteilung der Stichprobenkennzahlen der Normalverteilung an.

Übung 3

Aufgabe

Wir wollen untersuchen, ob es einen Unterschied gibt in der körperlichen Aktivität zwischen Männern und Frauen. Eine Zufallstichprobe ergibt, dass Männer an \(\bar{x}_{maenner} = 4.3\) und Frauen an \(\bar{x}_{frauen} = 3.2\) Tagen pro Woche körperlich aktiv sind. Was wäre eine gute Punktschätzung für die Differenz?

Lösung

Wir können die Differenz der beiden Stichprobenkennzahlen verwenden: \(4.3 - 3.2 = 1.1\). Männer sind im Durchschnitt 1.1 Tage/Woche häufiger körperlich aktiv als Frauen.

Übung 4

Aufgabe

1. Würdest du eher eine grosse oder eher eine kleine Stichprobe wählen, um einen Populationsparameter zu schätzen? Begründe deine Antwort.
1. Würdest Du erwarten, dass eine Punktschätzung von einer kleinen Stichprobe eher einen kleineren oder eher einen grösseren Standardfehler aufweist als eine Punktschätzung von einer grösseren Stichprobe? Begründe deine Antwort.

Lösung

1. Nehmen wir als Beispiel zwei Stichproben: Stichprobe 1 umfasst 10 und Stichprobe 2 1000 Beobachtungseinheiten. Einzelne Beobachtungen in Stichprobe 1 haben einen weitaus grösseren Einfluss auf die Punktschätzung, während sich bei grösseren Stichproben wie Stichprobe 2 die einzelnen Werte eher gegenseitig ausgleichen. Die grössere Stichprobe 2 wird daher eher eine präzisere Punktschätzung liefern als die kleine Stichprobe 1.
1. Eine präzisere Schätzung bedeutet, dass sie mit einem geringeren Fehler behaftet ist. Wir können intuitiv sagen, dass eine grosse Stichprobe einen geringeren Fehler aufweist.

Übung 5

Aufgabe

In einer Stichprobe von n = 100 Studentinnen ist die Standardabweichung für die Körpergrösse \(s = 0.1\) Meter. Die Beobachtungseinheiten sind unabhängig voneinander und der Stichprobenumfang ist kleiner als 10% der Population.

1. Wie gross ist der Standardfehler SE des Mittelwerts \(\bar{x} = 1.7m\)?
1. Wären wir überrascht, wenn jemand sagen würde, dass die durchschnittliche Grösse aller Studentinnen in Wahrheit 1.69 m beträgt?

Lösung

1. Der Standardfehler berechnet sich aus der Formel \(SE = s/\sqrt{n} = 0.1/\sqrt{100} = 0.01\) Meter.
1. Das wäre nicht überraschend. Unsere Stichprobe ist 1 SE von 1.69 entfernt und das bedeutet dass unser Wert nahe am wirklichen Populationsparameter liegt.

Übung 6

Aufgabe

1. Was ist vertrauenswürdiger: Eine Stichprobe mit n = 100 oder eine Stichprobe mit n = 400 Beobachtungseinheiten? Begründe deine Antwort.
1. Zeige mathematisch, dass unsere Punktschätzung präziser ist, wenn der Stichprobenumfang grösser ist: Berechne den Standardfehler für die beiden Stichproben; die Standardabweichung beträgt für beide Stichproben \(s = 10\).

Lösung

1. Zusätzliche Beobachtungseinheiten sind immer wertvoll, wenn man einen Populationsparameter schätzen muss.
1. Der Standardfehler für n = 100 ist \(SE = 10/sqrt{100} = 1\), für n = 400 \(SE = 10/\sqrt{400} = 0.5\)

Hinweis: Beachte an diesem Beispiel, dass für eine Halbierung des Standardfehlers, der Stichprobenumfang vervierfacht werden muss (Wurzel-n-Gesetz)

Vertrauensintervalle (CI)

Wenn wir eine Population untersuchen, können wir normalerweise nicht mehrere Stichproben analysieren und müssen uns auf eine einzige Stichprobe verlassen. Aber wie präzise lässt sich der wahre Populationsmittelwert \(\mu\) mit einer einzelnen Stichprobe bestimmen?

Nehmen wir als Beispiel die erste Stichprobe von unserem Versuch oben:

df %>% 
  slice(1) %>% 
  kbl() %>% 
  kable_paper(full_width = FALSE)

sample	m	s	n
sample1	100.52	13.89	50

Wie wir aus dem zentralen Grenzwertsatz gelernt haben, ist die Standardabweichung für den Mittelwert der Stichprobenmittelwerte der Standardfehler SE. Wir haben im Moment (und auch in der Regel) zwar nur eine einzige Stichprobe, daher müssen wir die Kennzahlen unserer Stichprobe als besten Schätzer verwenden. D.h.

\[\mu \approx \bar{x}\]
\[SE = \frac{\sigma}{\sqrt{n}} \approx \frac{s}{\sqrt{n}}\]

Wie wir auch aus der Geometrie der Normalverteilung wissen, umfasst der Bereich \(\bar{x} \pm 1.96s\) 95% der zu erwartenden Werte. Für die Schätzung der Vorhersagegenauigkeit unseres Mittelwertes kombinieren wir jetzt diese Kenntnisse und berechnen das 95%-Vertrauensintervall (\(CI_{95}\)) für den Mittelwert.

\(CI_{95} = \bar{x} \pm 1.96 SE\)

\(CI_{95} = 100.52 \pm 1.96 \times \frac{13.89}{\sqrt{50}} = [96.66989, 104.37011]\)

Interpretation des 95% CI Wenn wir 100 Stichproben mit gleichem Stichprobenumfang aus der Population untersuchen, werden 95% der Vertrauensintervalle den wahren Populationsmittelwert \(\mu\) enthalten.

se <- round(df$s/sqrt(50), 2)
df$se <- se
ci_low <- round(df$m - 1.96 * df$se, 2)
df$ci_low <- ci_low
ci_up <- round(df$m + 1.96 * df$se, 2)
df$ci_up <- ci_up

ggplot(df, aes(x = as.numeric(factor(sample)), y = m)) + geom_point() +
  geom_hline(yintercept = 100, col = "#00998a", linewidth = 1) + 
  geom_errorbar(aes(ymin = ci_low, ymax = ci_up)) +
  scale_y_continuous(limits = c(90, 110)) +
  labs(title = "95% CIs der 30 Stichproben",
       y = "IQ",
       x = "Stichproben")

Übung 7

Aufgabe

Wenn wir sicher sein wollen, dass wir den Populationsparameter treffen, sollten wir dann eher ein breites (z.B. 95%-CI) oder eher ein schmales Vertrauensintervall (60%-CI) verwenden?

Lösung

Wenn wir sicher sein wollen, einen Fisch zu fangen, müssen wir ein grösseres Netz wählen. Genau gleich verhält es sich mit Vertrauensintervallen: Wenn wir ein grösseres Vertrauensintervall wählen, können wir eher darauf vertrauen, dass es den Populationsparameter beinhaltet.

Übung 8

Aufgaben

Hier sehen wir wieder die 30 Stichproben mit je n = 50, die jeweiligen Mittelwerte und Standardabweichungen.

df %>% 
  select(sample:n) %>%
   kbl() %>% 
  kable_paper() %>%
  scroll_box(width = "200px", height = "300px")

sample	m	s	n
sample1	100.52	13.89	50
sample2	102.20	13.58	50
sample3	96.19	14.84	50
sample4	100.58	13.96	50
sample5	99.87	14.21	50
sample6	103.74	14.16	50
sample7	100.03	15.47	50
sample8	98.88	15.83	50
sample9	99.02	15.41	50
sample10	104.16	13.93	50
sample11	100.40	13.42	50
sample12	98.33	14.78	50
sample13	97.56	15.34	50
sample14	97.95	15.66	50
sample15	103.19	16.08	50
sample16	99.99	14.15	50
sample17	99.91	15.43	50
sample18	102.90	16.13	50
sample19	101.50	15.56	50
sample20	97.92	14.99	50
sample21	102.57	17.19	50
sample22	101.03	14.06	50
sample23	99.77	15.53	50
sample24	99.65	14.54	50
sample25	98.14	15.08	50
sample26	101.79	12.55	50
sample27	97.53	15.70	50
sample28	100.66	14.68	50
sample29	99.54	14.64	50
sample30	103.25	14.85	50

Welche untere und obere Grenze hat das 95%-Vertrauensintervall der 3. Stichprobe?
Welche untere und obere Grenze hat das 95%-Vertrauensintervall der 22. Stichprobe?

Lösungen

Für die Berechnung des Vertrauensintervalls benötigen Sie den Standardfehler SE:

\[SE = \frac{s}{\sqrt{n}} = \frac{14.84}{\sqrt{50}} = 2.1\]

Die Formel für die Berechnung des 95%-Vertrauensintervalls ist

\[CI_{95} = \bar{x} \pm 1.96 SE = [92.07, 100.31]\]

Vorgehen wie Aufgabe 1: [97.13, 104.93]

Übung 9

Aufgabe

Wie oft wird das 95%-Vertrauensintervall erwartungsgemäss den wahren Populationsmittelwert verfehlen, wenn Sie a) 20, b) 60, c) 120 Stichproben mit dem gleichen Stichprobenumfang untersuchen.

Lösung

\(0.05 \times 20 = 1\), b) \(0.05 \times 60 = 3\), c) \(0.05 \times 120 = 6\)

Übung 10

Aufgabe

Wie können Sie die Präzision ihrer Schätzung des wahren Populationsmittelwerts durch eine Anpassung des Untersuchungsdesigns erhöhen?

Lösung

Durch die Erhöhung des Stichprobenumfangs n. Da der Standardfehler SE u.a. vom Stichprobenumfang abhängig ist, verkleinert sich das 95%-Vertrauensintervall proportional zur \(\sqrt{n}\). Siehe z.B. hier https://seeing-theory.brown.edu/frequentist-inference/index.html#section2

Referenzen

Stats and R: Hypothesis test by hand
Central limit theorem for Means
Seeing Theory: Confidence Intervall

Übung: Inferenzstatistik Teil 1

Lukas Stammler & Nathanael Lutz

Technische Anmerkung

Zuerst etwas Theorie

Population und Stichprobe

Die Verteilung von Stichprobenmittelwerten

Verteilung von Stichprobenkennzahlen, Standardfehler

Übung 1

Aufgabe

Lösung

Übung 2

Aufgabe

Lösung

Übung 3

Aufgabe

Lösung

Übung 4

Aufgabe

Lösung

Übung 5

Aufgabe

Lösung

Übung 6

Aufgabe

Lösung

Vertrauensintervalle (CI)

Übung 7

Aufgabe

Lösung

Übung 8

Aufgaben

Lösungen

Übung 9

Aufgabe

Lösung

Übung 10

Aufgabe

Lösung

Referenzen