.csv
-Format vor (header =
TRUE, sep = “,”, dec = “.”) und können direkt in jamovi geöffnet werden.
Es wird empfohlen, nach der Kategorisierung der Variablen in jamovi, die
Datei im jamovi-Format .omv
zu speichern.[1] The jamovi project (2021). jamovi (Version 1.6) [Computer Software]. Retrieved from https://www.jamovi.org
Wir arbeiten mit dem Datensatz physio.csv
, der Daten von
228 Physiostudierenden der Kohorten PHY13-PHY17 enthält. Der Datensatz
liegt in 2 Versionen vor:
physio.csv
: Textdatei im CSV-Format; die Variablen
müssen gemäss Codebook erst kategorisiert werden.physio.omv
: Datei im jamovi
-Format; die
Variablen sind bereits kategorisiert.Der Datensatz umfasst 9 Variablen:
Variable | Beschreibung | Skala | Werte |
---|---|---|---|
ID | ID | nominal | 1 … n |
Kohorte | Jahrgang Studierende | nominal | PHY13 … PHY17 |
Klasse | Klasse 1 oder 2 | nominal | 1, 2 |
Geschlecht | Geschlecht | nominal | m = maennlich, w = weiblich |
Augenfarbe | Augenfarbe | nominal | gruen, blau, braun |
Groesse | Körpergrösse in cm | kontinuierlich | 148 … 198 |
Gewicht | Körpergewicht in kg | kontinuierlich | 47 … 105 |
Statistik | Das Fach Statistik interessiert mich | ordinal | (Likert-Skala) 1 = trifft überhaupt nicht zu, 2 = trifft eher nicht zu, 3 = egal, 4 = trifft eher zu, 5 = trifft vollstänig zu |
Schuhgroesse | Schuhgrösse in DE/EU-Einheiten | diskret | 35, 36 … 48 |
##
## DESCRIPTIVES
##
## Descriptives
## ------------------------------------------------
## Geschlecht Groesse
## ------------------------------------------------
## N m 45
## w 183
## Missing m 0
## w 0
## Mean m 179.8667
## w 166.9235
## Median m 180.0000
## w 167.0000
## Standard deviation m 6.387488
## w 5.664100
## Minimum m 169.0000
## w 148.0000
## Maximum m 198.0000
## w 183.0000
## ------------------------------------------------
Nehmen wir an, wir hätten heute die Aufgabe, die durchschnittliche Körpergrösse der Studentinnen PHY13-PHY17 zu bestimmen. Die Studentinnen PHY13-PHY17 wären demnach unsere Population und die durchschnittliche Körpergrösse das Merkmal, dessen wahrer Wert üblicherweise unbekannt ist. Wir wissen bereits, dass die Körpergrösse normal verteilt ist. Wir suchen also
Beachte: Die unbekannten Populationskennzahlen werden in griechischen Buchstaben angegeben im Gegensatz zu den Stichproben-Kennzahlen, die in lateinischen Buchstaben angegeben werden (\(\bar{x}\) für Mittelwert und \(s\) für Standardabweichung).
##
## DESCRIPTIVES
##
## Descriptives
## ----------------------------------
## Groesse
## ----------------------------------
## N 183
## Missing 0
## Mean 166.9235
## Median 167.0000
## Standard deviation 5.664100
## Minimum 148.0000
## Maximum 183.0000
## ----------------------------------
Weil wir einen Datensatz mit den Körpergrössen der Studentinnen PHY13-PHY17 haben, kennen wir in unserem Fall den wahren Mittelwert \(\mu\) = 166.923 und die wahre Standardabweichung \(\sigma\) = 5.664. Um die theoretischen Grundlagen zu überprüfen, tun wir jetzt aber so, als ob wir das nicht wüssten!.
Um unsere Fragestellung zu untersuchen, ziehen wir der Population mehrere Zufallsstichproben \(sample_1\) bis \(sample_n\) (Üblicherweise zieht man nur eine einzige Stichprobe, aber wir machen das hier, um die theoretischen Grundlagen zu erläutern). Von jeder dieser Stichproben bestimmen wir den Mittelwert und die Standardabweichung.
Wir dürfen erwarten, dass der Mittelwert von den Stichprobenmittelwerten \(\bar{x}_1\) bis \(\bar{x}_n\) etwa dem wahren Mittelwert in der Population \(\mu\) enspricht:
\[\mu \approx \frac{\bar{x}_1+\bar{x}_2+...+\bar{x}_n}{n}\]
Vermutlich wird keiner der Stichprobenmittelwerte \(\bar{x}_1\) bis \(\bar{x}_n\) exakt den Populationsmittelwert \(\mu\) treffen. Wir erhalten eine Verteilung der Stichprobenmittelwerte um den Populationsmittelwert \(\mu\). Die Standardabweichung des Mittelwerts der einzelnen Stichprobenmittelwerte wird als Standardfehler SE (engl. standard error) bezeichnet.
Video: Bunnies, Dragons and the ‘Normal’ World: Central Limit Theorem | The New York Times Youtube, 3m38s
Wir können heute nicht von allen Studentinnen PHY13-PHY17 die Körpergrösse messen, aber 30 Kolleginnen in ihrer Kohorte haben von 10 Studentinnen PHY13-PHY17 die Kontaktdaten und fragen diese nach ihrer Körpergrösse. Für 15 unserer 30 Stichproben im Umfang von 10 Studentinnen sieht das Ergebnis folgendermassen aus:
Sample | n | m | s |
---|---|---|---|
1 | 10 | 168.1 | 7.607745 |
2 | 10 | 163.2 | 5.731007 |
3 | 10 | 166.2 | 5.308274 |
4 | 10 | 162.8 | 4.871687 |
5 | 10 | 166.5 | 6.293736 |
6 | 10 | 165.2 | 3.326660 |
7 | 10 | 168.3 | 6.325434 |
8 | 10 | 167.9 | 5.237684 |
9 | 10 | 166.9 | 6.045200 |
10 | 10 | 167.6 | 3.470511 |
11 | 10 | 165.9 | 3.604010 |
12 | 10 | 168.4 | 6.931410 |
13 | 10 | 165.4 | 5.601587 |
14 | 10 | 170.9 | 5.216427 |
15 | 10 | 167.6 | 6.719788 |
Beachte: In jeder Stichprobe liegt der Mittelwert in der Nähe des Populationsmittelwertes \(\mu = 166.92\) und die Standardabweichung in der Nähe der Populationsstandardabweichung \(\sigma = 5.57\). Betrachten wir jetzt die Verteilung der Stichprobenmittelwerte im Histogramm:
Wir sehen, dass sich die Stichprobenmittelwerte wie erwartet um den wahren Populationsmittelwert herum verteilen. Die Verteilung von Stichprobenkennzahlen, hier von Stichprobenmittelwerten, erfolgt annähernd einer Normalverteilung.
Zusammenfassung (Zentraler Grenzwertsatz, central limit theorem, CLT)
Die Verteilung einer Stichprobenkennzahl (hier der Mittelwerte aller Stichproben \(\bar{x}_1\) bis \(\bar{x}_n\) folgt annähernd einer Normalverteilung mit einem Mittelwert um den Populationsmittelwert \(\mu\) und einer Standardabweichung SE, die gleich der Populationsstandardabweichung \(\sigma\) dividiert durch die Quadratwurzel der Stichprobenumfänge n ist. Als Formel ausgedrückt:
\[\bar{x} \sim N(\bar{x} = \mu, SE = \frac{\sigma}{\sqrt{n}})\]
Wir arbeiten mit einer Simulations-App. Rufe den Link Central Limit Theorem for Means auf.
Vergrössere jetzt die Sample Size auf 100, 200, 400. Hat der Stichprobenumfang einen Einfluss …
Wir arbeiten weiter mit der Simulations-App Central Limit Theorem for Means.
Vergrössere jetzt die Sample Size schrittweise. Hat der Stichprobenumfang einen Einfluss …
Merke: Unabhängig davon, wie die Daten in der Population verteilt sind (normal, rechtsschief, linksschief, irregulär), mit steigendem Umfang nähert sich die Verteilung der Stichprobenkennzahlen der Normalverteilung an.
Wir wollen untersuchen, ob es einen Unterschied gibt in der körperlichen Aktivität zwischen Männern und Frauen. Eine Zufallstichprobe ergibt, dass Männer an \(\bar{x}_{maenner} = 4.3\) und Frauen an \(\bar{x}_{frauen} = 3.2\) Tagen pro Woche körperlich aktiv sind. Was wäre eine gute Punktschätzung für die Differenz?
Wir können die Differenz der beiden Stichprobenkennzahlen verwenden: \(4.3 - 3.2 = 1.1\). Männer sind im Durchschnitt 1.1 Tage/Woche häufiger körperlich aktiv als Frauen.
In einer Stichprobe von n = 100 Studentinnen ist die Standardabweichung für die Körpergrösse \(s = 0.1\) Meter. Die Beobachtungseinheiten sind unabhängig voneinander und der Stichprobenumfang ist kleiner als 10% der Population.
Hinweis: Beachte an diesem Beispiel, dass für eine Halbierung des Standardfehlers, der Stichprobenumfang vervierfacht werden muss (Wurzel-n-Gesetz)
Wenn wir eine Population untersuchen, können wir normalerweise nicht mehrere Stichproben analysieren und müssen uns auf eine einzige Stichprobe verlassen. Aber wie präzise lässt sich der wahre Populationsmittelwert \(\mu\) mit einer einzelnen Stichprobe bestimmen?
Nehmen wir als Beispiel die erste Stichprobe von unserem Versuch oben:
Sample | Kohorte | Groesse |
---|---|---|
1 | phy13 | 160 |
1 | phy13 | 167 |
1 | phy14 | 169 |
1 | phy13 | 181 |
1 | phy17 | 172 |
1 | phy16 | 158 |
1 | phy17 | 178 |
1 | phy13 | 162 |
1 | phy17 | 163 |
1 | phy13 | 171 |
m | s |
---|---|
168.1 | 7.607745 |
Wie wir aus dem zentralen Grenzwertsatz gelernt haben, ist die Standardabweichung für den Mittelwert der Stichprobenmittelwerte der Standardfehler SE. Wir haben im Moment (und auch in der Regel) zwar nur eine einzige Stichprobe, daher müssen wir die Kennzahlen unserer Stichprobe als besten Schätzer verwenden. D.h.
\[\mu \approx \bar{x}\]
\[SE = \frac{\sigma}{\sqrt{n}} \approx
\frac{s}{\sqrt{n}}\]
Wie wir auch aus der Geometrie der Normalverteilung wissen, umfasst der Bereich \(\bar{x} \pm 1.96s\) 95% der zu erwartenden Werte. Für die Schätzung der Vorhersagegenauigkeit unseres Mittelwertes kombinieren wir jetzt diese Kenntnisse und berechnen das 95%-Vertrauensintervall (\(CI_{95}\)) für den Mittelwert.
\[CI_{95} = \bar{x} \pm 1.96 SE\]
\[CI_{95} = 167.5 \pm 1.96 \times \frac{5.759}{\sqrt{10}} = [163.931, 171.070]\]
Interpretation des 95% CI Wenn wir 100 Stichproben mit gleichem Stichprobenumfang aus der Population untersuchen, werden 95% der Vertrauensintervalle den wahren Populationsmittelwert \(\mu\) enthalten.
Wenn wir sicher sein wollen, dass wir den Populationsparameter treffen, sollten wir dann eher ein breites (z.B. 95%-CI) oder eher ein schmales Vertrauensintervall (60%-CI) verwenden?
Wenn wir sicher sein wollen, einen Fisch zu fangen, müssen wir ein grösseres Netz wählen. Genau gleich verhält es sich mit Vertrauensintervallen: Wenn wir ein grösseres Vertrauensintervall wählen, können wir eher darauf vertrauen, dass es den Populationsparameter beinhaltet.
\(\bar{x} = 166.2, s = 5.308, n = 10\)
Für die Berechnung des Vertrauensintervalls benötigen Sie den Standardfehler SE:
\[SE = \frac{s}{\sqrt{n}} = \frac{5.308}{\sqrt{10}} = \frac{5.308}{3.162} = 1.679\]
Die Formel für die Berechnung des 95%-Vertrauensintervalls ist
\[CI_{95} = \bar{x} \pm 1.96 SE = 166.2 \pm 1.96 \times 1.679 = [162.9, 169.5]\]
Wie oft wird das 95%-Vertrauensintervall erwartungsgemäss den wahren
Populationsmittelwert verfehlen, wenn Sie a) 20, b) 60, c) 120
Stichproben mit dem gleichen Stichprobenumfang untersuchen.
Wie können Sie die Präzision ihrer Schätzung des wahren
Populationsmittelwerts durch eine Anpassung des Untersuchungsdesigns
erhöhen?
Durch die Erhöhung des Stichprobenumfangs n. Da der Standardfehler SE
u.a. vom Stichprobenumfang abhängig ist, verkleinert sich das
95%-Vertrauensintervall proportional zur \(\sqrt{n}\). Siehe z.B. hier https://seeing-theory.brown.edu/frequentist-inference/index.html#section2