In der deskriptiven Statistik wird ein bekannter Datensatz auf die bestmögliche Art beschrieben, indem die Datenmenge auf sinnvolle Kennzahlen und Grafiken reduziert wird. Mit anderen Worten, die deskriptive Statistik hilft uns dabei, ein klares Bild von einer bestimmten Menge an Beobachtungen mittels zusammenfassender Angaben und grafischen Darstellungen zu erhalten. In der deskriptiven Statistik existiert keine Unsicherheit bezüglich der Gültigkeit der Ergebnisse, da nur die vorliegenden Daten im Datensatz analysiert werden und kein Versuch unternommen wird, die Ergebnisse verallgemeinern.
Die Inferenzstatistik hingegen versucht anhand von Zufallsstichproben (samples) aus Populationen verallgemeindernde Schlussfolgerungen (inference = Schlussfolgerung) auf eben diese Populationen zu ziehen. Mit anderen Worten, die Information aus einer Stichprobe wird verwendet, um die Ergebnisse zu den untersuchten Merkmalen auf die gesamte Population zu übertragen.Da die wahren Ausprägungen dieser Merkmale in der Population nicht bekannt sind, handelt es sich um Schätzungen, die immer mit einer gewissen Unsicherheit verbunden sind.
Die beiden wichtigsten Werkzeuge der Inferenzstatistik sind
- Hypothesentests, und
- Vertrauensintervalle
Das Signifikanzniveau wird für alle Übungen auf \(\alpha = 0.05\) festgelegt.
Verwenden Sie für diese Übung den Datensatz physio.csv
(bzw. physio.omv), den Sie bereits in früheren Übungen
bearbeitet haben.
Die Schweizerische Gesundheitsbefragung im Jahre 2017 ergab, dass Frauen im Alter von 15 - 24 Jahren ein durchschnittliches Körpergewicht von 67.6 kg aufweisen. Quelle: BFS
Frage: Unterscheidet sich das durchschnittliche Körpergewicht von Physiotherapie-Studentinnen von 67.6 kg?
\(H_0:\) Das durchschnittliche
Gewicht von PHY-Studentinnen unterscheidet sich nicht von 67.5 kg, \(\mu_{PHY_W} = 67.6\)
\(H_A:\) Das durchschnittliche Gewicht von PHY-Studentinnen unterscheidet sich von 67.5 kg, \(\mu_{PHY_W} \neq 67.6\)
Anmerkung: Inferenzstatistik bezieht sich immer auf Populationen. Daher wird die Hypothese für die Population PHY-Studentinnen formuliert (daher \(\mu\) und nicht \(\bar{x}\)) und der Mittelwert der Stichprobe wird als Schätzer für diese Population eingesetzt.
Filter = Geschlecht == "w") berechnen.
DESCRIPTIVES
Descriptives
───────────────────────────────────
Gewicht
───────────────────────────────────
N 183
Missing 0
Mean 59.58470
Std. error mean 0.4932267
Standard deviation 6.672247
───────────────────────────────────
S.E. mean wählen), zur
Erinnerung\[SE =\frac{s}{\sqrt{n}}\]
\[CI_{95} = \bar{x} \pm 1.96 \times SE\]
## [1] "95%-CI: [ 58.618 , 60.551 ]"
Das durchschnittliche Körpergewicht von PHY-Studentinnen beträgt 59.585 [58.618, 60.551] kg.Die Wahrscheinlichkeit dafür, dass bei der Ziehung einer weiteren Stichprobe (vom gleichen Umfang und aus der gleichen Grundgesamtheit) der neu ermittelte Mittelwert zwischen 58.6 kg und 60.6 kg liegt, beträgt mindestens 95 %.
Da das 95%-Vertrauensintervall den Referenzwert von 67.6 kg nicht einschliesst, kann die Nullhypothese zugunsten der Alternativhypothese verworfen werden und wir haben Evidenz dafür, dass ein signifikanter Unterschied zwischen dem durchschnittlichen Gewicht von Physiotherapie-Studentinnen und Schweizer Frauen im Alter von 15 - 24 Jahren besteht.
Wir vergleichen Stichprobendaten mit einem Referenzwert. Ein Einstichproben-t-Test ist hier die richtige Wahl.
Z-Wert berechnen:
\[z = \frac{\bar{x} - \mu}{SE}\]
# Code für jamovi Rj-Editor
z_value <- round((59.6 - 67.6)/.493, 3) # z-Wert gemäss Formel berechnen
paste("z-Wert =", z_value) # z-Wert anzeigen## [1] "z-Wert = -16.227"
R
berechnen# Code für jamovi Rj-Editor
p_value <- 2 * pnorm(-16.227) # p-Wert für 2-seitige Hypothese berechnen
paste("p-Wert =", p_value) # p-Wert anzeigen## [1] "p-Wert = 3.2495800945315e-59"
ONE SAMPLE T-TEST
One Sample T-Test
─────────────────────────────────────────────────────────────────
Statistic df p
─────────────────────────────────────────────────────────────────
Gewicht Student's t -16.25074 182.0000 < .0000001
─────────────────────────────────────────────────────────────────
Note. Hₐ μ ≠ 67.6
Das durchschnittliche Körpergewicht von Physiotherapie-Studentinnen (59.6[58.6 , 60.5] kg) ist signifikant geringer als das durchschnittliche Körpergewicht in der Population der Schweizerinnen zwischen 15 und 24 Jahren (67.6 kg), z = -16.05, p <.0001.
New York gilt als “die Stadt, die nie schläft”. Eine zufällige Stichprobe von 25 New Yorkern wurde gefragt, wie lange sie pro Nacht schlafen. Die Zusammenfassung der Daten sind in folgender Tabelle dargestellt:
| n | m | s | min | max |
|---|---|---|---|---|
| 25 | 7.73 | .77 | 6.17 | 9.78 |
Frage: Besteht aus diesen Daten Evidenz dafür, dass New Yorker im Durchschnitt 8 Stunden pro Nacht schlafen?
Quelle: OpenIntro Statistics, 3rd ed
# Code für jamovi Rj-Editor
n <- 25 # Stichprobenumfang in der Variable n speichern.
m <- 7.73 # Stichprobenmittelwert in der Variable m speichern.
s <- .77 # Stichproobenstandardabweichung in der Variable s speichern.
se <- .77/sqrt(n) # Standardfehler berechnen
ci_lo <- m - 1.96 * se # untere Grenze des 95%-CI berechnen
ci_hi <- m + 1.96 * se # obere Grenze des 95%-CI berechnen
# 95%-CI anzeigen
paste("95%-Vertrauensintervall: [", ci_lo, ",", ci_hi, "]")## [1] "95%-Vertrauensintervall: [ 7.42816 , 8.03184 ]"
# Code für jamovi Rj-Editor
z_value <- (m - 8)/se # z-Wert berechnen
paste("Z-Wert:", z_value) # z-Wert anzeigen## [1] "Z-Wert: -1.75324675324675"
jamovi::Rj-Editor berechnet werden.# Code für jamovi Rj-Editor
2 * pnorm(-1.7532) # p-Wert für 2-seitige Hypothese berechnen## [1] 0.07956768
Zu dieser Aufgabe wurde von Studierenden folgende Frage gestellt: “Bei der Berechnung des P-Wertes kommen wir bei Jamovi (0.7957) und der Z-Werte Tabelle (0.0401) auf einen anderen Wert. Bei den Lösungen wurde der Wert von Jamovi verwendet, welchen Lösungsweg sollten wir anwenden?”
Hier noch einmal der Lösungsweg im Detail:
Vorgaben
Referenzwert: \(\mu_0\) = 8 Stunden
Stichprobe:
- \(\bar{x}\) = 7.73
- \(s\) = .77
- \(n\) = 25
Fragestellung
Liefert unsere Stichprobe Evidenz dafür, dass New Yorker im Durchschnitt 8 Stunden schlafen?
1. Hypothesen
\(H_0\): Die durchschnittliche
Schlafdauer in unserer Stichprobe unterscheidet sich nicht vom
Referenzwert. \(\mu_{Stichprobe} =
\mu_0\) oder \(\mu_{Stichprobe} = 8
h\)
\(H_A\): Die durchschnittliche
Schlafdauer in unserer Stichprobe unterscheidet sich vom Referenzwert.
\(\mu_{Stichprobe} \neq \mu_0\) oder
\(\mu_{Stichprobe} \neq 8 h\)
2. Berechnung des 95%-Vertrauensintervalls für den Mittelwert unserer Stichprobe
Mit dem 95%-Vertrauensintervall schätzen wir den wahren Mittelwert in der Population auf Grundlage der Ergebnisse unserer Stichprobe.
\[CI_{95} = \bar{x} \pm 1.96 \times \frac{s}{\sqrt{n}}\]
\[CI_{95} = \bar{7.73} \pm 1.96 \times \frac{.77}{\sqrt{25}} = CI_{95} = \bar{7.73} \pm 1.96 \times .154 = CI_{95} = [7.428, 8.032]\]
Da das 95%-Vertrauensintervall den Referenzwert \(\mu = 8 h\) beinhaltet, können wir \(H_0\) nicht verwerfen, d.h. es besteht kein signifikanter Unterschied zwischen dem geschätzten Populationsmittelwert und dem Referenzwert.
3. Prüfung der Hypothesen mit dem Einstichproben-t-Test
Als erstes berechnen wir den z-Wert:
\(z = \frac{\bar{x}-\mu_0}{SE_x}\), wobei \({SE_x = \frac{s}{\sqrt{n}}}\)
\(z = \frac{7.73 - 8}{.154} = -1.753\)
In der z-Werte-Tabelle suchen wir die Wahrscheinlichkeit für ein Ereignis mit dem z-Wert -1.753. Das Problem ist, dass wir in der z-Wertetabelle nur z-Werte ablesen können bis zwei Stellen nach dem Komma. Unser z-Wert liegt demnach zwischen -1.75 und -1.76. Jetzt gibt es zwei Möglichkeiten:
Sie runden den berechneten z-Wert einfach auf -1.75 ab. Die z-Werte-Tabelle sagt uns, dass für \(p_{-1.75} = .0401\).
Da unser z-Wert zwischen -1.75 und -1.76 liegt, können sie den
Durchschnitt der beiden p-Werte nehmen (das ist zwar auch nicht ganz
präzis, aber etwas besser als Variante 1): \(p_{-1.75} = .0401\) und \(p_{-1.76} = .0392\). Das Ergebnis lautet
dann
\(p_{-1.755} = \frac{.0401 + .0392}{2} =
.03965\).
image:
Der p-Wert in der z-Werte-Tabelle gibt die Fläche links unter der Normalverteilungskurve an (s. Abb. oben links in der z-Tabelle). Dieser Wert wäre dann gültig, wenn Sie die Hypothese einseitig formuliert hätten:
\(H_A: \mu_{Stichprobe} < \mu_0\)
Da Sie ihre Hypothese aber zweiseitig formuliert haben, müssen Sie den erhaltenen p-Wert verdoppeln:
\(p = 2 \times p_{-1.76} = 2 \times .03965 = .0793\)
Jetzt entspricht ihr berechneter p-Wert so genau wie möglich dem Wert, den jamovi berechnet hat. jamovi muss den p-Wert nicht in einer z-Tabelle nachschlagen und berechnet den p-Wert auf mathematischer Basis. Deshalb ist dieser Wert etwas präziser als der von Hand berechnete Wert.
Es soll getestet werden, ob die durchschnittliche Laufzeit von Notebook-Akkus möglicherweise von den vom Hersteller angegebenen 7,5 Stunden abweicht. Dazu werden bei 50 Akkus dieser Marke, unter kontrollierten gleichen Bedingungen, die Laufzeiten gemessen. Das Ergebnis der Untersuchung ist in folgender Tabelle dargestellt
| n | m | s | min | max |
|---|---|---|---|---|
| 50 | 6.94 | .884 | 5.2 | 9.1 |
# Code für jamovi Rj-Editor
n <- 50 # Stichprobenumfang in n speichern
m <- 6.94 # Stichprobenmittlewert in m speichern
s <- .884 # Stichprobenstandardabweichung in s speichern
se <- s/sqrt(n) # SE berechnen
ci_lo <- m - 1.96 * se # untere Grenze des 95%-CI berechnen
ci_hi <- m + 1.96 * se # obere Grenze des 95%-CI berechnen
# 95%-CI anzeigen
paste("95%-Vertrauensintervall: [", ci_lo, ",", ci_hi, "]")## [1] "95%-Vertrauensintervall: [ 6.69496770132899 , 7.18503229867101 ]"
Wir vergleichen Stichprobendaten mit einem Referenzwert. Ein Einstichproben-t-Test ist hier die richtige Wahl.
# Code für jamovi Rj-Editor
z_value <- (m - 7.5)/se # z-Wert gemäss Formel berechnen
paste("Z-Wert:", z_value) # z-Wert anzeigen## [1] "Z-Wert: -4.47940947357994"
# Code für jamovi Rj-Editor
2 * pnorm(-4.48) # p-Wert für 2-seitige Hypothese berechnen## [1] 7.464304e-06
Die durchschnittliche Akku-Laufzeit beträgt 6.94 [6.695, 7.185] Stunden und unterscheidet sich signifikant von den erwarteten 7.5 Stunden, z = -4.480, p < 0.0001.
Auf Grund ihrer Erfahrung vermuten Sie, dass die Laufzeit von Notebook-Akkus (siehe Übung 3) kürzer ist als in den Unterlagen angegeben.
# Code für jamovi Rj-Editor
pnorm(-4.48) # p-Wert für 1-seitige Hypothese berechnen## [1] 3.732152e-06
Unterscheidet sich der mittlere BMI (body mass index) von Physiotherapie-Studentinnen vom gesamtschweizerischen Durchschnitt von 23.7 \(kg/m^2\) für Frauen im Alter von 20-29 Jahren?
Wir prüfen diese Frage anhand einer Zufallsstichprobe von 183
Physiotherapie-Studentinnen. Sie finden diese Daten im Datensatz
bmi_phy_w.csv. Laden Sie diesen Datensatz in
jamovi; er umfasst nur die Variable bmi
für 183 Studentinnen; die Variable wird von jamovi
automatisch als continuous-decimal erkannt.
Dies ist die gleiche Fragestellung mit den identischen Daten, wie im Video Mittelwertsvergleiche Teil 1, Kap. Einstichproben-t-Test.
Führen Sie eine inferenzstatistische Analyse zu dieser Fragestellung durch. Legen Sie das Signifikanzniveau auf \(\alpha\) = .05 fest.
Es wird empfohlen, vor der inferenzstatistischen Analyse, die wichtigsten Kennzahlen zu berechnen um einen Eindruck von den Daten zu erhalten.
jamovi > Reiter Analyses >
Exploration > Descriptives > bmi in
Variables einfügen und unter > im Untermenü
Statistics die gewünschten Kennzahlen auswählen.
DESCRIPTIVES
Descriptives
──────────────────────────────────
bmi
──────────────────────────────────
N 183
Missing 0
Mean 21.37722
Median 21.00767
Standard deviation 2.090664
Minimum 16.95502
Maximum 27.75510
──────────────────────────────────
Der Stichprobenumfang \(n\) ist
grösser als 30.
Es handelt sich um eine Zufallsstichprobe; wir können annehmen,
dass die Beobachtungseinheiten unabhängig sind.
Verteilung der Prüfgrösse anhand eines QQ-Plots prüfen
Datensatz bmi_phy_w.csv öffnen
jamovi > Register Analyses > Exploration > Descriptives > Untermenü Plots > Q-Q Plots > Häkchen bei Q-Q setzen
DESCRIPTIVES
Descriptives
──────────────────────────────────
bmi
──────────────────────────────────
N 183
Missing 0
Mean 21.37722
Median 21.00767
Standard deviation 2.090664
Minimum 16.95502
Maximum 27.75510
──────────────────────────────────

DESCRIPTIVES
Descriptives
───────────────────────────────────────
bmi
───────────────────────────────────────
N 183
Missing 0
Mean 21.37722
95% CI mean lower bound 21.07432
95% CI mean upper bound 21.68013
Median 21.00767
Standard deviation 2.090664
Minimum 16.95502
Maximum 27.75510
───────────────────────────────────────
jamovi > Register Analyses >
T-Tests > One Sample T-Test > bmi
in Dependent Variables einfügen > unter Tests:
Student’s wählen, unter Hypothesis > Test value den
Nullwert 23.7 eingeben und zweiseitige Hypothese \(\neq Test~ value\) wählen.
Unter Additional Statistics kann Mean Difference inkl. Confidence Interval für die Berechnung der Differenz zwischen dem durchschnittlichen BMI von Physiotherapie-Studentinnen und dem Referenzwert von 23.7 gewählt werden.
ONE SAMPLE T-TEST
One Sample T-Test
──────────────────────────────────────────────────────────────────────────────────────────────────────────
Statistic df p Mean difference Lower Upper
──────────────────────────────────────────────────────────────────────────────────────────────────────────
bmi Student's t -15.02965 182.0000 < .0000001 -2.322777 -2.627710 -2.017845
──────────────────────────────────────────────────────────────────────────────────────────────────────────
Note. Hₐ μ ≠ 23.7
Auf Grund der etwas fraglichen Normalverteilung der Prüfgrösse, kann auch ein Wilcoxon-Vorzeichenrangtest durchgeführt werden. \(\tilde{x}\) = Median
jamovi > Register Analyses >
T-Tests > One Sample T-Test > bmi
in Dependent Variables einfügen > unter Tests: Wilcoxon
rank wählen > unter Hypothesis > Test value den
Nullwert 23.7 eingeben und zweiseitige Hypothese \(\neq Test~ value\) wählen.
Unter Additional Statistics kann Mean Difference inkl. Confidence Interval für die Berechnung der Differenz zwischen dem Median BMI von Physiotherapie-Studentinnen und dem Referenzwert von 23.7 gewählt werden.
ONE SAMPLE T-TEST
One Sample T-Test
─────────────────────────────────────────────────────────────────────────────────────────────
Statistic p Mean difference Lower Upper
─────────────────────────────────────────────────────────────────────────────────────────────
bmi Wilcoxon W 1211.000 < .0000001 -2.439342 -2.742735 -2.123932
─────────────────────────────────────────────────────────────────────────────────────────────
Note. Hₐ μ ≠ 23.7