.csv
-Format vor (header =
TRUE, sep = “,”, dec = “.”) und können direkt in jamovi geöffnet werden.
Es wird empfohlen, nach der Kategorisierung der Variablen in jamovi, die
Datei im jamovi-Format .omv
zu speichern.[1] The jamovi project (2021). jamovi (Version 1.6) [Computer Software]. Retrieved from https://www.jamovi.org
Zum Aufwärmen ein paar einfache Übungen zu Wahrscheinlichkeiten
Du wirst in jedem Fall eine Zahl zwischen 1 und 6 werfen, etwas
anderes gibt es nicht. Die Gesamtwahrscheinlichkeit addiert sich
zu
\[P = 1/6 (für 1) + 1/6 (für 2) + 1/6 (für 3)
+ 1/6 (für 4) + 1/6 (für 5) + 1/6 (für 6) = 1\]
Die Wahrscheinlichkeit, keine 6 zu würfeln beträgt also
\[P(\neq 6) = 1/6 (für 1) + 1/6 (für 2) + 1/6 (für 3) + 1/6 (für 4) + 1/6 (für 5) = 5/6 \approx 83\%\]
Wir arbeiten mit dem bereits bekannten Datensatz
physio.csv
, der Daten von 228 Physiostudierenden der
Kohorten PHY13-PHY17 enthält. Der Datensatz liegt in 2 Versionen
vor:
physio.csv
: Textdatei im CSV-Format; die Variablen
müssen gemäss Codebook erst kategorisiert werden.physio.omv
: Datei im jamovi
-Format; die
Variablen sind bereits kategoriesiert.Der Datensatz umfasst 9 Variablen:
Variable | Beschreibung | Skala | Werte |
---|---|---|---|
ID | ID | nominal | 1 … n |
Kohorte | Jahrgang Studierende | nominal | PHY13 … PHY17 |
Klasse | Klasse 1 oder 2 | nominal | 1, 2 |
Geschlecht | Geschlecht | nominal | m = maennlich, w = weiblich |
Augenfarbe | Augenfarbe | nominal | gruen, blau, braun |
Groesse | Körpergrösse in cm | kontinuierlich | 148 … 198 |
Gewicht | Körpergewicht in kg | kontinuierlich | 47 … 105 |
Statistik | Das Fach Statistik interessiert mich | ordinal | (Likert-Skala) 1 = trifft überhaupt nicht zu, 2 = trifft eher nicht zu, 3 = egal, 4 = trifft eher zu, 5 = trifft vollstänig zu |
Schuhgroesse | Schuhgrösse in DE/EU-Einheiten | diskret | 35, 36 … 48 |
n | m | median | s | min | max |
---|---|---|---|---|---|
183 | 166.92 | 167 | 5.66 | 148 | 183 |
Die Standardnormalverteilung ist gekennzeichnet durch den Mittelwert 0 und die Standardabweichung 1. Die Umwandlung einer beliebigen Verteilung erfolgt nach der Formel:
\[z_n=\frac{x_n-\bar{x}}{s}\]
Beispiel: (Mittelwert und Standardabweichung siehe oben)
\[z_n=\frac{x_n-166.92}{5.66}\]
Wir sehen, dass das standardisierte Histogramm und die standardisierte Normalverteilungskurve genau gleich aussehen, wie mit den nicht transformierten Originaldaten. Was bringt uns das also?
Wenn wir beliebige, normalverteilte Merkmale messen, werden wir immer wieder neue Normalverteilungen mit ihrem eigenen Mittelwert und ihrer eigenen Standardabweichung erhalten. D.h. die Normalverteilungskurve wird manchmal breiter, manchmal schmaler, manchmal höher, manchmal tiefer sein. Jedes beliebige Merkmal weist seine charakteristische Verteilung auf. In der Statistik interessieren wir uns oft für die Wahrscheinlichkeit, dass ein bestimmtes Ereignis eintritt (z.B. das Ereignis, dass eine Studentin 168 cm gross ist) und effektiv ist die Normalverteilung eine Wahrscheinlichkeitsverteilung. Die Berechnung von Wahrscheinlichkeiten erfolgt über die Berechnung von Flächeninhalten unter der Normalverteilungskurve wobei die gesamte Fläche unter der Kurve stets gleich 1 ist (Tönt kompliziert, ist es aber nicht. Wir werden das unten üben). Die Berechnung von Flächen unter Kurven ist tatsächlich eine nicht ganz triviale Angelegenheit. Um diese Berechnungen zu erleichtern, wurde die Standardnormalverteilung “erfunden”. Die Standardisierung erfolgt über die Berechnung von sog. z-Werten. Die z-Werte-Tabelle ist ein Hilfsmittel, das es uns erlaubt, für beliebige Normalverteilungen beliebige Flächeninhalte und somit Wahrscheinlichkeiten zu berechnen.
Uns interessiert jetzt die Frage Wie gross ist die Wahrscheinlichkeit, dass eine Studentin PHY13-PHY17 eine bestimmte Körpergrösse aufweist?. Aus hier nicht näher erläuterten Gründen ist es nicht möglich, diese Wahrscheinlichkeit exakt zu berechnen (sie wäre gleich Null). Was jedoch möglich ist, ist die Beantwortung der Frage Wie gross ist die Wahrscheinlichkeit dass eine Studentin gleich gross oder grösser, bzw. kleiner ist?.
Beispiel: Wie gross ist die Wahrscheinlichkeit, dass eine Studientin 163 cm gross oder kleiner ist?
\[z_{163} = \frac{163 - 166.92}{5.66} = -0.693\]
Die Wahrscheinlichkeit, dass eine Studentin 163 cm gross oder kleiner ist, entspricht der Grösse der Fläche unter der Kurve links von der violetten Linie. Wir können schon von blossem Auge sagen, dass die Wahrscheinlichkeit kleiner als 50% sein muss, da die violette Linie bei 163 cm die Fläche in eine kleinere linke und eine grössere rechte Fläche teilt.
Aber wie genau berechnet man jetzt die Grösse der blauen Fläche? Bevor Computerprogramme die Berechnung übernommen haben, hat man sich mit sogenannten z-Werte-Tabellen (siehe z.B. http://eswf.uni-koeln.de/glossar/zvert.htm) beholfen. Weil es unmöglich ist für alle möglichen Verteilungen Tabellen zu berechnen, wurde die z-Transformation entwickelt. Damit lassen sich beliebige Normalverteilungen in eine standardisierte Verteilung umwandeln. Heute übernimmt diese Arbeit der PC, wir machen es hier aber von Hand, um zu verstehen, was da vorgeht.
Übung: Welche Wahrscheinlichkeit gibt die Z-Wertetabelle für den z-Wert -0.6926956 an?
Der Computer berechnet die Wahrscheinlichkeit, dass eine Studentin in PHY13-PHY17 163 cm oder kleiner ist mit p = 0.2442503.
Übung: Wie gross ist die Wahrscheinlichkeit, dass eine Studentin 163 cm oder grösser ist?
Dies ist die Umkehrung der Frage. Da die Wahrscheinlichkeit dafür, dass die Studentin 163 cm oder kleiner ist jetzt bekannt ist, lässt sich die Frage ganz einfach beantworten, da bekanntlicherweise die Fläche unter der Kurve gleich 1 ist.
Lösung: Die Wahrscheinlichkeit, dass eine Studentin 163 cm oder grösser ist beträgt
\[1-(Wahrscheinlichkeit für \leq 163 cm) = 1-0.2403793\] also p = 0.7557497.
jamovi
.Ziel: z-Werte für Körpergrössen von Studentinnen berechnen
\(z = \frac{176 - 166.9396}{5.587423} = 1.62157\)
\(z = \frac{166.94 - 166.9396}{5.587423} = 7.158935 \times 10^{-5} \approx 0\)
\(z = \frac{195 - 166.9396}{5.587423} = 5.022065\)
Ziel: Wahrscheinlichkeiten für Körpergrössen von Studentinnen berechnen.
Erstelle jeweils eine Skizze für jede Frage und überlege, ob der z-Wert jeweils links oder rechts vom Mittelwert liegt und ob p kleiner oder grösser 50% ist.
Vorgehen:
\[pnorm(Wert, mean = Mittelwert,~ sd = Standardabweichung, ~ lower.tail = FALSE/TRUE)\]
lower.tail = TRUE
eingestellt. Statt
lower.tail = FALSE
kann die Fläche rechts vom z-Wert auch
als 1 - pnorm()
berechnet werden.pnorm(z-Wert) # Fläche links vom z-Wert
1 - pnorm(z-Wert) # Fläche rechts vom z-Wert
Zur Erinnerung: Mittelwert und Standardabweichung für die Grösse der Studentinnen sind
Mittelwert | Standardabweichung |
---|---|
166.923 | 5.664 |
pnorm(176, mean = 166.924, sd = 5.664, lower.tail = TRUE)
## [1] 0.9454665
pnorm(176, mean = 166.924, sd = 5.664, lower.tail = FALSE)
## [1] 0.05453347
1 - pnorm(176, mean = 166.924, sd = 5.664) # ergibt das gleiche Resultat
## [1] 0.05453347
pnorm(166.924, mean = 166.924, sd = 5.664, lower.tail = TRUE)
## [1] 0.5
pnorm(166.924, mean = 166.924, sd = 5.664, lower.tail = FALSE)
## [1] 0.5
1 - pnorm(166.924, mean = 166.924, sd = 5.664) # ergibt das gleiche Resultat
## [1] 0.5
pnorm(195, mean = 166.924, sd = 5.664, lower.tail = FALSE)
## [1] 3.580956e-07
pnorm(176, mean = 166.924, sd = 5.664, lower.tail = TRUE) - pnorm(163, mean = 166.924, sd = 5.664, lower.tail = TRUE)
## [1] 0.7012479
Wie gross ist eine “normalgrosse” Studentin in PHY13 - PHY17 (95%-Normbereich)?
Wir erinnern uns, dass unter “normal” die zentralen 95% der Merkmalsausprägungen definiert sind. Die zentralen 95% bedeutet, die Fläche unter der Normalverteilungskurve zwischen Mittelwert minus 2 (eigentlich 1.96) Standardabweichungen und Mittelwert plus 2 (eigentlich 1.96) Standardabweichungen.D.h.
\(Normbereich_{untere Grenze} = \bar{x}-2s\)
\(Normbereich_{obere Grenze} = \bar{x}+2s\)
Daraus folgt: “Normalgrosse” Studentinnen sind zwischen
\(Normbereich_{untere Grenze} = 166.92 - 2 \times 5.66 = 166.94 - 11.18 = 155.62\)
\(Normbereich_{obere Grenze} = 166.92 + 2 \times 5.66 = 166.94 + 11.18 = 178.26\)
cm gross.
Wie gross ist die Wahrscheinlichkeit, dass die Körpergrösse einer Studentin ausserhalb (also oberhalb oder unterhalb) des 95%-Normbereichs liegt?
Die beiden 2.5%-Flächen in der Abbildung zu Aufgabe 3 liegen ausserhalb des 95%-Normbereichs: 100% - 95% = 5%.
\[p = 0.025 + 0.025 = 0.05 = 5\%\]
Wie gross muss eine Studentin mindestens sein, damit sie zu den 10% grössten Studentinnen gehört?
qnorm()
in R
bestimmen (s. unten)z-Werte-Tabelle
\[ x_i =\bar{x} + z \times s = 166.9 + 1.28 \times 5.664 = 174.15 \]
## z-Wert für die 90. Perzentile bestimmen
qnorm(.9)
## [1] 1.281552
## Groesse auf der 90. Perzentile aus einer Normalverteilung bestimmen
qnorm(.9, mean = mean(phy_w$Groesse), sd = sd(phy_w$Groesse))
## [1] 174.1823
qnorm()
in R
bestimmen (s.
unten)## z-Wert für die 25. Perzentile bestimmen
qnorm(.25)
## [1] -0.6744898
## Groesse auf der 90. Perzentile aus einer Normalverteilung bestimmen
qnorm(.25, mean = mean(phy_w$Groesse), sd = sd(phy_w$Groesse))
## [1] 163.1031