Die Funktion pnorm()
verwenden wir für
Flächenberechnungen (also Wahrscheinlichkeiten) unter der
Normalverteilung. Die Funktion kann mehrere Argumente annehmen, von
denen wir zwei benötigen:
pnorm(q, mean = 0, sd = 1, lower.tail = TRUE, log.p = FALSE)
Argument | Erläuterung |
---|---|
q | \(z\)-Wert (z.B. eine Teststatistik) |
lower.tail | wenn = TRUE (Standardeinstellung), wird
die Fläche links vom z-Wert berechnet; wenn = FALSE , wird
die Fläche rechts vom z-Wert berechnet. |
Beispiel: \(z\) = 1.1
pnorm(1.1)
## [1] 0.8643339
Die blaue Fläche beträgt ca. 86% (\(p\) = 0.8643) der Gesamtfläche unter der Kurve.
Zwei Möglichkeiten:
# 1. Möglichkeit
1 - pnorm(1.1)
## [1] 0.1356661
# 2. Möglichkeit
pnorm(1.1, lower.tail = FALSE)
## [1] 0.1356661
Die blaue Fläche beträgt ca. 14% (\(p\) = 0.1357) der Gesamtfläche unter der Kurve.
Die Funktion pt()
verwenden wir, wenn wir mit der
t-Verteilung arbeiten, was bei den Hypothesentests eigentlich immer der
Fall ist. Die Funktion arbeitet genau gleich wie pnorm()
muss allerdings um den Freiheitsgrad \(df\) ergänzt werden, da die Form der
t-Verteilung vom Stichprobenumfang abhängt. Für eine Stichprobe ist
\(df = n - 1\), für zwei Stichproben
ist \(df = n_1 + n_2 - 2\).
Eine einfache Animation zeigt, wie der Stichprobenumfang die Form der \(t\)-Verteilung und damit die Grenzen (\(t\)-Werte) zwischen Annahme- und Verwerfungsbereich beeinflusst.
t-Verteilung
Die Funktion pt()
kann mehrere Argumente annehmen, von
denen wir drei benötigen:
pt(q, df, ncp, lower.tail = TRUE, log.p = FALSE)
Argument | Erläuterung |
---|---|
q | \(t\)-Wert (z.B. eine Teststatistik) |
df | Anzahl Freiheitsgrade |
lower.tail | wenn = TRUE (Standardeinstellung), wird
die Fläche links vom z-Wert berechnet; wenn = FALSE , wird
die Fläche rechts vom z-Wert berechnet. |
Beispiel: \(z\) = 1.1, \(df\) = 5 (\(n\) = 6)
pt(1.1, df = 5)
## [1] 0.8392746
Die blaue Fläche beträgt ca. 84% (\(p\) = 0.8393) der Gesamtfläche unter der Kurve.
# 1. Möglichkeit
1 - pt(1.1, df = 5)
## [1] 0.1607254
# 2. Möglichkeit
pt(1.1, df = 5, lower.tail = FALSE)
## [1] 0.1607254
Die blaue Fläche beträgt ca. 16% (\(p\) = 0.1607) der Gesamtfläche unter der Kurve.
Einseitige Alternativhypothesen haben die Form
oder
Wenn wir ein Signifikanzniveau \(\alpha\) = 0.05 annehmen, liegt unser Verwerfungsbereich
im 1. Fall: Im unteren 5%-Bereich der Verteilungskurve (\(z\) = -1.645)
im 2. Fall: Im oberen 5%-Bereich der Verteilungskurve (\(z\) = 1.645)
Wir formulieren eine einseitige Hypothese \(H_A: \mu < 0\). Wir erheben drei Stichproben \(SP_1, SP_2\) und \(SP_3\) und berechnen für jede die Teststatistik \(z\): \(z_1\) = -2.4, \(z_2\) = -1 und \(z_3\) = 2.4.
Der rote Punkt repräsentiert \(z_1\), der grüne Punkt \(z_2\) und der violette Punkt \(z_3\). Wie gross ist die Wahrscheinlichkeit, einen \(z\)-Wert so extrem oder noch extremer (lese: so weit oder noch weiter entfernt von 0) zu erhalten?
# für z_1 = -2.4
pnorm(-2.4)
## [1] 0.008197536
# für z_2 = 1
pnorm(-1)
## [1] 0.1586553
# für z_3 = 2.4
pnorm(2.4)
## [1] 0.9918025
Interpretation:
Kommentar: Am Beispiel von \(z_3\) können wir die Schwäche von einseitigen Hypothesen erkennen. Obwohl \(z_3\) ein extremer Wert ist, können wir die Nullhypothese nicht verwerfen, da unsere Methodik nicht in Betracht zieht, dass extreme Werte auch auf die andere Seite der Alternativhypothese möglich sind. Die einseitige Hypothese ist also “blind” für nicht vorhergesehene Effekte in der anderen Richtung der Alternativhypothese. Da wir bei einem Experiment nie mit Sicherheit wissen können, in welche Richtung sich ein Effekt auswirkt, sollten wir daher darauf verzichten, mit einseitigen Hypothesen zu arbeiten und immer zweiseitige Alternativhypothesen formulieren.
Zweiseitige Alternativhypothesen haben die Form
\(H_A: \mu \neq Nullwert\), der Populationsparameter unterscheidet sich vom Nullwert.
Wenn wir ein Signifikanzniveau \(\alpha\) = 0.05 annehmen, müssen wir bei zweiseitigen Hypothesen unseren 5%-Verwerfungsbereich symmetrisch den beiden Enden der Verteilung zuweisen.
Die 5%-Flächenanteile verteilen sich symmetrisch auf 2.5% auf das linke und 2.5% auf das rechte Ende der Verteilungskurve.
Wir arbeiten mit dem gleichen Beispiel wie oben, formulieren jedoch eine zweiseitige Hypothese \(H_A: \mu \neq 0\). Wir erheben drei Stichproben \(SP_1, SP_2\) und \(SP_3\) und berechnen für jede die Teststatistik \(z\): \(z_1\) = -2.4, \(z_2\) = -1 und \(z_3\) = 2.4.
Der rote Punkt repräsentiert \(z_1\), der grüne Punkt \(z_2\) und der violette Punkt \(z_3\). Wie gross ist die Wahrscheinlichkeit, einen \(z\)-Wert so extrem oder noch extremer zu erhalten?
# für z_1 = -2.4
2 * pnorm(-2.4)
## [1] 0.01639507
# für z_2 = 1
2 * pnorm(-1)
## [1] 0.3173105
# für z_3 = 2.4
2 * (1 - pnorm(2.4))
## [1] 0.01639507
Interpretation:
Kommentar:
In R
sieht das dann so aus (z.B. für \(z\) = -2.4):
2 * (1 - pnorm(abs(-2.4)))
## [1] 0.01639507
# Alternativ
2 * pnorm(abs(-2.4), lower.tail = FALSE)
## [1] 0.01639507
abs(z-Wert)
= Absolutwert für \(z\) (d.h. \(z\) mit positivem Vorzeichen)1 - pnorm(abs(z-Wert))
= Fläche unter der Kurve
(=Wahrscheinlichkeit) für \(\geq z\),
d.h. am rechten Ende der Kurve. Statt
1 - pnorm(abs(z-Wert))
kann auch
pnorm(abs(z-Wert), lower.tail = FALSE)
eingegeben werden.
Das Resultat ist das selbe, man muss einfach etwas mehr schreiben
😉.2 *
= Erhaltenen \(p\)-Wert verdoppeln.\(p\)-Werte für die \(t\)-Verteilung können analog berechnet werden, z.B. für einen Stichrobenumfang \(n\) = 6 und ein \(t\) = -2.4:
2 * (1 - pt(abs(-2.4), df = 6 - 1))
## [1] 0.06162079
# Alternativ
2 * pt(abs(-2.4), df = 6 - 1, lower.tail = FALSE)
## [1] 0.06162079
Weil die \(t\)-Verteilung bei einem kleinen Stichprobenumfang von \(n\) = 6 recht breit ist, liegen die Grenzen zum oberen und der unteren Verwerfungsbereich weiter von 0 entfernt: \(t_{krit} = \pm 2.571\). Damit kommt der \(t\)-Wert von -2.4 innerhalb des Annahmebereichs zu liegen und \(p\) = 0.0616.
Mit zunehmendem Stichprobenumfang \(n\) nähert sich die \(t\)-Verteilung der Normalverteilung an: Beispiel mit \(n\) = 30 und \(t\) = -2.4
2 * (1 - pt(abs(-2.4), df = 30 - 1))
## [1] 0.0230392
# Alternativ
# 2 * pt(abs(-2.4), df = 30 - 1, lower.tail = FALSE)
Mit grösserem \(n\) nähern sich die Grenzen der 5%-Verwerfungsbereiche den bekannten Grenzen der Normalverteilung -1.96, 1.96 an und der \(t\)-Wert von -2.4 kommt in den Verwerfungsbereich zu liegen, \(p\) = 0.0230.
pnorm(z-Wert)
und für die \(t\)-Verteilung mit pt(t, df)
berechnet.1 - pnorm(z-Wert)
bzw
1 - pt(z-Wert, df)
berechnet werden.