Hypothesentests

Author

Pater Pepsus

Einseitiger Hypothesentest

Kirschen und Würmer

Beispiel Kirschen, wir gehen davon aus, dass es im Lkr. Freising 1,56 Mio Kirschen mit einem unbekannten Wurmbefall gibt. Es werden 50 Kirschen gesamplet und aufgeschnitten.

Zur Entscheidung, ob der Wurmbefall 🐍 bei mehr als 10% der Kirschen 🍒 liegt, wird eine Testgröße Z festgelegt. Testgrößen sind typisch bei Signifikanztests - in der Regel vergleicht man die aus der Stichprobe errechnete Testgröße mit ihrer theoretischen Verteilung, und entscheidet dann über Annahme oder Ablehnung der Null-Hypothese. Hier bezieht sich die Testgröße \(Z = 8\) auf die Anzahl \(X\) befallene Kirschen in einer Stichprobe der Größe \(n = 50\).

Hier sind unsere Hypthesen demnach:

Nullhypothese \(H_0\): \(p \le 0,10\) (“Es sind höchstens 10 % befallen” - der günstige Fall)
Alternativhypothese \(H_1\): \(p > 0,10\) (“Es sind mehr als 10 % befallen” – der problematische Fall)

Zufallsziehung aus der Grundgesamtheit

Hier schauen wir uns an, wie der aus der Stichprobe ermittelte Befall verteilt sein kann, wenn der reale Wurmbefall bei wirklich 10% (blauer Bereich) oder 13% (roter Bereich) liegt, und wir 800 Mal 50 Kirschen zufällig auswählen:

Das Problem lässt sich als Binomial-Verteilung betrachten. Gehen wir davon aus, dass der wahre Befall exakt 10% sind, kannst Du Dir einen Würfel mit 10 Seiten vorstellen, davon ist eine die “Wurm-Seite” . Dieser Würfel wird dann immer 50 Mal geworfen. Damit ergibt sich diese theoretische Verteilung unserer Prüfgröße Z für den Grenzfall, dass wirklich exakt 10% befallen sind (das würde gerade so noch nicht zur Ablehnung der Nullhypothese führen):

Bei einem realen Befall von 13% würde es dann so aussehen:

Die Wahrscheinlichkeit für \(X \le Z\) wird also immer kleiner! Das heißt also, dass je höher der wahre Anteil des Wurmbefalls ist, unsere Prüfgröße \(Z \le 8\) immer präziser darin wird, einen hohen Befall zu erkennen.

Warum ist das jetzt ein einseitiger Test?

Erstmal ganz generell: ein einseitiger Hypothesentest prüft, ob der wahre Wert einer Zielgröße in eine bestimmte Richtung vom Hypothesenwert abweicht – und nur in diese Richtung. Im Gegensatz dazu prüft ein zweiseitiger Test, ob der Wert entweder nach oben oder nach unten vom Referenzwert abweicht.

Hier wollen wir quasi nachweisen, dass der Befall “schlimmer” ist als gedacht. Ob es einen geringeren Befall als 10% gibt, interessiert uns nicht (das wäre dann auch wieder ein anderer Test)! Damit haben wir einen einseitigen Test.

In den Abbildungen oben kannst Du erkennen, dass es sich um einen rechtsseitigen Test handelt - der Ablehnungsbereich liegt rechts!

Fehler 1. und 2. Art

Bleiben wir beim Beispiel mit den Kirschen. Du kannst hier mind. 2 Fehler machen:

Fehler 1. Art: Fälschlich Alarm schlagen

Was passiert, wenn die Nullhypothese stimmt, also z.B. wirklich nur genau 10% Kirschen befallen sind (\(p = 0.1\)), Dein Wert \(XZ\) aber den Wert 9 einnimmt? Dann lehnst Du die \(H_0\) ab, obwohl sie wahr ist!

Bei \(X > 8\) ergibt sich eine Fehlerwahrscheinlichkeit von 0.06.

Fehler 2. Art: Problem übersehen

Hier passiert das Gegenteil: \(H_1\) ist wahr, Du lässt Dich von \(X < Z\) aber dazu verleiten, sie abzulehnen. Der Befall ist also höher, aber Du merkst es nicht. Nehmen wir, es sind in Wirklichkeit 15% der Kirschen befallen, Du findet in Deiner Stichprobe aber weniger als \(Z = 8\). Die Wahrscheinlichkeit dafür ist 0.67.

Was bedeutet das für das Kirschen-Thema hier?

Wir haben eine hohe Chance für einen Fehler 2. Art, also eine hohe Wahrscheinlichkeit, dass wir unseren Kunden schlechte Kirschen verkaufen. Das ist eigentlich nicht das, was wir wollen.

Auf der Gegenseite ist die Chance klein, dass wir irrtümlich eine Charge Kirschen verwerfen, weil die Qualität in Wirklichkeit eigentlich gut ist.

Jetzt kommt es darauf, was man will - beides gleichzeitig optimieren geht leider nicht!

Schauen wir uns einmal an, wie die Änderung von \(Z\) die Entscheidungen beeinflussen kann: hier setzen wir jetzt \(Z = 6\).

Bei einem realen Befall von 10% würde die Entscheidung jetzt so aussehen:

Wir machen also mit geringerer Wahrscheinlich den Fehler 2. Art (und vergraulen damit weniger Kunden - Kathi aufgepasst, so macht man das!).

Signifikanztests

Hier kommen jetzt die Elemente aus den vorigen Abschnitten zusammen:

Nullhypothese und Alternativhypothese
Teststatistik und Entscheidungsregel
Fehler 1. Art (\(H_0\) ablehnen, obwohl zutreffend)

Die zentrale Idee wird es jetzt sein, dass wir für den Fehler 1. Art ein akzeptables Niveau festlegen. Dazu gibt es Konventionen, die wissenschaftlich genau genommen unbegründet sind (z.B. \(\alpha = 5\%\), man könnte aber genauso gut 6,66% nehmen, das wäre nicht mehr oder weniger falsch - verantwortlich dafür ist ein gewisser Herr Fisher).

Der zweite Schritt ist komplizierter: jetzt müssen wir den Wert für unsere Testgröße \(Z\) suchen, der genau diesem \(\alpha\) entspricht. Bei der Betrachtung der Fehler 1. und 2. Art oben hatten wir ja gesehen, wie die Wahl von \(Z\) die Entscheidungen beeinflusst.

Da taucht jetzt diese ominöse Notation \(F^{n}_{p}\) auf, die auf Eurem Ausdruck aus verschiedenen Gründen verwirrend ist, einer davon ist, dass aus nicht näher genannten Gründen jetzt \(n = 100\) gilt, wir können aber genauso gut erstmal mit unseren ursprünglichen \(n = 50\) weitermachen. Dann wäre die Notation \(F^{50}_{0,1}\). Gemeint ist damit die kumulative Verteilungsfunktion einer Binomialverteilung (denke an den 10-seiten Würfel von oben).

Früher hat man das mit Tabellen gemacht, heute kann man das auch einfach im Taschenrechner nachschauen oder selbst ausrechnen. Jedenfalls bestimmen wir den kritischen Wert für \(Z\) so, dass gilt \(P\left(X > Z \mid p = 0,10\right) \leq \alpha\), also: die Wahrscheinlich, dass \(X\) (die Anzahl der Kirschen mit Wurm) größer wird als der gesuchte Prüfwert \(Z\) unter der Bedingung, dass 10% der Kirschen verwurmt sind, soll kleiner oder gleich \(\alpha\) sein.

Das Ergebnis wäre in diesem Fall Z = 9. Das heißt, wenn ich 9 oder weniger Kirschen mit Wurm in der Stichprobe finde, gehe ich davon aus (mit einem \(\alpha\) von 0,05), dass höchstens 10% der Kirschen befallen sind. Die Wahl von \(Z\) hängt also sehr von \(\alpha\) ab, wie man hier schön sehen kann:

Das passt auch wieder zur Überlegung oben: je weniger \(\alpha\)-Fehler (= 1. Art) ich machen will, desto eher verkaufe ich dem Kunden wurmige Kirschen - was zeigt, dass das Beispiel wenig praxisnah ist. Die Werte hier weichen auch vom Arbeitsblatt ab, weil da mit \(n = 100\) gearbeitet wird, natürlich muss \(Z\) dann doppelt so groß sein.

Das kann auf den ersten Blick kontraintuitiv wirken, vielleicht ist es so besser verständlich: wenn ich den Fehler 1. Art reduzieren will (also \(\alpha\) kleiner mache), dann soll es ja “schwerer” werden, \(H_0\) abzulehnen (sonst lehne ich \(H_0\) ja dauernd ab, obwohl zutreffend). Also muss ich mehr wurmige Kirschen finden, die Prüfstatistik muss also höher werden!