class: center, middle, inverse, title-slide # Fehler 1. und 2. Art ## Erklärt anhand des zweiseitigen
z
-Tests im medizinischen Kontext ### Christian Stock --- <style type="text/css"> .remark-slide-content { font-size: 22px; padding: 1em 4em em 4em; line-height: 1.4; } </style> # Grundlagen für diese Lerneinheit - Deskriptive Statistik - Dichte- und Verteilungsfunktionen - Normalverteilung (inkl. Standard-Normalverteilung) - Formulierung ein- und zweiseitiger Testhypothesen -- # Lernziele - Sie verstehen die Definition und die Bedeutung des Fehlers 1. und 2. Art am Beispiel eines zweiseitigen Überlegenheitstests in der medizinischen Forschung. - Sie wissen, wie entsprechende Fehlerwahrscheinlichkeiten zu kontrollieren sind. --- # Deskriptive und konfirmatorische Datenanalyse <div align="center">  </div> --- # Die ChroPac-Studie: * Patienten mit chronischer Pankreatitis * Vergleich operativer Therapien + Duodenum erhaltende OP `\((n_X=125)\)` + Nicht Duodenum erhaltende OP `\((n_Y=125)\)` * Endpunkt: Funktionelle Lebensqualität nach 24 Monaten (stetige Variable) + European Organisation for Research and Treatment of Cancer (EORTC) QLQ-C30 questionnaire .footnote[.footnotesize[[Diener MK, et al. Partial pancreatoduodenectomy versus duodenum-preserving pancreatic head resection in chronic pancreatitis: the multicentre, randomised, controlled, double-blind ChroPac trial. Lancet. 2017;390(10099): 1027‐1037.](https://pubmed.ncbi.nlm.nih.gov/28901935/)]] --- ## Unterscheidet sich die Lebensqualität nach 24 Wochen? <div align="center">  </div> .footnote[.footnotesize[Simuliert in Anlehnung an die ChroPac-Studie.]] <!--Mittelwerte 73,0 und 75,3 mit Standardabweichung 16,4.--> --- # Ein statistisches Modell für die Daten Die ChroPac-Studie statistisch formalisiert: $$X_i \sim N(\mu_X,\sigma^2), \, i=1,\ldots,n_X $$ $$\text{und} $$ `$$Y_i \sim N(\mu_Y,\sigma^2), \, i=1,\ldots,n_Y, \,$$` wobei `\(N(\mu,\sigma^2)\)` die Normalverteilung mit **Erwartungswert** `\(\mu\)` und **Varianz** `\(\sigma^2\)` bezeichnet und `\(X_i\)` und `\(Y_i\)` als unabhängig und `\(\sigma^2\)` als bekannt vorausgesetzt werden. Wir nehmen an, die Variablen/ Indizes `\(X\)` und `\(Y\)` repräsentieren die Duodenum erhaltende bzw. die nicht Duodenum erhaltende OP. <!-- .footnotesize[*Aufgabe:* Wie lauten die beobachteten Mittelwerte unter der Duodenom erhaltenden (`\\(\overline{X}\\)`) und nicht Duodenom erhaltenden `\\((\overline{Y})\\)` OP? Wie lautet die (hier als gleichgroß) geschätzte Standardabweichung (`\\(\overline{\sigma}\\)`)? Schauen Sie in der Zusammenfassung der Publikation nach.] --> --- # Ein statistischer Test könnte Aufschluß über den Unterschied geben Ein statistischer Test definiert ein **Entscheidungsverfahren** für die *Ablehnung* oder *Beibehaltung* einer Nullhypothese, genannt \\( H_0 \\), gegenüber einer Alternativhypothese `\(H_A\)`. Hier wird ein zweiseitiges Testproblem angenommen: `$$H_0: \; \mu_Y - \mu_X = 0 \quad \text{versus} \quad H_A: \; \mu_Y - \mu_X \neq 0$$` Das Entscheidungsverfahren eines statistischen Tests basiert auf einer so genannten **Teststatistik** `\(T\)`, die aus Studienergebnissen berechnet wird, und einem **Ablehnungsbereich** `\(A_\alpha\)`. Die Nullhypothese `\(H_0\)` wird abgelehnt, falls die Teststatistik `\(T\)` in den Ablehnungsbereich `\(A_\alpha\)` fällt, der anhand eines **kritischen Wertes** `\(T_{krit.}\)` definiert ist. Andernfalls muss sie beibehalten werden. --- # Die möglichen Entscheidungen <div align="left">  </div> --- # Fehler 1. Art Bei der Konstruktion des Tests ist das so genannte **Signifikanzniveau** `\(\alpha\)` so zu wählen ist, dass die Wahrscheinlichkeit einer Ablehnung nicht größer ist als `\(\alpha\)`, wenn in Wahrheit die Nullhypothese `\(H_0\)` gilt, d.h.: `\(P_{H_0}(T\in A_\alpha) \; \leq \; \alpha\)`, So wird sichergestellt, dass die Wahrscheinlichkeit für eine **fälschliche Ablehnung der wahren Nullhypothese** - ein sogenannter *Fehler 1. Art* - nicht größer als ein vorgegebener Wert \\( \alpha \\) ist (sehr häufig gewählt: `\(\alpha=5\%\)`). <div align="center">  </div> --- # Fehler 2. Art Neben dem Fehler 1. Art, kann noch eine andere Fehlentscheidung getroffen werden: Eine **fälschliche Nicht-Ablehnung der Nullhypothese** `\(H_0\)`, d.h. wenn in Wahrheit die Alternativhypothese `\(H_A\)` gilt. Dies wird als *Fehler 2.* Art mit zugehöriger Wahrscheinlichkeit `\(\beta\)` bezeichnet. Die zur Wahrscheinlichkeit eines Fehlers 2. Art komplementäre Größe `\(\left(1-\beta\right)\)` wird als **statistische Power** bezeichnet: `\(\text{Power}=P_{H_A}(T\in A_\alpha)=1- \beta\)` Bezug zur **Fallzahl**: Der Wert der Größe `\(\beta\)` bzw. `\(\left(1-\beta\right)\)` hängt unter anderem von der gewählten Fallzahl ab. Es ist das Ziel der Fallzahlberechnung, sicherzustellen, dass der Stichprobenumfang groß genug ist, damit die statistische Power einen vorgegebenen Wert erreicht. Sehr häufig wird für `\((1-\beta)\)` ein Wert von 80% oder 90% gewählt. --- # Dichtefunktionen von `\(T\)` unter `\(H_0\)` und `\(H_A\)`
try me!
<div align="center">  </div> --- # Fehler 1. und 2. Art in der ChroPac-Studie *Übung* Ein **Fehler 1. Art** würde dann auftreten, wenn .blue[in der Grundgesamtheit] aller Patienten mit chron. Pankreatitis .blue[kein Unterschied] bzgl. der mittleren funktionellen Lebensqualität nach Operation besteht, die Studienergebnisse jedoch so ausfallen, dass .blue[die Teststatistik in den Ablehnungsbereich fällt] und fälschlicherweise angenommen wird, dass ein Unterschied in der Wirksamkeit der OP-Methoden besteht. Ein **Fehler 2. Art** würde dann auftreten, wenn .blue[in der Grundgesamtheit] aller Patienten mit chron. Pankreatitis .blue[ein Unterschied] bzgl. der mittleren funktionellen Lebensqualität nach Operation besteht, die Studienergebnisse jedoch so ausfallen, dass .blue[die Teststatistik nicht in den Ablehnungsbereich] fällt und fälschlicherweise weiter angenommen wird, dass kein Unterschied in der Wirksamkeit der OP-Methoden besteht. --- # Auswertung mit dem `\(z\)`-Test Mit dem `\(z\)`-Test können für **unabhängige Stichproben** die Erwartungswerte zweier Gruppen `\(X\)` und `\(Y\)` einer **normalverteilten Zielgröße bei bekannter Varianz** verglichen werden. Die Teststatistik `\(Z\)` ist definiert wie folgt: `$$Z= \sqrt{\dfrac{n_X\cdot n_Y}{n_X + n_Y}} \cdot \dfrac{\overline{Y}-\overline{X}}{\sigma} \; \sim \; N(\lambda,1),$$` wobei `\(\overline{X}\)` und `\(\overline{Y}\)` die arithmetischen Mittelwerte in den beiden Gruppen sind und `\(\lambda\)` der so genannte *Nicht-Zentralitätsparameter* ist. Man sieht, dass `\(Z\)` unter der Nullhypothese `\(H_0\)` (kein Unterschied) standardnormalverteilt ist, d.h. `\(N \sim (0,1)\)`. .footnote[.footnotesize[Die Bekanntheit der Varianz ist eine Vereinfachung, die in der Anwendung kaum anzutreffen ist. Die Gleichheit der Varianzen ist keine notwendige Voraussetzung und wird hier nur für eine vereinfachte Darstellung verwendet.]] --- # Entscheidungsregeln im `\(z\)`-Test Die Testentscheidung erfolgt anhand der Quantile der Standardnormalverteilung `\(N(0,1)\)`. **Lehne `\(H_0\)` ab, wenn** `$$z \leq -z_{1-\alpha/2} \quad \text{oder} \quad z \geq z_{1-\alpha/2}.$$` **Behalte `\(H_0\)` bei, wenn** `$$-z_{1-\alpha/2}<z<z_{1-\alpha/2}.$$` Für ein zweiseitiges Signifikanzniveau `\(\alpha\)` von 5% ergeben sich kritische Werte von `\(-z_{0,975} = -1,96\)` und `\(z_{0,975} = 1,96\)`. Die Entscheidungsregeln sind also: - Lehne `\(H_0\)` ab, wenn `\(z \leq -1,96\; \text{oder} \; z \geq 1,96\)`. - Behalte `\(H_0\)` bei, wenn `\(-1,96 < z < 1,96\)`. ---
try me!
<iframe src="https://cstock.shinyapps.io/type1and2error/", width="100%" height="700px" id="igraph" scrolling="yes" seamless="seamless" frameBorder="0"></iframe> --- # Ausblick * Von der Teststatistik zum P-Wert * Was passiert, wenn wir mehrere Tests durchführen? (multiple Testproblematik) * Häufig verwendete statistische Testverfahren in der Medizin + für stetige Merkmale: der `\(t\)`-Test für abhängige und unabhängige Stichproben + für kategoriale Merkmale: der `\(\chi^2\)` (Chi-Quadrat)-Test --- # Take-home messages ### Fehler 1. Art: * Ablehnung einer wahren Nullhypothese ("falsch positiv") * Wird kontrolliert durch das Signifikanzniveau `\(\alpha\)` ### Fehler 2. Art: * Nicht-Ablehnung einer falschen Nullhypothese ("falsch negativ") * Abhängig u.a. von der Fallzahl, aber auch von den zugrundeliegenden Effektgrößen und Varianzen (hier nicht im Detail besprochen) * Daher steuerbar über Fallzahlplanung, die ausreichende statistische Power garantieren soll. --- # Vielen Dank für die Aufmerksamkeit .pull-left[Noch mehr Fehlermöglichkeiten:</br> .superbig[ 🙈 🙉 ] </br> https://www.xkcd.com/2303/ ] .pull-left[ <div align="center">  </div> ] --- # Literatur * M. Kieser. Fallzahlberechnung in der medizinischen Forschung: Eine Einführung für Mediziner und Biostatistiker (essentials). Springer; Auflage: 1. Aufl. 2018. --- # Credit Diese Folien basieren auf dem [Rutgers theme](https://github.com/jvcasillas/ru_xaringan) für [Xaringan](https://github.com/yihui/xaringan)-basierte Slides.