class: center, middle, inverse, title-slide # Statistisk signifikans ## Historik, tolkning och begränsningar. ### Erik Bülow ### 2021-02-25 --- class: inverse, center, middle # Historik --- # Signifikans -- Oxford dictionary: > The quality of being worthy of attention; importance. -- <img src="figs/etym.png" width="441" /> --- background-position: right background-image: url("figs/arbuthnot.jpg") background-size: 25% # John Arbuthnot 1710 -- - **Förmodan:** föds lika många flickor och pojkar -- - **Observation:** Varje år mellan 1629 och 1710 föddes fler pojkar än flickor -- - **Sannolikhet:** Sannolikheten för observerade utfallet (om förmodan är sann): `\(1 / 2^{82}\)` -- - **Slutsats:** En hund begraven! --- background-position: right background-image: url("figs/gubbar.png") background-size: 12% # Utveckling -- - **Pierre-Simon Laplace 1770:** samma frågeställning med parametrisk (binomial) sanolikhetsfördelning -- - **Karl Pearsson 1914:** formaliserade begreppet `\(P\)`-värde -- - **Ronald Fisher (1922) 1925:** populariserad beslutsregel med `\(\alpha = 0.05\)` <img src="figs/fisher.jpeg" width="50%" /> -- - **Jerzy Neyman och Egon Pearson 1933:** big fight! -- - **John Tukey 1977:** Explorative data analysis (EDA). --- class: center, middle background-image: url("figs/trend.png") background-size: contain --- class: inverse, center, middle # Tolkning --- # Hypotesprövning -- - **Modell:** `\(M\)`, "Platonsk" universell datagenererande process/oändlig population. -- - **Data:** `\(D\)`, representativt urval från den "oändliga populationen" <img src="figs/model.png" width="50%" /> -- - **Hypotes:** `\(H_0\)`, icke-informativa parametervärden för den underliggande modellen. -- - **Sannolikhet:** `\(p\)`, för observationer *minst lika* extrema som `\(D\)`. -- - **Signifikansnivå:** `\(\alpha\)`, övre gräns för att förkasta `\(H_0\)` -- - **Tolkning:** Om observationen är osannolik givet hypotesen, `\(p < \alpha\)`, så är hypotesen antagligen fel! -- - **Beslut:** Vi förkastar `\(H_0\)`! --- # Felaktiga tolkningar - Sannolikheten för `\(H_0\)` är `\(p\)` -- - Nej, sannolikheten för **en observation minst lika extrem som vår**, `\(D^*\)`, är `\(p\)` givet `\(H_0\)`! -- - `\(P(D^*|H_0) = P(D^*, H_0)/P(H_0) \neq P(H_0)\)` -- - Vi kan visa att `\(H_0\)` sannolikt är falsk? -- - Nej, vi kan bara visa att vi **med våra förutsättningar** (stickprovsstorlek och antaganden), inte kan förkasta `\(H_0\)`! -- - Vi kan visa att modellen under `\(H_0\)` är mer sannolik än den under `\(H_1\)`? -- - Nej, vi kan acceptera `\(H_0\)`, **även om `\(H_0\)` är ännu sämre än `\(H_1\)`**! -- - `\(\alpha = 0.05\)` är ett värde givet av högre makt? -- - Nej, det är bara ett hundra år **gammalt räkneexempel**! -- - Vi kan spreja vår artikel med `\(p\)`-värden och plocka russinen ur kakan? -- - Nej! Fokusera på relevanta hypoteser! Tillämpa multiplicitetskorrektion! **EDA**! --- class: inverse, center, middle # Begränsningar vid registerstudier --- # Datakvalitet Data rapporteras vid klinisk praxis av olika individer och under olika förutsättningar. -- Prof Sir Auston Bradford Hill 1962: > [P]roviding a formal test of significance to someone else's data of which you know nothing and for which quite possibly a test of ignificance is the least important test to apply. -- > To rely on data, the nature of wich one does not understand, is the first step in losing intelectual honesty. -- `\(p\)`-värdet gäller endast under antagna förutsättningar, t ex att vår observerade data ger en representativ bild av verkligheten ("garbage in, garbage out")! --- # Stora stickprov -- - Anta `\(H_0 \colon \mu_0 = 0\)` -- - Vi observerar `\(Z = (\bar X -\mu_0) / (\hat \sigma / \sqrt{n}) = \bar X\sqrt{n}/\hat \sigma = c\sqrt{n}\)` -- - `\(H_0\)` förkastas om `\(Z\)` stort -- - `\(c\sqrt{n} \rightarrow \infty\)` när `\(n \rightarrow \infty\)` -- - Med tillräckligt mycket data kan vi förkasta vilken nollhypotes som helst! --- # Många hypoteser -- - Antag `\(\alpha = 0.05\)` -- - I genomsnitt en av 20 förkastade hypoteser sann -- - Falsk signifikans/typ I-fel -- - Vi testar 20 **sanna** noll-hypoteser. Vad är sannolikheten att vi (av ren slump) får minst ett "signifikant" resultat? -- - Att korrekt **acceptera en** nollhypotes: `\(1 - 0.05 = 0.95\)` -- - Att korrekt **acceptera samtliga** nollhypoteser: `\(0.95^{20} \approx 0.36\)` -- - Att felaktigt **förkasta minst en** nollhypotes: `\(1 - 0.36 = 0.64\)` -- - Sannolikhet att få minst en "falsk signifikans" av 100 möjliga? -- - `\(1 - (1-0.05)^{100} \approx 0.9940795\)` --- # Totalundersökning - Anta att vi har 100 % täckningsgrad och perfekt rapporterad data! -- - Då vet vi att uppmätta skillnader är reella -- - Förvisso, men kanske råkade vi under just denna period få ett utfall som också till viss del berodde på slumpen? --- # Statistisk signifikans vs klinisk relevans - Inget som säger att den testade hypotesen är vettig! -- - Att effekten skulle vara exakt 0, utan några som helst decimaler, kan nästan alltid uteslutas! -- - Även en effekt som är `\(0.00000001\)` enheter kan förkastas med ett tillräckligt stort stickprov! -- - Vet vi ens vad `\(p\)`-värdet avser? Har vi hypotesen kar för oss? -- - Så ... "Vad f*n får jag för `\(p\)`-värdet?"