11 November, 2019

Waarom statistiek?

De meesten van jullie zijn opgegroeid in het “digitale tijdperk”. Er is data over jullie hele leven…

Google Timeline

Iedereen wil jouw data…

Cursusopzet

  • Hoorcollege
    • Sample sessions (verplicht!)
  • Werkcollege (Anne-Rigt Poortman)
  • Computerpracticum (verplicht!)

Cursusopzet 2

  • Tussentoets (40%), eindtoets (60%)
  • Belangrijk voor bachelorthesis
  • Vragen? PDA@uu.nl

Schatten en toetsen

Schatten en toetsen

  • Schatten: Op basis van een steekproef een gok doen over een waarde in de populatie
  • Toetsen: Vaststellen of de populatieparameter (waarschijnlijk) afwijkt van een verwachte waarde

Voor beiden gebruik je een steekproef/sample

Schatten

Demonstratie sampling

Laten we een experimentje doen…

Demonstratie sampling

Sample vs Populatie

Populatieparameters schatten op basis van de sample

  • ALS de sample representatief is voor de populatie,
    DAN kunnen we een “geïnformeerde gok” doen over populatieparameters
  • Als een sample random is, dan is het meestal representatief (iedereen even grote kans om getrokken te worden)
  • Samples zijn in de praktijk zelden willekeurig, dus denk na over manieren waarop jouw sample verschilt van de populatie, en daarom wellicht een misleidend beeld geeft

Schatting

  • De gemiddelde lengte in de sample, \(M\), weten we nu exact. Hier is geen onzekerheid over
  • Dit gemiddelde is ook onze beste gok voor de gemiddelde lengte in de “populatie”, \(\mu\).
  • Dit noem je een schatting (estimation)
  • Er is altijd onzekerheid over schattingen

Onzekerheid: Standard Error

Sampling error

Sampling error

De verdeling van steekproefgemiddelden

Stel je voor dat ik alle mogelijke steekproeven van 5 studenten uit deze zaal zou trekken, en voor elke steekproef de gemiddelde lengte bereken

  • Elke steekproef heeft een ander gemiddelde
  • Er is een verdeling van steekproefgemiddelden
  • Het gemiddelde van ALLE steekproeven == het werkelijke populatiegemiddelde
  • De standaardafwijking van deze sampling distribution kan je interpreteren als “de gemiddelde afwijking van steekproefgemiddelden tov het populatiegemiddelde”
  • Dit heet de standard error, en het is een maat van onzekerheid over je schatting

Standard error demo

Standard error demo

Standaardfout schatten

Probleem: We kunnen de standard error niet uitrekenen op basis van één steekproef

Oplossing: We schatten de standard error ook op basis van de sample

Standard error voor gemiddelde:

\[ SE_{M} = \frac{s}{\sqrt{n}} \]

\[ = \frac{\textrm{Standaarddeviatie in de steekproef}}{\sqrt{\textrm{Grootte van steekproef}}} \]

Standaardafwijking VS standard error

Standaardafwijking:

“Gemiddelde”\(^*\) afwijking van observaties tov het gemiddelde

Geeft weer hoe gespreid je data zijn

Notatie: \(s, \sigma, SD\)

Standard error: “Gemiddelde”\(^*\) afwijking van steekproefgemiddelden tov het populatie gemiddelde.

Geeft weer hoe onzeker we zijn over onze schatting van het populatiegemiddelde, op basis van de steekproef.

Notatie: \(SE, SE_M\)

* = Eigenlijk de wortel van gemiddelde gekwadrateerde afstand

Confidence intervals

Confidence intervals

Betrouwbaarheidsinterval: Een “venster” om de schatting, gebaseerd op SE, waarbinnen de populatieparameter waarschijnlijk valt

Waarom 1.96*SE?

Dit heeft te maken met toetsen

Kritieke waarde bij een twee-zijdige toets met \(\alpha = .05\) is ~2

Interpretatie

Als je 100 identieke samples zou trekken, en voor elk een 95% confidence interval zou berekenen, dan bevat 95% van die intervals de populatieparameter.

Je weet nooit zeker of DIT confidence interval de populatiewaarde bevat, of wáár die valt.

Interpretatie

Interpretatie

Voorproefje toetsing

Je kan confidence intervals ook gebruiken om te toetsen…

Dit interval bevat met 95% zekerheid de populatieparameter, dus elke waarde buiten het interval kan verworpen worden (als nulhypothese) met een foutmarge van 5%

Meetniveau

NOIR meetniveau

Ezelsbruggetje:

n o i r = zwart in het Frans

  • Nominaal
    • Categorisch, verschilt enkel in naam
  • Ordinaal
    • Categorieën met volgorde (e.g., SES groepen)
  • Interval
    • Continu met betekenisvolle afstanden (intervallen)
    • Een stap van 1 tot 2 is even “groot” als een stap van 2 tot 3
  • Ratio
    • Heeft een absoluut 0-punt, en daarom zijn verhoudingen (ratio’s) ook betekenisvol

Interval meetniveau

Interval meetniveau

Toetsen

Toetsen

Omdat we geen data over de hele populatie hebben, is het onmogelijk om te bewijzen dat, bijvoorbeeld, het populatiegemiddelde groter is dan 0.

Dus we draaien de boel om: We tonen aan dat het heel onwaarschijnlijk is om onze data te verkrijgen, ALS het populatiegemiddelde 0 zou zijn.

Wat is de kans om data te observeren die “minstens zo extreem zijn” als onze steekproef, ALS de nulhypothese waar zou zijn dat het populatiegemiddelde 0 is?

\(p(data\vert H_0)\)

Stappenplan toetsen

Stappen voor toetsing:

  1. Hypotheses formuleren
    \(H_0\): Het populatiegemiddelde van lengte is \(\leq\) 0
    \(H_A\): Het populatiegemiddelde van lengte is groter dan 0
  2. Test-statistiek berekenen
    Deze beschrijft hoeveel standaarderrors het steekproefgemiddelde afligt van het gemiddelde onder de nulhypothese
  3. p-waarde uitrekenen (kans op deze data of nog extremer, als \(H_0\) waar is)
  4. Conclusie trekken over nulhypothese

Hypotheses

Wat is een hypothese?

Hypothese: Een toetsbare verwachting over een populatieparameter

Wat voor soort hypotheses?

  • Is het populatiegemiddelde groter dan 0?
  • Is er een verschil tussen de populatiegemiddelden van twee groepen?
  • Is het verband tussen twee variabelen groter dan 0?

Hypotheses: \(H_a\) and \(H_0\)

  • \(H_a\): Alternatieve hypothese; wat we denken dat er écht aan de hand is
  • \(H_0\): Nulhypothese; dat er “niets aan de hand is”
  • We proberen de nulhypothese te verwerpen

Hypotheses formuleren

\(H_0\) zo formuleren dat deze \(H_a\) uitsluit

Voorbeeld: Verschil tussen mannen en vrouwen

  • Non-directionele/ongerichte hypothese
    • \(H_0\): Het gemiddelde van mannen en vrouwen verschilt niet (in de populatie)
    • \(H_a\): Het gemiddelde van mannen en vrouwen verschilt
  • Directionele/gerichte hypothesis
    • \(H_0\): Het gemiddelde van mannen is gelijk of kleiner dan het gemiddelde van vrouwen
    • \(H_a\): Het gemiddelde van mannen is groter dan het gemiddelde van vrouwen

Teststatistiek berekenen

Teststatistiek: Een waarde die aangeeft hoeveel SE’s je geobserveerde data afliggen van de verwachting onder de nulhypothese

Teststatistiek berekenen

De standaardfout is

\(SE_M =\) \(\frac{s}{\sqrt{n}}\)

Dan kijken we hoe “ver” ons geobserveerde steekproefgemiddelde \(M\) is tov de nulhypothese:

\(\frac{\bar{X}-\mu_0}{SEM}\)

Voorbeeld: Teststatistiek voor een gemiddelde

Nederlanders zijn vrij lang. Wereldwijde gemiddelde lengte: 167cm

Onderzoeksvraag: Zijn Nederlanders langer dan het wereldwijde gemiddelde?

Steekproef: Gemakssteekproef (studenten van dit vak)

  • \(H_0\): Het populatiegemiddelde voor lengte is 167,
    \(\mu_0 \leq 167\)
  • \(H_a\): Het populatiegemiddelde voor lengte is groter dan 167,
    \(\mu_0 > 167\)

\(Z = \frac{M-\mu_0}{SE_M}\)

\(SE_M = \frac{\sigma}{\sqrt{n}}\)

Voorbeeld: Teststatistiek voor een proportie

Sinds de stufi wetten zijn veranderd blijven jongeren langer thuis wonen.

Onderzoeksvraag: Is de proportie van jongeren die thuis wonen hoger in 2018 dan in 2008?

Steekproef: Gemakssteekproef (studenten van dit vak)

  • \(H_0\): De populatieproportie thuiswoners is .5,
    \(\Pi_0 \leq .5\) (proportie 21 jarigen in 2008)
  • \(H_a\): De populatieproportie thuiswoners is groter dan .5,
    \(\Pi_0 > .5\)

\(Z = \frac{\pi-\Pi_0}{SE_\pi}\)

\(SE_\pi = \sqrt{\frac{(p * (1-p))}{n}}\)

Significantieniveau

Wanneer vinden we dat de kans op de data onder de nulhypothese zo klein is, dat we \(H_0\) kunnen verwerpen?

  • We moeten een drempelwaarde afspreken. Als de kans (p-waarde) kleiner is dan deze drempelwaarde verwerpen we \(H_0\)

Significantieniveau \(\alpha\)

De drempelwaarde voor het verwerpen van \(H_0\) noemen we \(\alpha\).

In de sociale wetenschappen hanteren we meestal \(\alpha = .05\)

MAAR: Tijden veranderen, steeds meer wetenschappers willen \(\alpha = .005\)

Artikel: Redefine Statistical Significance

(Non-)Directionele hypotheses

Bij een non-directionele hypothese is \(\alpha = .05\) verdeeld over beide staarten van de sampling distribution. Bij een directionele hypothese ligt \(\alpha = .05\) volledig in één staart van de samplinig distribution.

Tweezijdige toets

Directionele hypotheses

Bij een directionele hypothese ligt \(\alpha = .05\) volledig in één staart van de samplinig distribution.

Eenzijdige toets

(Non)-directionele hypothese en power

Met een eenzijdige toets heb je meer power om een nulhypothese te verwerpen ALS het effect in de verwachtte richting is. Je hebt echter géén power om de nulhypothese te verwerpen bij een effect in de omgekeerde richting.

Statistical significance

\(p:\) De kans op data minstens zo extreem als wat je hebt verzameld, ALS de nulhypothese waar zou zijn.

\(\alpha:\) Significantieniveau

Als \(p < \alpha:\) Je effect is statistisch significant

Z of t?

Z is de standaard normaalverdeling.

Als je de populatiestandaardafwijking weet, kan je een z-waarde uitrekenen.

Probleem: We weten bijna nooit wat \(\sigma\) is

Oplossing: We passen een “straf” toe om rekening te houden met de grotere onzekerheid die ontstaat over onze toets, wanneer we \(s\) schatten op basis van de steekproef, en niet \(\sigma\) uit de populatie gebruiken

t-verdeling

Deze “straf” leidt tot een verdeling met iets dikkere staarten dan de Z-verdeling. Deze heet de t-verdeling. We krijgen dus iets hogere p-waardes!

Als \(n\) groot is, maakt deze “straf” niet meer uit. Dan is \(t \approx Z\)

Voorbeeld: t-test voor een gemiddelde

Identieke berekening als voor de eerder genoemde Z-toets

Behalve dat je nu \(s\) gebruikt ipv \(\sigma\)

  • \(H_0\): Het populatiegemiddelde voor lengte is 167,
    \(\mu_0 \leq 167\)
  • \(H_a\): Het populatiegemiddelde voor lengte is groter dan 167,
    \(\mu_0 > 167\)

\(t = \frac{M-\mu_0}{SE_M}\)

\(SE_M = \frac{s}{\sqrt{n}}\)

Voorbeeld: Independent samples t-test

Is er een significant verschil tussen de gemiddelden (op een interval/ratio variabele) tussen twee (nominale/ordinale) groepen?

Independent samples t-test berekenen

Het verschil tussen twee gemiddelden volgt ook een t-verdeling.

\[ t=\frac{(M_1-M_2) - (\mu_{01} - \mu_{02})} {SE_{(M_1-M_2)}} \]

\[SE_{(M_1-M_2)} = \sqrt{\frac{s_p^2}{n_1}+\frac{s_p^2}{n_2}}\]

\[s^{2}_{p} = \frac{SS_1 + SS_2}{df_1 + df_2}\]

Conclusie: Nulhypothese verwerpen

Als we vinden dat de data erg ongebruikelijk zijn onder \(H_0\), dus als \(p < \alpha\):

  • We verwerpen \(H_0\)
  • Dit suggereert dat er een effect is in de populatie
  • Geeft steun voor \(H_a\)
  • We beweren echter nooit dat \(H_a\) geaccepteerd wordt. Er is altijd onzekerheid over conclusies op basis van een steekproef.

Nulypothese verwerpen

Als we vinden dat de data best gebruikelijk zijn onder \(H_0\), , dus als \(p \geq \alpha\):

  • Kunnen we \(H_0\) niet verwerpen
  • Hebben we geen bewijs voor een effect in de populatie
  • Dit zou kunnen betekenen dat er geen effect is,
    OF dat we niet genoeg power hebben om een bestaand effect te vinden
  • Steekproef is te klein, of
  • Het effect is te klein

Daarom nooit zeggen “we accepteren de nulhypothese” (onzekerheid blijft)

Power

Wordt beinvloed door:

  • Grootte van het effect
  • Grootte van de “ruis” in je data (standaardafwijking)
  • Aantal proefpersonen

Type I en Type II fout

Wat kan er nog misgaan?

Type I fout

Lucia de B. werd verdacht van meeervoudige kindermoord.

\(H_0\): Onschuldig

We berekenen de kans dat er tijdens haar dienst 9 sterfgevallen voorkomen, \(p = 0.00000001451\).

Waarheid
Beslissing Schuldig Onschuldig
Veroordelen Juiste beslissing! Type I fout: \(\alpha\)
Vrij spreken Type II fout: \(\beta\) Juiste beslissing!
  • Type I: Ten onrechte veroordeeld
  • Type II: Een moordenaar gaat vrijuit

Type II fout

Lance Armstrong gebruikte jarenlang onopgemerkt doping.

Nulhypothese: Lance Armstrong is clean.

\(H_0\): Clean

We nemen bloed af, doen een testje, en vinden een bepaald % EPO in het bloed. Als dat % hoog genoeg is, verwerpen we \(H_0\).

Waarheid
Beslissing EPO Clean
Diskwalificeren Juiste beslissing! Type I fout: \(\alpha\)
Geldig verklaren Type II fout: \(\beta\) Juiste beslissing!
  • Type I: Vals alarm
  • Type II: Lance komt ermee weg

Alpha en beta

Waarheid
Beslissing \(H_a\) \(H_0\)
Verwerp \(H_0\) Power: \(1-\beta\) Type I fout: \(\alpha\)
Verwerp \(H_0\) niet Type II fout: \(\beta\) Juiste beslissing

Alpha bepaal je zelf

Beta is onbekend

Vuistregel: De kans op een Type II fout (\(\beta\)) neemt af als:

  • Het effect groot is in de populatie
  • Jouw steekproef groot is