The beast of BIAS

29 sep 2016

Inhoud

Wat is BIAS

Things that lead us to the wrong conclusions (Field)

\[outcome_i = model_i + error_i\] \[model_i = b_1 X_{1i} + b_2 X_{2i} + \ldots + b_n X_{ni}\]

\(X\) = predictor variables
\(b\) = parameters

BIAS

Verkeerde conclussies over:

Parameters \(b_i\)
Standaard error en betrouwbaarheidsintervallen
Toetsingsgrootheden en p-waarden

means → SE → CI

SE → toetsingsgrootheid → p-waarden

The beasts

Beasts

Uitbijters (Outliers)
Schendingen van assumpties

Voorbeeld

Eigen IQ schatting van mannen en vrouwen. Wat we willen is een uitspraak doen over het verschil in de populatie. Niet enkel deze sample. We willen een inferentie maken (Vandaar de term inferentiële statistiek).

data = read.csv("IQ.csv")
data[12:17,]

##         Timestamp IQ.van.je.buur Eigen.IQ sekse
## 12 20/09/13 11:06            145      120     0
## 13 20/09/13 11:06            125      125     0
## 14 20/09/13 11:06            120      110     0
## 15 20/09/13 11:06            123      125     1
## 16 20/09/13 11:06            145      125     1
## 17 20/09/13 11:06            120      120     0

We zien dat de vrouwen als 0 gecodeerd zijn en mannen als 1. We kunnen dan het regressie model invullen voor dit onderzoek.

\[\text{Schatting eigen IQ}_i = b_0 + b_1 Sekse_i + error_i\]

aggregate(Eigen.IQ ~ factor(sekse), data, mean)

##   factor(sekse) Eigen.IQ
## 1             0 120.7130
## 2             1 121.8049

We kunnen nu de \(b\)'s berekenen: \(b_0 = 120.7130435\) en \(b_1 = 1.0918346\)

\[\text{Schatting eigen IQ}_i = b_0 + b_1 Sekse_i + error_i\]

Als we dan het regressie model invullen, krijgen we:

##    Eigen.IQ     b.0      b.1 sekse       error
## 12      120 120.713 1.091835     0  -0.7130435
## 13      125 120.713 1.091835     0   4.2869565
## 14      110 120.713 1.091835     0 -10.7130435
## 15      125 120.713 1.091835     1   3.1951220
## 16      125 120.713 1.091835     1   3.1951220
## 17      120 120.713 1.091835     0  -0.7130435

De gemiddelden vormen dus indirect de parameters \(b\)'s in dit regressie model. Deze \(b\)'s zijn de schatters van de populatie \(\beta\)'s.

En wat nou als deze gemiddelden niet zo goed zijn?

Bijvoorbeeld omdat er extreme uitbijters tussen zitten.

Uitbijters

Uitbijters kunnen grote invloed hebben op de gemiddelden.

Trim Verwijderen op basis van boxplot.
Trim Verwijderen op basis van 3 standaard deviaties.
Trim Trimmed mean: verwijder bovenste en onderste percentage.
Winsorizing Vervang met de hoogste score dat geen uitbeiter is.

Zonder deze outliers ziet het er net wat anders uit.

##   factor(sekse) Eigen.IQ
## 1             0 120.2718
## 2             1 121.4211

##    Eigen.IQ      b.0      b.1 sekse      error
## 16      125 120.2718 1.149208     1  3.5789474
## 17      120 120.2718 1.149208     0 -0.2718447
## 18      115 120.2718 1.149208     0 -5.2718447
## 19      125 120.2718 1.149208     1  3.5789474
## 20      120 120.2718 1.149208     0 -0.2718447
## 21      115 120.2718 1.149208     0 -5.2718447

Assumpties

Additiviteit en lineairiteit
Normaliteit
Homoscedasticiteit/homogeniteit van variantie
Onafhankelijkheid

Additiviteit en lineairiteit

De afhankelijke variabele is in werkelijkheid lineair gerelateerd aan de predictoren.

relations

\[\text{MODEL}_i = b_1 X_{1i} + b_2 X_{2i} + \ldots + b_n X_{ni}\]

Additiviteit en lineairiteit

Dit is te controleren door te kijken naar het verband tussen de predictor variabelen en de outcome variabele.

Normaliteit

Parameter schattingen \(b\)'s
Betrouwbaarheidsintervallen (SE * 1.196)
Nul hypothese toetsing
Error

Het gaat niet om de normaliteit van de data maar van de populatie verdeling. Deze willen we testen aan de hand van de data.

Geen zorgen bij grote samples (Centrale limietstelling).

Centrale limietstelling

Normaliteit

Te bekijken met:

Skewness en Kurtosis

Te toetsen met:

Kolmogorov-Smirnof test
Shapiro-Wilk test

Maar hoe groter de sample hoe kleiner de p-waarde bij gelijke toetsingsgrootheden. Dus dat bijt elkaar een beetje.

transformatie van de outcome variable.

Homoscedasticiteit homogeniteit
van variantie

Van invloed op:

Parameters \(b\)'s
NHT

De assumptie van de nul hypothese is dat de nul verdeling waar is. Dus bij verschillende samples uit die verdeling, laten we zeggen mannen en vrouwen op IQ, verwachten we dat de variantie van beide groepen identiek is. Anders zou onze assumptie niet gelden.

In algemene termen kunnen we dus zeggen dat op elk niveau van de predictorvariabele de varianties gelijk moeten zijn.

Dit is te controleren door een plot te maken van de gestandaardiseerde error/residu en de gestandaardiseerde verwachte uitkomst/model.

Lineairiteit

Onafhankelijkheid

De observaties die gedaan zijn, lees: de rijen in SPSS of de proefpersonen in je onderzoek moeten onafhankelijk van alkaar een reactie gegeven hebben op de outcome variable. Het antwoord van persoon B moet niet afhangen van die van pesoon A.

Whisper

END

@shklinkenberg

Inhoud

Wat is BIAS

BIAS

The beasts

Voorbeeld

Uitbijters

Assumpties

Additiviteit en lineairiteit

Additiviteit en lineairiteit

Normaliteit

Centrale limietstelling

Normaliteit

Homoscedasticiteit homogeniteit van variantie

Onafhankelijkheid

END

Homoscedasticiteit homogeniteit
van variantie