29 sep 2016
Things that lead us to the wrong conclusions (Field)
\[outcome_i = model_i + error_i\] \[model_i = b_1 X_{1i} + b_2 X_{2i} + \ldots + b_n X_{ni}\]
Verkeerde conclussies over:
means → SE → CI
SE → toetsingsgrootheid → p-waarden
Beasts
Eigen IQ schatting van mannen en vrouwen. Wat we willen is een uitspraak doen over het verschil in de populatie. Niet enkel deze sample. We willen een inferentie maken (Vandaar de term inferentiële statistiek).
data = read.csv("IQ.csv")
data[12:17,]
## Timestamp IQ.van.je.buur Eigen.IQ sekse ## 12 20/09/13 11:06 145 120 0 ## 13 20/09/13 11:06 125 125 0 ## 14 20/09/13 11:06 120 110 0 ## 15 20/09/13 11:06 123 125 1 ## 16 20/09/13 11:06 145 125 1 ## 17 20/09/13 11:06 120 120 0
We zien dat de vrouwen als 0 gecodeerd zijn en mannen als 1. We kunnen dan het regressie model invullen voor dit onderzoek.
\[\text{Schatting eigen IQ}_i = b_0 + b_1 Sekse_i + error_i\]
aggregate(Eigen.IQ ~ factor(sekse), data, mean)
## factor(sekse) Eigen.IQ ## 1 0 120.7130 ## 2 1 121.8049
We kunnen nu de \(b\)'s berekenen: \(b_0 = 120.7130435\) en \(b_1 = 1.0918346\)
\[\text{Schatting eigen IQ}_i = b_0 + b_1 Sekse_i + error_i\]
Als we dan het regressie model invullen, krijgen we:
## Eigen.IQ b.0 b.1 sekse error ## 12 120 120.713 1.091835 0 -0.7130435 ## 13 125 120.713 1.091835 0 4.2869565 ## 14 110 120.713 1.091835 0 -10.7130435 ## 15 125 120.713 1.091835 1 3.1951220 ## 16 125 120.713 1.091835 1 3.1951220 ## 17 120 120.713 1.091835 0 -0.7130435
De gemiddelden vormen dus indirect de parameters \(b\)'s in dit regressie model. Deze \(b\)'s zijn de schatters van de populatie \(\beta\)'s.
En wat nou als deze gemiddelden niet zo goed zijn?
Bijvoorbeeld omdat er extreme uitbijters tussen zitten.
Uitbijters kunnen grote invloed hebben op de gemiddelden.
Zonder deze outliers ziet het er net wat anders uit.
## factor(sekse) Eigen.IQ ## 1 0 120.2718 ## 2 1 121.4211
## Eigen.IQ b.0 b.1 sekse error ## 16 125 120.2718 1.149208 1 3.5789474 ## 17 120 120.2718 1.149208 0 -0.2718447 ## 18 115 120.2718 1.149208 0 -5.2718447 ## 19 125 120.2718 1.149208 1 3.5789474 ## 20 120 120.2718 1.149208 0 -0.2718447 ## 21 115 120.2718 1.149208 0 -5.2718447
De afhankelijke variabele is in werkelijkheid lineair gerelateerd aan de predictoren.
relations
\[\text{MODEL}_i = b_1 X_{1i} + b_2 X_{2i} + \ldots + b_n X_{ni}\]
Dit is te controleren door te kijken naar het verband tussen de predictor variabelen en de outcome variabele.
Het gaat niet om de normaliteit van de data maar van de populatie verdeling. Deze willen we testen aan de hand van de data.
Geen zorgen bij grote samples (Centrale limietstelling).
Te bekijken met:
Te toetsen met:
Maar hoe groter de sample hoe kleiner de p-waarde bij gelijke toetsingsgrootheden. Dus dat bijt elkaar een beetje.
Van invloed op:
De assumptie van de nul hypothese is dat de nul verdeling waar is. Dus bij verschillende samples uit die verdeling, laten we zeggen mannen en vrouwen op IQ, verwachten we dat de variantie van beide groepen identiek is. Anders zou onze assumptie niet gelden.
In algemene termen kunnen we dus zeggen dat op elk niveau van de predictorvariabele de varianties gelijk moeten zijn.
Dit is te controleren door een plot te maken van de gestandaardiseerde error/residu en de gestandaardiseerde verwachte uitkomst/model.
Lineairiteit
De observaties die gedaan zijn, lees: de rijen in SPSS of de proefpersonen in je onderzoek moeten onafhankelijk van alkaar een reactie gegeven hebben op de outcome variable. Het antwoord van persoon B moet niet afhangen van die van pesoon A.
Whisper