Goodnees of fit testen er en udvidelse af z-testet for en andel. Med test af andele kan man fx. undersøge om andelen af mænd er 60% og kvinder 40% i en population, vi tester altså fordelingen for en kvalitativ variabel med 2 mulige udfald. Med et goodness of fit test kan vi teste kvalitative variable med 2 eller flere mulige udfald, man kan fx. undersøge om fordelingen af boligform i en kommune kan antages at være 50% ejer, 20% andel og 30% leje.
Vi tester vha. Chi i anden fordelingen. Teststørrelsen vi finder, udtrykker forskellen mellem det vi observerer i stikprøven og det vi tester under nulhypotesen.
Antag man simpelt tilfældigt har udtaget en stikprøve på 150 boliger, der indeholder 60 ejer- 40 andels- og 50 lejeboliger.
Hvis vi vil undersøge undersøge om fordelingen af boligform i kommunen, kan antages at følge regionsfordelingen som er 50% ejer, 20% andel og 30% leje, opstiller vi følgende hypoteser:
\[H_0:p_{ejer}=0.5\ p_{andel}=0.2\ p_{leje}=0.3\]\[H_1:Fordelingen\ af\ boliger\ følger\ ikke\ samme\ fordeling\ som\ i\ regionen\]
Teststørrelsen findes som:
\[\chi^2=\sum^k_{j=1}\frac{(O-E)^2}{E}\]
Hvor O er observerede værdier og E er forventede værdier det stammer fra expected på engelsk, k angiver antallet af mulige udfald for den kvalitative variabel.
For at beregne teststørrelsen bestemmer vi E, antallet af ejer, leje og andel vi ville forvente i en stikprøve på netop 150 boliger, der perfekt repræsenterede regionen.
ejer: \(0.5\cdot150=75\) andel: \(0.2\cdot150=30\) leje: \(0.3\cdot150=45\)
Vi kan nu udregne teststørrelsen som:
\[\chi^2=\frac{(60-75)^2}{75}+\frac{(40-30)^2}{30}+\frac{(50-45)^2}{45}=3+3\frac{1}{3}+\frac{5}{9}=6.8889\]
Vi sammenligner med chi i anden fordelingen med k-1=3-1=2 frihedsgrader \(\chi^2_2\), den kritiske værdi bliver 5.9915 hvilket giver p-værdien 0.0319, illustreret ved den gule hale i figuren nedenfor. Da teststørrelsen 6.89 er større end den kritiske værdi 5.99, får vi en p-værdi der er mindre end 5% signifikanssandsynligheden. Vi forkaster nulhypotesen og konkluderer, fordelingen af boligtyper i populationen, er ikke identiske med fordelingen i regionen.
I Freestat tastes input i de hvide felter, hvilket resulterer i følgende resultat:
rmd
En forudsætning for at goodness of fit testet er tilstrækkeligt præcist, er at de forventede værdier E er tilstrækkeligt store. Der er mange forskellige tolkninger, af størrelsen af E cellerne. Nogle nævner celleværdier skal være større end 3 andre 5, det bør under alle omstændigheder nævnes om forudsætningen synes opfyldt. Hvis de forventede værdier er meget små, kan man sammenlægge kategorier, der vil så være et tradeoff med detaljegraden af analysen. Hvis man sammenlægger bør man gøre dette, så det analytisk giver mening.
I eksemplet med boligtyper, havde vi forventede værdier E på hhv. 75, 30 og 45, her var forudsætningen altså opfyldt.
[toggle title=Spørgsmål] Undervisningsministeriet har et ønske om at karaktererne på landsplan bør normaliseres omkring 7, hvor der er følgende procentvise vægt på hver karakter
| Karakter | Ønsket fordeling |
|---|---|
| 02 | 10% |
| 4 | 25% |
| 7 | 30% |
| 10 | 25% |
| 12 | 10% |
Der er intet krav til andelen af studerende der består, således drejer fordelingen sig udelukkende om bestået-karakterer.
Hent datasættet Statistik karakterer Finansøkonom.xls for stikprøven for statistikstuderende , betragt kun de beståede studerende, kan populationen antages at følge de generelle retningslinjer?
[/toggle]
[toggle title=Svar] Vi starter med at se på de beståede 37 studerende, optæl fx. vha. =countif eller =tælhvis i excel for at bestemme antallet af studerende med de respektive karakterer.
| Karakter | Ønsket fordeling | Observeret antal | Observeret Frekvens |
|---|---|---|---|
| 02 | 10% | 9 | 0.2432 |
| 4 | 25% | 6 | 0.1622 |
| 7 | 30% | 5 | 0.1351 |
| 10 | 25% | 12 | 0.3243 |
| 12 | 10% | 5 | 0.1351 |
Vi kan nu bestemme den forventede karakterfordeling hvis karaktererne følger den ønskede fordeling.
| Karakter | Ønsket fordeling | Forventet antal | Chi i anden bidrag |
|---|---|---|---|
| 02 | 10% | 3.7 | 7.5919 |
| 4 | 25% | 9.25 | 1.1419 |
| 7 | 30% | 11.1 | 3.3523 |
| 10 | 25% | 9.25 | 0.8176 |
| 12 | 10% | 3.7 | 0.4568 |
Bemærk forventede værdier er mindre end 5 men større end 3, der kan være problemer med præcisionen. Hvis man ønsker at sammenlægge kategorier giver det ikke mening at lægge 02 og 12 sammen, men gerne 02 og 4 eller 10 og 12. Summen af chi i anden bidrag giver teststørrelsen, dvs:
7.5919+1.1419+3.3523+0.8176=13.3604
Hvilket fører til p-værdien 0.0096 illustreret ved den gule hale herunder, da p-værdien er mindre end 5% signifikansniveauet forkaster vi nulhypotesen, og konkluderer at statistikkarakterer på Finansøkonom ikke følger den ønskede fordeling. Vi kan ud fra chi i anden bidragene se hvilke karakterer der giver de største afvigelser. Store bidrag betyder store afvigelser mellem det observede og ønskede. Det største bidrag 7.5919 stammer fra 02 karakteren, her er den observerede karakter 9, mens den forventede værdi er 3.7. Der er altså flere studerende, end forventet der får 02. Bemærk for at vi kan udtale os om populationen finansøkonomer, fordres at stikprøven er repræsentativ for finansøkonomer. Stikprøven er ikke udtaget simpelt tilfældigt, da der er tale om 2 bestemte klasser, det kan derfor diskuteres om stikprøven er afspejler populationen korrekt.
Freestat output bliver:
[/toggle]