Vi kan analysere kvalitative variable med 2 mulige udfald vha. test af 2 andele. Chi i anden testet er en udvidelse af test af 2 andele. Med chi i anden testen kan man sammenligne kvalitative variable med 2 eller flere mulige udfald. Vi kan benytte chi i anden testet til at undersøge om der er en sammenhæng mellem 2 inddelingskriterier som fx. køn og bestået/ikke bestået, køn og karakter, aldersgruppe og karakter.
Antag et forsikringsselskab har indsamlet data for kunders skadesanmeldelser fordelt på øst og vest for Storebælt. Forsikringsselskabet ønsker at undersøge om der er forskel i andelen af kunder der anmelder skader i Øst- og Vestdanmark. Følgende data er angivet
| Observeret | Ingen skader anmeldt | 1 eller flere skader | Total |
|---|---|---|---|
| Østdanmark | 300 | 300 | 600 |
| Vestdanmark | 250 | 150 | 400 |
| Total | 550 | 450 | 1000 |
Vi kan teste om der er forskel på om der er forskel på andelen af anmeldte skader i Øst- og Vestdanmark vha. chi i anden testet. Vi har følgende hypoteser.
\[H_0: Der\ er\ uafhængighed\ mellem\ række-\ og\ søjlekriterierne\]\[H_1: Der\ er\ afhængighed\ mellem\ række-\ og\ søjlekriterierne\]
Eller mere præcist i dette tilfælde:
\[H_0: Der\ er\ uafhængighed\ mellem\ landsdel\ og\ skadesanmeldelse\]\[H_1: Der\ er\ afhængighed\ mellem\ landsdel\ og\ skadesanmeldelse\]
Hvis nulhypotesen forkastes påvirker landsdelen kunder kommer fra altså andelen af anmeldte skader. #### Uafhængighed
Definitionen af uafhængighed mellem 2 hændelser A og B er at sandsynligheden for fælleshændelsen er lig med produktet af sandsynlighederne for enkelthændelserne som formel skriver vi: \[P(A\cap B)=P(A)\cdot P(B)\]
Vores hændelse A kan fx. være kunden stammer fra Østdanmark, og hændelse B at kunden har ikke anmeldt skader. Vi får da følgende ligning: \[P(Østdanmark\cap 0\ skader)=P(Østdanmark)\cdot P(0\ skader)\] Vi kan omskrive dette til: \[P(Østdanmark\cap0\ skader)=P(Østdanmark)\cdot P(0\ skader)\Leftrightarrow \frac{300}{1000}=\frac{600}{1000}\cdot \frac{550}{1000} \Leftrightarrow \]\[1000\cdot\frac{300}{1000}=1000\cdot \frac{600\cdot550}{1000\cdot1000} \Leftrightarrow 300= \frac{600\cdot550}{1000}\] Her er venstresiden i ligningen jo den observerede celleværdi. Hvis der er uafhængighed under nulhypotesen, vil vi forvente at den observerede værdi, er lig med venstresiden, som vi kalder den forventede værdi. Hvis der er perfekt uafhængighed mellem landsdel og skadesanmeldelse, ville vi altså i hver celle forvente værdien: \[\frac{rækkesum\cdot søjlesum}{totalsum}\]
Vi får derfor følgende matrice.
| Forventet | Ingen skader anmeldt | 1 eller flere skader | Total |
|---|---|---|---|
| Østdanmark | \(\frac{rækkesum\cdot søjlesum}{totalsum}=\frac{600\cdot 550}{1000}=330\) | \(\frac{rækkesum\cdot søjlesum}{totalsum}=\frac{600\cdot 450}{1000}=270\) | 600 |
| Vestdanmark | \(\frac{rækkesum\cdot søjlesum}{totalsum}=\frac{400\cdot 550}{1000}=220\) | \(\frac{rækkesum\cdot søjlesum}{totalsum}=\frac{400\cdot 450}{1000}=180\) | 400 |
| Total | 550 | 450 | 1000 |
Vi kan nu beregne chi i anden cellebidragene med samme formel som for goodness of fit testet:
\[\frac{(O-E)^2}{E}\]
| Chi celle bidrag | Ingen skader anmeldt | 1 eller flere skader | Total |
|---|---|---|---|
| Østdanmark | \(\frac{(300-330)^2}{330}=2.7272727\) | \(\frac{(300-270)^2}{270}=3.3333333\) | |
| Vestdanmark | \(\frac{(250-220)^2}{220}=4.0909091\) | \(\frac{(150-180)^2}{180}=5\) | |
| Total | 15.15 |
Teststørrelsen bliver 15.15, denne bruger vi til at beregne p-værdien for testet af uafhængighed. Antallet af frihedsgrader for chi i anden fordelingen er antallet af rækkeinddelingskriterier Østdanmark og Vestdanmark minus 1, gange antallet af søjleinddelingskriterier 0 skader og flere end 0 skader minus 1, dvs. \[(r-1)\cdot(s-1)=(2-1)\cdot(2-1)=1\cdot1=1\] Vi får p-værdien 9.910^{-5}, hvilket er klart mindre end signifikansniveauet på 5%, arealet er så lille vi ikke kan se det på figuren nedenfor. Vi forkaster altså nulhypotesen og konstaterer der er afhængighed mellem landsdel og anmeldte skader. Landsdelen som kunden stammer fra, påvirker altså antallet af anmeldte skader. Vi kan nu se om der er chi i anden bidrag, der er meget store og dermed bidrager stæ til konklusionen om afhængighed. Der er ikke en voldsom forskel i størrelserne på chi i anden bidragene, men når vi ser på observeret mod forventet, ser vi at 150 anmelder skader, det var forventet at 180 personer fra Vestdanmark anmelder skader. Denne tendens er modsat for Østdanmark. Vestdanmark anmelder altså færre skader end Østdanmark.
Ligesom for goodness of fit testet, skal de forventede værdier have en vis størrelse for at vore konklusioner er præcise. Forudsætningen om forventede værdier større end 5 er opfyldt for alle celler.
Freestat output bliver
Vi antager nu der foreligger mere specifikke data for undersøgelsen omkring geografisk placering og skadesanmeldelse.Vi har finere inddeling på region og antal skader.
| Observeret | 0 skader | 1 skade | 2 eller flere skader | Total |
|---|---|---|---|---|
| Hovedstaden | 150 | 125 | 50 | 325 |
| Sjælland | 150 | 100 | 25 | 275 |
| Syddanmark | 75 | 30 | 10 | 115 |
| Midtjylland | 75 | 40 | 10 | 125 |
| Nordjylland | 100 | 45 | 15 | 160 |
| Total | 550 | 340 | 110 | 1000 |
Vi kan teste om der er forskel på om der er forskel på andelen af anmeldte skader i Øst- og Vestdanmark vha. chi i anden testet. Vi har følgende hypoteser.
\[H_0: Der\ er\ uafhængighed\ mellem\ region\ og\ antal skader\]\[H_1: Der\ er\ afhængighed\ mellem\ region\ og\ antal skader\]
Hvis nulhypotesen forkastes påvirker regionen kunder kommer fra altså antallet af anmeldte skader.
Vi beregner de forventede værdier efter den sædvanlige formel:
\[\frac{rækkesum\cdot søjlesum}{totalsum}\]
Hvilket giver følgende matrix
| Forventet | 0 skader | 1 skade | 2 eller flere skader | Total |
|---|---|---|---|---|
| Hovedstaden | 178.75 | 110.5 | 35.75 | 325 |
| Sjælland | 151.25 | 93.5 | 30.25 | 275 |
| Syddanmark | 63.25 | 39.1 | 12.65 | 115 |
| Midtjylland | 68.75 | 42.5 | 13.75 | 125 |
| Nordjylland | 88 | 54.4 | 17.6 | 160 |
| Total | 550 | 340 | 110 | 1000 |
Vi kan nu beregne chi i anden cellebidragene med samme formel som for goodness of fit testet:
\[\frac{(O-E)^2}{E}\]
| Chi celle bidrag | 0 skader | 1 skade | 2 eller flere skader | Total |
|---|---|---|---|---|
| Hovedstaden | 4.6241259 | 1.9027149 | 5.6800699 | 12.2069107 |
| Sjælland | 0.0103306 | 0.4518717 | 0.911157 | 1.3733593 |
| Syddanmark | 2.1828063 | 2.1179028 | 0.5551383 | 4.8558475 |
| Midtjylland | 0.5681818 | 0.1470588 | 1.0227273 | 1.7379679 |
| Nordjylland | 1.6363636 | 1.6242647 | 0.3840909 | 3.6447193 |
| Total | 9.0218082 | 6.2438129 | 8.5531835 | 23.8188046 |
Teststørrelsen bliver 23.82, denne bruger vi til at beregne p-værdien for testet af uafhængighed. Antallet af frihedsgrader bliver \[(r-1)\cdot(s-1)=(5-1)\cdot(3-1)=4\cdot 2=8\] Vi får p-værdien 0.002458, hvilket er klart mindre end signifikansniveauet på 5%. Vi forkaster nulhypotesen og konstaterer, der er afhængighed mellem region og antal anmeldte skader. Regionen som kunden stammer fra, påvirker altså antallet af anmeldte skader. Vi kan se, der er chi i anden bidrag, der er store for region København, disse bidrager kraftigt til konklusionen om afhængighed. Københavnerne anmelder flere skader end forventet, dermed er der færre københavnere end forventet, der ikke anmelder skader.
Forudsætningen om forventede værdier større end 5 er opfyldt for alle celler.
Freestat output bliver
[toggle title=Spørgsmål] I 1912 forliste Titanic, vi har i filen oplysninger om passagererne. Har man har større chance for at overleve, hvis man er velhavende? Vi har ikke oplysninger om passagerernes formuer, men vi kan bruge oplysningerne om billetterne som en proxy for velstand. Variablen pclass angiver hvilken billet den pågældende passager havde, 1. klasse er dyrest. Variablen survived fortæller om en passager overlevede 1 eller døde 0. Data er i filen Titanic.
[/toggle][toggle title=Svar] Vi sorterer passagerer efter billet og om de har overlevet.
| Observeret | Døde | Overlevede | Total |
|---|---|---|---|
| 1. Klasse | 123 | 200 | 323 |
| 2. Klasse | 158 | 119 | 277 |
| 3. Klasse | 528 | 181 | 709 |
| Total | 809 | 500 | 1309 |
Vi kan teste om der er billettype betyder noget for overlevelse. Vi får følgende hypoteser:
\[H_0: Der\ er\ uafhængighed\ mellem\ passagerklasse\ og\ overlevelse\]\[H_1: Der\ er\ afhængighed\ mellem\ passagerklasse\ og\ overlevelse\]
Hvis nulhypotesen forkastes betyder passagerklasse noget for noget for overlevelsen
Vi beregner de forventede værdier:
\[\frac{rækkesum\cdot søjlesum}{totalsum}\]
Hvilket giver følgende matrix
| Forventet | Døde | Overlevede | Total |
|---|---|---|---|
| 1. Klasse | 199.62 | 123.38 | 323 |
| 2. Klasse | 171.19 | 105.81 | 277 |
| 3. Klasse | 438.18 | 270.82 | 709 |
| Total | 809 | 500 | 1309 |
Vi kan nu beregne chi i anden cellebidragene med samme formel som for goodness of fit testet:
\[\frac{(O-E)^2}{E}\]
| Chi celle bidrag | Døde | Overlevede | Total |
|---|---|---|---|
| 1. Klasse | 29.4111 | 47.5871 | 76.9982 |
| 2. Klasse | 1.0169 | 1.6453 | 2.6622 |
| 3. Klasse | 18.4105 | 29.7882 | 48.1987 |
| Total | 48.8385 | 79.0207 | 127.8592 |
Teststørrelsen bliver 127.86, denne bruger vi til at beregne p-værdien for testet af uafhængighed. Antallet af frihedsgrader bliver \[(r-1)\cdot(s-1)=(3-1)\cdot(2-1)=2\cdot 1=2\] Vi får p-værdien 0, hvilket er klart mindre end signifikansniveauet på 5%. Vi forkaster nulhypotesen og konstaterer, der er afhængighed mellem passagerklasse og overlevelse.
Forudsætningen om forventede værdier større end 5 er opfyldt for alle celler.
Vi kan se at 200 1. klasses passagerer overlevede mod forventet 123.38 under nulhypotesen, hvilket giver et meget stort chi i anden bidrag. Omvendt overlevede kun 181 3. klasses passagerer mod 270.82 forventet under nulhypotesen. Der var altså væstentlig større chance for overlevelse hvis man er velhavende. [/toggle][toggle title=Spørgsmål] Vi ser på data for bankansatte i filen Bankdata filen. Er der sammenhæng mellem jobfunktion og køn?
[/toggle][toggle title=Svar] Vi sorterer personalet efter jobfunktion og køn.
| Observeret | Kvinde | Mand | Total |
|---|---|---|---|
| Administration | 206 | 157 | 363 |
| Sikkerhedspersonale | 0 | 27 | 27 |
| Ledelse | 10 | 74 | 84 |
| Total | 216 | 258 | 474 |
Vi kan teste om der er billettype betyder noget for overlevelse. Vi får følgende hypoteser:
\[H_0: Der\ er\ uafhængighed\ mellem\ jobfunktion\ og\ køn\]\[H_1: Der\ er\ afhængighed\ mellem\ jobfunktion\ og\ køn\]
Hvis nulhypotesen forkastes har køn betydning for jobfunktion.
Vi beregner de forventede værdier:
\[\frac{rækkesum\cdot søjlesum}{totalsum}\]
Hvilket giver følgende matrix
| Forventet | Kvinde | Mand | Total |
|---|---|---|---|
| Administration | 165.42 | 197.58 | 363 |
| Sikkerhedspersonale | 12.3 | 14.7 | 27 |
| Ledelse | 38.28 | 45.72 | 84 |
| Total | 216 | 258 | 474 |
Vi kan nu beregne chi i anden cellebidragene med samme formel som for goodness of fit testet:
\[\frac{(O-E)^2}{E}\]
| Chi celle bidrag | Kvinde | Mand | Total |
|---|---|---|---|
| Administration | 9.9561 | 8.3354 | 18.2915 |
| Sikkerhedspersonale | 12.3038 | 10.3009 | 22.6047 |
| Ledelse | 20.8909 | 17.4901 | 38.381 |
| Total | 43.1508 | 36.1264 | 79.2772 |
Teststørrelsen bliver 79.28, denne bruger vi til at beregne p-værdien for testet af uafhængighed. Antallet af frihedsgrader bliver \[(r-1)\cdot(s-1)=(3-1)\cdot(2-1)=2\cdot 1=2\] Vi får en meeget lille p-værdi afrundet til 0, hvilket er klart mindre end signifikansniveauet på 5%. Vi forkaster nulhypotesen og konstaterer, der er afhængighed mellem jobfunktion og køn.
Forudsætningen om forventede værdier større end 5 er opfyldt for alle celler.
Udfra tabellerne ses at mænd er underrepræsenteret i administrationen og overrepræsenteret i sikkerhedspersonale og ledelse. [/toggle][toggle title=Spørgsmål] Vi ser fortsat på data for bankansatte i filen Bankdata filen. Er der sammenhæng mellem jobfunktion og minoritet? Minoritet er ikke-hvide.
[/toggle][toggle title=Svar] Vi sorterer personalet efter jobfunktion og køn.
| Observeret | Ikke-minoritet | minoritet | Total |
|---|---|---|---|
| Administration | 276 | 87 | 363 |
| Sikkerhedspersonale | 14 | 13 | 27 |
| Ledelse | 80 | 4 | 84 |
| Total | 370 | 104 | 474 |
Vi kan teste om minoritet betyder noget for jobfunktion. Vi får følgende hypoteser:
\[H_0: Der\ er\ uafhængighed\ mellem\ jobfunktion\ og\ minoritet\]\[H_1: Der\ er\ afhængighed\ mellem\ jobfunktion\ og\ minoritet\]
Hvis nulhypotesen forkastes betyder det at tilhører man en minoritet har dette betydning for jobfunktionen.
Vi beregner de forventede værdier:
\[\frac{rækkesum\cdot søjlesum}{totalsum}\]
Hvilket giver følgende matrix
| Forventet | Ikke-minoritet | Minoritet | Total |
|---|---|---|---|
| Administration | 283.35 | 79.65 | 363 |
| Sikkerhedspersonale | 21.08 | 5.92 | 27 |
| Ledelse | 65.57 | 18.43 | 84 |
| Total | 370 | 104 | 474 |
Vi kan nu beregne chi i anden cellebidragene med samme formel som for goodness of fit testet:
\[\frac{(O-E)^2}{E}\]
| Chi celle bidrag | Ikke-minoritet | minoritet | Total |
|---|---|---|---|
| Administration | 0.1909 | 0.6791 | 0.87 |
| Sikkerhedspersonale | 2.3756 | 8.4518 | 10.8274 |
| Ledelse | 3.1758 | 11.2985 | 14.4743 |
| Total | 5.7423 | 20.4294 | 26.1717 |
Teststørrelsen bliver 26.17, denne bruger vi til at beregne p-værdien for testet af uafhængighed. Antallet af frihedsgrader bliver \[(r-1)\cdot(s-1)=(3-1)\cdot(2-1)=2\cdot 1=2\] Vi får en lille p-værdi på 210^{-6}, hvilket er klart mindre end signifikansniveauet på 5%. Vi forkaster nulhypotesen og konstaterer, der er afhængighed mellem jobfunktion og om man tilhører en minoritet.
Forudsætningen om forventede værdier større end 5 er opfyldt for alle celler.
Udfra tabellerne ses at minoriteter er overrepræsenteret blandt administration og sikkerhedspersonale og underrepræsenteret i ledelsen.
[/toggle]