1. Fortæl overordnet om jeres problemstillinger:

Vi arbejder med mobilitet og arbejder mod en løsning, hvor der kan indgå cykler, derfor vil vi gerne undersøge om folk der pendler på cykler, føler sig trygge eller utrygge imens de pendler. Der er blevet arbejdet med et datasæt, hvor folk, der cykler på følgende ruter: Allerødruten, Frederikssundsruten, Ringruten, Ring 4 ruten og Værløseruten, er blevet adspurgt.

Da nogle af spørgsmålene ikke havde relevans for tryghed, er der blevet udvalgt følgende data: om man føler sig tryg på supercykelstier, ens køn, hvor gammel man er, om man har været i en ulykke på cykel og hvor langt man pendler til arbejde. Det vil hjælpe vores projekt, med at undersøge om cykling er en god løsning og hvordan man forbedrer og målretter cykling så flere vil bruge det ofte og effektivt.

Det evaluerer samtidigt supercykelstier og giver en forståelse af dem, der kan være relevant for vores semesterprojekt.

2. Beskriv hvilke data, der skal danne baggrund for jeres undersøgelse:

Datasættet, der danner baggrund for undersøgelsen, er udarbejdet af Andres Felipe Valderama. Dataene er lavet til en videnskabelig artikel, der undersøger supercykelstier, for at få en forståelse for om der skal laves flere supercykelstier.

Forsøget er lavet ved at udspørge cyklister på supercykelstierne om deres mening om supercykelstier. Det har givet en masse tal og udtalelser, som beskriver alle supercykelstier i københavnsområdet. Det betyder altså, at de har rigtige mange variabler og mange af dem er meninger og følelser, derfor har vi valgt at fokusere på tryghed og hvordan de bliver påvirket af nogle enkelte områder der kan kvantificeres, som køn, alder, distance cyklet på supercykelstier og ulykker.

Tryghed og distance er begge faktoreret i fem grupper. Distance er bestemt ved at spørge om, hvor langt man cykler, angivet i km interval som fx 0-5km, 5-10km osv. Ved spørgsmålet om tryghed, har grupperne svaret på om de har følt sig; meget tryg, tryg, hverkend tryg eller utryg, utryg eller meget utryg. Disse data har vi ændret i excel dokumentet og lavet til tal fra 1 til 5. Her beskriver 1, at man er meget utryg og 5 at man er meget tryg.

Alder er indlæst som en numerisk variabel hvor højeste alder 100 år og laveste alder 13 år.

Ulykker samt køn er grupperingsvariabler, hvor ulykker er om, man har været i en ulykke ja/nej, og køn om man er mand/kvinde.

Der er taget udgangspunkt i den teori som stammer fra bogen: “Statistical Methods For the Social Sciences” skrevet af Alan Agresti.

3. Fortæl hvad I vil undersøge, dvs. opstil hypoteser om sammenhænge mellem de variable, som I har valgt at indsamle information om:

Vi vil, som tidligere skrevet, undersøge tryghed på cykelstier i forhold til alder, køn, distance og om de har været i en ulykke. Her opstiller vi først 0 hypoteser for alle systemerne, hvor vi regner med at der ikke er nogen signifikant sammenhæng mellem variablerne og tryghed. Så hvis 0 hypotesen skal forkastes skal der være en signifikant sammenhæng.

Det vil blive testet ved flere forskellige test, der ser om variablerne er afhængige af hinanden derfor opstilles den nendenstående H0. \[ H0:\mu1-\mu2=0 \] Nul hypotesen beskriver at de to værdier er ens og de derfor ikke er afhængige af hinanden, da værdien ikke ændrer trygheden.

4. Hvis I ikke selv indsamler data, så gør nogle overvejelser om kilder til bias:

Det er kun folk der er vant til at bruge supercykelstierne, der er blevet spurgt. Det er altså de fleste af respondenterne, som er vant til at bruge cykelstien, derudover er de fleste vant til at cykle og potentielt set føler sig mere sikre på en cykel, end en gennemsnitsdansker.

En anden anledning til Bias er, at der kun er indragget 5 ruter/cykelruter, derfor mangler altså den bredere andel af den danske befolkning, hvis man havde inkluderet et datasæt, som omfatter et større område.

Ydermere ses det på datasættet, at der er 27 svar fra en af ruterne og 196 svar fra en anden rute, der er derfor mulighed for, at en rute kan skævvride vores data, hvis den ligger i et kvarter, hvor fx gennemsnitsalderen er lav.

En anden faktor, der kan give anlening til bias, er spørgsmålet om ulykker. Her bliver der spurgt om, man har været i en ulykke eller ej, hvor det i stedet kunne være interessant om antallet af gange man har været i ulykker påvirker nogle af de andre parametre.

Det beskrives senere i rapporten, at der ses en sammenhæng mellem tryghed og ulykker. Det vil have været relevant, at kunne se om der var en stærkere sammenhæng med antallet af ulykker, man har været indblandet i og ens tryghedsscore.

5. Dataindkodning

I R bliver der først importeret det relevante datasæt og de fire søjler udvælges, samt der kaldes på nødvendige bibliotekker(library).

BilagBS: hentes fra mappen med de 5 excel ark. samlet: er et nyt excel ark, der kun har de fem relevante søjler for vores projekt: Tryghed, Køn, Alder, Distance og Ulykker samlet_nona: er et nyt datasæt, hvor vi har fjernet alle ikke besvarede/aktive celler i Excelarket.

Ovenstående proces ses i koden nedenfor.

## Warning: package 'tidyverse' was built under R version 4.0.3
## Warning: package 'forcats' was built under R version 4.0.3
## Warning: package 'expss' was built under R version 4.0.3
## Warning: package 'readxl' was built under R version 4.0.3
samlet_nona
## # A tibble: 439 x 5
##    Distance Køn    Alder Tryghed Ulykker
##       <dbl> <chr>  <dbl>   <dbl> <chr>  
##  1        3 Mand      28       3 Nej    
##  2        4 Kvinde    42       4 Nej    
##  3        4 Mand      51       3 Ja     
##  4        4 Mand      57       2 Ja     
##  5        5 Kvinde    61       3 Nej    
##  6        1 Kvinde    42       2 Nej    
##  7        1 Mand      44       4 Nej    
##  8        4 Mand      55       4 Nej    
##  9        2 Kvinde    32       4 Nej    
## 10        4 Kvinde    53       4 Nej    
## # ... with 429 more rows

6. Grafer

Efter datasættet er indlæst i Rstudio, laves der grafer der illustrerer data variablerne i forhold til hinanden.

Det giver læseren mulighed for at antage, om der er nogle signifikante sammenhænge eller ej, der kan dog ikke konkluderes noget udfra graferne.

gf_point(Tryghed ~ Alder|Ulykker, color = ~Distance, data = samlet_nona) %>% gf_jitter(height = 0.5)

Den første graf

Viser sammehængen mellem tryghed, alder, distance og ulykker og den viser ummidlebart at der ikke er nogle sammenhænge, da den eneste forskel på de to plots, er at der er færre der har været i ulykker.

I forhold til tryghed, ser det ud til, at den er rimelig ens fordelt, måske lige på nær at der er færre, der er meget trygge, som har været i et uheld.

gf_percents(~Tryghed, fill = ~Køn, data = samlet_nona)

Den anden graf

Denne graf viser sammenhæng mellem tryghed og køn, som senere testes ved en T-test, her ser det dog ud til at der er en lige fordeling af hvert køn i alle de grupper, der handler om tryghed. Det ser dog ud til, at der er flere mandlige respondenter end kvindelige.

gf_point(Tryghed~Alder|Køn,color=~Køn,data=samlet_nona) %>% gf_jitter(height = 0.5)

Den tredje graf

Denne graf viser sammenhængen mellem tryghed køn og alder, den viser umiddelbart, at aldersfordelingen er den samme i forhold til tryghed og at der ikke er en sammenhæng mellem tryghed og køn

gf_point(Tryghed~Distance|Ulykker,data=samlet_nona) %>% gf_jitter(height = 0.5)

Den fjerde graf

Her vises sammenhængen mellem tryghed, distance og ulykker, hvor det ligner at distance ikke rigtig har nogen forskel på tryghed. Til gengæld ser det ud som, at der er færre der føler sig meget trygge, som har været i en ulykke. Dette undersøges yderligere i næste graf.

gf_point(Tryghed~Ulykker,data=samlet_nona) %>% gf_jitter(height = 0.5)

Den femte graf

For at “rydde” lidt op i den fjerde graf, har vi kun set på sammenhængen mellem tryghed og om man har været i en ulykke. Her ses det at færre, som har svaret ja til at de har været i en ulykke og føler sig meget trygge, tilgengæld ligner det ikke rigitg at der er andre sammenhænge.

Der kan dog ikke konkluderes noget ud fra ovenstående grafer, derfor påbegyndes følgende analyser: T-tests, Chi test og Multiple linear regression med fokus på tryghed.

7. T-test

T-test for nulhypotesen fortæller, hvor langt væk de observerede data er fra de forventede data. Det er oftest en måde at fortælle, antallet af standard fejl (standard error) mellem estimatet og nulhypotesen.

Der laves en t-test for Tryghed og Køn, for at se om der er nogen forskel på Tryghed mellem mænd og kvinder. Forskellen ses ud fra Nulhypotesen, der siger, at der ikke er nogen sammenhæng mellem Tryghed og køn.

t.test(Tryghed ~ Køn, data = samlet)
## 
##  Welch Two Sample t-test
## 
## data:  Tryghed by Køn
## t = 0.42115, df = 375.2, p-value = 0.6739
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -0.1423130  0.2198904
## sample estimates:
## mean in group Kvinde   mean in group Mand 
##             3.391061             3.352273

Her er lavet en T-test med værdien 0.42, hvilket er meget lavt, derfor kan nulhypotesen ikke forkastes.

For at visualisere testen findes Standard Deviation, fra favstats, der beskriver det interval T-værdien statistisk kan variere imellem og T værdien plottes.

T-værdien er værdien på x aksen for en normalfordeling omkring 0, så hvis den er meget stor eller meget lille ryger den ud af konfindensintervallet.

favstats(Tryghed~Køn,data=samlet_nona)
##      Køn min Q1 median Q3 max     mean        sd   n missing
## 1 Kvinde   1  3      4  4   5 3.393258 0.9639605 178       0
## 2   Mand   1  3      4  4   5 3.352490 0.9355601 261       0
pdist("norm",q=0.42,mean=0,sd=0.96)

## [1] 0.6691256

Ifølge denne T-test kan nulhypotesen ikke forkastes, derfor er der ikke en sammenhæng mellem Tryghed og køn

T-test 2

Der laves en t-test for Ulykker og Tryghed for at se om der er nogen forskel på Tryghed mellem folk der har svaret ja eller nej til om de har været i en Ulykke. Nulhypotesen er, at der ikke er sammenhæng mellem Ulykker og Tryghed.

t.test(Tryghed ~ Ulykker, data = samlet)
## 
##  Welch Two Sample t-test
## 
## data:  Tryghed by Ulykker
## t = -3.1269, df = 46.578, p-value = 0.003042
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -0.9321633 -0.2021863
## sample estimates:
##  mean in group Ja mean in group Nej 
##          2.857143          3.424318

Her ser man, at T-værdien (-3.12) er høj og P-værdien (0.003) er lav. Det betyder at nulhypotesen kan forkastes på et 95% konfindesinterval.

Da P-værdien (0.003) er så lav, kan den sågar forkastes på et 99% konfidensinterval, da den er lavere end 0.01.

Det plottes som i den første t-test. Det skraverede areal for B er lidt lavere end P-værdien, men det er fordi, man skal tage hale arealet på begge sider.

favstats(Tryghed~Ulykker,data=samlet_nona)
##   Ulykker min Q1 median Q3 max     mean        sd   n missing
## 1      Ja   1  2      3  4   5 2.857143 1.1384934  42       0
## 2     Nej   1  3      4  4   5 3.423174 0.9085825 397       0
pdist("norm",q=3.12,mean=0,sd=1.1)

## [1] 0.9977185

Der er altså en signifikant forskel mellem ulykker og Tryghed og nulhypotesen forkastes.

8. Chisquared test

Chi test tester, hvor langt de forventede værdier er fra de observede værdier, ved at tage den numeriske værdi i anden af forskellen mellem de forventede og observerede værdier. Des højere chi-squared værdien er, des mindre tror man på nulhypotesen, da de observerede værdier er langt fra de forventede værdier

Efter at have lavet vores T-test, laver vi Chi-squared, for at teste om køn, ulykker og tryghed er uafhængige af hinanden.

Først opsættes en contingency table for køn og ulykker.

chikøn1 <- tally(Køn~Ulykker, data = samlet_nona, margins = TRUE)
chikøn1
##         Ulykker
## Køn       Ja Nej
##   Kvinde  15 163
##   Mand    27 234
##   Total   42 397

Herefter finder vi procenterne, for at kunne se hvad de rigtige værdier skulle være, hvis der ikke er nogle sammenhænge. Det vil sige expected values.

n <- margin.table(chikøn1)
nchikøn1=round(margin.table(chikøn1, 2) / n, 2)
nchikøn1
## Ulykker
##  Ja Nej 
## 0.1 0.9

Disse værdier indsættes, så man får de værdier, der skal være, hvis der ikke er nogle sammenhænge. Her multiplicere man totalen med 0.1 for mænd, og indsætter det på pladsen for mænd, der har været i ulykker, det samme gøres med kvinder, der har været i ulykker, og 0.9 for dem, der ikke har været i ulykker. Altså, hvis der ikke er nogen sammenhæng skal 10% af mænd have været i en ulykke og det samme med kvinder.

Denne tabel kommer dog først under vores resultater for Chi-i-anden-testen.

Expected tabel skal bruges grundet at T-testværdierne findes ved: \[ \chi{^2}test =\Sigma(x_{obs}-x_{predicted}/x_{predicted}) \] Hvor xobs er observeret fra den første tabel, og xpredicted er de forventede værdier, der er beskrevet over Chi resultatet og vises herunder.

test_rslt <- chisq.test(chikøn1,correct=FALSE)
test_rslt$expected
##         Ulykker
## Køn            Ja      Nej
##   Kvinde 17.02961 160.9704
##   Mand   24.97039 236.0296
##   Total  42.00000 397.0000
test_rslt
## 
##  Pearson's Chi-squared test
## 
## data:  chikøn1
## X-squared = 0.4499, df = 2, p-value = 0.7986

Det ses at værdierne for forventede og observede er meget tæt på hinanden, hvilket passer med Chi-i-anden resultatet.

Ved test resultatet for Pearson’s Chi-squared test er der få frihedsgrader og en lav Chi-squared værdi, derfor virker det til, at der ikke er nogle sammenhæng. Det ses også på den høje P-værdi (0.79), der viser at der er 80% for at få et sådant resultat igen.

Nulhypotesen kan ikke forkastes, derfor er der ikke en signifikant sammenhæng mellem hvilket køn man har og om man har været i en ulykke.

1-pdist("chisq",0.4499,df=2)

## [1] 0.7985561

Det betyder, at vi ikke kan afkaste vores nulhypotese for køn og ulykker, det kan derfor ikke forkastes, at der ikke er en sammenhæng

Chi-i-anden-test for Tryghed og ulykker

Efter at have lavet vores Chi-squared for køn og ulykker, laver vi en for tryghed og ulykker, for at teste om, der også er en sammenhæng her, som der var i T-testen for de to variable.

Først opsættes contingency table for vores variabler

chikøn <- tally(Tryghed~Ulykker, data = samlet_nona, margins = TRUE)
chikøn
##        Ulykker
## Tryghed  Ja Nej
##   1       6   9
##   2      11  63
##   3       9 101
##   4      15 199
##   5       1  25
##   Total  42 397

Herefter finder vi procenterne for at kunne se, hvad de rigtige værdier skulle være, hvis der ikke er nogle sammenhænge

n <- margin.table(chikøn)
nchikøn=round(margin.table(chikøn, 2) / n, 2)
nchikøn
## Ulykker
##  Ja Nej 
## 0.1 0.9

Disse værdier indsættes, og man får expected table lidt længere nede. Først findes Chi værdien i R og bagefter vises expected table, da man hiver expected table fra chi-testen i R. Expected table bruges til at finde: \[ \chi{^2}test =\Sigma(x_{obs}-x_{predicted}/x_{predicted}) \]

test_res=chisq.test(chikøn,correct=FALSE)
## Warning in chisq.test(chikøn, correct = FALSE): Chi-squared approximation may be
## incorrect
test_res
## 
##  Pearson's Chi-squared test
## 
## data:  chikøn
## X-squared = 21.303, df = 5, p-value = 0.0007098

Det plottes, ud fra tallene ovenover

test_res$expected
##        Ulykker
## Tryghed        Ja       Nej
##   1      1.435080  13.56492
##   2      7.079727  66.92027
##   3     10.523918  99.47608
##   4     20.473804 193.52620
##   5      2.487472  23.51253
##   Total 42.000000 397.00000

Det ses her, at der er pænt store afvigelser blandt andet forskellen på tryghedsgrad 2 og 5, hvilket kunne indikere, at der er en sammenhæng mellem ulykker og tryghed. Det plottes herunder ud fra tallene regnet over.

1-pdist("chisq",21.3,df=5)

## [1] 0.000710861

Her ser vi, at P-værdien er lille og Chi-i-anden-værdien er høj, hvilket betyder at nulhypotesen kan forkastes ligesom i T-testen, hvor der er en signifikant forskel mellem Tryghed og Ulykker.

9.Multiple lineær regression

Da vi gerne vil undersøge om, vores variable: ulykker, alder, køn og distance har en signifikant sammenhæng med Tryghed, vælger vi at arbejde med multiple lineær regression.

Da vi vil undersøge forholdene for flere variable, benytter vi Multiple Lineær Regression, som ved hjælp af R, kan give os information, om både sammenhængen mellem forskellige variabler og teste forhold mellem variabler, mens den kontrollerer for de andre variable (Agresti 2018).

I dette afsnit vil der, ved hjælp af Rstudio funktionen ‘lm’, testes for lineær regression.

Først tester vi for alle de variable, der er blevet benyttet i de foregående analyser, se nedenstående kode.

model=lm(Tryghed~Ulykker+Køn+factor(Distance)+Alder, data=samlet_nona)
summary(model)
## 
## Call:
## lm(formula = Tryghed ~ Ulykker + Køn + factor(Distance) + Alder, 
##     data = samlet_nona)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -2.5417 -0.4711  0.5020  0.5943  2.2529 
## 
## Coefficients:
##                    Estimate Std. Error t value Pr(>|t|)    
## (Intercept)        2.703704   0.245222  11.026  < 2e-16 ***
## UlykkerNej         0.582660   0.153313   3.800 0.000165 ***
## KønMand           -0.043678   0.094293  -0.463 0.643440    
## factor(Distance)2 -0.035621   0.134709  -0.264 0.791576    
## factor(Distance)3  0.066049   0.145971   0.452 0.651149    
## factor(Distance)4  0.036989   0.171959   0.215 0.829787    
## factor(Distance)5  0.037916   0.172206   0.220 0.825837    
## Alder              0.003506   0.003730   0.940 0.347856    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.9367 on 431 degrees of freedom
## Multiple R-squared:  0.03579,    Adjusted R-squared:  0.02013 
## F-statistic: 2.286 on 7 and 431 DF,  p-value: 0.027

Resultat fra model

Man kan ud fra ovenstående udregning, uddrage følgende konklusioner:

  1. At funktionen, der beskriver variablernes sammenhæng er lig med:

\[ y = \alpha + \beta_u z_u + \beta_k z_k + \beta_{d2} z_{d2} + \beta_{d3} z_{d3} + \beta_{d4} z_{d4} + \beta_{d5} z_{d5} + \beta_a x_a + \varepsilon \]

Hvor y = Tryghed, som er den afhængige responsvariabel, alpha er skæringen, her er det ud fra en kvinde, som har været i en ulykke og alle de variabler, som er på beta’s plads, er uafhængige varibler:

Det betyder, altså at den endelige funktion for den lineære regression vil se således ud:

\[ y = 2.704 + 0.583z_u + -0.004z_k + -0.036z_{d2} + 0.066z_{d3}+0.037z_{d4}+0.038z_{d5}+0.004x_a \] 2. Man kan se på f.eks. Ulykker, at der er en standard fejl (0.15) og en t-score (3.8).

  1. Der kan derudover udledes, at parallelforskydningen fra Intercept og variablerne: Distance, Alder og Køn, er relativt tæt på 0, og derfor ikke har en signifikant sammenhæng. Det vil være interessant at se, hvis man fjerne nogle af variablerne, om der vil værre en større sammenhæng. Dette testes ved, at man i første omgang fjerner ‘Distance’ fra den multiple lineære regression:
model2=lm(Tryghed~Ulykker+Køn+Alder, data=samlet_nona)
summary(model2)
## 
## Call:
## lm(formula = Tryghed ~ Ulykker + Køn + Alder, data = samlet_nona)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -2.4877 -0.4536  0.5123  0.5926  2.2031 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  2.688655   0.228771  11.753  < 2e-16 ***
## UlykkerNej   0.582497   0.152366   3.823 0.000151 ***
## KønMand     -0.032126   0.090787  -0.354 0.723613    
## Alder        0.004010   0.003587   1.118 0.264157    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.9333 on 435 degrees of freedom
## Multiple R-squared:  0.03404,    Adjusted R-squared:  0.02738 
## F-statistic:  5.11 on 3 and 435 DF,  p-value: 0.001746

Resultat fra model 2

Det kan udledes, at Køn heller ikke har en sammenhæng, da parallelforskydningen er tæt på 0 og p-værdien er 0.72.

For at finde ud af om Alder og Ulykker har en sammenhæng med Tryghed, fjernes ‘Køn’ fra den multiple lineære regression og der bliver desmere plottet en regressionsmodel for at visualisere sammenhængen for modellen:

model3=lm(Tryghed~Alder+Ulykker, data=samlet_nona)
summary(model3)
## 
## Call:
## lm(formula = Tryghed ~ Alder + Ulykker, data = samlet_nona)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -2.4684 -0.4585  0.5156  0.5893  2.1913 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 2.669290   0.221907  12.029  < 2e-16 ***
## Alder       0.003983   0.003582   1.112 0.266826    
## UlykkerNej  0.584090   0.152147   3.839 0.000142 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.9323 on 436 degrees of freedom
## Multiple R-squared:  0.03377,    Adjusted R-squared:  0.02933 
## F-statistic: 7.618 on 2 and 436 DF,  p-value: 0.0005597
plotModel(model3)

Resultat fra model 3

Her ses, at alder stadig ikke er signifikant, det kan dog være, at dem som har været med i en ulykke og også er ældre, har en større tilbøjelighed til at være utrygge i trafikken. Derfor laver vi en regressions model, hvor der er en vekselvirkning mellem alder og ulykker.

model4=lm(Tryghed~Alder*Ulykker, data=samlet_nona)
summary(model4)
## 
## Call:
## lm(formula = Tryghed ~ Alder * Ulykker, data = samlet_nona)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -2.4777 -0.4657  0.5031  0.5919  2.1169 
## 
## Coefficients:
##                   Estimate Std. Error t value Pr(>|t|)    
## (Intercept)       2.957600   0.513157   5.764 1.56e-08 ***
## Alder            -0.002130   0.010443  -0.204    0.838    
## UlykkerNej        0.260972   0.540368   0.483    0.629    
## Alder:UlykkerNej  0.006929   0.011118   0.623    0.533    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.933 on 435 degrees of freedom
## Multiple R-squared:  0.03463,    Adjusted R-squared:  0.02797 
## F-statistic: 5.201 on 3 and 435 DF,  p-value: 0.001543
plotModel(model4)

Resultat fra model 4

Her kan man se på visualiseringen, at dem som bliver ældre, som ikke har været i en ulykke bliver mere trygge over tid og dem som har været i en ulykke og blevet ældre, bliver mindre trygge over tid.

Det ses dog stadig at forskydningen fra Intercept er utrolig lav i estimatet og har en høj p-værdi (0.53), så vi kan dermed sige, at en vekselvirkning mellem alder og ulykker ikke har en sammenhæng med, hvor tryg cyklisterne er.

Det betyder, at vores muliple lineær regression ikke har vist nogle signifikante sammenhænge, på nær mellem tryghed og ulykker, men da ulykker er en grupperingsvariable vises det bedre ved en T-test vi allerede har lavet først i opgaven, hvor vi fik næsten samme resultat som her, at ulykker og tryghed havde en signifikant sammenhæng

Vi har lavet en analysis of Variance, for at sikre, at der ikke er en signifikant sammenhæng mellem distance kategorierne og tryghed. Derfor laver vi en test, der ser, om der er en af de 5 distance kategorier, der er signfikant anderledes end de andre. Der kunne nemlig være en sammenhæng mellem en kategori og tryghed, men ikke de andre, det vil gøre distancen usynlig i multiple lineær regression. Derfor laves en F-test over dette, hvor vi sammenligner modellen med og uden Distancen.

anova(model2, model)
## Analysis of Variance Table
## 
## Model 1: Tryghed ~ Ulykker + Køn + Alder
## Model 2: Tryghed ~ Ulykker + Køn + factor(Distance) + Alder
##   Res.Df    RSS Df Sum of Sq      F Pr(>F)
## 1    435 378.87                           
## 2    431 378.18  4   0.68636 0.1956 0.9407

Det ses her, at P-værdien for F-test er meget høj og F er lav, derfor kan vi ydeligere se, at der ikke er nogle signifikante sammenhænge mellem tryghed og Distance og godkende, at vi fjernede denne fra vores lineær regression. Testen viser, at der ikke er nogle signifikante forskelle mellem de 5 forskellige faktorer i Distancen, altså at der er lige mange, der føler sig trygge i de forskellige kategorier for distancen.

10. Konklusion

Ud fra denne opgave kan vi konkludere, at der ikke er nogle signifikante sammenhænge mellem tryghed på supercykelstier i københavnsområder, og hvor langt man køre på dem, hvor gammel man er og ens køn. Det har vi testet ved T-test, Chi squared test og multipel lineær regression. Alle test har konkluderet det samme for disse variable, at der ikke er en signifikant sammenhæng.

Opgaven kan dog konkludere, at man på 99% kofidensinterval i T-testen kan forkaste nulhypotesen mellem tryghed og ulykker, hvilket betyder, at der er en signifikant forskel på om man har været i en ulykke og hvor tryg man føler sig på de danske supercykelstier.

11. Referenceliste

Agresti, A. (2018). Statistical methods for the social sciences (5. udg.). University of Florida.