Longitudinale opdracht course 3

Author

Annemay, Jeannette, Burcu, Mirthe, Marie, Maarten, Mark

Published

April 9, 2026

library(dplyr)


Attaching package: 'dplyr'

The following objects are masked from 'package:stats':

    filter, lag

The following objects are masked from 'package:base':

    intersect, setdiff, setequal, union

library(car)

Loading required package: carData


Attaching package: 'car'

The following object is masked from 'package:dplyr':

    recode

library(readxl)
library(writexl)
library(ggplot2)
library(readr)

Read data

Afhankelijk van de data bestand zullen je een code moeten kiezen om je data in te lezen.

Mydata<-read.csv("Mydata.csv")
Codebook<-read_csv("Codebook.csv")

Rows: 5 Columns: 32
── Column specification ────────────────────────────────────────────────────────
Delimiter: ","
chr (31): Student or teacher of EBPiHC (0/1), Gender (0/1), Age (years), Wei...
lgl  (1): Study number

ℹ Use `spec()` to retrieve the full column specification for this data.
ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.

Data cleaning, komen tot een definitieve data set.

Zorg dat u data set op orde komt voor het doen van een analyse.

Schrijf hier kort de uitleg van uw hercodeer of cleaning stap die u in de onderstaande r-chunk uitvoert (wat doet u en/of waarom).

De kolom ‘Gender..0.1.’ heb ik een nieuwe naam gegeven ‘geslacht’. Vervolgens heb ik R laten berekenen wat de verhouding man/vrouw was. De NA (niet ingvuld) zijn verhoudingsgewijs verdeeld. De kolom ‘age’ hoefde niet aangepast te worden aangezien alle deelnemers hun leeftijd hebben gegeven. De set.seed() heb ik gebruikt zodat dezelfde random verdeling wordt gebruikt als ik mijn script opnieuw run.

Mydata <-Mydata%>%
mutate(gender=as.numeric(Gender..0.1.))

Warning: There was 1 warning in `mutate()`.
ℹ In argument: `gender = as.numeric(Gender..0.1.)`.
Caused by warning:
! NAs introduced by coercion

Mydata <- Mydata %>%
  rename(geslacht = Gender..0.1.) %>%
  mutate(
    geslacht = trimws(geslacht),
    geslacht[geslacht == ""] <- NA,
    geslacht = as.numeric(geslacht)
  )

Warning: There was 1 warning in `mutate()`.
ℹ In argument: `geslacht = as.numeric(geslacht)`.
Caused by warning:
! NAs introduced by coercion

unique(Mydata$Gender..0.1.)

NULL

set.seed(123)

prop <- prop.table(table(Mydata$geslacht, useNA = "no"))

Mydata <- Mydata %>%
  rename(geslacht = geslacht) %>% 
  mutate(
    geslacht = trimws(geslacht),       
    geslacht[geslacht == ""] <- NA,   
    geslacht = as.numeric(geslacht)    
  )
prop <- prop.table(table(Mydata$geslacht, useNA = "no"))
print(prop)


        0         1 
0.1818182 0.8181818

set.seed(123) 

Mydata$geslacht[is.na(Mydata$geslacht)] <- sample(
  as.numeric(names(prop)),   
  sum(is.na(Mydata$geslacht)),  
  replace = TRUE,
  prob = prop                  
)

..herhaal deze stappen voor elke volgende codeer stap..

Uitvoeren analyses die nodig zijn om uw sample te beschrijven en uw onderzoeksvraag te beanwoorden.

Schrijf hier kort de uitleg van uw analysestap die u in de onderstaande r-chunk uitvoert (wat doet u en/of waarom)

In deze analyse zijn verschillende stappen uitgevoerd om inzicht te krijgen in de verdeling van geslacht in de dataset.

Allereerst is met table(Mydata$geslacht) het aantal observaties per categorie (vrouw = 0, man = 1) berekend. Dit geeft een overzicht van hoe vaak elke categorie voorkomt.

Vervolgens is met prop.table(table(Mydata$geslacht) * 100) het percentage per categorie berekend. Hierdoor wordt duidelijk welk aandeel van de dataset uit mannen en vrouwen bestaat.

Tot slot is met behulp van dplyr een overzichtstabel gemaakt waarin zowel het aantal (aantal) als het percentage (percentage) per geslacht wordt weergegeven. Dit combineert de absolute en relatieve verdeling in één overzicht, wat de interpretatie van de data vergemakkelijkt.

table(Mydata$geslacht)


 0  1 
 9 23

prop.table(table(Mydata$geslacht)*100)


      0       1 
0.28125 0.71875

Mydata %>%
  group_by(geslacht) %>%
  summarise(aantal = n()) %>%
  mutate(percentage = aantal / sum(aantal) * 100)

# A tibble: 2 × 3
  geslacht aantal percentage
     <dbl>  <int>      <dbl>
1        0      9       28.1
2        1     23       71.9

ggplot(Mydata, aes(x = factor(geslacht, labels = c("Vrouw", "Man")))) +
  geom_bar(fill = c("pink", "blue")) +
  labs(x = "Geslacht", y = "Aantal", title = "Verdeling Mannen en Vrouwen") +
  theme_minimal()

Schrijf hier uw interpretatie van de analyse die in bovenstaande r-chunk is uitgevoerd.

De analyse laat de verdeling van het geslacht binnen de dataset zien. Hierbij is gebruikgemaakt van een frequentietabel en een grafische weergave, waarbij 0 staat voor vrouwen en 1 voor mannen.

Uit de resultaten blijkt dat er 28% vrouwen en 71% mannen in de dataset aanwezig zijn. Dit betekent dat de steekproef duidelijk meer mannen dan vrouwen bevat en dus geen gelijke verdeling heeft.

De grafiek bevestigt deze verdeling visueel, waarbij het aantal mannen aanzienlijk hoger ligt dan het aantal vrouwen.

Op basis van deze analyse kan geconcludeerd worden dat de dataset een scheve verdeling van geslacht heeft. Dit kan van invloed zijn op verdere analyses, omdat de resultaten mogelijk meer representatief zijn voor mannen dan voor vrouwen.

..herhaal deze stappen voor elke volgende analysestap..{r}

In onderstaande analyse zijn verschillende stappen uitgevoerd om inzicht te krijgen in de leeftijdsverdeling van de eerste 18 observaties in de dataset.

Allereerst is met table(Mydata$Age..years.[1:18]) een frequentietabel gemaakt van de leeftijden. Dit laat zien hoe vaak elke leeftijd voorkomt binnen deze selectie.

Vervolgens is met mean(Mydata$Age..years.[1:18]) het gemiddelde van de leeftijden berekend. Dit geeft een indicatie van de centrale tendens van de leeftijd in deze groep.

Daarna is met boxplot(Mydata$Age..years.[1:18]) een boxplot gemaakt. Deze visualisatie geeft inzicht in de spreiding van de leeftijden, de mediaan en eventuele uitschieters (outliers).

Tot slot is met qqnorm(Mydata$Age..years.[1:18]) een Q-Q plot gemaakt om te beoordelen of de leeftijden ongeveer normaal verdeeld zijn. Hierbij wordt de verdeling van de data vergeleken met een theoretische normale verdeling.

table(Mydata$Age..years.[1:18])


26 27 28 29 30 33 34 37 41 43 46 50 52 54 61 
 1  2  2  2  1  1  1  1  1  1  1  1  1  1  1

mean(Mydata$Age..years.[1:18])

[1] 37.5

boxplot(Mydata$Age..years.[1:18])

qqnorm(Mydata$Age..years.[1:18])

De analyse van de observaties geeft inzicht in de verdeling van de leeftijden binnen deze groep.

Uit de frequentietabel blijkt welke leeftijden het meest voorkomen en of bepaalde leeftijden vaker vertegenwoordigd zijn dan andere. Het berekende gemiddelde geeft een algemene indruk van de centrale leeftijd in deze groep.

De boxplot laat zien hoe de leeftijden verspreid zijn rondom de mediaan en of er sprake is van uitschieters. Indien er punten buiten de “snorren” van de boxplot liggen, duidt dit op mogelijke outliers.

De Q-Q plot geeft een indicatie van de verdelingsvorm van de data. Wanneer de punten ongeveer op een rechte lijn liggen, kan worden aangenomen dat de leeftijden ongeveer normaal verdeeld zijn. Afwijkingen van deze lijn wijzen op een niet-normale verdeling.

Op basis van deze analyses kan geconcludeerd worden dat de leeftijden binnen deze steekproef [ongeveer normaal verdeeld zijn / afwijken van een normale verdeling], en dat de spreiding [beperkt/groot] is met [wel/geen] duidelijke uitschieters.

Short report

Introduction (course 2)

Copy your introduction section from course 2 and paste it here.

Methode (course 2)

Copy your method section from course 2 and paste it here.

Statistical Analysis

Write your statistical analysis paragraph here

Results

Write your result paragraph here

Conclusion

Write your conclusion paragraph here