Allereerst laden we aantal libraries met functies die we willen gebruiken. Voor een overzicht van beschikbare libraries (packages) kijk op CRAN.
library(tidyverse)
library(plotly)
Één van de meest gebruikte formaten voor databestanden is ‘comma separated values’ (csv). Alle standaard datapaketten (bijv. Excel of SPSS) kunnen dit formaat eenvoudig inlezen. R heeft voor alle gangbare formaten een inleesfunctie en voor meer exotische varianten heeft meestal iemand wel een package geschreven.
library(tidyverse)
## Databron: https://opendata.cbs.nl/statline/portal.html?_la=nl&_catalog=CBS&tableId=80474ned&_theme=5
filepath <- "./data/vacatures-cbs.csv"
vacaturesDF <- read.csv(filepath, sep = ";") ##Gebruik 'read.csv2' voor numerieke data met europese opmaak
head(vacaturesDF)
str(vacaturesDF)
'data.frame': 86 obs. of 4 variables:
$ ID : int 0 1 2 3 4 5 6 7 8 9 ...
$ SBI2008PartBedrijvenOverheid : int 300025 300025 300025 300025 300025 300025 300025 300025 300025 300025 ...
$ Perioden : Factor w/ 86 levels "1997KW01","1997KW02",..: 1 2 3 4 5 6 7 8 9 10 ...
$ VacaturesSeizoengecorrigeerd_1: num 83.8 86.2 107.6 122.9 128 ...
summary(vacaturesDF)
ID SBI2008PartBedrijvenOverheid Perioden
Min. : 0.00 Min. :3e+05 1997KW01: 1
1st Qu.:21.25 1st Qu.:3e+05 1997KW02: 1
Median :42.50 Median :3e+05 1997KW03: 1
Mean :42.50 Mean :3e+05 1997KW04: 1
3rd Qu.:63.75 3rd Qu.:3e+05 1998KW01: 1
Max. :85.00 Max. :3e+05 1998KW02: 1
(Other) :80
VacaturesSeizoengecorrigeerd_1
Min. : 83.8
1st Qu.:119.3
Median :142.0
Mean :156.2
3rd Qu.:196.1
Max. :251.0
De meest gebruikte library voor data visualisatie in R is ggplot. Voor meer informatie lees H3 uit R for Data Science of zie de uitleg op website
p1 <- ggplot(vacaturesDF) +
geom_col(aes(x=Perioden, y=VacaturesSeizoengecorrigeerd_1, fill="tomato")) +
scale_x_discrete(breaks=c("1997KW01", "2018KW02")) +
guides(fill="none") +
theme(axis.text.x = element_text(size=14, angle=45, vjust = 0.5, hjust = 0.8))
p1
Met het pakket plotly kun je heel snel interactieve elementen toevoegen aan een grafiek die met ggplot is gemaakt.
ggplotly(p1, width=900)
Bedenk een trend die je wilt onderzoeken, vind een passende dataset via een open source bron en bouw een visualisatie.