
Je bent al vrij handig met Excel en hebt tijdens je opleiding een cursus SPSS gehad. Nu vraag je je af: “Waarom zou ik R willen leren gebruiken?” Het volgende stukje code moet je overtuigen:
library(rvest)
# Lees ruwe data in.
htmlpage <- read_html("http://www.kdnuggets.com/2016/06/r-python-top-analytics-data-mining-data-science-software.html")
# Extraheer alle tabellen uit de ruwe data
tables <- html_nodes(htmlpage, "table")
# Selecteer de gewenste tabel.
ranking <- html_table(tables, fill = TRUE)[3][[1]]
# Toon de data in de tabel.
ranking
Tool 2016% share % change % alone
1 R 49% +4.5% 1.4%
2 Python 45.8% +51% 0.1%
3 SQL 35.5% +15% 0%
4 Excel 33.6% +47% 0.2%
5 RapidMiner 32.6% +3.5% 11.7%
6 Hadoop 22.1% +20% 0%
7 Spark 21.6% +91% 0.2%
8 Tableau 18.5% +49% 0.2%
9 KNIME 18.0% -10% 4.4%
10 scikit-learn 17.2% +107% 0%
# Bouw een kolommengrafiek in de kleuren van de regenboog.
barplot(height = as.numeric(sub("%","",ranking$'2016% share')),
names.arg = ranking$Tool,
ylim = c(0,50),
main = "Ranking software voor data-analyse",
xlab = "Tool",
ylab = "% marktaandeel 2016",
col = rainbow(10),
las = 2)

Dit korte stukje code toont de kracht van R:
- Ongestructureerde data (html) kan direct worden ingelezen en worden omgezet naar gestructureerde data (een tabel).
- Data kan eenvoudig worden gevisualiseerd.
- Uit de data blijkt dat R de meest gebruikte software is voor data science (SPSS is niet meegenomen, maar legt het in andere rankings ook af tegenover R).
PS: Dit artikel is in R geschreven.
IycgLS0tCiMnIHRpdGxlOiAiV2Fhcm9tIFIgYWxzIGplIEV4Y2VsIGVuIFNQU1MgYWwga2VudD8iCiMnIG91dHB1dDogaHRtbF9ub3RlYm9vawojJyBhdXRob3I6IE5VTEwKIycgZGF0ZTogTlVMTAojJyAtLS0KCiMnICFbXShkaWJlcnQxLmdpZik8YnI+PGJyPgojJyBKZSBiZW50IGFsIHZyaWogaGFuZGlnIG1ldCBFeGNlbCBlbiBoZWJ0IHRpamRlbnMgamUgb3BsZWlkaW5nIGVlbiBjdXJzdXMgU1BTUyBnZWhhZC4KIycgTnUgdnJhYWcgamUgamUgYWY6ICJXYWFyb20gem91IGlrIFIgd2lsbGVuIGxlcmVuIGdlYnJ1aWtlbj8iCiMnIEhldCB2b2xnZW5kZSBzdHVramUgY29kZSBtb2V0IGplIG92ZXJ0dWlnZW46CiMnIAojKyBtZXNzYWdlPUZBTFNFCgpsaWJyYXJ5KHJ2ZXN0KQoKIyBMZWVzIHJ1d2UgZGF0YSBpbi4KaHRtbHBhZ2UgPC0gcmVhZF9odG1sKCJodHRwOi8vd3d3LmtkbnVnZ2V0cy5jb20vMjAxNi8wNi9yLXB5dGhvbi10b3AtYW5hbHl0aWNzLWRhdGEtbWluaW5nLWRhdGEtc2NpZW5jZS1zb2Z0d2FyZS5odG1sIikKCiMgRXh0cmFoZWVyIGFsbGUgdGFiZWxsZW4gdWl0IGRlIHJ1d2UgZGF0YQp0YWJsZXMgPC0gaHRtbF9ub2RlcyhodG1scGFnZSwgInRhYmxlIikKCiMgU2VsZWN0ZWVyIGRlIGdld2Vuc3RlIHRhYmVsLgpyYW5raW5nIDwtIGh0bWxfdGFibGUodGFibGVzLCBmaWxsID0gVFJVRSlbM11bWzFdXQoKIyBUb29uIGRlIGRhdGEgaW4gZGUgdGFiZWwuCnJhbmtpbmcKCiMgQm91dyBlZW4ga29sb21tZW5ncmFmaWVrIGluIGRlIGtsZXVyZW4gdmFuIGRlIHJlZ2VuYm9vZy4KYmFycGxvdChoZWlnaHQgPSBhcy5udW1lcmljKHN1YigiJSIsIiIscmFua2luZyQnMjAxNiUgc2hhcmUnKSksCiAgICAgICAgbmFtZXMuYXJnID0gcmFua2luZyRUb29sLAogICAgICAgIHlsaW0gPSBjKDAsNTApLAogICAgICAgIG1haW4gPSAiUmFua2luZyBzb2Z0d2FyZSB2b29yIGRhdGEtYW5hbHlzZSIsCiAgICAgICAgeGxhYiA9ICJUb29sIiwgIAogICAgICAgIHlsYWIgPSAiJSBtYXJrdGFhbmRlZWwgMjAxNiIsCiAgICAgICAgY29sID0gcmFpbmJvdygxMCksCiAgICAgICAgbGFzID0gMikKCgojJyBEaXQga29ydGUgc3R1a2plIGNvZGUgdG9vbnQgZGUga3JhY2h0IHZhbiBSOgojJyAKIycgMS4gT25nZXN0cnVjdHVyZWVyZGUgZGF0YSAoaHRtbCkga2FuIGRpcmVjdCB3b3JkZW4gaW5nZWxlemVuIGVuIAojJyB3b3JkZW4gb21nZXpldCBuYWFyIGdlc3RydWN0dXJlZXJkZSBkYXRhIChlZW4gdGFiZWwpLgojJyAyLiBEYXRhIGthbiBlZW52b3VkaWcgd29yZGVuIGdldmlzdWFsaXNlZXJkLgojJyAzLiBVaXQgZGUgZGF0YSBibGlqa3QgZGF0IFIgZGUgbWVlc3QgZ2VicnVpa3RlIHNvZnR3YXJlIGlzIHZvb3IgZGF0YSBzY2llbmNlCiMnIChTUFNTIGlzIG5pZXQgbWVlZ2Vub21lbiwgbWFhciBsZWd0IGhldCBpbiBhbmRlcmUgcmFua2luZ3Mgb29rIGFmIHRlZ2Vub3ZlciBSKS4KIycgCiMnICMjIyMgUFM6IERpdCBhcnRpa2VsIGlzIGluIFIgZ2VzY2hyZXZlbi4K