Je bent al vrij handig met Excel en hebt tijdens je opleiding een cursus SPSS gehad. Nu vraag je je af: “Waarom zou ik R willen leren gebruiken?” Het volgende stukje code moet je overtuigen:

library(rvest)

# Lees ruwe data in.
htmlpage <- read_html("http://www.kdnuggets.com/2016/06/r-python-top-analytics-data-mining-data-science-software.html")

# Extraheer alle tabellen uit de ruwe data
tables <- html_nodes(htmlpage, "table")

# Selecteer de gewenste tabel.
ranking <- html_table(tables, fill = TRUE)[3][[1]]

# Toon de data in de tabel.
ranking
           Tool 2016% share % change % alone
1             R         49%    +4.5%    1.4%
2        Python       45.8%     +51%    0.1%
3           SQL       35.5%     +15%      0%
4         Excel       33.6%     +47%    0.2%
5    RapidMiner       32.6%    +3.5%   11.7%
6        Hadoop       22.1%     +20%      0%
7         Spark       21.6%     +91%    0.2%
8       Tableau       18.5%     +49%    0.2%
9         KNIME       18.0%     -10%    4.4%
10 scikit-learn       17.2%    +107%      0%
# Bouw een kolommengrafiek in de kleuren van de regenboog.
barplot(height = as.numeric(sub("%","",ranking$'2016% share')),
        names.arg = ranking$Tool,
        ylim = c(0,50),
        main = "Ranking software voor data-analyse",
        xlab = "Tool",  
        ylab = "% marktaandeel 2016",
        col = rainbow(10),
        las = 2)

Dit korte stukje code toont de kracht van R:

  1. Ongestructureerde data (html) kan direct worden ingelezen en worden omgezet naar gestructureerde data (een tabel).
  2. Data kan eenvoudig worden gevisualiseerd.
  3. Uit de data blijkt dat R de meest gebruikte software is voor data science (SPSS is niet meegenomen, maar legt het in andere rankings ook af tegenover R).

PS: Dit artikel is in R geschreven.

IycgLS0tCiMnIHRpdGxlOiAiV2Fhcm9tIFIgYWxzIGplIEV4Y2VsIGVuIFNQU1MgYWwga2VudD8iCiMnIG91dHB1dDogaHRtbF9ub3RlYm9vawojJyBhdXRob3I6IE5VTEwKIycgZGF0ZTogTlVMTAojJyAtLS0KCiMnICFbXShkaWJlcnQxLmdpZik8YnI+PGJyPgojJyBKZSBiZW50IGFsIHZyaWogaGFuZGlnIG1ldCBFeGNlbCBlbiBoZWJ0IHRpamRlbnMgamUgb3BsZWlkaW5nIGVlbiBjdXJzdXMgU1BTUyBnZWhhZC4KIycgTnUgdnJhYWcgamUgamUgYWY6ICJXYWFyb20gem91IGlrIFIgd2lsbGVuIGxlcmVuIGdlYnJ1aWtlbj8iCiMnIEhldCB2b2xnZW5kZSBzdHVramUgY29kZSBtb2V0IGplIG92ZXJ0dWlnZW46CiMnIAojKyBtZXNzYWdlPUZBTFNFCgpsaWJyYXJ5KHJ2ZXN0KQoKIyBMZWVzIHJ1d2UgZGF0YSBpbi4KaHRtbHBhZ2UgPC0gcmVhZF9odG1sKCJodHRwOi8vd3d3LmtkbnVnZ2V0cy5jb20vMjAxNi8wNi9yLXB5dGhvbi10b3AtYW5hbHl0aWNzLWRhdGEtbWluaW5nLWRhdGEtc2NpZW5jZS1zb2Z0d2FyZS5odG1sIikKCiMgRXh0cmFoZWVyIGFsbGUgdGFiZWxsZW4gdWl0IGRlIHJ1d2UgZGF0YQp0YWJsZXMgPC0gaHRtbF9ub2RlcyhodG1scGFnZSwgInRhYmxlIikKCiMgU2VsZWN0ZWVyIGRlIGdld2Vuc3RlIHRhYmVsLgpyYW5raW5nIDwtIGh0bWxfdGFibGUodGFibGVzLCBmaWxsID0gVFJVRSlbM11bWzFdXQoKIyBUb29uIGRlIGRhdGEgaW4gZGUgdGFiZWwuCnJhbmtpbmcKCiMgQm91dyBlZW4ga29sb21tZW5ncmFmaWVrIGluIGRlIGtsZXVyZW4gdmFuIGRlIHJlZ2VuYm9vZy4KYmFycGxvdChoZWlnaHQgPSBhcy5udW1lcmljKHN1YigiJSIsIiIscmFua2luZyQnMjAxNiUgc2hhcmUnKSksCiAgICAgICAgbmFtZXMuYXJnID0gcmFua2luZyRUb29sLAogICAgICAgIHlsaW0gPSBjKDAsNTApLAogICAgICAgIG1haW4gPSAiUmFua2luZyBzb2Z0d2FyZSB2b29yIGRhdGEtYW5hbHlzZSIsCiAgICAgICAgeGxhYiA9ICJUb29sIiwgIAogICAgICAgIHlsYWIgPSAiJSBtYXJrdGFhbmRlZWwgMjAxNiIsCiAgICAgICAgY29sID0gcmFpbmJvdygxMCksCiAgICAgICAgbGFzID0gMikKCgojJyBEaXQga29ydGUgc3R1a2plIGNvZGUgdG9vbnQgZGUga3JhY2h0IHZhbiBSOgojJyAKIycgMS4gT25nZXN0cnVjdHVyZWVyZGUgZGF0YSAoaHRtbCkga2FuIGRpcmVjdCB3b3JkZW4gaW5nZWxlemVuIGVuIAojJyB3b3JkZW4gb21nZXpldCBuYWFyIGdlc3RydWN0dXJlZXJkZSBkYXRhIChlZW4gdGFiZWwpLgojJyAyLiBEYXRhIGthbiBlZW52b3VkaWcgd29yZGVuIGdldmlzdWFsaXNlZXJkLgojJyAzLiBVaXQgZGUgZGF0YSBibGlqa3QgZGF0IFIgZGUgbWVlc3QgZ2VicnVpa3RlIHNvZnR3YXJlIGlzIHZvb3IgZGF0YSBzY2llbmNlCiMnIChTUFNTIGlzIG5pZXQgbWVlZ2Vub21lbiwgbWFhciBsZWd0IGhldCBpbiBhbmRlcmUgcmFua2luZ3Mgb29rIGFmIHRlZ2Vub3ZlciBSKS4KIycgCiMnICMjIyMgUFM6IERpdCBhcnRpa2VsIGlzIGluIFIgZ2VzY2hyZXZlbi4K