Achtergrond bij de data en descriptives

De data is verzameld middels de twitter API (twitteR en streamR). Het gaat om publieke tweets. Er zijn pakweg twee manieren om twitters API te gebruiken om tweets binnen te halen.

1: searchTwitter: Zoekt een door twitter beschikbaar gestelde database van een selectie van publieke tweets op basis van een keyword. 2: filterstream: Streamt twitter min of meer live, wederom een incompleet deel tweets, op basis van een keyword.

De eerste manier levert een stabiele set data op, mooi en reproduceerbaar. Nadeel is dat dit een kleine set is, en al helemaal als je je tot Nederland / Nederlands beperkt (dat doen we toch?). De tweede manier levert veel meer data op, maar duurt dus ook lang, is beperkt in de tijd waarover je kan zoeken, etc. etc.

Ik ben begonnen met de hashtag #eten, gezien het onderwerp van ons nummer. Maar aangezien ik niet helemaal in touch ben met de nieuwste eetculturen leek het mij verstandig om eerst eens te kijken wat er nou precies op twitter verwant is aan #eten.

Daarom heb ik eerst gezocht (searchTwitter) op #eten, wat een totaal van 199 tweets opleverde. Uit deze tweets heb ik de hashtags gehaald, wat in totaal 358 hashtags opleverde. De top 30 hashtags waren:

hashtags Freq
#eten 114
#food 28
#foodporn 18
#myview 15
#Eten 11
#eten… 11
#restaurant 11
#TenjinBashiDesignProject 10
#イイね天神橋 10
#gifstoffen 8
#gezond 7
#boeren 5
#eten.? 5
#lekker 5
#AllYouCanEat 4
#Amerikaweg 4
#diner 4
#eten, 4
#eten? 4
#etenenzo 4
#fraude 4
#gezondheid 4
#vlees 4
#Zo 4
#Zoetermeer 4
#basilicum 3
#chef 3
#clown 3
#cook 3
#cooking 3

So far, so good. Toegegeven, niet alles is enorm relevant wat betreft eten, maar goed. Van deze data heb ik vervolgens wederom een zoekfunctie gemaakt, waarbij ik weer via searchTwitter deze keywords heb gevolgd. Dit leverde in totaal 2684 tweets op, met de volgende hashtags:

xhashtags Freq
#Zoetermeer 384
#gezondheid 143
#restaurant 87
#gezond 82
#eten 75
#geile 75
#Zwolle 75
#date 72
#fraude 72
#studente 71
#vlees 62
#collega 58
#nieuws 55
#hotel 48
#horeca 47
#lekker 44
#boeren 41
#Horeca 41
#GR18 30
#BoycottNRA-campagne 27
#pvvzoetermeer 25
#StemPVV 25
#voeding 25
#diner 19
#afvallen 18
#eten… 17
#zoetermeer 17
#vacature 16
#ZH 16
#ZuidHolland 16

Als we hieruit een selectie maken van hashtags die direct te maken hebben met eten, dan kom ik op de volgende hashtags:

x
#gezondheid
#gezond
#eten
#vlees
#lekker
#voeding
#diner
#afvallen
#eten…

Selecteer ik uit de vorige set alleen die tweets die ook daadwerkelijk een eten-gerelateerde hashtag hebben, dan blijft van deze exercitie slechts een selectie van 377 tweets over, waarvan 0 met geogecodeerde info.

Kortom, voor een kaart niet heel nuttig.

Twitterstream

Ik heb ook een twitterstream opengezet, deze levert veel meer, maar minder nauwkeurig gefilterde, data op. Dit script heeft zaterdag 24 en zondag 25 gedraaid, op basis van de top 30 tweets uit de searchTwitter functie. Dit leverde in totaal 227566 tweets op. Maar zoals eerder opgemerkt zit er nogal wat ruis in deze twitterfunctie.

Allereerst, de data.

De top 30 hashtags uit deze dataset zijn:

bighashtags Freq
#food 12700
#cute 7453
#vegan 6408
#recipes 5732
#España 5424
#cooking 4676
#delicious 4426
#Travel 4339
#Mexico 4279
#recipe 4275
#Hospitality 3979
#Hiring 3649
#cook 3613
#weekend 3476
#job 3428
#foodporn 2890
#… 2767
#CareerArc 2674
#tips 2629
#Food 2609
#Cute 2598
#sport 2572
#Indonesia 2529
#Bali 2511
#party 2230
#love 2202
#Bruins 2180
#foodie 1986
#yummy 1966
#travel 1842

Echter, probleempje met deze data is dat deze niet uitsluitend uit Nederland komt:

Als ik deze data vervolgens opschoon, dan komen we op 3423 aan tweets uit Nederland, maar nu dus ook met de kleine bonus dat deze allemaal gegeocodeerd zijn.

nlhashtags Freq
#brugopen 142
#p2000 139
#CareerArc 82
#Hiring 68
#koud 66
#wind 66
#alarm 63
#job 63
#Apeldoorn 62
#regen 62
#zonnig 60
#trndnl 59
#amsterdam 43
#Break 43
#session 41
#Intercity 37
#Job 33
#Jobs 33
#ambulance 32
#photo 31
#breda 30
#Amsterdam 28
#Eindhoven, 26
#hartvanchina 23
#hiring! 23
#luizenmoeder 23
#tegenlicht 23
#Amsterdam, 22
#feypsv 22
#postertoaster 22

Kortom, dan hebben we weer geen tweets die over eten gaan… Wat mij betreft kunnen we een infographic maken die over een meer internationale eetcultuur gaat, dan kunnen we ook wat met kaartmateriaal. Als we ons op Nederland / Nederlands gaan richten, dan hebben we toch bijzonder weinig data.

Voorbeeldje zou kunnen zijn: