De data is verzameld middels de twitter API (twitteR en streamR). Het gaat om publieke tweets. Er zijn pakweg twee manieren om twitters API te gebruiken om tweets binnen te halen.
1: searchTwitter: Zoekt een door twitter beschikbaar gestelde database van een selectie van publieke tweets op basis van een keyword. 2: filterstream: Streamt twitter min of meer live, wederom een incompleet deel tweets, op basis van een keyword.
De eerste manier levert een stabiele set data op, mooi en reproduceerbaar. Nadeel is dat dit een kleine set is, en al helemaal als je je tot Nederland / Nederlands beperkt (dat doen we toch?). De tweede manier levert veel meer data op, maar duurt dus ook lang, is beperkt in de tijd waarover je kan zoeken, etc. etc.
Ik ben begonnen met de hashtag #eten, gezien het onderwerp van ons nummer. Maar aangezien ik niet helemaal in touch ben met de nieuwste eetculturen leek het mij verstandig om eerst eens te kijken wat er nou precies op twitter verwant is aan #eten.
Daarom heb ik eerst gezocht (searchTwitter) op #eten, wat een totaal van 199 tweets opleverde. Uit deze tweets heb ik de hashtags gehaald, wat in totaal 358 hashtags opleverde. De top 30 hashtags waren:
| hashtags | Freq |
|---|---|
| #eten | 114 |
| #food | 28 |
| #foodporn | 18 |
| #myview | 15 |
| #Eten | 11 |
| #eten… | 11 |
| #restaurant | 11 |
| #TenjinBashiDesignProject | 10 |
| #イイね天神橋 | 10 |
| #gifstoffen | 8 |
| #gezond | 7 |
| #boeren | 5 |
| #eten.? | 5 |
| #lekker | 5 |
| #AllYouCanEat | 4 |
| #Amerikaweg | 4 |
| #diner | 4 |
| #eten, | 4 |
| #eten? | 4 |
| #etenenzo | 4 |
| #fraude | 4 |
| #gezondheid | 4 |
| #vlees | 4 |
| #Zo | 4 |
| #Zoetermeer | 4 |
| #basilicum | 3 |
| #chef | 3 |
| #clown | 3 |
| #cook | 3 |
| #cooking | 3 |
So far, so good. Toegegeven, niet alles is enorm relevant wat betreft eten, maar goed. Van deze data heb ik vervolgens wederom een zoekfunctie gemaakt, waarbij ik weer via searchTwitter deze keywords heb gevolgd. Dit leverde in totaal 2684 tweets op, met de volgende hashtags:
| xhashtags | Freq |
|---|---|
| #Zoetermeer | 384 |
| #gezondheid | 143 |
| #restaurant | 87 |
| #gezond | 82 |
| #eten | 75 |
| #geile | 75 |
| #Zwolle | 75 |
| #date | 72 |
| #fraude | 72 |
| #studente | 71 |
| #vlees | 62 |
| #collega | 58 |
| #nieuws | 55 |
| #hotel | 48 |
| #horeca | 47 |
| #lekker | 44 |
| #boeren | 41 |
| #Horeca | 41 |
| #GR18 | 30 |
| #BoycottNRA-campagne | 27 |
| #pvvzoetermeer | 25 |
| #StemPVV | 25 |
| #voeding | 25 |
| #diner | 19 |
| #afvallen | 18 |
| #eten… | 17 |
| #zoetermeer | 17 |
| #vacature | 16 |
| #ZH | 16 |
| #ZuidHolland | 16 |
Als we hieruit een selectie maken van hashtags die direct te maken hebben met eten, dan kom ik op de volgende hashtags:
| x |
|---|
| #gezondheid |
| #gezond |
| #eten |
| #vlees |
| #lekker |
| #voeding |
| #diner |
| #afvallen |
| #eten… |
Selecteer ik uit de vorige set alleen die tweets die ook daadwerkelijk een eten-gerelateerde hashtag hebben, dan blijft van deze exercitie slechts een selectie van 377 tweets over, waarvan 0 met geogecodeerde info.
Kortom, voor een kaart niet heel nuttig.
Ik heb ook een twitterstream opengezet, deze levert veel meer, maar minder nauwkeurig gefilterde, data op. Dit script heeft zaterdag 24 en zondag 25 gedraaid, op basis van de top 30 tweets uit de searchTwitter functie. Dit leverde in totaal 227566 tweets op. Maar zoals eerder opgemerkt zit er nogal wat ruis in deze twitterfunctie.
Allereerst, de data.
De top 30 hashtags uit deze dataset zijn:
| bighashtags | Freq |
|---|---|
| #food | 12700 |
| #cute | 7453 |
| #vegan | 6408 |
| #recipes | 5732 |
| #España | 5424 |
| #cooking | 4676 |
| #delicious | 4426 |
| #Travel | 4339 |
| #Mexico | 4279 |
| #recipe | 4275 |
| #Hospitality | 3979 |
| #Hiring | 3649 |
| #cook | 3613 |
| #weekend | 3476 |
| #job | 3428 |
| #foodporn | 2890 |
| #… | 2767 |
| #CareerArc | 2674 |
| #tips | 2629 |
| #Food | 2609 |
| #Cute | 2598 |
| #sport | 2572 |
| #Indonesia | 2529 |
| #Bali | 2511 |
| #party | 2230 |
| #love | 2202 |
| #Bruins | 2180 |
| #foodie | 1986 |
| #yummy | 1966 |
| #travel | 1842 |
Echter, probleempje met deze data is dat deze niet uitsluitend uit Nederland komt:
Als ik deze data vervolgens opschoon, dan komen we op 3423 aan tweets uit Nederland, maar nu dus ook met de kleine bonus dat deze allemaal gegeocodeerd zijn.
| nlhashtags | Freq |
|---|---|
| #brugopen | 142 |
| #p2000 | 139 |
| #CareerArc | 82 |
| #Hiring | 68 |
| #koud | 66 |
| #wind | 66 |
| #alarm | 63 |
| #job | 63 |
| #Apeldoorn | 62 |
| #regen | 62 |
| #zonnig | 60 |
| #trndnl | 59 |
| #amsterdam | 43 |
| #Break | 43 |
| #session | 41 |
| #Intercity | 37 |
| #Job | 33 |
| #Jobs | 33 |
| #ambulance | 32 |
| #photo | 31 |
| #breda | 30 |
| #Amsterdam | 28 |
| #Eindhoven, | 26 |
| #hartvanchina | 23 |
| #hiring! | 23 |
| #luizenmoeder | 23 |
| #tegenlicht | 23 |
| #Amsterdam, | 22 |
| #feypsv | 22 |
| #postertoaster | 22 |
Kortom, dan hebben we weer geen tweets die over eten gaan… Wat mij betreft kunnen we een infographic maken die over een meer internationale eetcultuur gaat, dan kunnen we ook wat met kaartmateriaal. Als we ons op Nederland / Nederlands gaan richten, dan hebben we toch bijzonder weinig data.
Voorbeeldje zou kunnen zijn: