Extracting Tweets

Data yang akan digunakan dalam melakukan analisis text mining adalah dengan menggunakan data yang ada pada Twitter. Sbelum melakukan pengambilan data pastikan sudah memiliki akses token dan juga APIs pada https://developer.twitter.com

Retrieve tweets from Twitter

Pastikan package untuk mengambil data pada Twitter telah ter-install (rtweet) dan package yang akan mendukung output yang diinginkan (ex:tidyverse)

# Load packages
library(rtweet)
library(tidyverse)

Memasukkan keempat nilai token yang telah di peroleh dari developer twitter

# Twitter authentication
create_token(
  app             = "my_twitter_research_app",
  consumer_key    = consumer_key,
  consumer_secret = consumer_secret,
  access_token    = access_token,
  access_secret   = access_secret)

Mengembalikan status Twitter yang cocok dengan permintaan pencarian yang disediakan pengguna. Hanya dapat mengambil data dari 6-9 hari sebelumnya. Untuk mengembalikan lebih dari 18.000 status dalam satu panggilan, atur “retryonratelimit” ke TRUE.

Pada kasus kali ini, ingin mengetahui perbedaan antara media belajar online (education) ruangguru dan juga zenius.

# Retrieve tweets
tweets1 <- search_tweets("ruangguru", n = 20000, tweet_mode="extended")
tweets1 <- distinct(tweets1, text, .keep_all=TRUE)
tweets2 <- search_tweets("zenius", n = 20000, tweet_mode="extended")
tweets2 <- distinct(tweets2, text, .keep_all=TRUE)

Tweets Description

## plot time series of tweets
par(mfrow=c(1,2))
ts_plot(tweets1, "2 hours") +
  theme_minimal() +
  theme(plot.title = ggplot2::element_text(face = "bold")) +
  labs(
    x = NULL, y = NULL,
    title = "Frequency of RUANGGURU Twitter statuses from past 9 days",
    subtitle = "Twitter status (tweet) counts aggregated using three-hour intervals",
    caption = "\nSource: Data collected from Twitter's REST API via rtweet"
  )

ts_plot(tweets2, "2 hours") +
  theme_minimal() +
  theme(plot.title = ggplot2::element_text(face = "bold")) +
  labs(
    x = NULL, y = NULL,
    title = "Frequency of ZENIUS Twitter statuses from past 9 days",
    subtitle = "Twitter status (tweet) counts aggregated using three-hour intervals",
    caption = "\nSource: Data collected from Twitter's REST API via rtweet"
  )

Dengan menggunakan plot time series, maka dapat diketahui trend dari kata “ruangguru” dan “zenius” pada 9 hari terakhir dengan interval waktu sebesar 2 jam.Maka dapat diketahui kira-kira pukul berapa para pengguna Twitter akan membuat status dengan menggunakan unsur kedua kata tersebut. Dari kedua timeseries dapat diketahui antara tanggal 4 dan 5 November 2018 kata ruangguru dan juga zenius memiliki trend yang signifikan meningkat.

tail(tweets1, 10)
tail(tweets2, 10)

Text Cleaning

Sebelum membuat wordclod dari kata yang diinginkan, maka perlu melakukan penghapusan kata-kata ataupun atribut yang diprediksikan akan sering muncul namun tidak memiliki makna yang berarti terhadap kata yang diinginkan. Jika hal ini tidak dilakukan, maka akan memberikan hasil analisis yang kurang sesuai.

library(tm)
library(NLP)

Build corpus


# build a corpus, and specify the source to be character vectors 
myCorpus1 <- Corpus(VectorSource(tweets1$text))
myCorpus2 <- Corpus(VectorSource(tweets2$text))
# convert to lower case
myCorpus1 <- tm_map(myCorpus1,function(x) iconv(enc2utf8(x), sub="byte"))
myCorpus1 <- tm_map(myCorpus1, content_transformer(tolower))
myCorpus2 <- tm_map(myCorpus2,function(x) iconv(enc2utf8(x), sub="byte"))
myCorpus2 <- tm_map(myCorpus2, content_transformer(tolower))
# remove URLs
removeURL <- function(x) gsub("http[^[:space:]]*", "", x)
myCorpus1 <- tm_map(myCorpus1, content_transformer(removeURL))
myCorpus2 <- tm_map(myCorpus2, content_transformer(removeURL))
# remove anything other than English letters or space 
removeNumPunct <- function(x) gsub("[^[:alpha:][:space:]]*", "", x) 
myCorpus1 <- tm_map(myCorpus1, content_transformer(removeNumPunct))
myCorpus2 <- tm_map(myCorpus2, content_transformer(removeNumPunct))
# remove stopwords
myStopwords <- c(setdiff(stopwords('english'), c("r", "big")), "use", "see", "used", "via", "amp","ruangguru", "zenius","ààààà","àààà","ààà","àà","à","ðÿ")
stopwords_id <- read.table('stopwords-id.txt', header = FALSE)
myStopwords <- c(myStopwords, as.matrix(stopwords_id$V1), "hi", "yg")
myCorpus1 <- tm_map(myCorpus1, removeWords, myStopwords)
myCorpus2 <- tm_map(myCorpus2, removeWords, myStopwords)
# remove extra whitespace
myCorpus1<- tm_map(myCorpus1, stripWhitespace)
myCorpus2<- tm_map(myCorpus2, stripWhitespace)
# keep a copy for stem completion later
myCorpusCopy1 <- myCorpus1
myCorpusCopy2 <- myCorpus2

Frequent Words

Build Term Document Matrix

tdm1 <- TermDocumentMatrix(myCorpus1, control = list(wordLengths = c(1, Inf)))
tdm2 <- TermDocumentMatrix(myCorpus2, control = list(wordLengths = c(1, Inf)))
tdm1
tdm2

Top Frequent Terms

freq.terms1 <- findFreqTerms(tdm1, lowfreq = 10)
freq.terms2 <- findFreqTerms(tdm2, lowfreq = 10)
freq.terms1[1:75]
freq.terms2[1:75]
term.freq1 <- rowSums(as.matrix(tdm1))
term.freq1 <- subset(term.freq1, term.freq1 >= 10)
df1 <- data.frame(term = names(term.freq1), freq = term.freq1)
term.freq2 <- rowSums(as.matrix(tdm2))
term.freq2 <- subset(term.freq2, term.freq2 >= 10)
df2 <- data.frame(term = names(term.freq2), freq = term.freq2)
par(mfrow=c(1,2))
library(ggplot2)
ggplot(df1, aes(x=term, y=freq)) + geom_bar(stat="identity") +
  xlab("Terms") + ylab("Count") + coord_flip() +
  theme(axis.text=element_text(size=7))

ggplot(df2, aes(x=term, y=freq)) + geom_bar(stat="identity") +
  xlab("Terms") + ylab("Count") + coord_flip() +
  theme(axis.text=element_text(size=7))

Dari histogram di atas, maka dapat diketahui kata-kata apa saja yang sering diungkapkan bersamaan dengan kata yang ingin diketahui (ruangguru vs zenius)

Wordcloud

Build Wordcloud

library(wordcloud)
m1 <- as.matrix(tdm1)
m2 <- as.matrix(tdm2)
# calculate the frequency of words and sort it by frequency 
word.freq1 <- sort(rowSums(m1), decreasing = T)
word.freq2 <- sort(rowSums(m2), decreasing = T)
# colors
pal <- brewer.pal(9, "BuGn")[-(1:4)]
wordcloud(words = names(word.freq1), freq = word.freq1, min.freq = 10,
    random.order = F, colors = pal)

RUANGGURU >> dari wordcloud diatas dapat diketahui bahwa kata ruangguru sangat erat kaitannya dengan kata kode, diskon, aplikasi dan squad jika dilihat pada status Twitter 9 hari terakhir.

wordcloud(words = names(word.freq2), freq = word.freq1, min.freq = 10,
    random.order = F, colors = pal)

ZENIUS >> dari wordcloud diatas dapat diketahui bahwa kata zenius sangat erat kaitannya dengan kata edc, educationfess dan belajar jika dilihat pada status Twitter 9 hari terakhir.

SUMMARY Walaupun pada awal deskripsi data menggunakan time series menunjukkan kedua media belajar online tersebut mengalami kenaikan nilai trends yang sangat signifikan dianatara tanggal 3 s.d 5 November 2018. Namun jika dilihat kata yang erat kaitannya (banyak dibahas di Twitter) dengan kedua media belajar online tersebut maka dapat dikatakan kata-kata pendukung dari kedua media belajar online tersebut adalah berbeda.

---
title: "EXERCISE 2-EDUCATION"
author: "Afifah Nur Iswari (06211540000109)"
date: "12 November 2018"
output:
  html_notebook:
    toc: yes
    toc_float: yes
  html_document:
    df_print: paged
    toc: yes
---

```{r setup, include=FALSE}
knitr::opts_chunk$set(echo = TRUE)
```

## Extracting Tweets
Data yang akan digunakan dalam melakukan analisis text mining adalah dengan menggunakan data yang ada pada Twitter. Sbelum melakukan pengambilan data pastikan sudah memiliki akses token dan juga APIs pada https://developer.twitter.com

### Retrieve tweets from Twitter
Pastikan package untuk mengambil data pada Twitter telah ter-install (rtweet) dan package yang akan mendukung output yang diinginkan (ex:tidyverse)
```{r message=FALSE, warning=FALSE}
# Load packages
library(rtweet)
library(tidyverse)
```

```{r include=FALSE}
# Access token and APIs
consumer_key    <- "DDzW10CxOVC1ST877s8ZbDJfq"
consumer_secret <- "Bb14TJ3yehUyza2xx6LrLKk9saMGzlyUnV1USgvRSRvG7afRlT"
access_token    <- "206526171-Fw9zOcvgcRtse9nxs2NjeLdsD5aZtNjBig30In0j"
access_secret   <- "WxC2OXX7py56ZzWI1ZwIIKplJZIREia1XuY5gAQRohohJ"
```
Memasukkan keempat nilai token yang telah di peroleh dari developer twitter
```{r}
# Twitter authentication
create_token(
  app             = "my_twitter_research_app",
  consumer_key    = consumer_key,
  consumer_secret = consumer_secret,
  access_token    = access_token,
  access_secret   = access_secret)
```
Mengembalikan status Twitter yang cocok dengan permintaan pencarian yang disediakan pengguna. Hanya dapat mengambil data dari 6-9 hari sebelumnya. Untuk mengembalikan lebih dari 18.000 status dalam satu panggilan, atur "retryonratelimit" ke TRUE.

Pada kasus kali ini, ingin mengetahui perbedaan antara media belajar online (education) ruangguru dan juga zenius.
```{r warning=FALSE}
# Retrieve tweets
tweets1 <- search_tweets("ruangguru", n = 20000, tweet_mode="extended")
tweets1 <- distinct(tweets1, text, .keep_all=TRUE)
tweets2 <- search_tweets("zenius", n = 20000, tweet_mode="extended")
tweets2 <- distinct(tweets2, text, .keep_all=TRUE)
```


### Tweets Description

```{r warning=FALSE}
## plot time series of tweets
par(mfrow=c(1,2))
ts_plot(tweets1, "2 hours") +
  theme_minimal() +
  theme(plot.title = ggplot2::element_text(face = "bold")) +
  labs(
    x = NULL, y = NULL,
    title = "Frequency of RUANGGURU Twitter statuses from past 9 days",
    subtitle = "Twitter status (tweet) counts aggregated using three-hour intervals",
    caption = "\nSource: Data collected from Twitter's REST API via rtweet"
  )
ts_plot(tweets2, "2 hours") +
  theme_minimal() +
  theme(plot.title = ggplot2::element_text(face = "bold")) +
  labs(
    x = NULL, y = NULL,
    title = "Frequency of ZENIUS Twitter statuses from past 9 days",
    subtitle = "Twitter status (tweet) counts aggregated using three-hour intervals",
    caption = "\nSource: Data collected from Twitter's REST API via rtweet"
  )
```
Dengan menggunakan plot time series, maka dapat diketahui trend dari kata "ruangguru" dan "zenius" pada 9 hari terakhir dengan interval waktu sebesar 2 jam.Maka dapat diketahui kira-kira pukul berapa para pengguna Twitter akan membuat status dengan menggunakan unsur kedua kata tersebut. Dari kedua timeseries dapat diketahui antara tanggal 4 dan 5 November 2018 kata ruangguru dan juga zenius memiliki trend yang signifikan meningkat. 

```{r}
tail(tweets1, 10)
tail(tweets2, 10)
```

## Text Cleaning
Sebelum membuat wordclod dari kata yang diinginkan, maka perlu melakukan penghapusan kata-kata ataupun atribut yang diprediksikan akan sering muncul namun tidak memiliki makna yang berarti terhadap kata yang diinginkan. Jika hal ini tidak dilakukan, maka akan memberikan hasil analisis yang kurang sesuai.

```{r warning=FALSE}
library(tm)
library(NLP)
```
### Build corpus
```{r warning=FALSE}

# build a corpus, and specify the source to be character vectors 
myCorpus1 <- Corpus(VectorSource(tweets1$text))
myCorpus2 <- Corpus(VectorSource(tweets2$text))
# convert to lower case
myCorpus1 <- tm_map(myCorpus1,function(x) iconv(enc2utf8(x), sub="byte"))
myCorpus1 <- tm_map(myCorpus1, content_transformer(tolower))
myCorpus2 <- tm_map(myCorpus2,function(x) iconv(enc2utf8(x), sub="byte"))
myCorpus2 <- tm_map(myCorpus2, content_transformer(tolower))
# remove URLs
removeURL <- function(x) gsub("http[^[:space:]]*", "", x)
myCorpus1 <- tm_map(myCorpus1, content_transformer(removeURL))
myCorpus2 <- tm_map(myCorpus2, content_transformer(removeURL))
# remove anything other than English letters or space 
removeNumPunct <- function(x) gsub("[^[:alpha:][:space:]]*", "", x) 
myCorpus1 <- tm_map(myCorpus1, content_transformer(removeNumPunct))
myCorpus2 <- tm_map(myCorpus2, content_transformer(removeNumPunct))
# remove stopwords
myStopwords <- c(setdiff(stopwords('english'), c("r", "big")), "use", "see", "used", "via", "amp","ruangguru", "zenius","ààààà","àààà","ààà","àà","à","ðÿ")
stopwords_id <- read.table('stopwords-id.txt', header = FALSE)
myStopwords <- c(myStopwords, as.matrix(stopwords_id$V1), "hi", "yg")
myCorpus1 <- tm_map(myCorpus1, removeWords, myStopwords)
myCorpus2 <- tm_map(myCorpus2, removeWords, myStopwords)
# remove extra whitespace
myCorpus1<- tm_map(myCorpus1, stripWhitespace)
myCorpus2<- tm_map(myCorpus2, stripWhitespace)
# keep a copy for stem completion later
myCorpusCopy1 <- myCorpus1
myCorpusCopy2 <- myCorpus2
```
## Frequent Words

### Build Term Document Matrix
```{r warning=FALSE}
tdm1 <- TermDocumentMatrix(myCorpus1, control = list(wordLengths = c(1, Inf)))
tdm2 <- TermDocumentMatrix(myCorpus2, control = list(wordLengths = c(1, Inf)))
tdm1
tdm2
```

### Top Frequent Terms

```{r warning=FALSE}
freq.terms1 <- findFreqTerms(tdm1, lowfreq = 10)
freq.terms2 <- findFreqTerms(tdm2, lowfreq = 10)
```

```{r}
freq.terms1[1:75]
freq.terms2[1:75]
```

```{r}
term.freq1 <- rowSums(as.matrix(tdm1))
term.freq1 <- subset(term.freq1, term.freq1 >= 10)
df1 <- data.frame(term = names(term.freq1), freq = term.freq1)
term.freq2 <- rowSums(as.matrix(tdm2))
term.freq2 <- subset(term.freq2, term.freq2 >= 10)
df2 <- data.frame(term = names(term.freq2), freq = term.freq2)
```

```{r}
par(mfrow=c(1,2))
library(ggplot2)
ggplot(df1, aes(x=term, y=freq)) + geom_bar(stat="identity") +
  xlab("Terms") + ylab("Count") + coord_flip() +
  theme(axis.text=element_text(size=7))
ggplot(df2, aes(x=term, y=freq)) + geom_bar(stat="identity") +
  xlab("Terms") + ylab("Count") + coord_flip() +
  theme(axis.text=element_text(size=7))
```
Dari histogram di atas, maka dapat diketahui kata-kata apa saja yang sering diungkapkan bersamaan dengan kata yang ingin diketahui (ruangguru vs zenius)

## Wordcloud

### Build Wordcloud
```{r}
library(wordcloud)
```

```{r}
m1 <- as.matrix(tdm1)
m2 <- as.matrix(tdm2)
# calculate the frequency of words and sort it by frequency 
word.freq1 <- sort(rowSums(m1), decreasing = T)
word.freq2 <- sort(rowSums(m2), decreasing = T)
# colors
pal <- brewer.pal(9, "BuGn")[-(1:4)]
```



```{r}
wordcloud(words = names(word.freq1), freq = word.freq1, min.freq = 10,
    random.order = F, colors = pal)
```
RUANGGURU >> dari wordcloud diatas dapat diketahui bahwa kata ruangguru sangat erat kaitannya dengan kata kode, diskon, aplikasi dan squad jika dilihat pada status Twitter 9 hari terakhir. 

```{r}
wordcloud(words = names(word.freq2), freq = word.freq1, min.freq = 10,
    random.order = F, colors = pal)
```
ZENIUS >> dari wordcloud diatas dapat diketahui bahwa kata zenius sangat erat kaitannya dengan kata edc, educationfess dan belajar jika dilihat pada status Twitter 9 hari terakhir. 


SUMMARY
Walaupun pada awal deskripsi data menggunakan time series menunjukkan kedua media belajar online tersebut mengalami kenaikan nilai trends yang sangat signifikan dianatara tanggal 3 s.d 5 November 2018. Namun jika dilihat kata yang erat kaitannya (banyak dibahas di Twitter) dengan kedua media belajar online tersebut maka dapat dikatakan kata-kata pendukung dari kedua media belajar online tersebut adalah berbeda.
