Text Cleaning
Sebelum membuat wordclod dari kata yang diinginkan, maka perlu melakukan penghapusan kata-kata ataupun atribut yang diprediksikan akan sering muncul namun tidak memiliki makna yang berarti terhadap kata yang diinginkan. Jika hal ini tidak dilakukan, maka akan memberikan hasil analisis yang kurang sesuai.
library(tm)
library(NLP)
Build corpus
# build a corpus, and specify the source to be character vectors
myCorpus1 <- Corpus(VectorSource(tweets1$text))
myCorpus2 <- Corpus(VectorSource(tweets2$text))
# convert to lower case
myCorpus1 <- tm_map(myCorpus1,function(x) iconv(enc2utf8(x), sub="byte"))
myCorpus1 <- tm_map(myCorpus1, content_transformer(tolower))
myCorpus2 <- tm_map(myCorpus2,function(x) iconv(enc2utf8(x), sub="byte"))
myCorpus2 <- tm_map(myCorpus2, content_transformer(tolower))
# remove URLs
removeURL <- function(x) gsub("http[^[:space:]]*", "", x)
myCorpus1 <- tm_map(myCorpus1, content_transformer(removeURL))
myCorpus2 <- tm_map(myCorpus2, content_transformer(removeURL))
# remove anything other than English letters or space
removeNumPunct <- function(x) gsub("[^[:alpha:][:space:]]*", "", x)
myCorpus1 <- tm_map(myCorpus1, content_transformer(removeNumPunct))
myCorpus2 <- tm_map(myCorpus2, content_transformer(removeNumPunct))
# remove stopwords
myStopwords <- c(setdiff(stopwords('english'), c("r", "big")), "use", "see", "used", "via", "amp","ruangguru", "zenius","ààààà","àààà","ààà","àà","à","ðÿ")
stopwords_id <- read.table('stopwords-id.txt', header = FALSE)
myStopwords <- c(myStopwords, as.matrix(stopwords_id$V1), "hi", "yg")
myCorpus1 <- tm_map(myCorpus1, removeWords, myStopwords)
myCorpus2 <- tm_map(myCorpus2, removeWords, myStopwords)
# remove extra whitespace
myCorpus1<- tm_map(myCorpus1, stripWhitespace)
myCorpus2<- tm_map(myCorpus2, stripWhitespace)
# keep a copy for stem completion later
myCorpusCopy1 <- myCorpus1
myCorpusCopy2 <- myCorpus2
Frequent Words
Build Term Document Matrix
tdm1 <- TermDocumentMatrix(myCorpus1, control = list(wordLengths = c(1, Inf)))
tdm2 <- TermDocumentMatrix(myCorpus2, control = list(wordLengths = c(1, Inf)))
tdm1
tdm2
Top Frequent Terms
freq.terms1 <- findFreqTerms(tdm1, lowfreq = 10)
freq.terms2 <- findFreqTerms(tdm2, lowfreq = 10)
freq.terms1[1:75]
freq.terms2[1:75]
term.freq1 <- rowSums(as.matrix(tdm1))
term.freq1 <- subset(term.freq1, term.freq1 >= 10)
df1 <- data.frame(term = names(term.freq1), freq = term.freq1)
term.freq2 <- rowSums(as.matrix(tdm2))
term.freq2 <- subset(term.freq2, term.freq2 >= 10)
df2 <- data.frame(term = names(term.freq2), freq = term.freq2)
par(mfrow=c(1,2))
library(ggplot2)
ggplot(df1, aes(x=term, y=freq)) + geom_bar(stat="identity") +
xlab("Terms") + ylab("Count") + coord_flip() +
theme(axis.text=element_text(size=7))

ggplot(df2, aes(x=term, y=freq)) + geom_bar(stat="identity") +
xlab("Terms") + ylab("Count") + coord_flip() +
theme(axis.text=element_text(size=7))

Dari histogram di atas, maka dapat diketahui kata-kata apa saja yang sering diungkapkan bersamaan dengan kata yang ingin diketahui (ruangguru vs zenius)
Wordcloud
Build Wordcloud
library(wordcloud)
m1 <- as.matrix(tdm1)
m2 <- as.matrix(tdm2)
# calculate the frequency of words and sort it by frequency
word.freq1 <- sort(rowSums(m1), decreasing = T)
word.freq2 <- sort(rowSums(m2), decreasing = T)
# colors
pal <- brewer.pal(9, "BuGn")[-(1:4)]
wordcloud(words = names(word.freq1), freq = word.freq1, min.freq = 10,
random.order = F, colors = pal)

RUANGGURU >> dari wordcloud diatas dapat diketahui bahwa kata ruangguru sangat erat kaitannya dengan kata kode, diskon, aplikasi dan squad jika dilihat pada status Twitter 9 hari terakhir.
wordcloud(words = names(word.freq2), freq = word.freq1, min.freq = 10,
random.order = F, colors = pal)

ZENIUS >> dari wordcloud diatas dapat diketahui bahwa kata zenius sangat erat kaitannya dengan kata edc, educationfess dan belajar jika dilihat pada status Twitter 9 hari terakhir.
SUMMARY Walaupun pada awal deskripsi data menggunakan time series menunjukkan kedua media belajar online tersebut mengalami kenaikan nilai trends yang sangat signifikan dianatara tanggal 3 s.d 5 November 2018. Namun jika dilihat kata yang erat kaitannya (banyak dibahas di Twitter) dengan kedua media belajar online tersebut maka dapat dikatakan kata-kata pendukung dari kedua media belajar online tersebut adalah berbeda.
